Использование алгоритма контекстной кластеризации документов для кластеризации страниц и посещающих их пользователей без использования контента страниц

В данной работе рассматривается применение алгоритма контекстной документной кластеризации для кластеризации ссылок и пользователей, которые посетили эти ссылки. В отличие от классического применения алгоритма для документов, в которых слова имеют определенный смысл, в данной работе будут рассматриваться документы, словами в которых будут идентификационные номера пользователей или ссылки, а значит контент страниц использоваться не будет. Подход основан на поиске узких контекстов, которые являются основой для создания кластеров. Вычисляя расстояние Йенсена-Шеннона можно определить принадлежность документа к кластеру. Такого рода кластеризация может быть полезной в задачах информационного поиска, связанных с анализом и поиском данных, web-рекламой.

Общественные науки в целом
Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36505f1be77c40d58c62
UUID: adec247a-93b9-463a-9d89-68f691b67443
Язык: Русский
Опубликовано: около 7 лет назад
Просмотры: 10

Горбатюк Анна Витальевна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 424619 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет