Автоматическая классификация новостей из коллекции Reuters в таксономию IPTC

В этой работе предлагаются алгоритмы для автоматической классификации новостей в таксономию медиа-тематик IPTC, которая представляет собой иерархическую структуру классов. В качестве тестовой коллекции используется корпус новостей Reuters-21578. Особенностью работы является отсутствие обучающей выборки, поэтому для решения задачи нельзя воспользоваться стандартными методами классификации. По этой причине в работе были применены два подхода: выделение групп схожих документов при помощи кластеризации методом k-средних и выделение скрытых тем, используя латентное размещение Дирихле. Для того, чтобы сопоставить группы документов предварительно заданным классам, описания классов расширяются при помощи поисковой машины, и затем находится класс, ближайший к группе документов. Для оценки качества классификации используется экспертная оценка. Эксперимент показал, что алгоритм, основанный на k-means дает неплохие результаты по формированию документов в классы. Дальнейшие модификации этого алгоритма могут оказаться весьма полезными для новостных агентств и агрегаторов.

Общественные науки в целом
Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36545f1be77c40d58ccf
UUID: 089b2cc5-672c-4488-aecb-50ce46ee7cb1
Язык: Русский
Опубликовано: больше 7 лет назад
Просмотры: 172

Садреева Юлия Ильдаровна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 689880 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет