Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования

Данная работа посвящена автоматической кластеризации документов с присвоением тематических меток. Работа состоит из введения, трех глав, заключения, списка литературы и приложений. Количество информации в интернете увеличивается в геометрической прогрессии. Такой объем данных зачастую не поддается ручной обработке. Возникает задача автоматически упорядочить коллекцию, объединяя в одну группу тематически близкие документы. Стандартные методы кластеризации не позволяют определить тему той или иной группы. Определение темы вручную вызывает ряд проблем. Во-первых, для этого потребуется прочитать несколько документов из каждой группы – это далеко не всегда удобно. Во-вторых, часто автоматическая классификация, учитывающая внутренние свойства документов, не вполне согласуется с классификацией, выполненной человеком. Поэтому в качестве меток для каждого класса удобно использовать ключевые слова или выражения, характерные именно для соответствующего класса. Цель данной работы – решение задачи автоматической кластеризации новостных документов и расстановка списка тематических меток для каждого класса. В качестве тематических меток выделяются не только ключевые слова, но и биграммные конструкции, при этом учитывается степень связи элементов каждой биграммы. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи: 1) анализ методов и способов оценки качества кластеризации; 2) формулировка лингвистической базы исследования – грамматики конструкций и составление методов оценки степени связи элементов биграммы; 3) описание методов выделения ключевых слов. Предполагается также решение следующих практических задач: 1) кластеризация корпуса новостных документов; 2) составление тематического словаря, состоящего из ключевых слов; 3) расширение тематического словаря биграммными конструкциями; 4) назначение меток к тематическому классу документов. Для решения поставленных задач используются различные методы кластерного анализа и статистики оценки корреляции в таблице сопряжения. Материалом для исследования послужил корпус текстов из новостного портала Ruposters. Данный метод, учитывающий структуру новостных порталов, имеет свои преимущества перед стандартными методами. Простота реализации и широта применения обеспечивают актуальность работы. Практические результаты данной работы частично опубликованы в пяти статьях и в настоящий момент готовятся дополнительные публикации.

Комплексные проблемы общественных наук
Диссертации

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36795f1be77c40d59025
UUID: ee7e7294-3309-45f4-8bca-ab71b9188553
Язык: Русский
Опубликовано: почти 8 лет назад
Просмотры: 80

Букия Григорий Теймуразович

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 949531 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет