Разрешение кореференции методами кластеризации

Данная работа описывает опыт создания прототипа системы для разрешения кореференции для текстов на русском языке. Разрешение кореференции является одной из ключевых подзадач извлечения информации и заключается в объединении текстовых упоминаний, относящихся к одной сущности дискурса. В данной работе мы поставили целью применить алгоритм кластеризации для разрешения кореференции на русскоязычных новостных текстов, сузив задачу до кластеризации имён собственных, которые относятся к персонам. Модель нашей работы включала в себя два этапа: извлечение упоминаний и их кластеризацию. Извлечение упоминаний происходило с помощью вручную написанных грамматик для Томита-парсера. Для объединения извлечённых имён в сущности, мы использовали аггломеративную кластеризацию на сущностном уровне с помощью векторов взвешенных признаков. Мы проводили эксперименты на новостных текстах, размеченных для соревнования Dialogue Evaluation factRuEval-2016, а так же сравнивали результаты с участниками соревнования и встроенными алгоритмами Томита-парсера для извлечения и кластеризации имён. В итоге, мы получили сравнимые результаты и превзошли результаты Томита-парсера.

Математика
Диссертации

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36725f1be77c40d58f4c
UUID: 0fdcf95f-ddba-4554-832e-308d7fe4c49a
Язык: Русский
Опубликовано: почти 8 лет назад
Просмотры: 58

Бодрова Анастасия Александровна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 193346 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет