Исследование и разработка методов извлечения именованных сущностей

В работе освещены основные современные методы извлечения именованных сущностей из текстов различной тематики и жанровой принадлежности. Автором проведен обзор существующих систем выделения именованных сущностей и возможностей их адаптации под материал конкретной предметной области. В соответствии с поставленными задачами собран корпус текстов микроблогов на русском языке, проведена разметка трех типов сущностей - персона, организация и локация - и произведена адаптация двух различных инструментов извлечения именованных сущностей для анализа данного корпуса текстов. Работа по адаптации инструментов включала в себя написание грамматик (правил) и словарей-газетиров, настройку и замену модулей систем. В работе также проведено сравнение результатов систем на корпусе микроблогов с результатами, полученными на более традиционном для данной области корпусе новостных текстов. Полученные результаты говорят о целесообразности выбранного подхода и предоставляют возможность дальнейшего совершенствования методов и систем извлечения именованных сущностей, в частности, на собранном в рамках исследования корпусе.

Языкознание
Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 5a6f88217966e12684eea087
UUID: 62b9c8e9-2db2-42e5-9ffc-b61df81e5fc1
Язык: Русский
Опубликовано: около 6 лет назад
Просмотры: 71

Крастынь Валерия Валерьевна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 1,2 МБ


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет