Представление синтаксических связей в лингвистическом процессоре NLTK4RUSSIAN

Целью работы является создание синтаксического анализатора для русского языка с использованием инструментов NLTK на Python и изучение его возможностей. Исследование проводилось в рамках проекта NLTK4RUSSIAN, нацеленного на адаптацию инструментов автоматической обработки текста в платформе NLTK для работы с русским языком. В NLTK есть возможность создавать собственные категориальные грамматики, основывающиеся на морфологической информации о входном тексте. Мы разработали такую грамматику для русского языка и исследовали возможности парсера, работающего на её основе. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy2. Была проведена оценка работы парсера на корпусе тестовых предложения, показавшая достаточно высокие результаты, а также описано применение парсера в прикладных задачах по извлечению ключевых слов.

Языкознание
Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 5a6f881e7966e12684eea029
UUID: cbb79581-fe72-4c2d-815f-0a6bb293a54d
Язык: Русский
Опубликовано: больше 6 лет назад
Просмотры: 551

Москвина Анна Денисовна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 1,2 МБ


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет