Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции

Данная работа посвящена усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В практической части данного исследования описана работа алгоритма и приведены результаты его применения в автоматической обработке двух корпусов русского языка: корпуса текстов по радиоэлектронике, ракетостроению и технике и корпуса текстов на лингвистическую тематику.

Языкознание
Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 5a6f88117966e12684ee9e81
UUID: 110c5c83-e724-43a7-86af-3103ab836434
Язык: Русский
Опубликовано: около 6 лет назад
Просмотры: 37

Седова Анастасия Георгиевна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 1,6 МБ


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет