Извлечение терминов автоматическими методами (на материале финских текстов)

МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ Коноваловой Александры Владимировны «Извлечение терминов автоматическими методами (на материале финских текстов)» Программа: «Прикладная и экспериментальная лингвистика» Научный руководитель доц., к.ф.н. М. В. Хохлова Целью диссертации является исследование терминов и терминологиче-ских словосочетаний в финском языке. Для достижения данной цели были ре-шены такие задачи как теоретическое описание терминов в финском языке, изучение программного обеспечения для выделения терминов, описание моделей терминов в рамках грамматики SketchEngine, выявление выделенных терминов на основе разработанной грамматики из корпуса экономических текстов и последующий анализ результатов. К методам, использованным в исследовании, относятся корпусный анализ данных, статистические методы и подход с использованием правил. Актуальность исследования заключается в том, что проблема автоматического извлечения терминов рассматривалась в контексте финского языка, на материале которого все еще мало работ в данной области. Анализ результатов показывает их несомненную практическую значимость, например, при построении словарей, создании систем машинного перевода и т.д. Объектом исследования являются термины финского языка (конкретнее — экономическая терминология, встречающаяся в газетных статьях), а предметом — автоматическое извлечение данных терминов из текстов. Материалом для исследования является корпус газетных статей по тематике «Экономика» объемом 50 тыс. токенов. Для извлечения терминов была написана и протестирована грамматика SketchEngine. Грамматика состоит из 50 правил для извлечения существитель-ных (преимущественно сложных слов), содержащих в своем составе базовые экономические термины (pääoma ‘капитал’, talous ‘экономика’, vero ‘налог’ и другие), и одного правила для извлечения словосочетаний. Точность извлеченных кандидатов в термины зависит от лексемы: для pääoma ‘капитал’ точность составляет 0,51, для talous ‘экономика’ — 0,72, для vero ‘налог’ — 0,66. Работа состоит из введения, трех глав, заключения, списка литературы, списка источников и приложения. Объем работы (без приложения) — 70 страниц.

Комплексные проблемы общественных наук
Диссертации

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36845f1be77c40d59142
UUID: 27daf612-48a3-453a-9a27-752915fa8fb1
Язык: Русский
Опубликовано: больше 4 лет назад
Просмотры: 166

Коновалова Александра Владимировна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 1221306 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет