Переводной конкорданс: поиск и ранжирование контекстов для иллюстрации переводов в машинном словаре

Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Работа состоит из введения, четырёх глав, заключения, списка литературы и приложений. Создание словарей автоматическими методами – сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Кроме того, в лексикографии в целом наблюдается разрыв между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений – нормы и отклонения от нормы, кода и узуса. В лексикографической работе регистрации и систематизации подлежит определённый класс явлений: в одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других – параметры, характеризующие единицу языка с определённой точки зрения. Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в работе будут рассматриваться и теоретические исследования, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари). Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи: 1) анализ принципов составления и особенностей существующих электронных словарей различных типов; 2) описание и анализ реализации иллюстративного блока в современной лексикографической практике; 3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике; 4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре. Предполагается также решение следующих практических задач: 1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования; 2) реализация алгоритма ранжирования параллельных контекстов; 3) оценка качества ранжирования и релевантности выделенных признаков. Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения. Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса. Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно – в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела. Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в публикациях автора, а также в докладе на конференции «Диалог’2015».

Комплексные проблемы общественных наук
Диссертации

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d367b5f1be77c40d59065
UUID: 5af09266-e24f-425e-a8ae-74a5ca9c1d1e
Язык: Русский
Опубликовано: больше 7 лет назад
Просмотры: 23

Протопопова Екатерина Владимировна

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 3079453 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет