Санкт-Петербургский государственный университет
Кафедра математической лингвистики
Направление: «Лингвистика»
Образовательная программа: «Прикладная и экспериментальная лингвистика»
Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС:
ПОИСК И РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ
ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ
В МАШИННОМ СЛОВАРЕ
Выпускная квалификационная работа
соискателя на степень магистра филологии
Протопоповой Екатерины Владимировны
Научный руководитель
к.ф.н., доц. Митрофанова О.А.
Рецензент: Тарелкин А.В.,
руководитель группы инструментов
оценки качества, «Яндекс»
Санкт-Петербург
2016
Оглавлени
ВВЕДЕНИЕ_________________________________________________________________________4
1.
КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ_____________________________7
1.1.
ОСНОВНЫЕ ЗАДАЧИ И НАПРАВЛЕНИЯ РАБОТЫ В КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ__________7
1.2.
ЗАДАЧИ И МЕТОДЫ ИХ РЕШЕНИЯ, ОБЩИЕ ДЛЯ КОРПУСНОЙ ЛИНГВИСТИКИ, МАШИННОГО ПЕРЕВОДА И
КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ______________________________________________________9
1.3.
КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ_____________________________________10
1.4.
ЭЛЕКТРОННЫЕ ДВУЯЗЫЧНЫЕ СЛОВАРИ_____________________________________________10
1.5.
СЛОВАРИ СИСТЕМ МАШИННОГО ПЕРЕВОДА_________________________________________15
1.6.
АВТОМАТИЧЕСКИ
СОСТАВЛЕННЫЕ
(МАШИННЫЕ)
ДВУЯЗЫЧНЫЕ
СЛОВАРИ:
МЕТОДОЛОГИЯ
СОСТАВЛЕНИЯ И ПРИМЕНЕНИЕ________________________________________________________18
2.
1.7.
ПАРАЛЛЕЛЬНЫЕ КОНКОРДАНСЫ__________________________________________________22
1.8.
ВЫВОДЫ_____________________________________________________________________ 26
ИЛЛЮСТРАТИВНЫЙ БЛОК ОДНО- И МНОГОЯЗЫЧНЫХ СЛОВАРЕЙ____________28
2.1.
ПРИНЦИПЫ ФОРМИРОВАНИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В СЛОВАРЯХ___________________28
2.2.
ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В ДВУЯЗЫЧНЫХ СЛОВАРЯХ________35
Русско-английский словарь под общим руководством проф. А.И. Смирницкого____________35
Англо-русский словарь В.К. Мюллера_______________________________________________36
Большой англо-русский словарь под общим руководством И.Р. Гальперина________________36
The Oxford Russian dictionary : Russian-English, English-Russian_________________________37
Большой англо-русский словарь Abbyy Lingvo________________________________________37
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна_________________38
2.3.
3.
ВЫВОДЫ_____________________________________________________________________ 39
У С Т О Й Ч И В Ы Е С О Ч Е Т А Н И Я РА З Л И Ч Н Ы Х Т И П О В И О П Ы Т И Х
ЛЕКСИКОГРАФИРОВАНИЯ________________________________________________________41
3.1.
ОСНОВНЫЕ КОНЦЕПЦИИ УСТОЙЧИВЫХ СОЧЕТАНИЙ__________________________________41
3.2.
ПРЕДСТАВЛЕНИЕ КОЛЛОКАЦИЙ В СЛОВАРЯХ СОЧЕТАНИЙ______________________________50
Толково-комбинаторный словарь русского языка_____________________________________51
A Dictionary of English Collocations_________________________________________________ 52
Oxford Collocations Dictionary_____________________________________________________53
2
Collins Cobuild English Collocations_________________________________________________54
The BBI Combinatory Dictionary Of English___________________________________________55
Англо-русский фразеологический словарь____________________________________________56
Англо-русский словарь глагольных словосочетаний____________________________________57
Macmillan Collocations Dictionary__________________________________________________58
Устойчивые словосочетания русского языка_________________________________________58
Русские глаголы и предикативы____________________________________________________59
Пособие по лексической сочетаемости слов русского языка____________________________60
Словарь сочетаемости слов русского языка_________________________________________61
3.3.
4.
ВЫВОДЫ_____________________________________________________________________ 62
ПОИСК И РАНЖИРОВАНИЕ КОНТЕКСТОВ ДЛЯ АНГЛО-РУССКОГО МАШИННОГО
СЛОВАРЯ__________________________________________________________________________ 63
4.1.
МАТЕРИАЛ И ИНСТРУМЕНТЫ ИССЛЕДОВАНИЯ_______________________________________ 64
4.2.
ОПИСАНИЕ ПРОЦЕДУРЫ ПОИСКА КОНТЕКСТОВ______________________________________ 66
4.3.
ПОДГОТОВКА ОБУЧАЮЩЕЙ И ТЕСТОВОЙ ВЫБОРКИ___________________________________68
4.4.
АНАЛИЗ ОШИБОК В КОНТЕКСТАХ-КАНДИДАТАХ_____________________________________71
4.5.
ОБЩИЙ АЛГОРИТМ РАНЖИРОВАНИЯ ПАРАЛЛЕЛЬНЫХ КОНТЕКСТОВ______________________73
4.6.
ФАКТОРЫ (ПРИЗНАКИ) РАНЖИРОВАНИЯ____________________________________________74
Оценка по языковой модели (группа LM)_____________________________________________74
Относительная частота контекста (RelF)_________________________________________76
Взаимная информация (MI)_______________________________________________________76
Векторные модели (WV)__________________________________________________________ 78
Семантическая близость (Sim)____________________________________________________80
4.7.
МЕТОДЫ КЛАССИФИКАЦИИ______________________________________________________80
Случайный лес (Random forest)_____________________________________________________ 80
Нейронная сеть прямого распространения__________________________________________ 82
Оценка мультиклассификации_____________________________________________________ 84
4.8.
ОЦЕНКА КАЧЕСТВА КЛАССИФИКАЦИИ_____________________________________________84
4.9.
РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ___________________________________________________ 85
4.10.
СРАВНЕНИЕ РАНЖИРОВАНИЯ С ПРОСТЫМИ ЭВРИСТИЧЕСКИМИ МЕТОДАМИ_______________86
4.11.
ЗНАЧИМОСТЬ ПРИЗНАКОВ КЛАССИФИКАЦИИ_______________________________________ 87
4.12.
ВЫВОДЫ____________________________________________________________________ 88
ЗАКЛЮЧЕНИЕ_____________________________________________________________________ 90
3
ЛЕКСИКОГРАФИЧЕСКИЕ ИСТОЧНИКИ____________________________________________91
ЛИТЕРАТУРА______________________________________________________________________92
ПРИЛОЖЕНИЕ А. СРАВНЕНИЕ И ОЦЕНКА РАНЖИРОВАНИЯ ИЛЛЮСТРИРУЮЩИХ
КОНТЕКСТОВ С ПОМОЩЬЮ РАЗНЫХ МЕТОДОВ__________________________________101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ МЕРЫ MI______________________________________101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ ЧАСТОТЫ ПЕРЕВОДА_____________________________ 104
РАНЖИРОВАНИЕ
RF 1 ___________________________________________________________ 108
РАНЖИРОВАНИЕ
RF 2 ___________________________________________________________111
РАНЖИРОВАНИЕ
RF 3 ___________________________________________________________ 114
РАНЖИРОВАНИЕ
RF 4 ___________________________________________________________ 118
Введение
Работа посвящена поиску и ранжированию переводных контекстов для
иллюст рации переводов в машинном словаре. Создание словарей
автоматическими методами – сравнительно молодое направление компьютерной
лексикографии, поэтому неудивительно, что исследования, посвящённые
автоматическому составлению иллюстративного блока, очень редки. Можно
предположить, что машинные словари в этом отношении следуют принципам
классических «бумажных» словарей, но в действительности словарь, создаваемый
«с нуля» или на основе бумажного издания и предназначенный для той или иной
системы автоматического понимания текстов, – это реализация модели
семантического, морфологического, синтаксического и других уровней
естественного языка, основанной на идеях искусственного интеллекта [Караулов и
др. 1982].
С другой стороны, та же проблема наблюдается и в лексикографии в целом и
связана с разрывом между лингвистической теорией и лексикографической
практикой. Лингвистическая описательная и аналитическая работа направлена на
регистрацию широкого спектра явлений – нормы и отклонения от нормы, кода и
4
узуса. Особенно это касается грамматики, то есть явлений морфологии и
синтаксиса.
В лексикографической работе также проводится анализ наблюдаемых
явлений языка и речи, но регистрации и систематизации подлежит не всё, а
определённый класс явлений. В одних случаях описывается только норма, которая
может быть в некоторых случаях результатом сознательного выбора специалистов,
в других – параметры, характеризующие единицу языка с определённой точки
зрения. Так, в словарях может описываться слово и его значение,
восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово
и его происхождение, слово и его прагматические характеристики, например,
сфера употребления.
Словари предназначаются обычно для широкой аудитории (носителей языка,
изучающих язык) и при создании рассчитываются на долговременное
использование. Лингвистиче ские теории, в том числе касающие ся
лексикографических проблем, разрабатываются специалистами для специалистов.
Кроме того, они часто охватывают лишь конкретное языковое явление или класс
случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё
разнообразие одного или нескольких языков. Сложность разработки
лексикографических принципов обусловлена и трудностью создания словаря
вообще (некоторые толковые словари создаются десятилетиями, например,
Словарь современного русского литературного языка издавался с 1948 по 1965
год, а работы по его созданию начались в 1937 году): словарь невозможно быстро
переработать, чтобы принять во внимание новую трактовку какого-либо явления.
Всё это приводит к тому, что составители словарей часто опираются либо на уже
сложившуюся практику, либо на общепринятую теорию, а большинство
теоретических разработок не используется вообще. Исключением является проект
Толково-комбинаторного словаря, о котором подробнее будет сказано ниже.
5
Следует лишь отметить, что в данном случае речь идёт о лексикографическом
произведении, полностью основанном на лингвистической теории (модели
«Смысл ↔ Текст»).
Лингвистические теории, касающиеся сочетаемости лексем, практически не
употребляются в лексикографической практике. Говоря же об иллюстративных
контекстах в двуязычном словаре, неизбежно приходится упоминать понятие
сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические
работы, возможно, отчасти отражённые в существующих словарях, и особенности
лексикографической практики (то есть существующие словари).
Целью р а б от ы я вл я е т с я р а з р а б от ка а л го р и т м а р а н ж и р о ва н и я
иллюстрирующих контекстов для англо-русского машинного переводного словаря.
Исходя из данной цели, а также учитывая указанные выше проблемы,
формулируются следующие задачи:
1)
анализ принципов составления и особенностей существующих
электронных словарей различных типов;
2)
описание и анализ реализации иллюстративного блока в современной
лексикографической практике;
3)
описание подходов к сочетаемости и анализ их отражения в
лексикографической практике;
4)
выделение необходимых признаков для описания двуязычных
контекстов, подходящих для иллюстрации статей в переводном словаре.
Предполагается также решение следующих практических задач:
1)
разметка потенциальных иллюстраций для создания обучающей
выборки и дополнения набора признаков ранжирования;
2)
реализация алгоритма ранжирования параллельных контекстов;
3)
оценка качества ранжирования и релевантности выделенных
признаков.
6
Для ранжирования параллельных контекстов, описанных с помощью набора
признаков, используются такие методы машинного обучения, как метод
случайного леса и нейронная сеть прямого распространения.
Материалом для исследования реализации иллюстративного блока
послужили существующие англо-русские словари и словари сочетаемости
английского и русского языка. Параллельные контексты для машинного
переводного словаря, которые используются при ранжировании, извлечены из
параллельного англо-русского интернет-корпуса.
Актуальность работы обусловлена тем, что, как сказано выше, проблема
иллюстративного блока практически не разработана в машинной лексикографии
вообще, а особенно – в двуязычной. С другой стороны, компьютерная
лексикография практически не учитывает опыт «безмашинной» лексикографии и
многочисленные лингвистические исследования. Наша работа направлена на
восполнение этого пробела.
Практические результаты работы используются в рамках сервиса
«Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в
докладе на конференции «Диалог’2015».
7
1. Компьютерная двуязычная лексикография
1.1.Основные задачи и направления работы в компьютерной
лексикографии
Сфера компьютерной лексикографии довольно широка и включает в себя
разнообразные методы составления различного рода словарей с использованием
компьютерных технологий. Инструментами и материалом компьютерной
лексикографии являются базы данных, компьютерные картотеки, инструменты
анализа текста, которые позволяют в автоматическом режиме формировать
словарные статьи, хранить словарную информацию и обрабатывать её. Множество
различных компьютерных лексикографических программ можно разделить на две
больших группы: программы поддержки лексикографических работ и
автоматические словари различных типов, включающие лексикографические базы
данных [Баранов 2001].
Развитие компьютерных методов в лексикографии началось в середине 1960
годов: с одной стороны, возникла необходимость перевести в машиночитаемый
формат существующие словари, с другой стороны, стало возможным
использование электронных корпусов при составлении новых словарей. Одним из
первых словарей в машиночитаемом виде стал Longman Dictionary of
Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним
из наиболее популярных словарей английского языка. Поначалу электронные
словари представляли собой копии бумажных (Oxford English Dictionary), но
постепенно были разработаны специальные представления и форматы,
позволяющие, например, хранить содержательную часть словаря отдельно от
информации о графическом формате словарных статей.
8
Также следует упомянуть серию Collins English Dictionary, словари которой
с 1979 года полностью создавались с использование электронных баз данных и
корпусов.
Примерно в то же время (в 1985 году) по инициативе академика А.П. Ершова
начинаются работы по созданию Машинного фонда русского языка 1, одной из
целей которого было развитие компьютерной лексикографии. Предполагалось
решение следующих задач:
Оборудование рабочих мест Института русского языка РАН компьютерами и
объединение их в сеть;
Сбор материала для теоретического и прикладного исследования русского
языка и его преобразование в машинных формат; разработка средств
хранения этого материала;
Создание
программных
средств,
для проведения теоретических и
прикладных работ по исследованиям в области русского языка;
Развитие прикладных направлений (лексикография, терминоведение,
автоматическая обработка данных на естественном языке).
В дальнейшем были разработаны концепции компьютерного представления
различных лингвистических данных, в том числе автоматические словари
(Автоматический Синтаксический словарь русского языка, Автоматический
словарь синонимов русского языка, Автоматический вариант Словаря русского
языка С.И. Ожегова, Автоматический словарь глагольного управления в русском
языке и др. (описания опубликованы в Бюллетене Машинного фонда русского
языка, вып. 1–3)), система построения конкордансов и обеспечения
лексикографической работы (UNILEX-T, UNILEX-D). В рамках проекта по
созданию Машинного фонда русского языка была описана концепция
компьютерного описания словосочетаний различной степени устойчивости
[Борисова 1990].
1http://cfrl.ru/outline.shtml
9
Наши наблюдения, сделанные в ходе знакомства с направлениями работ в
компьютерной лексикографии, позволяют сделать вывод о том, что автоматизация
словарных проектов связана не столько с преобразованием существующих
словарей в цифровой формат, а с созданием лексикографических комплексов,
имеющих прямой выход к различным блокам лингвистического процессора,
отвечающих за автоматический анализ текстов на уровне морфологии, синтаксиса,
за автоматическое выделение устойчивых словосочетаний и ряд других задач.
1.2.Задачи и методы их решения, общие для корпусной лингвистики,
машинного перевода и компьютерной лексикографии
Прежде чем перейти к направлениям компьютерной двуязычной
лексикографии, следует ввести группу понятий, относящихся скорее к области
корпусной лингвистики и машинного перевода, которые в дальнейшем будут
использоваться при описании различных словарей.
Двуязычный словарь предполагает описание лексики двух языков: входного
языка – языка, с которого производится перевод, и выходного – языка перевода.
Слово-заголовок статьи по отношению к статье обычно называют заголовочным.
Если в словаре приводятся словосочетания, то в них выделяется опорное слово –
слово, под которым это словосочетание приводится в словаре.
Переводным эквивалентом называют перевод, приписываемый лексеме
входного языка, или пару «слово входного языка + слово выходного языка»,
которые являются переводами друг друга.
Для машинного создания словарей или в качестве вспомогательного
материала используются параллельные и сопоставимые корпусы текстов.
Параллельный корпус – многоязычный корпус, который состоит из текстов на
одном языке и их переводов на другой (другие) язык (языки). Сопоставимый
(comparable) корпус – набор текстов одной и той же тематической области, на двух
или нескольких языках. Для удобства как машинного, так и ручного использования
10
параллельных корпусов производится выравнивание – установление соответствия
фрагментов исходного текста (слов, предложений) фрагментам перевода,
выполняемое вручную или автоматически.
Лексикографы и лингвисты часто используют специальные инструменты для
работы с корпусами – корпус-менеджеры. Для исследования удобен режим
построения конкорданса – автоматическое извлечение набора контекстов для
заданного явления (слово / словосочетание / грамматическая форма и др.).
1.3.Компьютерная двуязычная лексикография
В области компьютерной двуязычной лексикографии постепенно
выделилось несколько направлений:
- создание традиционных двуязычных словарей с помощью компьютерных
технологий,
- разработка алгоритмов составления переводных эквивалентов для систем
машинного перевода,
- автоматическое составление словарей, надстройки к параллельным и
сопоставимым корпусам, параллельные конкордансы.
Рассмотрим каждое направление подробнее.
1.4.Электронные двуязычные словари
Технология создания двуязычных компьютерных словарей наследует
основные идеи работы над одноязычными лексикографическими ресурсами,
поэтому начнём анализ существующих проектов с одноязычных компьютерных
словарей. Зарождение компьютерной лексикографии в 60х годах 20 века связано
именно с электронными версиями словарей. Так, Webster’s Seventh New Collegiate
Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми
словарями, электронная версия которых была подготовлена параллельно с
бумажной. Как уже отмечалось, компьютерный набор тогда был ещё недостаточно
11
развит, поэтому электронные словари создавались на основе оцифрованных
бумажных препринтов.
В 70-е годы компьютерные технологии развивались по большей части в
направлении автоматизации подготовки к изданию бумажных словарей.
Компьютерный набор и некоторые другие средства подготовки статей
использовались в Longman Dictionary of Contemporary English (1978) и первом
издании Collins English Dictionary (1979). В то же время ведутся разработки по
созданию так называемых карманных словарей и переводчиков (hand held dictionaries) – специализированных устройств, выполняющих поиск по словарю,
представленному в машиночитаемом виде. Первые гаджеты появились в 1978 году
(LK- 3 0 0 0 , Craig M100), а технология оставалась популярной до первого
десятилетия 21 века. Основными функциями карманных словарей был перевод
заданного слова и озвучивание его произношения. Более продвинутые модели
использовали распознавание речи и позволяли осуществлять поиск путём
голосового ввода.
В 80-е годы, благодаря росту популярности и сокращению стоимости
электронных носителей, появляются первые словари на дисках. Такой формат
позволял мгновенно устанавливать словарь на любой компьютер и быстро
распространять его. Среди многочисленных изданий словарей на CD-дисках
нужно отметить издание Oxford English Dictionary (1988, использовалось издание
1928 года), The American Heritage Dictionary of the English Language (1992).
Словари на электронных носителях улучшались с развитием технологий
гипертекстовой разметки и вскоре ничем не уступали соответствующим бумажным
изданиям. Кроме того, их пользователи могли задействовать такие функции, как
озвучивание произношения, просмотр истории поиска, использование словаря
непосредственно при чтении текста и т.п.
12
Развитие интернет-технологий привело к тому, что к 1998 году [Li 1998] в
сети можно было найти около четырёхсот словарей английского языка, однако
большинство были копиями, не защищёнными в соответствии с нормами
авторского права. В 1999 году издательство Oxford University Press выложило в
интернет с доступом по подписке Oxford English Dictionary Online, а вслед за ними
многие другие издатели начали публиковать в интернете сокращённые версии
словарей, предлагая купить подписку на расширенные версии. Затем стало
понятно, что онлайн-словари могут приносить доход наряду с бумажными,
поэтому сейчас многие популярные словари доступны без ограничений.
Создатели электронных словарей привлекают пользователей к дополнению и
исправлению он-лайн версий или созданию новых словарных статей. Самый
крупный полностью коллаборативный проект – это Викисловарь, который
объединяет различные возможности лексикографического описания, в том числе,
функционируя как многоязычный словарь. Описание слова включает
фонетиче скую, этимологиче скую, синтаксиче скую, семантиче скую,
сочетаемостную информацию о слове. В [Крижановский 2009] описывается
разработка машиночитаемого словаря на основе данных русского Викисловаря.
Русский Викисловарь является крупнейшим среди существующих викисловарей,
его характерной особенностью является чёткая структура словарной статьи
[Крижановский 2011].
Что касается англо-русских словарей, необходимо прежде всего упомянуть
электронные словари ABBYY Lingvo. Первая версия, которая тогда называлась
LINGuist Volume, v1.0 была выпущена в 1990 году и содержала 35 тысяч словарных
статей.
С 2008 года под названием ABBYY Lingvo выпускаются версии x3 , x5 , x6,
содержащие одно- и двуязычные словари, общее количество статей достигает 1,5
миллионов. Некоторые из них составлены лексикографами компании ABBYY,
13
другие представляют собой электронные версии бумажных словарей (Большой
толковый словарь русского языка Т.Ф. Ефремовой, Англо-русский словарь под
редакцией В.К. Мюллера и т.п.). Возможности электронных словарей Lingvo
включают:
- поиск слова по заголовкам словарных статей, поиск по неначальной форме
-
слова, поиск по всем доступным языкам;
полнотекстовый поиск, в том числе, по примерам употребления;
озвучивание транскрипции;
перевод по наведению курсора в браузере, текстовых документах;
сохранение и просмотр избранных словарных статей.
Н а д а н н ы й м ом е н т д о с т у п е н т а к ж е о н л а й н - с е р в и с LingvoLive
(https://lingvolive.ru), где пользователи могут не только осуществлять поиск по
словарям, но и комментировать словарные статьи, добавлять свои примеры
употребления и сохранять историю поиска.
Хранение информации электронном словаре осуществляется в базах данных
или в специально разработанных для этой цели форматах представления,
основанных на XML. Например, рекомендации Text Encoding Initiative (TEI)
содержат отдельную главу, посвященную хранению лексикографических данных
(http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html) .
Э л е м е н т entry
позволяет хранить разнообразную информацию, содержащуюся в словарной
статье, причём возможно сохранение словарной статьи в различных видах:
1) типографическое представление – позволяет восстановить статью в том
виде, в котором она должна быть напечатана;
2) «редакторское» (editorial) представление – хранит текст без специфической
мета-информации;
3) лексическое представление – содержит структурированную информацию из
словарной статьи безотносительно особенностей типографии, однако
сохраняет лингвистические категории (поле грамматических помет,
особенностей употребления и т.п.)
14
Статья entry может содержать отдельные разделы для омографов (hom),
внутри каждого из которых возможны описания форм слова (form),
грамматических помет (gramGrp), толкования (def), примеры употребления с
отсылкой к источнику (cit), информацию об особенностях употребления (usage),
перекрёстные ссылки на другие статьи (xr, re), этимологическую информацию
(etym). Возможности хранения лексикографической информации в формате TEI
рассматриваются, например, в работах [Захаров и др. 2011; Захаров 2013, Буторова
и др. 2016].
Другой вариант представления – Lexical markup formal (LMF) – использует
только последний тип (лексическое представление), поскольку он предназначен в
первую очередь для хранения всевозможных словарей систем обработки текстов.
Этот детально разработанный формат используется в сложных системах хранения
лингвистических данных, например, CLARIN (http://www.clarin-d.de/en/).
Вторая, не менее важная составляющая электронного словаря – программа,
отвечающая за отображение словарных статей, поиск, редактирование. Как уже
было сказано, многие электронные словари предоставляют веб-интерфейс, в
котором взаимодействие между пользователем и словарём осуществляется обычно
с помощью запросов к базе данных. Программы, устанавливаемые на компьютер
или портативное устройство, часто имеют возможность подключения
дополнительных словарей и расширений. Среди программ, содержащих англорусские словари, наиболее популярны ABBYY Lingvo, GoldenDict, AtomicDict и
другие.
Обычно главными элементами интерфейса являются окно поиска и окно
отображения словарной статьи (см. Рис. 1):
15
Рисунок 1. Окно поиска ABBYY Lingvo x5.
Электронные двуязычные словари также используются при создании
широкомасштабных лексических баз данных. Например, в проекте многоязычного
словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено
около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из
разных словарей были автоматически сгруппированы по смыслу с помощью
графового алгоритма. В статье приводится объём полученной базы – 10 миллионов
слов для тысячи языков, однако эти результаты не были опубликованы в открытом
доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет
материалы различных словарей в рамках одного онлайн-ресурса, причём эти
словари пополняются на основе данных, собранных по большому параллельному
корпусу. Этот же корпус служит источником для построения параллельного
конкорданса (см. ниже).
16
Рисунок 2. Пример статьи из электронного словаря системы Linguee.
1.5.Словари систем машинного перевода
Словарями систем машинного перевода (фразовыми таблицами, моделями
перевода, phrase table) обычно называют автоматически составленные таблицы
переводов последовательностей слов с весами, которые затем учитываются при
машинном переводе текста. Переводы извлекаются из параллельного корпуса на
основании выравнивания предложений. Для построения модели перевода были
предложены алгоритмы, известные как модели IBM [Brown и др. 1993]. Они
оценивают вероятности перевода с помощью EM-алгоритма, который позволяет
итеративно оценить модель на неполных данных. Он состоит из двух шагов,
которые обычно повторяются до сходимости:
- E-шаг (expectation), на котором имеющаяся модель применяется к данным;
17
- M-шаг (maximization), на котором из данных выводится новая модель
(корректируется старая).
Итак, IBM model 1 действует следующим образом. Пусть есть корпус,
состоящий из трёх параллельных фраз (см. Рисунок 3):
Рисунок 3. Пример параллельного корпуса для обучения модели IBM.
Изначально в корпусе нет информации о пословном выравнивании, веса
задаются равномерно (0.25 для каждого перевода). Для оценки вероятности того
или иного пословного выравнивания и используется ЕМ-алгоритм. На каждом Мшаге для каждого перевода (пары) суммируются все веса. На первом шаге сначала
инициализируются вероятности всех возможных выравниваний, а затем по
имеющимся данным для каждого слова в каждом входном предложении
суммируются веса различных вариантов его выравнивания. Так, например, по
первому предложению вероятность выравнивания count (этот∨t h is)
total (t h is)
и вес
буду равны 0.5. Затем для каждого входного слова e (в данном случае
на русском языке) и всех вариантов его перевода f (на английском) вычисляется
итоговый вес t ( e|f ) , равный отношению вероятности выравнивания к весу слова
на языке перевода. На первом шаге t (этот∨t h is) это значение 0.5.
Приведём псевдокод алгоритма оценки весов модели IBM-1 по [Koehn 2010]:
Вход: набор пар предложений (e , f )
Выход: вероятность перевода t (e∨f )
Задать t (e∨f ) равномерно
Пока не сходится
// инициализация
18
count ( e|f ) =0
total (f )=0
для всех (e , f )
для всех f
для всех предложений (e , f )
// вычислим нормализацию
для всех слов е в е
s – total ( e )=0
для всех слов f
в f
s – total(e)+¿ t(e∨f )
// суммируем
для всех слов e в e
для всех слов f в f
count ( e|f ) +¿
total (f )+¿
t ( e|f )
s – total (e)
t (e∨f )
s – total(e)
// оценим вероятности
для всех слов f
для всех слов e
t ( e|f )=
count ( e|f )
total ( f )
Следующие модели являются усовершенствованиями первой. Основные
дополнения следующие:
IBM Model 2 определяет вероятность всего выравнивания;
IBM Model 3 добавляет так называемую fertility model – как много переводов
возможно для каждого входного слова;
IBM Model 4 добавляет модель относительного выравнивания;
IBM Model 5 регулирует заполнение только свободных позиций при
выравнивании.
Подробное сравнение моделей IBM можно найти в [Och, Ney 2003].
19
Эти модели могу применяться как на уровне пословного перевода (wordbased translation), так и на уровне перевода фраз (phrase-based translation). С этим
связано и основное отличие словарей систем машинного перевода от классических
словарей – помимо слов и многословных выражений (обычно устойчивых) в них
включаются словосочетания, а также последовательности слов (n-граммы),
которые синтаксически не связаны между собой. Соответственно, в таких
словарях отсутствует понятие нормальной формы: для каждой формы слова
существуют свои варианты перевода.
За прошедшие 20 лет были предложены различные улучшения и новые
способы подбора параметров для моделей IBM [Turkato 1998; Och, Ney 2000;
Tsunakawa и др. 2008; Huck и др. 2011; Luo, Lepage 2015]. Кроме того, одним из
актуальных направлений остаётся фильтрация машинных лексиконов, полученных
путём автоматического выравнивания [Melamed 1996]. Улучшенные модели
анализируются и сравниваются в [Huck и др. 2011].
Морфологическая и синтаксическая информация также может быть
использована при построении моделей перевода, в частности, для фильтрации
шумных переводов. Некоторые авторы предлагают извлечение переводных
эквивалентов по структурам зависимостей [Yamamoto, Matsumoto 2000].
1.6.Автоматически составленные (машинные) двуязычные словари:
методология составления и применение
С 1990 годов начинаются многочисленные исследования, посвящённые
автоматическому извлечению переводных эквивалентов из параллельных
корпусов.
Полученные словари обозначали как machine-readable dictionaries (MRD)
или bilingual lexicons. Однако, поначалу такие словари использовались в системах
машинного перевода (см. выше) или в качестве вспомогательных источников для
лексикографов. Подобные ресурсы обычно содержат только информацию о
20
возможных переводных эквивалентах, вероятности перевода (или просто частоте
конкретного перевода в корпусе); иногда входные слова и словосочетания
снабжаются морфологической информацией.
В противоположность традиционным бумажным словарям, которым
присущи «универсальность, всеобъемлемость и мультиприложимость» [Марчук
1976: 2], машинный словарь строго ориентирован на заданную совокупность
текстов. Отбор материала для машинного словаря происходит на протяжении всего
времени его функционирования в системе автоматической обработки текстов.
Принципы формирования словника машинных словарей основываются в большей
степени на точных методах, и в меньшей – на логико-интуитивных методах,
которыми руководствуются разработчики традиционных словарей. Можно сказать,
что традиционный бумажный словарь представляет собой статическое описание,
существующее в диахронии, тогда как машинный словарь – динамическое
описание, существующее в строгой синхронии.
Развитие интернет-технологий, увеличение объёма доступных параллельных
корпусов текстов сделали возможным построение машинных словарей,
сопоставимых по размеру с традиционными бумажными или электронными
словарями. Кроме того, существует большое количество инструментов
автоматической обработки текста, которые позволяют преобразовать информацию
из машинного словаря, предназначенного, например, для системы машинного
перевода, в электронный словарь, ориентированный на пользователя.
Как уже было сказано, технология извлечения переводных эквивалентов из
корпуса разрабатывается довольно давно, и одним из наиболее значимых
результатов многолетних исследований явился класс разнообразных методов
фильтрации шумных переводов из фразовых таблиц. Таким образом, главной
задачей при создании автоматических переводных словарей является включение в
них вспомогательной информации: группировка переводов в синонимические
21
ряды, иллюстрация о собенно стей употребления, грамматиче ские и
стилистические пометы.
Первая задача – группировка переводов из фразовой таблицы – несмотря на
кажущуюся очевидность её трактовки, имеет лишь несколько известных
прикладных решений. В [Bansal 2012] описывается реализация алгоритма
группировки переводных эквивалентов, основанная на кластеризации методом Kсредних. В качестве факторов кластеризации используются информация об
обратном переводе и контекстные представления переводных эквивалентов.
Полученные «кластеры смыслов» сравниваются со смыслами из WordNet.
Небольшая часть статьи посвящена иллюстрации различных вариантов перевода,
оказавшихся в одной группе.
Другой возможный подход описан в [Antonova, Misyurev 2014]: группировка
смыслов опирается на предварительно собранный словарь синонимов. Этот
словарь генерируется автоматически на основании дистрибутивной векторной
модели [см. также Antonova и др. 2016] и сходстве переводов слова. В этой статье
[Antonova, Misyurev 2014] описывается создание машинного словаря сервиса
Яндекс.Переводчик (http://translate.yandex.ru), который будет использован в
практической части данной работы. Рассмотрим на этом примере технологию
создания машинного словаря в общем виде. Автоматическое построение
переводного словаря предполагает следующие этапы:
1. Предобработка параллельного корпуса (извлечение фразовой таблицы,
морфосинтаксический анализ, лемматизация, фильтрация «шумных»
переводных эквивалентов).
2. Объединение переводных эквивалентов для каждого слова в ряды
синонимов.
3. Добавление грамматических помет.
22
4. Генерация обратных переводов, то есть синонимов входного слова. В
данном случае этот этап производится на основании полученных прямых
переводов.
5. Иллюстрация каждой группы переводов примерами употребления из
параллельного корпуса.
В результате формируется словарная статья, пример который представлен на
рис. 4.
Рисунок 4. Пример словарной статьи из машинного словаря сервиса Яндекс.Переводчик.
Качество параллельного корпуса представляет определённую проблему в
развитии автоматической переводной лексикографии. Поэтому в некоторых
работах по автоматическому построению двуязычных словарей в качестве
параллельных корпусов используются специфические источники. Так, в [Tyers,
Pienaar 2008] описывается метод создания словаря на основе заголовков статей
Википедии, которым авторы предлагают пользоваться в частности для языков, для
которых нет корпусов достаточного объёма – так называемых under-resourced languages.
Последним направлением, активно развивающимся в последнее
десятилетие, является построение переводного словаря по данным сопоставимого
23
(comparable) корпуса. С одной стороны, задача оказывается более актуальной,
поскольку для многих пар языков параллельные корпуса доступны в
ограниченном объёме (если вообще доступны). С другой стороны, извлечение
переводных эквивалентов из похожих корпусов требует более сложных методов.
Все эти методы используют начальный словарь, состоящий из небольшого набора
переводных эквивалентов для заданной языковой пары, а затем осуществляется
поиск «похожих» слов входного языка и их переводов в сопоставимом корпусе.
Часто применяются графовые модели: в [Sadat и др. 2002; Laws и др. 2010; Yu, Tsujii 2009; Fung 2000; Chatterjee и др. 2010] используется сходство синтаксических
деревьев для предложений на разных языках, при условии, что имеется исходный
словарь небольшого размера. Возможны разные подходы в зависимости от
используемой метрики сходства, способа построения контекстных векторов и так
далее. Авторы [Tamura и др. 2012] предлагают улучшения для методов,
основанных на сходстве, которое заключается в использовании непрямых
отношений между словами (когда вершины графа связаны более чем через одно
ребро). Для близких языков предлагаются методы, которые используют не
специальный начальный словарь, а, например, слова, общие для обоих языков
[Fiser, Ljubesic 2011]. В [Ismail, Manandhar 2010] сначала извлекаются наиболее
близкие и относящиеся к одной теме слова, для которых перевод будет наиболее
надёжным. Улучшение словаря также может достигаться за счёт добавления
параллельного корпуса [Morin, Prochasson 2011] или использования методов
разрешения лексической неоднозначности [Bouamor 2013]. Отдельные работы
посвящаются проблеме состава начального словаря [Hazem, Morin 2012].
1.7.Параллельные конкордансы
Задача иллюстраций словарных статей контекстами употребления
заголовочных слов частично совпадает с задачей построения конкордансов, то есть
поиска контекстов заданных слов или языковых явлений в корпусах текстов.
24
Системы, строящие параллельные конкордансы, как правило, находят
параллельные предложения или даже целые абзацы, а не короткие примеры
употребления. Самые простые системы осуществляют поиск только по одной
части параллельного корпуса (только входному / выходному языку) и не
ранжируют выдачу [Kjaersgaard 1987, Langlois 1996].
Некоторые из систем отображают сведения о частоте данного слова и его
переводов – например, в [Barlow 2004] описана система поиска по параллельному
корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их
коллокатов. Системы, которые ранжируют контексты, используют статистику
встречаемости перевода. Так, в [Wu и др. 2003] авторы располагают предложения
и их переводы в соответствии с частотой перевода запроса, а в [ Bai и др. 2012]
наиболее релевантные контексты находятся на основании статистики Дайса [Dice
1945].
Та к и е с и с т е м ы об ыч но пред на з нач е ны д ля ле кс иког ра ф ов и
профессиональных переводчиков. Рассмотрим две системы с доступным вебинтерфейсом, которые осуществляют поиск по параллельным англо-китайским
корпусам: DOMCAT [Bai и др. 2012] и TotalRecall [Wu и др. 2003].
Примеры выдач на поисковые запросы в системах DOMCAT и TotalRecall
(собственно конкордансы) представлены на рисунках 5 и 6. Система DOMCAT, как
описывается в [Bai и др. 2012], находит наиболее релевантные контексты с
помощью статистического критерия Дайса (коэффициент Сёренсена-Дайса):
|X|+¿ Y ∨¿ ,
2∨ X ∩Y ∨ ¿
¿
QS=¿
где ¿ X∨¿ и ¿ Y ∨¿ - частоты слова и переводного эквивалента соответственно,
а ¿ X ∩ Y ∨¿ - частота совместного появления этих слов.
Однако, в веб-интерфейсе не содержится никакой информации о
ранжировании и принципах работы системы.
25
Рисунок 5. Результаты поиска по запросу "porcelain" в системе DOMCAT.
Вторая система – TotalRecall – предоставляет две возможности –
ранжирование по частоте и по логарифму правдоподобия (log-likelihood ratio,
LLR). Применительно к связи между двумя явлениями (например, встречаемостью
слова и его перевода) последняя мера вычисляется как [Dunning 1993].
¿ ( a ,b )=
❑
∑
i ∈ { a , ¬ a } , j ∈ {b ,¬ b }
2 C ( i, j ) log
C (i , j ) N
,
C ( i ) C( j)
где C (i , j) – совместная частота слова и перевода, а C (i) , C ( j) – частоты i и
j соответственно.
26
Рисунок 6. Результаты поиска по запросу "porcelain" в системе TotalRecall.
27
Рисунок 7. Пример конкорданса системы Linguee.
Параллельный конкорданс в качестве дополнения к электронному словарю
строит многоязычная система Linguee (http://www.linguee.ru). Она предназначена
как для изучающих язык, так и для профессионального перевода. Конкорданс для
запроса на входном языке строится по большому корпусу текстов различных
жанров; особое внимание уделяется технической и специальной (например,
юридической и медицинской) литературе. Параллельные тексты собраны из
интернета и не проверялись. Весь многоязычный корпус содержит, по описанию
разработчиков, около 10 миллионов примеров, при этом в документации не
уточняется, идёт речь о коротких словосочетаниях или о параллельных
предложениях.
Следует отметить одну из особенностей системы – поиск может
осуществляться не только по запросу из одного слова, но и по фразе. Поскольку
28
корпус содержит информацию о пословном выравнивании, при отображении
результатов поиска выделяется как текст запроса, так и его вероятный перевод в
тексте на языке перевода, однако не всегда это соответствие корректно (см.
Рисунок 7).
1.8.Выводы
В первой главе были рассмотрены основные направления компьютерной
двуязычной лексикографии: технологии создания электронных словарей
традиционными методами, построение словарей систем машинного перевода,
автоматическое построение электронных словарей и параллельных конкордансов.
Автоматический поиск иллюстрирующих контекстов в компьютерной
лексикографии в основном сводится к задаче построения параллельного
конкорданса. Существующие решения, касающиеся поиска коротких примеров
употребления и перевода, практически не описываются подробно, а чаще всего
составители электронных словарей обращаются к иллюстрациям, подобранным
вручную. Таким образом, поскольку эта задача не имеет полного и универсального
решения в компьютерной лексикографии, нам представляется необходимым
рассмотреть теоретические предпосылки и практические методы отбора
иллюстративных примеров в традиционных и компьютерных словарях. Этому
посвящена Глава 2.
29
2. Иллюстративный блок одно- и многоязычных словарей
2.1.Принципы формирования иллюстративного блока в словарях
В одноязычных словарях примеры предназначены для иллюстрации
основного содержания словарных статей, а метод их подбора практически
полностью определяется функциями словаря. Например, в толковых словарях это
иллюстрация значения: примеры дополняют толкование (причём могут даже
содержать информацию энциклопедического характера), иллюстрируют
грамматическую и лексическую сочетаемость, стилистические особенности
употребления, коннотации и ассоциации. Количество и характер иллюстраций при
заголовочном слове даже указывает на частоту употребления и может отражать
данные живой речи. Поскольку данная работа посвящена двуязычным словарям,
мы рассмотрим лишь некоторые характеристики иллюстраций одноязычных
словарей – в основном, те проекты и идеи, которые касаются компьютерной
обработки лингвистических данных.
Двуязычные словари выполняют другие функции – они предназначаются для
перевода с родного языка на неродной и обратно, как при обучении, так и при,
например, профессиональном переводе.
Из одноязычных словарей по цели
наиболее близки к двуязычным словари устойчивых сочетаний различных типов и
учебные словари.
«К словарям, тем более двуязычным, не принято писать теоретических
введений», пишет Ю.Д. Апресян во введении к Новому большому англо-русскому
словарю, составленному под его руководством [Апресян 2000: 12]. Выбор той или
иной стратегии для описания конкретного явления в словаре часто явно не
выражается в словаре. Исключения составляют теоретические опыты, например,
Толково-комбинаторный словарь (Мельчук и др. 1984), о котором речь пойдёт в
следующей главе. Что касается отбора иллюстрирующих контекстов, то в
30
одноязычной лексикографии они изначально служат материалом для составления
толкований. В этом плане интересным представляется замечание В.П. Беркова в
его книге «Двуязычная лексикография»: «Проблема отбора словосочетаний – одна
из важнейших в двуязычной лексикографии. Именно отбором словосочетаний
переводные словари с одним и тем же входным языком чаще всего отличаются
один от другого, именно отбор словосочетаний представляет собой наиболее
спорную и уязвимую часть практически каждого двуязычного словаря» (Берков
2004: 61). Словосочетания, по его мнению, вообще составляют часть словника
двуязычного словаря (действительно, во многих словарях указывается как
количество статей, так и количество включённых словосочетаний). В роли
иллюстраций, по мнению В.П. Беркова, выступают свободные сочетания: они
дополняют семантизацию, иллюстрируют сходную структуру значений,
показывают нюансы конкретного значения. Примеры должны
a) быть информативными, сообщать некую информацию, дополнительную по
отношению к переводу входного слова;
b) располагаться в порядке следования соответствующих переводных
эквивалентов;
c) группироваться по значению.
Несвободные, фразеологизированные сочетания, очевидно, по мнению В.П.
Беркова, включаются в словарь независимо от того, является ли перевод
пословным.
Наиболее чётко принципы отбора иллюстраций для двуязычных словарей
(как пассивного, так и активного типа) сформулированы в пособии по
лексикографии «The Oxford Guide to Practical Lexicography» [Atkins, Rundell 2008].
Цель иллюстрирующих примеров – помочь пользователям словаря выбрать
необходимый переводной эквивалент и правильно его использовать. В связи с этим
нужно:
указать, какое значение заголовочного слова иллюстрируется;
31
предупредить пользователя о некорректных употреблениях;
указать значения переводных эквивалентов в случае полисемии.
Поскольку в пособии [Atkins, Rundell 2008] речь идёт о традиционном
двуязычном словаре, авторы замечают, что было бы слишком трудоёмко отбирать
примеры переводов из корпуса. Вместо этого они рекомендуют использовать
имеющиеся списки коллокаций, таким образом, иллюстрировать переводы в
контексте этих коллокаций.
Функциональное описание иллюстраций в двуязычных словарях даётся в
монографии [Butina-Koller 2005]: «Стандартные ситуации, в которых используется
двуязычный словарь (восприятие текста на иностранном языке, перевод текста с
иностранного языка на родной, перевод с родного языка на иностранный или
более или менее свободное текстопроизводство на иностранном языке), и
обусловленные этими ситуациями различные функции словарей должны
учитываться при принятии конкретных решений в лексикографической практике».
В работе далее подробно анализируются существующие решения в русскофранцузской лексикографии по четырём основным словарям – Новому
французско-русскому словарю В.Г. Гака и К.А. Ганшиной, Dictionnaire FrancaisRusse В.Г. Гака и Ж. Триомфа, Русско-французскому словарю Л.В. Щербы и М.И.
Матусевич, Русско-французскому словарю Л.В. Щербы, М.И. Матусевич и Д.В.
Сеземана.
В литературе обычно выделяются два критерия отбора коллокаций в
качестве материала для словаря: частотность и типичность. В случае с
двуязычными словарями важен контрастивный аспект – является ли то или иное
сочетание понятным (transparent) для пользователя словаря. Понятные (transparent)
словосочетания в рамках двуязычной лексикографии – те, значение которых
выводится из значения составляющих и внутренняя форма сочетания на родном
языке эквивалентна форме сочетания на иностранном. В противном случае
трудности у пользователей словаря обычно возникают не при переводе на родной
32
язык, а при порождении текста на иностранном языке. В формальной семантике
такие выражения называются некомпозициональными, и именно эти случаи
должны учитываться в двуязычном словаре.
В зарубежной лексикографии особое внимание уделяется так называемым
типовым контекстам. Эта идея разрабатывается П. Хэнксом [Hanks 2012] в
рамках методологии Corpus Pattern Analysis (CPA), на основе которой автор
руководит составлением словаря английских глаголов The Pattern Dictionary of
English Verbs (http://pdev.org.uk).
Методика базируется на теории нормы и употребления (Theory of Norm and
Exploitation, TNE), а та в свою очередь вдохновлена работами М. Хэллидея [Halliday 1966] и Дж. Синклера [Sinclair 1966] по лексической семантике. Эти работы
примечательны тем, что описанный в них подход лёг в основу методики создания
словарей серии COBUILD и проекта Hector [Atkins 1993].
Основное внимание уделяется прототипическим синтаксическим шаблонам
(patterns), фактически – рамкам валентности, с которыми ассоциируются эти слова
при использовании их в речи. Эти шаблоны для существительных и глаголов
существенно отличаются. Для существительных они строятся на основе
корпусных данных и состоят обычно из нескольких групп, в которые
объединяются значимые коллокаты. Для глаголов шаблонов включают не только
базовую аргументную структуру, но и характеристики актантов, например,
наличие определителя в подчинённой именной группе. Значение лексемы
определяется не в изоляции, а в её прототипическом контексте. Поэтому первый
э т а п CPA – группировка строк конкорданса по найденным синтаксическим
шаблонам, а затем приписывание соответствующему значению толкования. Для
практических приложений шаблону может соответствовать не толкование, а
синонимический ряд или переводной эквивалент.
33
В немецком проекте elexiko [Storjohann 2 0 0 5 , URL: http://www1.idsmannheim.de/lexik/elexiko.html] этот подход используется при разработке блока
типовых контекстов (typische Verwendungen) в электронном словаре. Авторы
ссылаются на подход П. Хэнкса в рамках проекта COBUILD [Hanks 1987] и
формулируют своё неформальное определение типового контекста: это
прототипические образцы с конкретными, выбранными по корпусным данным,
лексическими элементами; многоуровневые лексико-синтаксические конструкции,
элементы которых часто встречаются вместе. Типовые контексты в первую
очередь показывают синтагматические ассоциации заголовочного слова – как
особенности употребления конкретных грамматических форм, так и лексическую
сочетаемость: см. Рисунок 8.
Более разработанное представление типовых контекстов описано в (Storjohann, Mohrs 2007). Было замечено, что типовые контексты представляют
чрезвычайно ценный материал для изучающих язык. Поэтому важной задачей
становится группировка и ранжирование этих фраз в электронном словаре. На
рисунке 8 показаны типовые контексты для слова unbegrenzt (безграничный) в
первой версии словаря и с группировкой. Можно заметить, что в первой версии
отсутствовала возможность объединения контекстов по их синтаксическому типу,
а также пример реализации для слота (обозначается как […]), где возможна
широкая вариативность. Это было связано как с ограниченностью функционала
графического отображения словарных статей, так и с неразработанностью
методики группировки и ранжирования.
Разработчики отмечают, что иллюстрации должны быть упорядочены в
соответствии с частью речи опорного слова: так, для прилагательного unbegrenzt в
примере на рисунке выделяются синтаксические конструкции, в которых оно
выступает в различных функциях – атрибутивной, предикативной и т.д. Затем для
каждой группы вырабатывается свой принцип сортировки, иногда довольно
34
специфический: например, в атрибутивном значении контексты располагаются в
алфавитном порядке следования второстепенных слов конструкции (предлогов,
глагольных форм).
Рисунок 8. Стандартное и упорядоченное представление типовых контекстов в elexiko.
Интересен также подход лексикографов elexiko к иллюстрации реализаций
широко вариативных слотов: в примере это, скажем, […] unbegrenzt verlängern и
[z.B. den Vertrag] unbegrenzt verlängern. Очевидно, что часто возможность
реализации слота ограничена конкретной лексической группой (например,
одушевлённые лица), однако часто требуется конкретизация. Поэтому на
основании корпусных данных были выбраны наиболее регулярные реализации,
которые затем использовались в качестве примера заполнения слота.
В отечественной лингвистике тоже употребляется понятие типового
контекста (обычно без определения). Например, в книге «Лингвистическая
35
семантика» И.М. Кобозевой [Кобозева 2000] акцентируется необходимость
типового контекста для описания значения лексических единиц: «Рассматривая
проблему описания значения слова, мы пришли к выводу о том, что в общем
случае невозможно правильно, адекватно описать значение слова, изъяв его из
типового синтаксического контекста. Таким образом, описание значения
(парадигматического свойства слова) требует учёта его синтагматических свойств»
[Кобозева 2000: 148].
Типовые контексты, представленные в словарях, и реальные употребления,
зафиксированные в корпусе, обсуждаются в статье [Крылов, Митрофанова 2006].
Авторы не формулируют своего определения типового контекста, но принимают
как данность, что контексты, иллюстрирующие словарные статьи, считаются
типовыми. В статье сравниваются контексты из корпуса Бокрёнок [Азарова,
Синопальникова 2004], иллюстрации из словаря Ожегова [Ожегов 1989] и типовая
сочетаемость по лексической базе СО-Starling [Крылов, Старостин 2005]. В
результате исследования, проведённого на материале частотных лексем год и
говорить, было выявлено несколько классов контекстов:
- типовые контексты, которые отражают «закономерное в языке» –
структурную организацию и лексическое наполнение синтагм, содержащих
опорные слова;
- типовые контексты, содержащие маргинальные единицы, которые, по
мнению авторов, отражают «случайное в языке»;
- контексты, совмещающие случайное и закономерное – идиомы, связи между
лексемами внутри которых являются одновременно случайными и
закономерными.
При этом информация из специализированной лексической базы данных
оказывается более разнообразной по сравнению со словарными статьями, но при
этом более «концентрированной» и сбалансированной, чем случайные корпусные
данные.
36
А. Килгарифф и коллеги в статье [Kilgarriff и др. 2008], посвящённой
корпусному отбору иллюстраций (предложений) для словаря коллокаций Macmillan, также отмечают типичность как необходимую характеристику примера. Для
ранжирования контекстов, автоматически найденных в корпусе, используются
следующие признаки:
-
длина предложения: контексты короче 10 и длиннее 25 слов штрафовались;
частоты слов внутри предложения;
наличие в предложении придаточного с that;
является ли контекст законченным предложением;
положение опорной фразы внутри предложения.
Веса для признаков подбирались на основе размеченной выборки 1000
положительных примеров, получившуюся метрику GDEX можно использовать для
сортировки конкорданса в SketchEngine. Ранжирование не использовалось
непосредственно для принятия решений о включении контекста в словарь, но, по
словам авторов, значительно сократила усилия лексикографов.
2.2.Практическая реализация иллюстративного блока в двуязычных
словарях
Считается, что переводной словарь, составляемый в том числе и с учётом
учебных целей, должен включать именно типовые контексты и иллюстрации к
информации о сочетаемости слов. Поэтому от определения этих контекстов можно
перейти к изучению реализации этой идеи в конкретных словарях.
Русско-английский словарь под общим руководством проф. А.И.
Смирницкого
Словарь содержит около 50 тысяч статей. Основной особенностью словаря,
по словам составителей, является то, что «в нём в большей мере, чем это обычно
делается в подобных словарях, уделено внимание фонетическому и
грамматическому аспектам слова» [Ахманова 1948: 15]. В словаре сочетаемость
слов указывается регулярно несколькими способами: например, для глаголов
37
схематически указывается предложно-падежное управление, кроме того, для
многих слов даётся информация о лексической сочетаемости. Важно отметить, что
сведения о грамматической сочетаемости (управлении) даны как для русских слов,
так и для английских эквивалентов. Таким образом реализуется ещё одна
особенность словаря – ориентация одновременно на изучающих и русский язык, и
английский. Об иллюстрациях авторы далее замечают, что они приводятся «в
особо сложных случаях». На самом деле, словосочетания с переводами включены
практически в каждую статью, например, при слове вести:
вести, повести 1. … 2. (вн. ; руководить) conduct (d.), direct (d.); ~
кружок conduct a circle; ~ собрание preside over a meeting …
Кроме того, много внимания уделяется тому, что авторы обозначают как
«фразеологические сочетания» – те, в которых данное слово переводится особо.
Эти сочетания в словарных статьях приводятся наряду с иллюстрацией
сочетаемости.
Англо-русский словарь В.К. Мюллера
Англо-русский словарь, составленный В.К. Мюллером, – один из наиболее
переиздаваемых переводных словарей в России – в первом издании [Мюллер 1935]
включал 40 тысяч слов. Как и в словаре под руководством А.И. Смирницкого,
основной акцент был сделан на произношении и грамматическом справочнике.
Авторы уделяют значительное внимание идиомам, «специфическим и
характерным выражениям» и включают их в словарь в максимально возможном
количестве. При этом (учитывая время издания) теоретическая база для отбора
э т и х с оч е т а н и й н е р а з р а б ат ы ва е т с я , с о с т а в и т е л и п ол а г а ют с я н а
лексикографическую интуицию.
38
Большой англо-русский словарь под общим руководством И.Р. Гальперина
Словарь [Гальперин 1977] включает 150 тысяч статей и предназначен для
активного использования. В предисловии отмечается, что «словарь должен дать
как можно более полное описание функционирования каждого данного слова».
Отбор иллюстраций основывается на принципе «предсказуемости лексического
окружения», то есть на наличии устойчивой ассоциации заголовочного слова с
определённым выражением, например, для слова blame:
blame I n 1. порицание, упрёк; to deserve ~ заслуживать порицание;
to incur ~ for smth. навлекать (на себя) упрёк за что-л. …
The Oxford Russian dictionary : Russian-English, English-Russian
Объём словника словаря [Wheeler, Unbegaun 1997] составляет 180 тысяч
слов и словосочетаний, причём один том включает одновременно англо-русский и
русско-английский словари. К иллюстрациям относят словосочетания и
предложения, которые показывают характерное и идиоматическое употребление
слова (characteristic and idiomatic usage). Предложения в качестве иллюстраций
приводятся только для описания модели управления глаголов:
вырв|аться,усь,ешься pf. (of вырываться) 1. (из+g.) to tear oneself
away (from); to break out (from) … ; в. из чьих-н. рук to break loose
from someone’s grip; едва ли мне удастся до лета в. из Москвы I shall
hardly manage to get away from Moscow before the summer. 2. …
Большой англо-русский словарь Abbyy Lingvo
Словарь [Бурнашева 2011] подготовлен лексикографической группой отдела
прикладной лингвистики компании ABBYY. Впервые вышедший в 1990 году,
LingvoUniversal (En-Ru) стал первым в России2 лексикографическим изданием
2см. описание словаря:
http://www.lingvo-online.ru/ru/LingvoDictionaries/Details?dictionary=LingvoUniversal
%20(En-Ru)
39
совершенно нового типа, предназначенным для электронного поиска и показа и
совмещающим в себе функции переводного и толкового словаря. Большинство
лексических значений снабжено толкованиями, комментариями об использовании,
примерами употребления; многие включены в синонимические ряды и
антонимические пары. При подготовке издания широко использовались материалы
обсуждений на специализированных лексикографических форумах, специально
созданных для развития словарей ABBYY Lingvo: переводческих форумах,
форумах Ассоциации лексикографов ABBYY Lingvo, многочисленные одно- и
двуязычные словари и интернет-ресурсы.
Иллюстративный материал в электронном словаре Lingvo доступен не
только в рамках конкретной словарной статьи, но и через полнотекстовый поиск.
Словарь содержит 100 тысяч заголовочных слов и около 50 тысяч словосочетаний.
В предисловии к бумажной версии словаря принципы отбора и источники
иллюстраций и блока сочетаемости не указаны. Составители лишь отмечают, что
«словосочетания позволяют показать употребление слова, например, несвободный
выбор глагола или определения для передачи нужного смысла» [Бурнашева 2011].
Словосочетания авторы относят к блоку сочетаемости, тогда как полноценными
иллюстрациями считаются предложения из английских текстов с переводом на
русский язык. Фактически, иллюстрации-предложения приводятся при редких и
«контекстно зависимых» переводах, например, в статье для слова example:
1)
а) пример, иллюстрация, типичный случай, аналогичный случай
to cite / give / provide an example — приводить пример
classic example — классический пример
…
2) урок, назидание; предостережение
40
Let these unhappy examples be a warning to others. — Пусть эти
прискорбные уроки послужат предостережением другим.
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна
Словарь [Апресян 2000] построен на материале Англо-русского словаря И.Р.
Гальперина по новым принципам новым коллективом авторов под руководством
Ю.Д. Апресяна. В отличие от большинства рассмотренных словарей содержит
подробное предисловие, в котором описываются принципы, положенные в основу
словаря. Главным таким принципом является «установка на активность» - с этим
связан и тщательный подход к отбору иллюстраций в блоке сочетаемости. По
мнению составителей словаря, важнее всего отразить сочетаемость глаголов и
существительных, поскольку она наименее симметрична в англо-русском
направлении перевода. Словосочетания и предложения иллюстрируют два
основных явления: модель управления заголовочного слова и специфические
признаки, которые авторы называют синтаксическими, – фактически это лексикограмматические разряды, особенности употребления которых проще
проиллюстрировать, чем добавлять специальные обозначения. Так, например,
авторы обращают внимание на явление лексикализации пассива некоторых
глаголов в английском языке (You are assigned a difficult task). Эта особенность
характерна для отдельных лексем, поэтому должна быть проиллюстрирована. Что
касается модели управления, то отмечается, что иллюстрациями снабжаются
обычно следующие случаи:
-
число актантов и способы их выражения (практически для всех глаголов);
типичные эпитеты существительного;
глаголы, при которых заголовочное существительное является подлежащим;
типичные ситуации, обозначаемые глаголом/существительным;
виды и части объекта и т.п.
41
Внутри словарной статьи иллюстрации располагаются в порядке смысловой
сложности: например, для существительных сначала приводятся сочетания с
прилагательным, а затем модель управления с реализациями.
2.3.Выводы
Во второй главе описываются некоторые подходы к составлению
иллюстративного блока словарей, анализируется иллюстративный блок англорусских переводных словарей. Мы выделили и охарактеризовали основные
функции двуязычных словарей и принципы отбора иллюстраций в связи с
функциональной направленностью этих словарей. Из анализа подходов к
иллюстрированию двуязычных словарей, зафиксированных в предисловиях к
словарям и реализованных в самих словарях, можно заключить, что составители в
большинстве случаев не формулируют строгих критериев отбора, но полагаются
на интуицию лексикографа. Кроме того, несмотря на важность типовых
контекстов, которая часто акцентируется, многие словари уделяют большее
внимание идиоматическим сочетаниям и специфическому употреблению лексем,
когда сложно подобрать дословный переводной эквивалент. Тем самым, наше
исследование суще ствующего практиче ского опыт а формирования
иллюстративного блока переводных словарей подводит к выводу о том, что на
сегодняшний день отсутствует единая теория и методология отбора
иллюстративных примеров употребления в контексте
слов, включаемых в словники.
42
и типовой сочетаемости
3. Ус той ч и в ые с оч е т ан и я раз л и ч н ы х т и п ов и оп ы т и х
лексикографирования
3.1.Основные концепции устойчивых сочетаний
Термин «коллокация» широко распространился как в отечественной, так и в
зарубежной лингвистике не так давно. Обычно говорят об устойчивых
словосочетаниях, фразеологизмах и т.п. Последние обычно включаются в
специальный блок – фразеологическую («заромбовую») часть словарной статьи.
Коллокации же, как мы видели в предыдущей главе, представляют собой основной
материал для иллюстративного блока двуязычных словарей (особенно учебных).
Английский термин collocation ввёли в употребление Дж. Фёрс [Firth 1935,
обычно цитируется по Firth 1957] и Г. Палмер [Palmer 1933]. Этот подход затем
развивался в британской лингвистике как с теоретической, так и с практической
стороны (в частности, при создании словарей с использованием корпусных
методов – серии COBUILD и словарей издательства Macmillan). Широко известно
высказывание Дж. Фёрса, которое можно отнести как к изучению коллокаций, так
и к идеям дистрибутивной семантики: «you shall know a word by the company it
keeps» [Firth 1957].
Г. Палмер и его коллега А.С. Хорнби [Hornby 1942] обращали внимание на
коллокации в контексте методики преподавания языков и учебной лексикографии.
Об этом свидетельствует, например, собственно определение коллокации из
работы [Palmer 1933: 6]: «A collocation is a succession of two or more words that must
be learnt as an integral whole and not pieced together from its component parts»
(Коллокация – это последовательность двух или более слов, которые должны
изучаться как единое целое, а не покомпонентно). На самом деле, по этому
определению сложно провести границу между сочетаниями различной степени
43
связанности (например, коллокациями и идиомами), однако в нем отражена
главная, по мнению Г. Палмера, характеристика языковых единиц, которые он
называет коллокациями – необходимость усвоения целиком, а не по частям при
изучении языка. Кроме того, некоторая часть работы посвящена пояснению
терминологии – почему автор не использует другие термины (idioms, heterosemes,
phrases, locutions, formulas, compounds).
Поскольку нововведённый термин остаётся неясным, а явления, которые им
описываются, весьма разнообразны, приводятся примеры различных классов
коллокаций – «гетеросемы» (heterosemes, сочетания, в которых одно из слов
используется в новом значении), характерные грамматические конструкции.
Работы Дж. Фёрса, как следует из приведённой выше цитаты, были в
основном посвящены определению значения через сочетаемость лексемы. В
статье [Firth 1935] он отмечает, что его исследования также вдохновлены
практическими языковыми задачами, которые возникали при работе в Индии и
Африке. Понятие коллокации и его значение обсуждаются в контексте идеи
многоуровневого анализа языка (в отличие от структуралистского анализа по
уровням). Контекст порождает значение; как пишет Дж. Фёрс, одно из значений
слова night – его способность сочетаться с прилагательным dark, то есть dark night.
Первая классификация устойчивых сочетаний представлена в работах
Ш. Балли [Bally 1951]. Он замечает, что некоторые слова более или менее
ассоциируются между собой, причём их сочетание часто запоминается и прочно
входит в употребление. Ассоциация или связь между элементами таких сочетаний
располагается между пограничными случаями, когда
1) сочетание распадается сразу после создания, то есть его компоненты
сочетаются свободно;
2) слова постоянно употребляются в конкретном сочетании так, что теряют
независимость и самостоятельное значение.
44
Естественно, множество переходных случаев с трудом поддаётся
классификации, поэтому Ш. Балли неформально выделяет три группы:
1) фразеологические обороты – сочетания, прочно вошедшие в язык (например,
французское tout de suite);
2) фразеологические группы – сочетания, в которых отдельные слова
сохраняют самостоятельность (avoir de la chance);
3) фразеологические единства – сочетания, в которых наблюдается полная
связанность элементов (avoir lieu).
Среди фразеологических групп Ш. Балли отдельно отмечает группы с
усиливающим определением (chaleur suffocante) и глагольные группы, в
частности, перифразы самостоятельных глаголов (remporter une victoire), и так же,
как и предыдущие авторы, подчёркивает важность этого языкового явления при
изучении иностранного языка. Поскольку работа Ш. Балли посвящена стилистике,
его в значительно большей степени интересуют оригинальные явления
литературного языка, то есть фразеологические единства. Фразеологические
группы называются «самой банальной частью словаря», поэтому им не уделяется
большого внимания в этом исследовании фразеологии.
Подобным образом, исходя из степени трансформации значения,
классифицирует фразеологизмы В.В. Виноградов [Виноградов 1977]. Он выделяет
три класса фразеологизмов, и его схема стала классической [см., например,
Шанский 1985]:
1) фразеологические сращения - устойчивые сочетания, значение которых не
выводится из значения составляющих их компонентов, то есть является
немотивированным в синхронической перспективе (попасть впросак).
2) фразеологические единства - устойчивые сочетания, значение которых
отчасти связано с семантикой составляющих их компонентов (зайти в
тупик).
45
3) фразеологические сочетания - устойчивые обороты с мотивированным
значением, но значение одного из компонентов сочетания является
связанным, а само слово имеет ограниченную сочетаемость (щекотливый).
Те сочетания, которые Ш. Балли называл фразеологическими группами, в
отечественной фразеологии, таким образом, не получили специального названия.
Классификация В.В. Виноградова расширяется, в частности, в работах Н.М.
Шанского [Шанский 1985], который к трём перечисленным категориям добавляет
фразеологические выражения – обороты, которые состоят из слов со свободным
значением. Отличие таких выражений от обычных синтагм заключается в том, что
они «извлекаются говорящим из памяти целиком (как отдельное слово или
фразеологический оборот, эквивалентный слову)» [Шанский 1985: 69]. Среди них
выделяются выражения коммуникативного и номинативного характера –
предикативные словосочетания, соотносимые с предложением (Без труда не
вытащишь и рыбку из пруда), и словосочетания с назывной функцией (высшее
учебное заведение).
Вопрос о классификации и характеристике устойчивых сочетаний подробно
рассматривается в [Мельчук, Иорданская 2007]. Авторы являются активными
разработчиками теории «Смысл ↔
Текст», и их работа касается в том числе
особенностей лексикографирования устойчивых сочетаний различных типов.
Кроме того, именно в этой работе предпринята попытка систематизации
терминологии и определений различных понятий фразеологии, поэтому следует
остановиться на ней подробнее.
Первое, «неформальное» определение фраземы как предмета фразеологии
вообще звучит так [Мельчук, Иорданская 2007: 226]:
«Фразему можно определить, как такое сочетание, означаемое и означающее
которого НЕ МОГУТ быть построены без ограничений и регулярно.»
46
Строгое определение фраземы затем выводится через отрицание из
определения свободного сочетания:
Свободное словосочетание удовлетворяет следующим двум условиям:
1) его означаемое представляет собой регулярную сумму означаемых его
составляющих;
2) его означающее представляет собой регулярную сумму означающих его
составляющих.
В рамках теории «Смысл ↔ Текст» [Мельчук 1999] авторы поясняют это
определение таким образом: «Иначе говоря, свободное словосочетание – это такое
словосочетание, которое может быть получено из данного Концептуального
Представления с применением любых общих правил языка L без каких бы то ни
было ограничений» [Мельчук, Иорданская 2007: 227].
Несвободные словосочетания, которые в общем случае называются
фраземами, могут не удовлетворять одному из двух указанных выше условий. В
соответствии с этим выделяются различные типы фразем.
Прагматемы – это словосочетания, в которых нарушается первое условие из
определения свободного словосочетания, то есть для понятие, выражаемого
данным словосочетанием, возможно только одно данное означаемое.
К прагматемам И.А. Мельчук и Л.Н. Иорданская также относят сочетания,
означающие которых построены регулярно, но с ограничениями. Например,
английское “Best before…” (употребить до) построено регулярно, но имеет
прагматические ограничения в том смысле, что в ситуациях его использования
(например, на упаковке с йогуртом) не возможен никакой синонимичный
эквивалент. Кроме того, к прагматемам же причисляются те случаи, когда для
одного означаемого возможны различные синонимичные сочетания (“Please be
quiet”, “No talking please” и т.п.).
Полуфраземы и л и коллокации – это разновидность идиом, в которой
означаемого одного из компонентов входит в сочетание без изменений, тогда как
47
вместо означаемого другого компонента включается некоторое другое означаемое,
обычно зависящее от первого: «отпустить шутку1», «выдерживать сравнение1».
Следует сразу заметить, что в модели «Смысл ↔
Текст» полуфраземы
описываются с помощью лексических функций [Мельчук 1999].
Означаемое квазифразем или квазиидиом включает в себя означаемые обеих
лексем и «некую непредсказуемую добавку»: “bacon and eggs” – яичница с
беконом, “shopping center” – торговый центр.
Поскольку нас прежде всего интересуют коллокации, рассмотрим также
понятие лексических функций, с помощью которых они описываются в модели
«Смысл ↔
Текст». И.А. Мельчук и коллеги предложили новый тип словаря –
толково-комбинаторный, в котором главным способом описания и являются
лексические функции – зависимости, связывающие заголовочное слово с его
«лексическими коррелятами», синтагматически и парадигматически связанными с
ним лексическими единицами. По этому признаку выделяются лексические
функции-замены, описывающие парадигматические связи слова, и параметры,
описывающие сочетаемость. Приведём несколько примеров таких функцийпараметров:
-
Si , где i – номер – типовое название актанта, которые нумеруются в
порядке
-
значимости
для
данного
слова:
S1 ( продавать ) = продавец; S2 ( продавать ) = товар .
Sc - типовое название сирконстанта: Sloc ( борьба )=арена
Ope r 1 , Ope r 2 – глагол, связывающий данное слово с первым или вторым
актантом (агенсом / пациенсом):
Ope r 1 ( контроль ) = осуществлять ;
Ope r 2 ( контроль ) =находиться под .
В Машинном фонде русского языка используется оригинальный подход к
устойчивым сочетаниям, описанный в [Борисова 1990: 88-89]: «Основу пакета
«Устойчивые словосочетания» составляют те единицы, которые традиционно
48
включались в число фразеологических единиц, однако выделяли какими-либо
особенностями, не позволяющими сводить их в один класс с идиомами,
паремиями и другими «типичными» фразеологизмами». Такие сочетания
характеризуются, как правило, сохранением лексического значения одного из
компонентов и ослаблением значения образности. В Машинном фонде русского
языка к устойчивым сочетаниям относят те фразеологизмы, один компонент
которых выбирается в процессе речи на основании его свободного значения, а
второй – на основании значения первого (отпустить шутку). Таким образом, они
соответствуют полуфраземам или коллокациям в классификации И.А. Мельчука и
Л.Н. Иорданской. Кроме того, Е.Г. Борисова упоминает фраземы в значении,
введённом в работе [Амосова 1963] – словосочетания, один из компонентов
которых употребляется только в сочетании с другим компонентом: «щурить глаза»,
«разбиться вдребезги». При этом значения обоих компонентов сохраняются. Автор
также отмечает два важных свойства устойчивых сочетаний:
- невозможность предсказания выбора несвободного компонента на
основании знаний о семантическом составе сочетающихся слов;
- необъяснимость сочетаемости на основании знаний о семантическом
составе лексем.
Эти свойства связаны с тем, что для устойчивых словосочетаний нарушено
условие свободной сочетаемости, когда смысловые компоненты каждого из слов
совместимы.
В [Борисова 1990] устойчивые словосочетания классифицируются на
основании зависимости выбора несвободного компонента: этот компонент может
употребляться только в рамках данного сочетания, в ограниченном множестве
сочетаний или свободно. Выделяются словосочетания, выражающие уникальные
смыслы (закадычный друг), и словосочетания, выражающие регулярные смыслы
(вступать в бой, в соперничество). Последние хорошо описываются в терминах
уже упомянутых лексических функций.
49
Когда работы по созданию Машинного фонда русского языка были
прекращены, Е.Г. Борисова продолжила заниматься коллокациями, что отражено в
монографии [Борисова 1995а] и словаре сочетаемости русского языка с
английскими эквивалентами [Борисова 1995б].
Задача анализа устойчивых сочетаний является частной по отношению к
проблеме исследования сочетаемости лексических единиц, или лексической
синтагматики. Именно исследования по семантической синтагматике могут
объяснить механизмы взаимодействия значений, обуславливающие появление и
свободных, и устойчивых сочетаний, и сочетаемостных аномалий. Упомянем здесь
кратко концепцию В.Г. Гака [Гак 1971] и схожие идеи Ю.Д. Апресяна [Апресян
1974].
Устойчивые словосочетания различных типов в контексте вопроса о
синтаксической синтагматике упоминаются В.Г. Гаком в статье [Гак 1971]. В.Г. Гак
рассматривает закономерности синтагматически обусловленной номинации, то
есть номинации, зависящей от окружающих номинаций высказывания. В
определении В.Г. Гак пользуется понятием семы – минимального компонента
значения. Семантическое сочетание слов определяется законом семантического
согласования: чтобы два слова составили правильное сочетание, они должны
иметь одну общую сему, помимо специфических, присущих каждому слову. Эту
сему французские лингвисты Б. Потье и А. Греймас назвали классемой. Классема
должна повторяться в сочетающихся единицах; в примере В.Г. Гака
«простуженная женщина» - правильное сочетание, поскольку
а)
значение слова «простуженный» включает значение одушевлённости,
поскольку признак присущ только одушевлённым лицам;
б)
значение слова «женщина» включает значение одушевлённости.
Под классемой обычно подразумевается некий категориальный компонент –
одушевленность, возраст, пол, действие или состояние и так далее. В.Г. Гак
50
предлагает рассматривать также и те случаи, где в сочетании связующим является
некоторый второстепенный, не категориальный компонент значения – «связующий
семантический компонент» или синтагмема. Экспериментальные данные
показывают, что возможны три варианта взаимодействия слов M 1
и M2
в
сочетании в зависимости от реализации синтагмемы a .
1)
M 1 (a)+ M 2 (a)
Семантическое согласование, возникает в тех случаях, когда в значениях
синтагматически связанных слов есть общий компонент, интегральная сема. Так, в
сочетаниях птица летит, змея ползёт наблюдается семантическое согласование,
поскольку «летать» предполагает «летающего» деятеля, а «ползать» «ползающего».
2)
M 1 (a)+ M 2 (b)
Семантическое несогласование, возникающее вследствие семантической
экономии: потенциально общий компонент опускается в одном из сочетающихся
слов (птица, змея приближается). Это происходит лишь в тех случаях, где
опущенный элемент предсказуем: например, предложение «Возле стены стоял
шкаф» сохраняет то же значение, что и у «Возле стены находился шкаф»,
поскольку шкаф обычно занимает вертикальное положение.
3)
M 1 (a)+ M 2(−a)
Семантическое рассогласование, проявляется при наличии в синтагме
несовместимых (противоположных или ненужных) компонентов значения (птица
ползёт, змея летит). В таких сочетаниях некоторые семы могут быть утрачены, а
сами сочетания переосмысляются или получают новое переносное значение:
например, к значению ползти в сочетании с «неползающим» субъектом
добавляется компонент «скорость». При исследовании коллокаций необходимо
принимать во внимание именно этот тип выражений.
51
По мнению Ю.Д. Апресяна [Апресян 1974], в общем возможны два варианта
сочетаемости. В случае семантической сочетаемости или семантических
ограничений на сочетаемость, речь идёт о наборе семантических признаков,
которыми должны обладать слова, замещающие данную валентность. Лексическая
сочетаемость и лексические ограничения описываются набором лексем. В рамках
предложенной Ю.Д. Апресяном модели управления эти ограничения легко
записываются в условном виде. Кроме того, в модели «Смысл ↔
Текст»
толкования должны формулироваться таким образом, чтобы с его помощью можно
было проверить потенциальный актант. Например, «грозить = A обещает
причинить Y-у зло или неприятность X». Далее, в случае лексической
сочетаемости, может описываться набор слов, которые могут оказаться на месте А.
3.2.Представление коллокаций в словарях сочетаний
Коллокации и устойчивые словосочетания различных типов включаются в
соответствующие словари – словари коллокаций, фразеологические словари –
которые по-своему формулируют критерии отбора материала.
В разделе, посвящённом синтагматическим и фразеологическим словарям,
авторы «Истории английской лексикографии» [Cowie 2009] говорят о трёх
критериях, которые указывают на значимость определённого словосочетания:
частота словосочетания: статистически значимые сочетания включают
коллокации [Herbst 1996], «кластеры» (a bit, a little bit… [Mittman 2004]),
стеммы [Altenberg 1998]: and then I, there is a;
степень вариации элементов словосочетания: фиксированные элементы,
систематическое варьирование в пределах грамматических категорий,
лексические варианты;
степень мотивированности значения (semantic transparency), от полной
аддитивности значений до идиом.
52
Среди существующих синтагматических и фразеологических словарей
выделяют: словари пословиц (dictionaries of catchverbs and proverbs), собственно
фразеологические словари (idiom dictionaries), словари фразовых глаголов (phrasal
verb dictionaries), словари валентности (valency dictionaries), словари коллокаций
(collocation dictionaries).
Для дальнейшей работы важно рассмотреть, чем характеризуются последние
два типа словарей. Словари валентности обычно составляются для тех языков, где
особенную сложность представляет глагольное управление (например, немецкий).
Однако, понятие валентности относится не только к глаголам: так, к примеру, в A
Valency Dictionary of English [Herbst 2004] включены рамки валентностей для
глаголов, прилагательных и существительных. Статья состоит из трёх частей:
сначала приводятся обобщённые синтаксические шаблоны, затем примеры их
реализаций и указание на семантические характеристики лексем, которые
заполняют актантные позиции:
ability
P1 Over 500 events are planned throughout the country, for people of all
ages and ability. …
P 2 + to-INF (>30%) My memory is such that I used to win prizes in
school because of my ability to remember names and dates. …
По сравнению со словарями идиом словари коллокаций встречаются редко.
Это связано с недостаточной формальной определённостью самого термина
«коллокация». Комбинаторный словарь английского языка [Бенсон 1990] впервые
разграничивает в словаре лексические и грамматические коллокации, затем Dictionary of English Collocations и Collins Cobuild English Collocations включают просто
статистически значимые словосочетания, а Oxford Collocations Dictionary for Students вместо грамматических коллокаций помещает в основном сочетания с
предлогами. Последние упомянутые словари уже используют корпусные методы.
53
В этом разделе мы подробно рассмотрим принципы построения следующих
словарей: Толково-комбинаторного словаря русского языка, Словаря английских
коллокаций, Оксфордского словаря коллокаций, Словаря коллокаций Collins Cobuild,
Комбинаторного словаря английского языка, Англо-русского фразеологического
словаря, Англо-русского словаря глагольных сочетаний, Словаря коллокаций
Macmillan, словаря «Устойчивые словосочетания русского языка», справочника
«Русские глаголы и предикативы», Пособия по лексической сочетаемости слов
русского языка и Словаря сочетаемости слов русского языка.
Толково-комбинаторный словарь русского языка
Толково-комбинаторный словарь русского языка ( д а л е е – Т К С )
разрабатывался как один из необходимых компонентов реализации модели
«Смысл ↔
Текст», в печатном виде существует лишь версия с ограниченным
словником (около 250 статей) – «Опыт семантико-синтаксического описания
русской лексики» [Мельчук и др. 1984]. Поскольку издание было подготовлено в
качестве первого образца словарных описаний подобного рода, «с целью
ликвидировать пропасть между лексикографией и теоретической лингвистикой»
[Там же: 74], заголовочные слова отобраны из разных лексико-семантических
классов для демонстрации различных явлений. Словарь характеризуется как
словарь активного типа, однако метод формального описания, разработанный в
рамках модели «Смысл ↔
Текст» позволяет представить информацию в
унифицированном виде (в частности, с использованием лексических функций).
Внутри словарной статьи выделяется 10 зон: морфологические сведения,
стилистическая помета, толкование, состоящее их постоянных единиц и
переменных, модель управления, в которой используются переменные из
толкования, ограничения к модели управления, примеры к модели управления,
лексические функции (всего их вводится несколько десятков), примеры
реализации лексических функций, энциклопедическая информация, идиомы. Надо
54
отметить, что создатели опираются как на семантико-синтаксические
исследования И.А. Мельчука, А.К. Жолковского, Ю.Д. Апресяна и коллег, так и на
существующие толковые и прочие словари.
Внешне ТКС сильно отличается от современных толковых словарей и
словарей сочетаемости и представляет собой уникальную разработку, реализацию
одной из сложных лингвистических теорий в лексикографическом произведении.
Попытки создания толково-комбинаторных описаний для отдельных лексем
производились и на материале других языков [польский – Янус 1971, французский
– Melcuk 1984]. Из последних прикладных разработок следует отметить проект
DiCo/LAF [Polguere 2000]. По словам разработчиков, в определении коллокации
они следуют [Hausmann 1979] и даже [Bally 1951], однако словарь представляет
развитие идей толково-комбинаторного описания на французском материале – в
терминах лексических функций. Для каждого заголовочного слова описываются
значения лексических функций, которые к нему применимы.
A Dictionary of English Collocations
Словарь коллокаций A Dictionary of English Collocations [Kjellmer 1994]
представляет собой одно из первых лексикографических произведений, при
составлении которого использовались методы корпусной лингвистики. В нем
представлены все (по мнению автора) коллокации, встречающиеся в Брауновском
корпусе, – корпусе текстов на американском английском объёмом около
1 миллиона словоупотреблений [Kučera, Francis 1964]. На момент создания
словаря это один из наиболее представительных корпусов как с точки зрения
объёма, так и с точки зрения жанра.
Коллокации определяются автором с практической точки зрения – как
повторяющиеся последовательности грамматически корректных единиц («recurring sequences of grammatically well-formed items»). По мнению автора словаря,
коллокации являются основными составляющими ментального лексикона
55
носителя языка, тем самым формируя необходимый элемент владения языком. В
качестве примеров во введении приводятся коллокации различных типов: at the
outset, could be expected to, not significantly different from, peaceful coexistence, powdered coffee, and with great difficulty. В словаре представлено около 85 тысяч
коллокаций. Каждая словарная статья помимо специальных помет также включает
статистику о частоте встречаемости в корпусе, распределении употреблений
коллокации в текстах различных жанров и степень значимости, то есть
устойчивости связи внутри коллокации.
По словам составителей, словарь будет полезен как исследователям в
области английского языка, лексикографии, стилистики, автоматического анализа
языка, так и преподавателям: «It will be an invaluable reference source for researchers
in linguistics, English-language teaching, lexicography, stylistics, and automatic language analysis» [Kjellmer 1994: 5].
Oxford Collocations Dictionary
Словарь коллокаций Oxford Collocations Dictionary [McIntosh 2009]
разработан для изучающих английский язык. Эта цель и обуславливает выбор
материала и содержательное наполнение словаря.
Коллокации определяются как частотные словосочетания, которые являются
необходимыми шаблонами в естественной речи, свойственной носителю языка.
Словарь включает около 150 тысяч коллокаций для 9 тысяч заголовочных слов.
Среди коллокаций встречаются слова, которые обычно употребляются в сочетании
с заголовочным словом – существительные, прилагательные, глаголы, наречия,
предлоги – а также общеупотребительные фразы. Источником для составления
словаря послужил Британский национальный корпус; авторы также отмечают, что
для поиска наиболее современных употреблений использовался поиск в интернете.
Для многих коллокаций приводятся примеры употребления – целые предложения
или фрагменты текста, а также грамматическая и стилистическая информация:
56
HOUR
1 VERB + HOUR take It takes two hours to get to London. | spend | last
The performance lasted three hours. | gain, lose You gain five hours
when you fly from New York to London.
Collins Cobuild English Collocations
Словарь, как и большинство изданий серии Collins COBUILD, предназначен
для изучающих язык. Представленный материал целиком взят из корпуса The Bank
of English (170 миллионов слов) и отобран на основании статистики
встречаемости. В описании говорится, что словарь предоставляет информацию об
устойчивых сочетаниях, естественных выражениях, фразеологии, идиомах, клише
и специальных формах (fixed phrases, natural phrases, natural phraseology, idioms,
clichés, and specialized forms). Для 20 тысяч заголовочных слов приводится около
140 тысяч коллокаций, которые определяются как частотные последовательности
слов внутри фиксированного окна. В этом заключается один из наиболее
упоминаемых недостатков данного словаря, поскольку такой метод позволяет
найти не только достаточное количество устойчивых сочетаний, но и свободные
употребления (such disaster), а также грамматически не связанные слова (nature
because). С другой стороны, корпусный анализ и электронный формат (словарь
был выпущен на CD-ROM) позволяют, например, иллюстрировать использование
коллокаций контекстами из корпуса:
Small hours ('предрассветные часы'): They were arrested in the small
hours of Saturday morning.
The BBI Combinatory Dictionary Of English
Целью данного словаря [Бенсон 1990] является представление необходимых
повторяющихся грамматических и лексических сочетаний (коллокаций, «fixed,
identifiable, non-idiomatic phrases and constructions», recurrent combinations, fixed
57
combinations, collocations). Составители подчеркивают важность словаря
подобного рода для изучающих английский язык, поскольку такие сочетания часто
не имеют дословного перевода. В словаре выделяются грамматические и
лексические коллокации. Первые представляют собой сочетание опорного слова
(существительного, прилагательного, глагола) с предлогом или грамматической
структурой (инфинитив, придаточное предложение). Лексические коллокации
обычно не содержат предлогов, инфинитива или придаточного; напротив, они
включают знаменательные слова.
Во введении подробно изложены принципы отбора материала и описаны
типы коллокаций, которые включаются в словарь. Перечислим их с краткими
пояснениями:
Грамматические коллокации:
существительное + предлог (in favor of)
В эту группу авторы почти не включают сочетания с of, by и производными
предлогами.
существительное + to + инфинитивpleasure to
существительное + придаточное с союзом that an oath that he would do his
duty
Сюда не входят определительные придаточные предложения (an agreement
that would go into effect in a month).
предлог + существительное by accident, in advance
прилагательное + предлог
angry at
В эту группу не включаются причастия и производные предлоги
прилагательное + to + инфинитив necessary to (work)
прилагательное + придаточное с союзом that
afraid that she would fail
19 глагольных групп: глагольные сочетания с двумя дополнениями без
предлога (dative movement transformation – send him the book), глагол + to +
инфинитив (continue to write) и т.д.
Лексические коллокации:
58
глагол + существительное/местоимение/предложно-падежная форма set an
alarm, have a bath;
глагол со значением уничтожения + существительное repeal a law, denounce
(abrogate) a treaty;
прилагательное + существительноеfly a kite;
существительное + глагол
bombs explode;
количественная характеристика + существительное
наречие + прилагательное
sound asleep;
глагол + наречие affect deeply.
a school of whales;
Словарь содержит около 14 тысяч слов и более 75 тысяч сочетаний. Внутри
словарной статьи коллокации расположены в том же порядке, в котором
перечислены соответствующие типы, причём лексические коллокации
предшествуют грамматическим. Как отмечается в русском издании словаря,
«порядок следования словосочетаний отвечает современным требованиям
методики преподавания английского языка» [Бенсон и др. 1990: 1].
Англо-русский фразеологический словарь
В Англо-русский фразеологический словарь [Кунин 1984] включаются
идиомы, идиофразематические и фразематические единицы (всего около 10 тысяч
фразеологических единиц). К последним составители словаря относят случаи
единичной сочетаемо сти одного из компонентов (boon companion),
терминологические сочетания (civil list), вошедшие в литературное употребление,
обороты со связанным значением (pay attention), необразные штампы (all sorts and
conditions of men), предложно-именные сочетания с буквальным значением (at (the)
most). Принципы отбора материала и название словаря указывают на то, что
словарь ориентирован в большей степени на идиоматические сочетания, которые
представляют трудность при переводе. Поэтому в словарь не включаются,
например, типичные перифразы (make an effort). Большинство выражений
иллюстрируется примерами из художественной литературы.
59
Англо-русский словарь глагольных словосочетаний
Словник Англо-русского словаря глагольных сочетаний [Гинзбург и др. 1990]
составляют 569 наиболее частотных глаголов английского языка, отобранных из 2
тысяч самых частых слов по данным нескольких частотных словарей. Идея
словаря заключается в описании значения и сочетаемости глаголов по принципу
моделирования, предложенному в учебной лексикографии Г. Палмером и А.С.
Хорнби (Palmer 1933). Материал представляют 26 моделей глагольных
словосочетаний: глагол + существительное-субъект (begin + the lesson), глагол +
наречие (run + fast), глагол + прямое дополнение (serve smb.) и так далее. Модель
характеризуется следующими признаками:
- Представляет собой обобщённую структуру словосочетания (на
морфосинтаксическом уровне);
- Все компоненты модели обязательны;
- Значение глагола в данном словосочетании обусловлено структурой модели;
- Данное значение регулярно реализуется именно в этой модели.
В словарь включаются именно типичные или слабо связанные
словосочетания, а не фразеологизмы, так как последние не удовлетворяют
признакам модели. Каждой модели приписан номер, который затем приводится в
словарной статье наряду с реализациями модели:
HIRE <III, IV, VII, XI, XXI> III 1. ~ smb. ~ a clerk (a servant, a daylabourer, etc.) нанимать клерка и т.д. …
Macmillan Collocations Dictionary
Во введении к словарю Macmillan Collocations Dictionary [Rundell 2010],
который, по-видимому, является одним из наиболее современных словарей
сочетаемости английского языка, подробно описывается методика отбора
словарного материала и концепция, лежащая в основе издания. Составители
первого издания словаря были первыми пользователями системы WordSketch
(https://www.sketchengine.co.uk), которая осуществляет поиск заданных лексико60
грамматических шаблонов по корпусу и собирает информацию о частоте
встречаемости слов в выражении. Благодаря использованию таких шаблонов,
информация о сочетаемости внутри словарной статьи сгруппирована по
грамматическим отношениям, в которые вступает опорное слово. Каждой
коллокации приписывается вес, который показывает её устойчивость. Состав
словника определяется также корпусными методами – с помощью специальной
меры collocationality, которая характеризует степень устойчивости всех сочетаний
с данным словом [Kilgariff 2006]. Таким образом, в словарь практически не
включаются слова, встречающиеся по большей части в свободных сочетаниях, а
общий объём словника составляет около 4,5 тысяч лексем. Как уже было сказано,
коллокации группируются сначала по синтаксическому типу, затем по значению.
Кроме того, даётся информация о том, к какой форме тяготеют данные выражение
(например, если глагол употребляется в пассиве).
Устойчивые словосочетания русского языка
Учебное пособие «Устойчивые словосочетания русского языка» [Регинина и
др. 1983] содержит устойчивые словосочетания, характерные для газетнопублицистического, научного и разговорных стилей. Предназначено для
студентов-иностранцев, изучающих русский язык. Пособие включает около 3000
словосочетаний, причём их список ограничен темами, рекомендованными для
обучающихся.
Как устойчивые рассматривают фразеологические сочетания по
терминологии В.В. Виноградова и фразеологические выражения по Н.М.
Шанскому (см. выше). Включают те словосочетания, которые характеризуются:
- переосмыслением значения одного из компонентов (заклятый враг);
- ограниченной сочетаемостью одного из компонентов (одерживать верх,
победу);
- не имеют дословных переводных эквивалентов (дождь идёт);
- устойчивостью, повторяемостью в речи.
61
Составители классифицируют материал по грамматической структуре:
- субъективно-предикативные словосочетания (растёт безработица);
- предикативные:
o глагол + существительное в винительном падеже (давать оценку);
o глагол + существительное в косвенном падеже (+ предлог) (приводить
в порядок);
o быть + именная группа (быть во главе, не по силам, высокого мнения);
- атрибутивные:
o прилагательное + существительное (глубокая мысль);
o существительное + существительное в родительном падеже (круг
вопросов);
o существительное + предлог + существительное в косвенном падеже
(воля к борьбе);
- адвербиальные (тепло поздравлять).
Опорное слово выбирается в зависимости от типа словосочетания: так, в
первых двух типах это глагол, в третьем – прилагательное, в последнем – наречие.
Русские глаголы и предикативы
Словарь «Русские глаголы и предикативы» [Красных 1993] представляет
собой пособие по сочетаемости, в котором содержатся описания около 600
глаголов и 200 предикативов. Словарь имеет учебную направленность, причём
подчёркивается, что материал словаря – глаголы и предикативы – наиболее
сложный в усвоении. В статьях отражается информация о сочетаемости
изъяснительных глаголов и предикативов с союзными средствами:
СОКРУШАТЬСЯ, сокруша|юсь, -ешься, -ются, нсв. Разг. Сожалеть
о чём-л., сильно огорчаться, печалиться.
Обычно с союзом что.
…
Мне показалось, что Лена и в самом деле сокрушалась о том, что
не стала такой красивой, как прежде.
62
Включаются сочетания из газетного и журнального материала, а также
художественной литературы.
Пособие по лексической сочетаемости слов русского языка
Словарь-справочник [Анисимова и др. 1975] состоит из 40 тысяч
словосочетаний, включённых в пособия для изучающих русский язык, для 1900
опорных слов. Авторы используют синтаксический подход при отборе материала:
используются только следующие словосочетания:
Для опорных существительных:
существительное + прилагательное – глубокая мысль,
существительное + сущ – подвиг народа,
существительное в роли дополнения + глагол – совершить подвиг,
существительное-субъект + глагол – наступил вечер;
Для опорных прилагательных:
прилагательное + существительное (объект) – холодный климат, ветер,
вечер,
прилагательное + существительное (дополнение) – похожий на отца, мать;
Для опорных глаголов:
глагол + наречие – бежать быстро,
глагол + существительное в винительном падеже – ждать весну,
глагол + существительное в косвенном падеже – смотреть на докладчика,
на преподавателя,
глагол + существительное-субъект действия – трамвай, автобус,
электричка ходит.
В качестве опорных слов авторы выделяют только «общераспространённую
стилистически нейтральную лексику».
Словарь сочетаемости слов русского языка
Словарь сочетаемости слов русского языка [Денисов, Морковкин 1983]
представляет собой переиздание Учебного словаря сочетаемости слов русского
языка [Денисов, Морковкин 1978], предварённое обширным введением, где
излагается авторский подход к сочетаемости и её описанию. Во-первых,
63
определяются понятия лексической и семантической сочетаемости (по
Ю.Д. Апресяну), а также синтаксической сочетаемости – это набор имеющихся
при слове семантико-синтаксических позиций, иначе говоря, его рамка
валентности. Основной задачей словаря сочетаемости является определение этих
семантико-синтаксических позиций для каждого слова и описание их заполнения.
Основной единице словаря, таким образом, будет словосочетание – реализация
валентностей опорного слова. Она может описываться тремя способами:
- полное перечисление ряда, заполняющего данную валентность (бегать на
коньках, на лыжах);
- выборочное перечисление типичных представителей ряда (начало чего:
соревнований, спектакля …);
- указание на характер ряда и перечисление наиболее типичных его
представителей (фотографировать кого-что: (о человеке) друга, сына,
дочь, памятник …).
3.3.Выводы
В третьей главе рассматривались различные подходы к устойчивым
словосочетаниям, в частности, к коллокациям, которые представляются важным
материалом для иллюстративного блока переводного словаря. На основании
приведённых теоретических определений коллокаций можно выделить два
направления, которые отражаются и в лексикографической практике, в том числе и
в описанных словарях сочетаемости. Первый подход (свойственный британской
лингвистической школе) исходит из регулярного характера коллокаций и более
практического критерия частотности сочетания. Второй подход, развивавшийся в
отечественном языкознании, скорее следует назвать семантико-синтаксическим
(такими, например, являются описания лексических функций). Таким образом, мы
приходим к выводу, что в практической задаче поиска коллокаций в корпусе
64
должны учитываться, как узуальные, так и семантические и синтаксические
факторы.
65
4. Поиск и ранжирование контекстов для англо-русского
машинного словаря
Задачей практической части работы было построение алгоритма
ранжирования переводных контекстов и его тестирование. Часть экспериментов
описана в нашей статье [Protopopova и др. 2015]
Исследование лексикографических источников, представленное в Главах 1-3,
показало, что существующие переводные словари, по-разному подходят к
проблеме выбора иллюстраций, а словари коллокаций по-разному формулируют
требования к включаемым словосочетаниям. Однако, можно выделить некоторые
характеристики, на которые можно опираться при автоматическом подборе
параллельных сочетаний. Очевидно, фразы-иллюстрации должны быть
грамматически корректны и иметь правильный перевод. Двуязычные словари
предъявляют следующие требования к иллюстративному материалу:
Примеры представляют собой словосочетания (реже – предложения) на
входном языке с переводом на выходной язык.
Примеры представляют контрастивный материал, иллюстрирующий
особенности употребления слов во входном языке в отличие от слов
выходного языка (или наоборот).
С другой стороны, примеры могут иллюстрировать типичные контексты
заголовочного слова во входном / выходном языке.
Важную роль в иллюстрации сочетаемости играют коллокации, которые
должны обладать следующими свойствами:
Коллокация – словосочетание, часто и регулярно употребляемое в речи.
Коллокации не создаются говорящим по частям, но воспроизводятся из
памяти как целое.
66
4.1.Материал и инструменты исследования
Иллюстрации подбирались к словарным статьям словаря сервиса
«Яндекс.Переводчик» (http://translate.yandex.ru), создание которого описано в
[Antonova, Misyurev 2014] (см. Главу 1).
В качестве основного материала в экспериментах использовался корпус
параллельных текстов на английском и русском языках из архива коммерческой
поисковой системы объёмом около 50 миллионов предложений. Разнообразие
жанров, представленных в корпусе (публицистика, техническая документация,
тексты рекламных объявлений, художественная литература, субтитры), позволяет
находить иллюстрации, относящиеся к различным регистрам и содержащие
разные переводы заголовочного слова. Кроме того, объём корпуса достаточно
велик, чтобы извлекать иллюстрации для малоупотребительных лексем и
переводов.
Параллельные тексты предобработаны и снабжены информацией о
выравнивании по предложениям, пословном выравнивании и синтаксическом
разборе каждого предложения. Выравнивание производится с помощью
инструмента GIZA++ [Och, Ney 2003], а синтаксический разбор – с помощью
парсера SyntAutom [Antonova, Misyurev 2012].
GIZA++ – один из инструментов выравнивания, который используется в
большинстве систем машинного перевода, в частности, потому, что входит в
состав системы Moses (http://www.statmt.org/moses/). Общий принцип работы
GIZA++ описан в разделе о моделях IBM [см. Och, Ney 2003].
Из современных синтаксических анализаторов в рамках данной работы нам
был доступен SyntAutom [Antonova, Misyurev 2012]. Он основан на правилах и
позволяет получать синтаксический разбор предложения с высокой точностью, в
частности, в соревновании, проведённом РОМИП в 2012 году, он занял третье
место после анализаторов Compreno и ЭТАП-3. Сравнение разборов тестовой
67
коллекции этого соревнования доступно на сайте соревнования 3. SyntAutom
позволяет получить разборы для предложений на русском и английском языках.
Ниже приведём пример разбора предложения «Мне нравилось смотреть на улицу
через стекло.» в табличном формате:
0
1
2
*Top*
мне
нравилос
*Top*
я
нравиться
0
3
3
_
subj
auxd
/
/prn/sg/fem/msc/neu/dat/fst/
/vrb/sg/neu/fin/fst/sec/trd/pst/ind/act/
3
4
5
6
7
ь
смотреть смотреть
0 fin
/vrb/sg/neu/inf/fst/sec/trd/pst/act/
на
на
5 prep
/prp/acc/
улицу
улица
3 prepnp /nn/sg/fem/acc/trd/
через
через
7 prep
/prp/acc/
стекло
стекло
3 prepnp /nn/sg/neu/acc/trd/
В качестве одного из факторов ранжирования используется оценка фразы по
модели языка (см. ниже). Для построения этих моделей использовались более
надёжные корпуса текстов на английском и русском языках (одноязычные),
собранные из интернета. Данные по объёму всех использованных корпусов
приведены в таблице 1. Модели языка строятся с помощью утилит пакета SRILM
[Stolcke 2002].
Таблица 1. Объём использованных корпусов в токенах (словоупотребления и знаки препинания).
объём корпусов
параллельный
английский
1,145 миллиарда
русский
1,132 миллиарда
Интернет-корпус
одноязычный
4,1 миллиарда
3,16 миллиарда
Интернет-корпус
4.2.Описание процедуры поиска контекстов
Для поиска потенциальных словарных иллюстраций из параллельного
корпуса извлекаются параллельные контексты заданной длины. Сначала по
параллельному корпусу с помощью инструмента GIZA++
3http://otipl.philol.msu.ru/~soiza/testsynt/res00/duo.php
68
строится модель
перевода, полученные контексты затем обрабатываются парсером SyntAutom.
Полученная таблица содержит следующие данные (см. Таблицу 2):
-
входной контекст;
перевод;
синтаксический разбор входного контекста и перевода;
пословное выравнивание;
входной контекст и перевод в лемматизированном виде.
Таблица 2. Пример записей из модели перевода.
a back
задняя
det_/det/_det_3
adj_/adj/sg/fem/nom/tr
1-0
a back
задний
panel
панель
nn_/nn/sg/trd/_gen_3
d/_adj_2
2-1
panel
панель
nn_/nn/sg/trd/_homo_0
nn_/nn/sg/fem/nom/trd/
a back
арьергард
det_/det/_det_3
_homo_0
adj_/adj/sg/fem/nom/tr
1-0
a back
арьергард
part
ная часть
nn_/nn/sg/trd/_gen_3
d/_adj_2
2-1
part
ный часть
nn_/nn/sg/trd/_subj_0
nn_/nn/sg/fem/nom/trd/
a back part
в задний
a back
в заднюю
det_/det/_det_3
_subj_0
prp_/prp/acc/_prep_3
0-0
part
часть
nn_/nn/sg/trd/_gen_3
adj_/adj/sg/fem/acc/trd/
1-1
nn_/nn/sg/trd/_prepnp_
_adj_3
2-2
0
prepnp_/nn/sg/fem/acc/
часть
a back
до задней
det_/det/_det_3
trd/_prepnp_0
prp_/prp/gen/_prep_3
0-0
a back
до задний
part
части
nn_/nn/sg/trd/_gen_3
adj_/adj/sg/fem/gen/trd
1-1
part
часть
nn_/nn/sg/trd/_np_0
/_adj_3
2-2
prepnp_/nn/sg/fem/gen
a back
задний
det_/det/_det_3
/trd/_prepnp_0
adj_/adj/sg/msc/nom/tr
1-0
a back
задний
part
отдел
nn_/nn/sg/trd/_gen_3
d/_adj_2
2-1
part
отдел
nn_/nn/sg/trd/_sm_0
nn_/nn/sg/msc/nom/trd
a back
задняя
det_/det/_det_3
/_subj_0
adj_/adj/sg/fem/nom/tr
1-0
a back
задний
part
часть
nn_/nn/sg/trd/_gen_3
d/_adj_2
2-1
part
часть
nn_/nn/sg/trd/_np_0
nn_/nn/sg/fem/nom/trd/
_np_0
Как видно из примера, каждой последовательности слов приписывается
синтаксический разбор. Из полученной модели перевода удаляются те фразы,
которые не являются связным поддеревом синтаксического разбора всего
69
предложения. Например, в предложении «The result is an industry that works in a
radically different way than it did a decade ago.» последовательность “a radically different way” является связным поддеревом, а “in a radically different” – нет.
Кроме того, из модели удаляются пары переводных эквивалентов,
включающих только одно знаменательное слово. Затем каждому контексту в
модели перевода ставятся в соответствие возможные ключи (потенциальный
заголовок статьи и его перевод). Для этого информация о пословном
выравнивании контекстов объединяется со словником словаря. Таким образом,
например, для пары биграмм на английском и русском языке “digital image –
цифровая фотография”, где слова выровнены по порядку, мы получаем две записи
– для перевода “digital - цифровой” и “image - фотография”.
Выделенные контексты хранятся в виде значений, разделённых табуляцией,
в следующем порядке:
-
ключ (заголовочное слово);
переводной эквивалент;
частота пары «контекст – перевод» в параллельном корпусе;
контекст на исходном языке;
синтаксический разбор и леммы контекста;
перевод контекста;
синтаксический разбор и леммы перевода;
информация о позиции ключа в контексте;
информация о выравнивании.
4.3.Подготовка обучающей и тестовой выборки
Как уже было сказано, основной задачей эксперимента является
упорядочивание иллюстрирующих контекстов в соответствии с допустимостью их
использования в качестве материала для иллюстративного блока. Для решения
этой задачи мы предлагаем ранжирующий классификатор – алгоритм, который по
обучающей выборке приписывает элементам тестовой выборки оценки в заданном
диапазоне таким образом, что элементы могут быть затем упорядочены по
70
значению этой оценки. Цель ранжирующей модели — наилучшим образом (в
некотором смысле) приблизить и обобщить способ ранжирования в обучающей
выборке на новые данные.
Для обучения ранжирующего классификатора были размечены обучающий и
тестовый наборы контекстов.
Первым шагом в подготовке выборок был отбор переводных эквивалентов, к
которым затем подбирались контексты. Чтобы сделать этот «словарь» более
репрезентативным, переводные эквиваленты выбирались случайно таким образом,
чтобы распределение их частот соответствовало распределению частот слов в
параллельном корпусе. Кроме того, необходимо было установить такое же
соответствие с распределением частот запросов к словарю. Было замечено, что
количество запросов на английском языке в значительной степени коррелирует с
частотой соответствующих слов в корпусе [Antonova, Misyurev 2014], поэтому
можно полагаться только на корпусную статистику. Также в выборку не
включалось сто самых частых английских слов.
Для каждой пары переводных эквивалентов в словаре из параллельного
корпуса извлекаются все возможные контексты (биграммы), как описано в
предыдущем разделе. Случайная выборка из полученного множества контекстов
могла бы быть ненадёжной, поскольку в ней сложно было бы обеспечить баланс
между положительными и отрицательными примерами. Поэтому каждому
контексту приписывается вес по эмпирической формуле, которая соответствует
произведению прямой и обратной вероятности перевода
F=2 log ( f 3 ) – log ( f 1 ) – log ( f 2 ) ,
где
f3
– частота выравнивания контекста на входном языке в контекст на выходном
языке в параллельном корпусе;
f1
– частота контекста на входном языке в том же параллельном корпусе;
71
f2
– частота контекста на выходном языке в том же параллельном корпусе.
Затем для каждой пары переводных эквивалентов выбирается несколько (от
одного до трёх в зависимости от общего числа кандидатов) с наибольшим весом.
Таким образом была получена выборка объёмом 700 словосочетаний.
Разметка производилась вручную по пятибалльной шкале от 1
(неприемлемый контекст) до 5 (идеально подходящий контекст). В таблице
приведены неформальные критерии, использованные при выставлении оценки.
Стоит напомнить, что каждый параллельный контекст состоит из двух частей –
входной и выходной. В качестве эксперимента примеры размечались в двух
режимах – сначала оценка приписывалась обеим частям, затем каждой по
отдельности. При составлении критериев использовался опыт группы аналитиков
отдела машинного перевода компании «Яндекс».
Таблица 3. Принципы разметки контекстов-кандидатов.
Оценка
1
разметка обеих частей
Обе части
разметка одной части
Фраза бессмысленна и
пример
*pickled
бессмысленны и
грамматически
<loveliness> →
грамматически
некорректна
*маринованная
неправильны; части не
<красота>
являются
переводными
2
эквивалентами
Одна из частей
Фраза грамматически
caribbean
соответствует оценке
некорректна; фраза не
<community> →
один по принципам
является переводным
*караибское
разметки одной части
эквивалентом
<содружество>
примера; обе или одна
из фраз
грамматически
72
3
некорректна
Обе части
Фраза грамматически
*его <любовь>
грамматически
корректна, но не
→
корректны, но не
отражает особенностей <fondness>
отражают
значения /
особенностей
употребления /
значения /
перевода ключа
*his
употребления /
4
перевода ключа
Обе части
Фраза грамматически
quit the company
грамматически
корректна и частично
→ покинуть
корректны и частично
иллюстрирует
компанию
иллюстрируют
особенности значения /
особенности
употребления /
значения /
перевода ключа
употребления /
5
перевода ключа
Идеально подходящий
Идеально подходящий
ball lightning →
контекст
контекст
шаровая молния
Как было сказано выше, контексты извлекались из корпуса для всех
соответствий «английская лексема – русская лексема», полученных из машинного
словаря. Машинный словарь в свою очередь содержит некоторое количество
«шумных» (ошибочных) переводов: например, из недословных переводов можно
извлечь перевод «beautiful - красота». Они были удалены из выборки после
разметки. В результате размеченный набор составил более 600 примеров.
Результаты разметки каждой из частей по отдельности приведены на рисунке 9.
73
Рисунок 9. Результаты разметки контекстов по пятибалльной шкале: тёмным отмечены английские контексты, светлым
- русские.
4.4.Анализ ошибок в контекстах-кандидатах
Среди примеров с оценками 1 и 2 были выделены следующие группы
ошибок (ключи выделены угловыми скобками, ошибки отмечены звёздочкой):
1) Ошибки в форме примера
a) Грамматически некорректные фразы
*<preparation> enamel → <составление> эмали
<appreciate> acrobatics → *<оценить> акробатика
b) Незаконченные фразы
county <detention> → деревенский <исправительный>
c) Фразы в несловарной форме
*<created> tsunamis → *<породило> цунами
monstrously <big> → *чудовищно <огромная>
header files → *заголовочных файлов
d) Фразы, содержащие иностранные слова, транслитерацию
<improve> resiliency → *<улучшать> resiliency
unformatted <capacity> → *unformatted <емкость>
74
*<beginning> shvatyvanija → начало> схватывания
e) Фразы, содержащие слово с опечаткой
caribbean <community> → *караибское <содружество>
burgundy <sole> → *бардовая <подошва>
2) Ошибки в значении
a) Неинформативные фразы
*его <любовь> → *his <fondness>
*очень <глупый> → *really <stupid>
*nonpregnant <woman >→ *небеременная <женщина>
b) Фразы с несвязанными словами
*pickled <loveliness> → *маринованная <красота>
*<saving> neurotic → *<спасение> невротиков
*синхроничная <жизнь> → *synchronistic <life>
c) Труднопонятные фразы со специфическим значением
*sagittal <reconstruction> → *сагиттальная <реконструкция>
*threshold <panel> → *пороговое <табло>
d) Машинный / пословный перевод
*<soya> squirrels → <соевый> белок
*<character> stitches → <символьные> строчки
*harvest <control> → жмешь <контрол>
*Berners-<whether> → Бернерс-<ли>
hi <camcorder> → *привет <видеокамеры>
e) Оскорбительные контексты для нейтральных слов
naked <girl> → голая <девушка>
<Japanese> militarists → <японские> милитаристы
Hitlerite <Germany> → гитлеровская <Германия>
<become> a Shaheed → <стать> шахидом
75
f) Фразы, не являющиеся переводными эквивалентами
<saving> rolling → <спасение> утопающих
Первую группу ошибок можно объяснить двумя взаимосвязанными
причинами. Во-первых, контексты извлекаются из интернет-корпуса, который
содержит «некачественные» тексты, полученные в результате машинного
перевода, случайно и намеренно искажённые тексты. С другой стороны, на
извлекаемые контексты не накладывается никаких ограничений, кроме связности
поддерева. Таким образом, учитывая возможные ошибки парсера, находятся
грамматически некорректные фразы. С качеством корпуса связаны и некорректные
переводы контекстов (ошибки в значении), и пословные переводы: soya squirrels,
saving rolling.
При обучении ранжирующих классификаторов из обучающего набора
удалялись примеры с оценкой 3, поскольку они не представляют качественного
материала для обучения, а скорее зашумляют его.
4.5.Общий алгоритм ранжирования параллельных контекстов
Исходя из проведённого анализа ошибок, а также из изложенных выше
принципов отбора иллюстраций и устойчивых сочетаний в словарях
классического типа, мы предлагаем следующий алгоритм ранжирования
переводных контекстов. Для каждого контекста вычисляются значения признаков,
которые позволяют отделить релевантные фразы от некорректных (подробное
описание этих признаков приведено ниже). В результате получаем матрицу
размера N × M , где N – количество переводных контекстов, а M – количество
признаков. Эти данные подаются на вход ранжирующему классификатору,
который приписывает каждому контексту некоторое значение (от 0 до 1 или от 1 до
5). Затем
контексты ранжируются внутри группы, найденной для ключа (пары
«английское слово – русский перевод»). В словаре для каждого ключа
отображается только лучший пример из группы.
76
4.6.Факторы (признаки) ранжирования
Перечислим признаки, которые подавались на вход ранжирующему
классификатору, по группам. Для каждой группы в скобках приводится её
сокращённое название, которое используется ниже.
Оценка по языковой модели (группа LM)
Статистическая языковая модель (модель языка) – это вероятностное
распределение последовательностей слов. Такая модель позволяет на основе
данных о вероятности появления в тексте слов и их последовательностей
определённой длины вычислить вероятность произвольной последовательности.
Простейшая модель языка, основанная на n-граммах, работает следующим
образом. Вероятность появления предложения w 1 , … , w m оценивается следующим
образом:
m
P¿
m
P ( w 1 ,… , w m ) =∏ ¿ ¿ ≈ ∏ P(w i ∣ w i−(n−1) , … , w i−1 )
i=1
i =1
Здесь применяется предположение о том, что генерация предложения –
случайный марковский процесс, то есть текущее состояние (выбор i-го слова)
зависит лишь от нескольких предыдущих. Вероятность появления слова при
условии предшествующего контекста длины n−1
вычисляется очевидным
образом по значениям частот слов и их последовательностей в корпусе:
P ( w i ∣ w i−( n−1 ) , … , w i−1 ) =
count (w i−( n−1) , … , w i−1 , w i )
count (w i− ( n−1) ,… ,w i −1 )
,
где count(s) – частота последовательности слов s.
Для оценки вероятности n-грамм, не встреченных в корпусе, применяется
сглаживание различными методами от линейной интерполяции до методов ГудаТьюринга и back-off моделей (подробнее о способах сглаживания в статье [Chen,
Goodman 1998]). Простейший метод сглаживания – линейная интерполяция –
заключается представлении произведения вероятностей через сумму – например,
77
когда по корпусу невозможно определить условную вероятность триграммы
p ( w 3| w 1 ,w 2 ¿ . В триграммной модели условная вероятность слова по двум
предыдущим будет оцениваться по значениям вероятностей p (w 3 ) ,
p ( w 3| w 2 ¿ ,
p ( w 3| w 1 ,w 2 ¿ . Метод линейной интерполяции позволяет подобрать для каждого из
множителя коэффициенты λ1 ,
p ( w 3| w 1 ,w 2 ¿
λ2 ,
λ3
таким образом, чтобы вероятность
была представима следующим образом:
p ( w 3| w 1 ,w 2 ¿= λ 1 × p ( w 3|w 1 , w 2 ¿+ λ 2 × p ( w 3|w 1 ¿+ λ3 × p (w 3 )
Возможность построения различных языковых моделей предоставляет
инструмент SRILM (SRI Language Modeling, [Stolcke 2002]). Мы использовали
триграммную модель с настройками по умолчанию, собранную отдельно по
английской и русской части параллельного корпуса, из которого извлекались
контексты. Также были собраны модели по частеречным тегам на тех же корпусах.
Для оценки качества языковых моделей используется перплексия (perplexity)
– мера, которая позволяет оценить, насколько хорошо модель описывает новые
данные. Идея заключается в следующем: возьмём предложения, которые не
входили в корпус для обучения языковой модели. Каждое «новое» предложение
можно оценить с помощью имеющейся модели, и, кроме того, можно оценить
вероятность всего набора предложений. Для всех m предложений x i
общим
объёмом M слов перплексия вычисляется так:
−l
Px=2 ,
где
m
1
l= ∑ log 2 p ( x i ) .
M i=1
Чем меньше значение, тем лучше моделируются «новые» данные. С другой
стороны, при фиксированной языковой модели можно оценить сложность текстов,
не входящих в модель. Для одного предложения она представляет собой
78
вероятность предложения, нормированную на количество слов в предложении и
приведённую к диапазону [ 0 ; ∞ ] .
Таким образом, для каждого контекста вычислялись следующие значения
(отдельно для английской и русской частей):
- перплексия по униграммной модели;
- перплексия по триграммной модели.
Кроме того, тексты были размечены синтаксическим анализатором,
следовательно, каждому токену приписана морфологическая информация. Таким
образом, можно оценить не только вероятность последовательности слов, но и
вероятность последовательности граммем. Для этого была построена языковая
модель по частеречным тегам и в группу признаков LM включалась также
- перплексия по триграммной частеречной модели.
Относительная частота контекста (RelF)
Относительная частота примера вычисляется по статистической модели
перевода. Используемая формула позволяет одновременно оценить как частоту
примера в корпусе, так и его значимость относительно входящих в него слов:
RelF =2 log ( f 3 )−log ( f 1 ) −log ( f 2 ) ,
где
f3
– частота выравнивания английской части примера в русскую;
f1
– максимальная частота по словам, не являющимся ключом, в английском
контексте;
f2
– максимальная частота по словам, не являющимся ключом, в русском
контексте.
Взаимная информация (MI)
Как неоднократно отмечалось выше, значительный интерес для
иллюстративного блока двуязычного словаря представляют коллокации.
Многочисленные меры оценки степени связи внутри коллокаций перечислены,
79
например, в рамках интернет-ресурса collocations.de [Evert 2004] или в работах
[Захаров, Хохлова 2010; Пивоварова, Ягунова 2010; Кощеева 2014]. Считается, что
некоторые из мер отражают определённый тип сочетаемости; проводились
различные попытки сравнения мер.
Таблица 4. Общий вид таблицы сопряжённости для наблюдаемых значений частот слов X и Y.
Y
Ý
X
O11=a
O 21=c
X́
O 12=b
O 22=d
Таблица 5. Общий вид таблицы сопряжённости для ожидаемых значений частот слов X и Y.
X
X́
( a+b ) ( a+c )
a+b+c+d
( a+c ) ( c+d )
E 21=
a+b+c +d
Y
( a+b ) ( b +d )
a+b+c+d
( c+d ) ( b+d )
E 22=
a+b+c+d
E 11 =
Ý
E 12=
В частности, предлагаются следующие способы оценки связи внутри
словосочетания, основанные на таблице сопряжённости (contingency table,
таблицы 4-5) и проверке гипотезы о значениях ожидаемых частот:
Логарифм правдоподобия (Log-likelihood ratio test)
LLR=2 ∑ O ij
ij
O ij
E ij
t-test
t=
χ
O 11 −E 11
2
√O11
-test
(
)
2
n
2
χ 2=
( a+b ) ( a+c ) (b+d)(c+d)
n |ad−bc|−
z-score
a−b+
z=
(a+c−b−d)(a+b)
a+b+c+d
√ a+b
80
Каждая из этих мер имеет свои достоинства и недостатки, о которых
подробно сказано, например, в [Manning, Schutze 1999: 141-172].
Для данной задачи была выбрана взаимная информация (mutual information,
MI), которая является универсальной мерой связи и эффективность которой была
показана, в частности, в нашем исследовании [Букия и др. 2015]. В общем случае
взаимная информация для пары слов w 1 и w 2 оценивается так:
MI =log
p(w 1 , w 2 )
,
p ( w 1 ) p(w 2 )
где p(w) – вероятность слова в корпусе.
Мы предлагаем расширение традиционного понятия взаимной информации
для коллокации, поскольку частоты для оценки вероятности вычисляются по
синтаксическим связям, а не по биграммам или совместной встречаемости в
рамках предложения. Кроме того, поскольку контексты не ограничены
биграммами, вычисляется среднее значение MI по всем парам связей слова-ключа.
Для того, чтобы «выровнять» значение меры (не поощрять редкие слова и
сочетания), используется линейное сглаживание: к частотам отдельных слов при
вычислении вероятностей p ( w 1 ) и
p ( w 2)
добавляется константа, значение
которой получено эмпирически.
Векторные модели (WV)
В последнее время значительную популярность приобрели векторные
семантические представления, которые позволяют описать различные языковые
закономерности (например, [Baroni и др. 2014]). В [Mikolov и др. 2013a] описан
способ получения таких векторов на основе рекуррентных нейронных сетей (о них
ниже). Затем авторы [Mikolov 2013b] оценивают полученные вектора
применительно к различным задачам, таким как нахождение семантически
связанных слов, построение аналогий («Какое слово так относится к Италии,
как Париж к Франции?»), выделение морфологических форм. Семантические
81
вектора
широко применялись при исследовании семантической близости на
материале русского языка в рамках соревнования RUSSE [Панченко и др. 2015].
Кроме того, было показано, что косинусная мера близости между такими
векторами может учитываться и для оценки синтагматической сочетаемости
[Panicheva и др. 2016].
Одним из наиболее популярных инструментов для построения
с е м а н т и ч е с к и х в е к то р о в я вл я е т с я word2vec
(https://code.google.com/ar-
chive/p/word2vec/). Это реализация векторных моделей от авторов статьи [Mikolov
и др. 2013a], в которой используются два описанных в статье алгоритма – continuous bag-of-words (CBOW) и skip-gram. Оба алгоритма предполагают использование
рекуррентной нейронной сети, на вход которой подаются последовательности
слов. На выходе сеть должна учиться максимизировать косинусную близость
между векторами слов, которые часто встречаются рядом. Алгоритм CBOW
обучается предсказывать слово по его контексту, skip-gram – контекст по слову.
Авторы статьи [Mikolov и др. 2013а] уточняют, что первая модель лучше подходит
для обучения на больших корпусах текстов и работы с частыми словами, а вторая
– на меньших корпусах, но лучше работает с редкими словами.
Мы тренировали семантические вектора в 200-мерном пространстве с
помощью инструмента word2vec на английской и русской частях параллельного
корпуса, из которого извлекались контексты. При построении дистрибутивной
модели использовалась архитектура skip-gram.
82
Рисунок 10. Схематическое изображение архитектур cbow и skip-gram.
В качестве признаков группы WV мы использовали конкатенацию всех
векторов данного контекста (в порядке следования соответствующих слов) и
бинарные признаки, которые указывали на положение ключевого слова в рамках
контекста. Таким образом, для биграммы (u , v) , где ключом является второе
с л о в о , в е к т о р п р и з н а к о в WV в ы гл я д и т с л е д у ю щ и м о б р а з о м :
(u1 ,… ,u200 , v1 , … , v 200 , 0,1) .
Семантическая близость (Sim)
Основным способом оценки семантической близости слов (ассоциации, association) по их семантическим представлениям, является косинус угла между
векторами:
¿ ( w 1 , w 2 ) =cos ( v 1 , v 2 ) ,
где v1 и v2 - вектора, соответствующие словам w 1 и w 2 .
Как и в случае с взаимной информацией, для контекста вычислялось среднее
значение близости ключа к остальным словам примера.
83
4.7.Методы классификации
Несмотря на детальную разметку обучающей выборки, были произведены
эксперименты с бинарной классификаций методом случайного леса и с помощью
нейронной сети прямого распространения с одним скрытым слоем. Для
предсказания оценки от 1 до 5 использовался набор бинарных классификаторов
(также основанных на методе случайного леса). Рассмотрим указанные методы
классификации подробнее.
Случайный лес (Random forest)
Метод случайного леса – алгоритм машинного обучения, предложенный в
[Breiman 2001]. Классификатор представляет собой ансамбль решающих деревьев
(отсюда и название). Алгоритм классификации таков:
1. Построим некоторое количество решающих деревьев следующим образом
a. Сгенерируем случайную подвыборку с повторами размера исходной
выборки.
b. Построим решающее дерево, классифицирующее примеры данной
подвыборки, причём при создании нового узла дерева будем выбирать признак,
на основе которого производится разбиение, не из всех M
признаков, а лишь
из m случайно выбранных. Выбор наилучшего из этих m признаков может
осуществляться различными способами. В оригинальной статье используется
критерий Джини, применяющийся также в алгоритме построения решающих
деревьев CART – это мера, которая показывает, насколько часто случайный
элемент из множества будет помечен неправильно, если следовать
распределению классов в подмножестве элементов. Она вычисляется как сумма
произведений вероятности выбора каждого элемента на вероятность ошибки
при его классификации. Для m
элементов мера Джини вычисляется
следующим образом при условии, что f i – доля элементов, размеченных как iый элемент множества:
84
I G ( f ) =∑ f i f k
i≠ k
c. Построение прекращается, когда заканчиваются элементы подвыборки.
2. Классификация каждого элемента производится затем с учётом решений всех
деревьев: выбирается тот класс, к которому элемент относит большинство.
3. Количество деревьев определяется таким образом, чтобы минимизировать
ошибку классификатора на тестовой выборке.
Одним из важных свойств метода случайного леса является возможность
оценки значимости каждого признака. Для этого каждому элементу на этапе
построения решающих деревьев приписывается так называемая ошибка out-of-bag:
средняя вероятность ошибки на данном элементе, если не учитывать деревья, в
которые входит данный элемент. Затем на всём тренировочном наборе
перемешиваются (меняются по элементам) значения признака, который
оценивается. Значимостью параметра будет среднее значение разности ошибки
out-of-bag по всем элементам набора до и после перемешивания.
Возможность оценки вероятной ошибки с использованием только
обучающего набора (out-of-bag) – одно из основных достоинств метода случайного
леса. Можно также упомянуть нечувствительность к масштабированию значений
признаков, возможность одновременной работы с дискретными и непрерывными
значениями без потери в качестве.
В нашей работе использовались параметры из оригинальной статьи
Бреймана (критерий Джини, оценка с помощью out-of-bag) в реализации
библиотеки scikit-learn (http://scikit-learn.org, [Pedregosa и др. 2011]).
Нейронная сеть прямого распространения
Искусственные нейронные сети изначально создавались как модель
биологической нервной системы. Именно поэтому в этой области многие термины
заимствованы из нейрофизиологии. Основной единицей этой модели является
нейрон, состоящий из следующих частей:
85
определённое количество входных сигналов;
сумматор, складывающий входные сигналы с определенными весами в
значение v ;
сеть синапсов (связей) соединяющая входные сигналы с сумматором,
при этом у каждого ребра-синапса есть вес;
функция активации φ (v) , преобразующая результат суммирования в
выходной сигнал – обычно в диапазоне [ −1,1 ] ;
Обычно используются следующие функции активации:
пороговая функция (модель Мак-Каллока – Питца)
{
φ ( v )= 1,если v ≥ 0 ;
0, если v <0 ;
кусочно-линейная функция
{
1
1, v ≥ ;
2
φ ( v )= |v|, 1 >v > −1 ;
2
2
1
0, v ≤− ;
2
сигмоидальная функция
φ ( v )=
1
,
1+e−av
где a – параметр наклона.
Множество таких нейронов составляет слой нейронной сети. Самая простая
сеть будет состоять из трёх слоёв нейронов: входного, скрытого и выходного. Для
входного и выходного слоя известны некоторые параметры: какой сигнал подаётся
на вход и какой оказывается на выходе. В скрытом слое, как следует из названия,
производятся неявные преобразования сигналов. Многослойные сети позволяют
находить более сложные зависимости, особенно когда размер входного слоя
достаточно велик.
86
Архитектура нейронной сети предполагает возможность обратной связи,
когда выходной сигнал оказывает влияние на новый входной. В зависимости от
наличия в сети обратной связи выделяют сети прямого распространения и
рекуррентные сети. В первых информация из входного слоя передаётся на
выходной слой нейронов; в случае многослойной сети – через один или несколько
слоёв скрытых нейронов. Рекуррентные нейронные сети отличает наличие хотя бы
одной обратной связи.
Математическая модель нейронной сети может применяться в обучении как
с учителем, так и без него. Одним из наиболее распространённых алгоритмов
обучения сети является метод обратного распространения ошибки. Он позволяет
вычислить синаптические веса (веса связей) таким образом, что значение функции
потерь (величина ошибки) стабилизируется и становится достаточно небольшим.
При этом каждый новый обучающий пример вносит свой вклад в изменение весов,
когда на каждом этапе выходное значение сравнивается с желаемым, и веса
пересчитываются в обратном направлении – от выходного слоя к входному.
В экспериментах использовалась сеть прямого распространения с одним
скрытым слоем. Такое решение было принято, с одной стороны, чтобы сократить
вычислительные затраты, а с другой, поскольку множество признаков, которыми
описываются входные данные, сравнительно невелико. Размер скрытого слоя
составляет 10 элементов, а максимальное количество итераций – 150 (если
сходимость не достигается раньше).
Параметры были подобраны эмпирически
для достижения наилучших показателей качества.
Оценка мультиклассификации
Оценка примеров с использованием пятибалльной шкалы полезна, когда
необходимо выделить наиболее релевантные примеры. Однако, классификация на
более чем два класса – довольно сложная задача для одного классификатора.
Поэтому были объединены бинарные классификаторы на основе метода
87
случайного леса для каждого класса. Кроме того, при обучении каждого из них из
обучающего набора удалялись примеры с ближайшей оценкой: например, при
обучении классификатора, определяющего принадлежность примера к 5 классу, из
выборки удалялись примеры с оценкой 4. При предсказании оценки на тестовом
наборе выбиралась оценка, соответствующая классификатору с наибольшим
значением. Кроме того, вычислялась надёжность такой оценки по формуле:
c=|max ( f 1 , f 2 )−max (f 4 , f 5 )|
где f i – предсказание i-го классификатора.
4.8.Оценка качества классификации
Основные эксперименты используют бинарную классификацию или
мультиклассификацию. Для их оценки использовались стандартные метрики –
точность (precision) и аккуратность (accuracy). В общем виде значения
вычисляются следующим образом:
P=
tp
;
tp+ fp
A=
tp+tn
,
tp+tn+ fp+ fn
используемые обозначения проще всего представить в таблице (см.
Таблица 6).
Точность вычислялась по отрицательным примерам, поскольку важнее было
убедиться, что метод фильтрует некачественные контексты. Ниже такая метрика
будет обозначаться P 0 .
Таблица 6. Варианты ошибок классификации.
количество
примеров
исходная
разметка
0
1
88
разметка
классификатора
0
tn
fn
1
fp
tp
4.9.Результаты классификации
Для оценки качества классификации размеченная выборка делилась в
соотношении 2:1 на обучающую (416 примеров) и тестовую (206 примеров)
соответственно. Проведена оценка пяти методов классификации по разным
группам признаков:
оценка каждой части примера по отдельности:
R F 1 – случайный лес на группе признаков WV;
R F 2 – мультиклассификатор на группе признаков WV;
NN – нейронная сеть на группе признаков WV;
общая оценка параллельного контекста:
R F 3 – случайный лес на группах LM, MI, RelF and Sim;
R F 4 – случайный лес на всех признаках.
Результаты классификации приведены в таблицах 7а и 7b.
Из таблицы 7а можно заключить, что английские части параллельных
контекстов классифицируются значительно лучше русских. Мы предполагаем, что
это связано с качеством семантических векторов: и те, и другие были обучены на
корпусах одного размера, однако языки с богатой морфологией (как русский), как
правило, требуют большего объёма данных.
P0(en)
RF1 0.71
RF2 0.83
NN 0.67
A(en
P0(ru) A(ru
)
0.74
0.65
0.65
)
0.64
0.62
0.61
0.62
0.63
0.56
(a) Предсказание качества одной из частей
примера.
RF3
89
P0
0.69
A
0.7
RF4
0.68
(b) Предсказание качества параллельного
0.71
контекста.
5
90
Таблица 7. Результаты классификации контекстов.
В случае с классификацией параллельных контекстов целиком, можно
заметить, что добавление признаков группы WV практически не влияет на
качество классификации. В связи с этим можно заключить, что информации о
близости векторов слов достаточно для описания словосочетания.
4.10.
Сравнение ранжирования с простыми эвристическими
методами
Для сравнения результатов ранжирования было выбрано 140 пар
«английское слово – русский эквивалент», которые не входили в размеченную
ранее выборку. Для каждой пары извлекались все возможные параллельные
контексты, которые затем ранжировались следующим значениям:
-
F
– абсолютная частота параллельного контекста в параллельном
корпусе;
MI
– сумма значений взаимной информации ( в том виде, как
описано выше) для английской и русской части примера;
R F 1 , R F 3 , R F 4 – значения, полученные от соответствующих
к л а с с и ф и к ат о р о в ( ф а к т и ч е с к и – в е р оя т н о с т ь о т н е с е н и я
соответствующего слова к положительному классу);
R F2
– модифицированные значения классификатора R F 2 . В
случае, если обе части контекста оценивались как положительные,
использовалось значение надёжности c. Если только одна из частей
контекста была отнесена к классам (4, 5), то из значения надёжности
для этой части вычиталось наименьшее значение надёжности для
другой части.
О ц е н ка п рои з вод ила с ь с лед ую щим об ра зом . И з ка ж д ого
упорядоченного списка для каждого ключа сохранялся лучший параллельный
контекст. Затем примеры в полученных списках размечались как
положительные (1) и отрицательные (0). Результаты разметки приведены в
приложении А.
Мерой качества служило количество положительных примеров в
списке. Это связано с тем, что, как было сказано выше, формат используемого
машинного словаря позволяет показывать только один параллельный
контекст для одного ключа, то есть важно оценить, как часто в верхней части
списка оказываются отрицательные примеры. Результаты приведены в
таблице 8.
Таблица 8. Оценка ранжирования иллюстративных примеров.
MI
F
RF1
RF2
RF3
RF4
положительные
доля положительных
примеры
примеров
60
44
59
76
88
74
42.8
31.4
42.1
54.3
62.9
52.9
Результаты показывают, что использование машинного обучения
значительно улучшает ранжирование по сравнению с простыми методами.
Сравнение различных наборов признаков позволяет сказать, что наиболее
удачной комбинацией является сочетание всех групп за исключением WV.
4.11.
Значимость признаков классификации
Некоторые выводы о важности той или иной группы признаков можно
сделать по результатам оценки в предыдущих разделах. Так, заметно, что
использование группы WV вместе с остальными избыточно, хотя возможно,
что в отдельности классификация, основанная на этой группе, показала бы
лучшие результаты на большем обучающем наборе.
Как было сказано, метод случайного леса позволяет вычислить
значимость каждого признака. Данные о значимости групп признаков,
использовавшихся при классификации R F 3 , приведены в таблице 9.
Таблица 9. Значимость признаков для классификатора RF3.
MI
0.13 … 0.097
LM
0.1 … 0.04
F
0.079 … 0.05
Sim
0.063 … 0.04
Наиболее существенными оказываются признаки группы MI, то есть
устойчивость сочетания. Таким образом, получается, что в обучающей
выборке отражена тенденция к выбору в качестве лучших иллюстраций
коллокаций, а классификатор стремится воспроизвести эту закономерность.
Следующими по значимости выделяются признаки группы LM, причём
больший вес имеют значения по триграммной языковой модели и модели по
частеречным тегам. Следовательно, таким образом учитывается
грамматическая корректность и «беглость» (fluency) словосочетания.
Очевидно, что при использовании взаимной информации по синтаксическим
связям, как меры устойчивости, косинусная близость векторов слов
оказывается наименее значимым признаком.
4.12.
Выводы
В главе 4 был описан эксперимент по ранжированию контекстов для
иллюстрации статей машинного переводного словаря. Были использованы
два метода машинного обучения – метод случайного леса и нейронная сеть
прямого распространения; в качестве ранжирующих признаков выбраны те,
которые отражают принципы отбора иллюстраций, выявленные при анализе
различных словарей в главах 2 и 3. Полученные результаты оценивались
стандартными метриками (точность и аккуратность), лучшие значение
составили 0.83 и 0.74 соответственно. Кроме того, было проведено сравнение
с простыми эвристическими способами ранжирования и показано, что
использование расширенного набора признаков и методов машинного
обучения даёт значительное улучшение в результатах ранжирования.
Заключение
Одной из наиболее существенных частей словарной статьи в
двуязычном словаре, в частности, вследствие его учебных задач, является
иллюстративный блок, включающий примеры употребления заголовочного
слова. При этом принципы его создания не разработаны ни в классической
лексикографии, ни в машинной. Анализ существующих двуязычных словарей
(англо-русского направления) позволяет выделить несколько критериев
отбора материала для иллюстративного блока: слово сочетания
предпочитаются предложениям, словосочетания содержат дополнительную
информацию о сочетаемости, стилистических особенностях опорного слова и
так далее.
Поскольку сочетаемость становится одним из важнейших критериев
для двуязычных иллюстраций, в работе так же рассматриваются различные
концепции устойчивых сочетаний – от классических до новейших. Из
приведённого обзора словарей сочетаемости и словарей коллокаций можно
также сделать выводы о некоторых принципах, на которых базируется
понятие устойчивости.
Аналитический обзор, изложенный в главах 1-3, позволяет нам
выделить признаки для автоматического ранжирования параллельных
контекстов относительно их релевантности для иллюстративного блока
машинного словаря. Проведены эксперименты с различными наборами
признаков, методами машинного обучения, сделана оценка полученных
результатов. Наилучшая комбинация методов и признаков показывает
точность 84% на английских контекстах и 71% при ранжировании пар
контекстов. Полученные результаты используются при составлении
машинного словаря сервиса «Яндекс.Переводчик».
Лексикографические источники
1. Амосова Н.Н. Большой англо-русский словарь / Сост. Амосова, Н.Н.,
Апресян, Ю.Д., Гальперин И.Р.; под общ. руководством Гальперина И.Р.
- 2-е изд., стер. – М. : Русский язык, 1977.
2. Англо-русский русско-английский словарь = English-russian RussianEnglish dictionary : 35573 слова, значения и словосочетания / [ред. и
рук. проекта: В.Ю. Бурнашева]. – М. : ABBYY Press, 2011. – 603 с.
3. Анисимова, Т.И. Пособие по лексической сочетаемости слов русского
языка: Словарь-справочник / Сост. Т.И. Анисимова, З.Э. Иванова, Р.В.
Ульянко; Под ред. Т.П. Плещенко и Л.Ф. Саковец. - Минск : Вышэйш.
школа, 1975. – 303 с.
4. Апресян, Ю.Д. Новый большой англо-русский словарь = New EnglishRussian Dictionary : Ок. 250000 лексич. единиц : В 3 т / Сост. Ю.Д.
Апресян, Э.М. Медникова, А.В. Петрова и др.Под общ. руководством
акад. Ю.Д. Апресяна и д.филол.н., проф. Э.М. Медниковой. - 5-е изд.,
стер. – М. : Рус. яз., 2000.
5. Ахманова, О.С. Русско-английский словарь : Около 50000 слов / Сост.
О.С. Ахманова, Т.П. Горбунова, Н.Ф. Ротштейн [и др.]; Под общ. рук.
проф. А.И. Смирницкого. – М. : Гос. изд-во иностр. и нац. словарей,
1948 (16-я тип. треста "Полиграфкнига"). – 988 с.
6. Бенсон, М. Комбинаторный словарь английского языка. / Бенсон, М.,
Бенсон, Э., Илсон, Р. – М.: Русский язык, 1990 – 286 с.
7. Большой англо-русский словарь = New English-Russian dictionary : [В 2
т. : Ок. 160000 слов] / Под общ. руководством И.Р. Гальперина, Э.М.
Медниковой. - 4-е изд., испр., с доп. – М. : Рус. яз., 1987.
8. Борисова, Е.Г. Слово в тексте. Словарь коллокаций (устойчивых
словосочетаний) русского языка с англо-русским словарём ключевых
слов. – М.: 1995. (Борисова 1995б).
9. Братусь, Б.В. Russian word-collocations = Словосочетания русского
языка : Учеб. словарь для говорящих на англ. яз / Б.В. Братусь, И.Б.
Братусь, Е.А. Данциг и др. – М. : Рус. яз., 1979. – 367 с.
10.Гинзбург Р.С. Англо-русский словарь глагольных словосочетаний =
English-Russian dictionary of verbal collocations / Р.С. Гинзбург и др.; Под
общ. руководством Э.М. Медниковой. - 2-е изд., испр. – М. : Рус. яз.,
1990. – 667 с.
11.Козырева, М.Н., Англо-русский словарь = English-Russian dictionary :
Около 14000 слов и 63000 словосочетаний / М.Н. Козырева, И.В.
Федорова. – М. : Рус. яз., 1998. – 1118 с.
12.Красных, В.И., Русские глаголы и предикативы : Слов. сочетаемости. –
М. : Арсис лингва, 1993. – 226 с.
13.Кунин, А.В. Англо-русский фразеологический словарь – М. Русский
язык, 1984. – 944 с.
14.Мельчук, И.А., Толково-комбинаторный словарь современного русского
языка : Опыты семантико-синтаксического описания русской лексики. –
Вена, 1984. – 992 с
15.Мюллер, В.К. Англо-русский словарь, 1928.
16.Ожегов, С. И. Словарь русского языка. Изд. 21-6. – М., 1989.
17.Регинина, К.В. Устойчивые словосочетания русского языка / К.В.
Регинина, Г.П. Тюрина, Л.И. Широкова; Под ред. Л.И. Широковой. – 3е изд. – М : Рус. яз., 1983. – 300 с.
18.Kjellmer, G. A dictionary of English collocations : based on the Brown corpus : in three volumes. – Oxford; New York: Clarendon Press: Oxford University Press, 1994.
19.Longman dictionary of contemporary English. / Сост. Procter, P. – Harlow ;
London : Longman, 1978. - XXXIX, 1303 с.
20.McIntosh, C. Oxford Collocations Dictionary. – Oxford University Press,
2009. – 963 с.
21.Rundell, M. Macmillan Collocations Dictionary. – Macmillan, 2010.
22.Sinclair, J. Collins COBUILD English collocations on CD-ROM / Sinclair,
J., Fox, G., Seymour, D., Clear, J. – London: HarperCollins Publishers,
1995.
23.The BBI combinatory dictionary of English : A guide to word combinations /
Сост. Benson, M., Benson, E., Ilson R. – Amsterdam ; Philadelphia : Benjamins, 1986. – XXXVI, 286 с.
24.Wheeler, M., Unbegaun, B. The Oxford Russian dictionary : Russian-English, English-Russian. – Oxford ; New York : Oxford univ. press, 1997. –
XVII, 1340 c.
Литература
25.Азарова, И.В. Принципы построения wordnet-тезауруса RussNet /
Азарова, И.В., Синопальникова А.А., Яворская М.В. // Компьютерная
лингвистика и интеллектуальные технологии. – М., 2004.
26.
Амосова, Н. Н. Основы английской фразеологии. – Л., 1963.
27.Апресян, Ю.Д. Лексическая семантика (синонимические средства
языка). – М.: Наука, 1974.
28.Баранов, А.Н. Введение в прикладную лингвистику. Учебное пособие.
– М.: Эдиториал УРСС, 2001. – 360 с.
29.Берков, В. П. Двуязычная лексикография. – АСТ, 2006
30.Берков, В.П. Вопросы двуязычной лексикографии. – Л., 1973.
31.Борисова, Е.Г. К типологии составляющих пакета Устойчивые
сочетания // Фразеография в Машинном фонде русского языка. М.,
1990. – с. 88-103.
32.Борисова, Е.Г. Коллокации. Что это такое и как их изучать. – М.: 1995.
(Борисова 1995a).
33.Букия, Г.Т. Корпусная оценка степени близости единиц в лексических
конструкциях / Букия, Г.Т., Протопопова, Е.В., Митрофанова, О.А. //
Структурная и прикладная лингвистика. Межвузовский сборник. №11.
Под. ред. А.С. Герда. – СПб, 2015.
34.Буторова, У.В. Структурная типология словарных статей в словарях
русского языка и способы их формального представления / Буторова
У.В., Герд А.С., Захаров В.П., Панков Д.И., Пурицкая Е.В., Хохлова
М.В. // НТИ. Сер. 2. ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ 2016. № 2.
– М., 2016.
35.Бюллетень машинного фонда русского языка /отв. редактор В.М.
Андрющенко / – М., 1996, Вып.3
36.Виноградов, В.В. Об основных типах фразеологических единиц в
русском языке // Виноградов В. В. Избранные труды. Лексикология и
лексикография. – М., 1977. - С. 140-161.
37.Гак, В.Г. К проблеме семантической синтагматики // Проблемы
структурной лингвистики. – М.: Наука, 1972. – С. 367-395.
38.Захаров, В.П. Электронный обменный формат проекта TEI (Text Encoding Initiative) для словарей. Учебное пособие. – СПб.: СПбГУ. РИО.
Филологический факультет, 2013. – 80 с.
39.Захаров, В.П., Богданова, С.Ю. Корпусная лингвистика: Учебник для
студентов направления Лингвистика. 2-е изд., перераб. и дополн., –
СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 148 с.
40.Захаров, В.П., Хохлова, М.В. Анализ эфффективности статистических
методов выявления коллокаций в текстах на русском языке //
Компьютерная лингвистика и интеллектуальные технологии: Труды
международной конференции Диалог’2010. – М., 2010
41.Караулов, Ю.Н. Анализ метаязыка словаря с помощью ЭВМ / Караулов
Ю.Н., Молчанов В.И., Афанасьев В.А., Михалев Н.В. – М., 1982.
42.Кобозева, И.М. Лингвистическая семантика: Учебник для вузов. – М.:
УРСС, 2000. 350 с.
43.Кощеева, С.С. Сравнение методов автоматического выделения
глагольно-именных словосочетаний // Технологии информационного
общества в науке, образовании и культуре: сборник научных статей.
Труды XVII Всероссийской объединённой конференции «Интернет и
современное общество» (IMS-2014), Санкт-Петербург, 19-20 ноября
2014 г. – СПб: Университет ИТМО, 2014. – С. 298-303.
44.Крижановский, А.А. Оценка использования корпусов и электронных
библиотек в Русском Викисловаре // Труды Международной научной
конференции Корпусная лингвистика-2011. – СПбГУ, Филологический
факультет Санкт-Петербург, 2011. С. 217-222.
45.Крижановский, А.А. Построение машинно-читаемого словаря на
основе русского викисловаря. Тр. СПИИРАН, 2009, в. 11. С. 228-233
46.Крылов, С.А., Митрофанова, О.А. «Типовой контекст»: случайность
или закономерность? // Компьютерная лингвистика и интеллектуальные
технологии. Труды международной конференции Диалог’2006
(Бекасово, 31 мая – 4 июня 2006 г.). – М.: Издательство РГГУ, 2006. – C.
382-388.
47.Крылов, С.А., Старостин, С.А. Металингвистическая разметка
текстовых баз данных в системе STARLING и современные задачи
корпусной лингвистики // Прикладная лингвистика в поиске новых
путей. Международная конференция Megaling’2005. 27 июня - 2 июля
2005. – Симферополь, Таврический национальный университет им.
В.И. Вернадского, 2005. С. 33.
48.Марчук Ю.Н. Вычислительная лексикография. – М.: ВЦП, 1976, 175 с.
49.Мельчук, И.А. Опыт теории лингвистических моделей "Смысл-Текст" :
Семантика, синтаксис / И.А. Мельчук. – [Переизд.]. – М : Шк. "Языки
рус. культуры", 1999. – 345 с.
50.Мельчук, И.А., Иорданская, Л.Н. Смысл и сочетаемость в словаре. –
М., 2007.
51.Панченко, А. RUSSE: семинар по оценке семантической близости для
русского языка. / Панченко, А., Лукашевич Н.В., Усталов Д., Паперно
Д., Мейер К.М., Константинова Н. // Компьютерная лингвистика и
интеллектуальные технологии: По материалам ежегодной
Международной конференции Диалог (Москва, 27 - 30 мая 2015 г.).
Вып. 14 (21). – М.: Изд-во РГГУ, 2015. – C. 89
52.Телия, В. Н. Русская фразеология: Семантический, прагматический и
лингвокультурологический аспекты. – М., 1996.
53.Телия, В.Н., Типы языковых значений : Связан. значение слова в яз. – М
: Наука, 1981. – 269 с.
54.
Шанский, Н.М. Фразеология современного русского языка /
Н. М. Шанский. – 3-е изд., испр. и доп. – М., 1985. – 160 с.
55.Янус, Э. Пять польских словарных статей // Научно-техническая
информация, Серия 2, N 11. С. 21-24.
56.Altenberg, B. On the phraseology of spoken English: the evidence of recurrent word-combinations. // A. P. Cowie (ред.), Phraseology: theory, analysis
and applications (pp. 101-122). – Oxford: Oxford University Press, 1998.
57.Amsler, R.A. Computational lexicology: a research program // Proceedings
of the June 7-10, 1982, national computer conference, 657-63. – ACM,
1982.
58.Antonova, A., Misyurev, A. Automatic Creation of Human-Oriented Translation Dictionaries // Computational Linguistics and Intellectual Technologies:
Proceedings of the International Conference “Dialog 2014” [Komp’yuternaya Lingvistika I Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy
Konferentsii “Dialog 2014”]. – М., 2014.
59.Antonova, A., Misyurev, A. Russian dependency parser SyntAutom at the
DIALOGUE-2012 parser evaluation task // Computational Linguistics and
Intellectual Technologies: Proceedings of the International Conference “Dialog 2012” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii:
Trudy Mezhdunarodnoy Konferentsii “Dialog 2012”]. – М., 2012.
60.Antonova, A. The influence of different data sources on finding and ranking
synonyms for a large-scale vocabulary / Antonova, A., Kobernik, T.,
Misyurev, A. // Computational Linguistics and Intellectual Technologies:
Proceedings of the International Conference “Dialog 2016” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy
Konferentsii “Dialog 2016”]. – М., 2016. [в печати]
61.Atkins, S. Theoretical Lexicography and its relation to Dictionarymaking”. // Dictionaries: the Journal of the Dictionary Society of North
Americaю – DSNA, Cleveland Ohio, 1993. С. 4-43.
62.Atkins, S., Rundell M. The Oxford Guide to Practical Lexicography. – Oxford University Press, 2008.
63.Bai M. DOMCAT: a bilingual concordancer for domain-specific computer
assisted translation / Bai, M., Hsieh Y., Chen K., Chang J.S. // Proceedings
of the ACL 2012 System Demonstrations, 55–60. – Association for Computational Linguistics, 2012.
64.Bally Ch. Traité de stylistique française. – Paris, 1951.
65.Bansal M. Unsupervised translation sense clustering / Bansal, M., DeNero
J., Lin D. // Proceedings of the 2012 Conference of the North American
Chapter of the Association for Computational Linguistics: Human Language
Technologies, 773–82. – Association for Computational Linguistics, 2012.
66.Barlow, M. Parallel Concordancing and Translation // Translating and the
Computer, 2004.
67.Baroni M. Frege in space: A program of compositional distributional semantics. / Baroni, M., Bernardi, R., Zamparelli, R. // Linguistic Issues in Language Technology 9, 2014.
68.Bouamor Dh. Building Specialized Bilingual Lexicons Using Word Sense
Disambiguation / Bouamor, D., N. Semmar, P. Zweigenbaum. // – IJCNLP,
2013. С. 952–956.
69.Breiman L. Random Forests. // Machine Learning 45 (1): 5–32. 2001.
70.Brown P.F. The mathematics of statistical machine translation: Parameter estimation / Brown P.F., Della Pietra V., Della Pietra S., Mercer R. // Computational linguistics 19/ 2 (1993). – C. 263–311.
71.Butina-Koller E. Kollokationen im zweisprachigen Wörterbuch. Zur Behandlung lexikalischer Kollokationen in allgemeinsprachlichen Wörterbüchern des Sprachenpaares Französisch/Russisch. Lexicographica. Series Maior
124. – De Gruyter, 2005
72.Chatterjee D. Co-occurrence graph based iterative bilingual lexicon extraction from comparable corpora / Chatterjee D., Sarkar S., Mishra A. // Proceedings of the 4th Workshop on Cross Lingual Information Access, COLING 2010 workshop, 2010. С. 25-42.
73.Chen S.F., Goodman J. An Empirical Study of Smoothing Techniques for
Language Modeling // Technical Report TR-10-98, Computer Science
Group, Harvard University, 1998.
74.Church, K. W., Hanks P. Word association norms, mutual information, and
lexicography. // Computational linguistics. V.16, No. 1 (1990). С. 22–29.
75.Collocations, corpus, dictionnaires / P. Blumenthal, F.J. Hausmann. - Paris :
Larousse, 2006. – 128 с.
76.Cowie A.P. The Oxford History of English Lexicography. – Oxford: Clarendon Press, 2009.
77.Dunning, T. Accurate methods for the statistics of surprise and coincidence.
Computational Linguistics, 19(1). – MIT Press, 1999. С. 61–74
78.Evert, S. The Statistics of Word Cooccurences Word Pairs and Collocations.
PhD thesis. – Institut für Maschinelle Sprachverarbeitung (IMS), Universität
Stuttgart: 2004.
79.Firth, J. R. The Technique of Semantics. – Transactions of the Philological
Society, 1935. С. 36-72.
80.Firth, J.R. Modes of Meanings. Reprinted in Papers in Linguistics 19341951. – London: Oxford University Press, 1957. С. 190-215.
81.Fišer, D., Ljubešic, N. Bilingual lexicon extraction from comparable corpora
for closely related languages // Proceedings of the International Conference
on Recent Advances in Natural Language Processing (RANLP’11), 2011. С.
125–31.
82.Fung, P. A statistical view on bilingual lexicon extraction // Parallel Text
Processing. – Springer, 2000. C. 219-236.
83.Grundfragen der elektronischen Lexikographie : elexico - das Online-Informationssystem zum deutschen Wortschatz / Сост. Ulrike Haβ. – Berlin ;
New York : de Gruyter, cop. 2005. – 334 c. – (Schriften des Instituts für
deutsche Sprache ; Bd. 12).
84.Halliday, M.A.K. Lexis as a linguistic level // In Memory of J.R. Firth. –
London: Longman, 1966. C. 150-61.
85.Hanks, P. Definitions and Explanations // Looking Up – An account of the
Cobuild project in lexical computing. – London: William Collins Sons &
Co. Ltd., 1987.
86.Hanks, P. How people use words to make meanings: Semantic types meet
valencies // Input, Process and Product: Developments in Teaching and Language Corpora, 2012. C. 54–69.
87.Hausmann, F.J. Un dictionnaire des collocations est-il possible? // Travaux
de linguistique et de litterature 17/1. 1979. C. 187-195.
88.Hazem, A., Morin, E. Adaptive Dictionary for Bilingual Lexicon Extraction
from Comparable Corpora // LREC, 2012. С. 288–92.
89.
Herbst, Th. A Valency Dictionary of English: A Corpus-based Analysis
of the Complementation Patterns of English Verbs, Nouns, and Adjectives //
Topics in English linguistics (V. 40), 2004.
90.Herbst, Th. What are collocations: Sandy Beaches or False Teeth? // English
Studies V.4, 1996. C. 379-93.
91.Herbst, Th. Why Construction Grammar Catches the Worm and Corpus Data
can Drive you Crazy: Accounting for Idiomatic and Non-Idiomatic Idiomaticity // Journal of Social Sciences 11, V. 3, 2015. C. 91–110.
92.Hjelm, H. Using a Third Language to Improve Extraction of Bilingual Term
Correspondences. Term Paper, 2006.
93.Hornby, A.S. Idiomatic and syntactic English dictionary. – Tokyo, Institute
for Research in Language Teaching, 1942.
94.Huck, M. Lexicon models for hierarchical phrase-based machine
translation / Huck, M., Mansour S., Wiesler S., Ney H. // IWSLT, 2011. С.
191–98.
95.Ismail, A., Manandhar S. Bilingual lexicon extraction from comparable corpora using in-domain terms // Proceedings of the 23rd International Conference on Computational Linguistics: Posters. –Association for Computational
Linguistics, 2010. С. 481–89.
96.Jian, J. TANGO: Bilingual collocational concordancer / Jian, J., Chang Y.,
Chang J.S. // Proceedings of the ACL 2004 on Interactive poster and demonstration sessions, 19. – Association for Computational Linguistics, 2004.
97.Kilgariff, A. GDEX: Automatically finding good dictionary examples in a
corpus / Kilgariff A., Rychlý, P, Husák M., Rundell, M., Mcadam K. // Proceedings of the XIII EURALEX International Congress. 1. – Barcelona:
Institut Universitari de Lingüística Aplicada, 2008. С. 425-432.
98.Kilgarriff A. Collocationality (and how to measure it) // Proceedings of the
Euralex International Congress. – Torino, 2006.
99.Kilgarriff, A. Using corpora as data source for dictionaries. The Bloomsbury
Companion to Lexicography. – London: Bloomsbury, 2013. С. 77–96.
100.
Kitamura, M., Matsumoto Y. Automatic extraction of word sequence
correspondences in parallel corpora // Proceedings of the 4th Workshop on
Very Large Corpora, 1996. С. 79–87.
101.
Kjaersgaard, P. S. RefTex – a context-based translation aid // Third
conference of the European Chapter of the Association for Computational
Linguistics: Proceedings of the conference. – Copenhagen, 1987.
102.
Koehn, P. Statistical Machine Translation. – Cambrige University
Press, 2010.
103.
Kučera H. , Francis, W. N. Manual of Information to accompany A
Standard Corpus of Present-Day Edited American English, for use with Digital Computers. – Providence, Rhode Island: Department of Linguistics,
Brown University, 1964.
104.
Langlois, L. Bilingual concordancers: a new tool for bilingual lexicographers // Expanding MT horizons: Proceedings of the Second Conference
of the Association for Machine Translation in the Americas. – Montreal,
Quebec, Canada, 1996.
105.
Laws, F. A Linguistically Grounded Graph Model for Bilingual Lexicon Extraction. / Laws F., Heid U., Michelbacher L., Christian Scheible,
Beate Dorow, и Hinrich Sch¨utze. // Coling Poster Session. – COLING,
2010.
106.
Li, L. Cyberdictionaries // English Today. V. 14/2. – Cambrige
University Press, 1998.
107.
Liu, Z. Two-word collocation extraction using monolingual word
alignment method / Liu Z., Wang H., Wu H., Li Sh. // ACM Transactions on
Intelligent Systems and Technology (TIST) 3/1. – ACM, 2011. C. 16.
108.
Luo J., Lepage Y. Extraction of Potentially Useful Phrase Pairs for
Statistical Machine Translation // Journal of Information Processing. V. 23,
N. 3, 2015.
109.
Melamed, I. D. Automatic construction of clean broad-coverage translation lexicons. 1996.
110.
Mickievicz, A. Computational Lexicography of Multi-Word Units:
How Efficient Can It Be? / Mickiewicz, A., Savary, A., Czerepowicka, M. ,
Makowiecki F. // 23rd International Conference on Computational Linguistics, 2. – ACL, 2010.
111.
Mikolov, T. Efficient Estimation of Word Representations in Vector
Space / Mikolov T., Chen K., Corrado G., Dean J. // Proceedings of
Workshop at ICLR, 2013. (Mikolov 2013a)
112.
Mikolov, T. Linguistic Regularities in Continuous Space Word Representations / Mikolov T., Yih W., Zweig G. // Proceedings of NAACL HLT,
2013. (Mikolov 2013b).
113.
Mittman, B. Pragmatik und Wörterbücher: Präfabrizierte Einheiten der
gesprochenen Sprache. // Th. Herbst, G. Lorenz, B. Mittmann, M. Schnell
(ред.): Lexikografie, ihre Basis- und Nachbarwissenschaften. (Englische)
Wörterbücher zwischen 'common sense' und angewandter Theorie (= Lexicographica. Series Maior 118). – Tübingen: Niemeyer, 2004. C. 137-148.
114.
Morin, E., Prochasson E. Bilingual lexicon extraction from comparable corpora enhanced with parallel corpora // Proceedings of the 4th workshop on building and using comparable corpora: comparable corpora and the
web. – Association for Computational Linguistics, 2011. С. 27–34.
115.
Och F.J., Ney H. Improved Statistical Alignment Models // Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. – ACL, 2000. C. 440-447.
116.
Och, F. J., Ney, H. A Systematic Comparison of Various Statistical
Alignment Models // Computational linguistics 29 (1), 2003. C. 19-51.
117.
P5: Guidelines for Electronic Text Encoding and Interchange. Chapter
9 . D i c t i o n a r i e s . U R L : http://www.tei-c.org/release/doc/tei-p5doc/en/html/DI.html (дата обращения 18.05.2016)
118.
Palmer, H. E. Second Interim Report on English Collocations. –
Tokyo: Institute for Research in English Teaching, 1933.
119.
Panicheva, P. Evaluating Distributional Semantic Models with Russian Noun-Adjective Compositions / Panicheva P., Bukiya G., Protopopova
E., Mitrofanova O. // Analysis of Images, Social Networks and Texts: 5th
International Conference, AIST 2016. – Yekaterinburg, Russia, 2016, Revised Selected Papers. [в печати]
120.
Polguere A., Kahane S. Formal foundation of lexical functions. В Proceedings of ACL/EACL 2001 Workshop on Collocation, 8–15, 2001.
121.
Polguère, A. Towards a theoretically-motivated general public dictionary of semantic derivations and collocations for French // Proceedings of
the Ninth EURALEX International Congress, EURALEX 2000. – Stuttgart,
Germany, August 8th-12th, 2000. C. 517–27.
122.
Protopopova, E. Acquiring relevant context examples for a translation
dictionary / Protopopova, E., Antonova, A., Misyurev, A. // Computational
Linguistics and Intellectual Technologies: Proceedings of the International
Conference “Dialog 2015” [Komp’yuternaya Lingvistika i Intellektual’nye
Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2015”]. – М.,
2015.
123.
Rees, N. W., J. D. Riding. Automatic Concordance Creation for Texts
in Any Language // Proceedings of Translating and the Computer. 2009.
124.
Sadat, F. A combination of models for bilingual lexicon extraction
from comparable corpora / Sadat, F., Dejean H., Gaussier E. // Proceedings
of the Séminaire Papillon 2002, 2002.
125.
Sinclair, J. Beginning the study of lexis // In memory of J.R. Firth. –
London: Longman, 1966. С. 410-430.
126.
Soderland, St. Compiling a massive, multilingual dictionary via probabilistic inference / Soderland, St., Etzioni O., Weld D., Skinner M., Bilmes
J. // Proceedings of the Joint Conference of the 47th Annual Meeting of the
ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1. – Association for Computational Linguistics, 2009. C. 262–70.
127.
Stolcke, A. SRILM – An Extensible Language Modeling Toolkit.
Proc. Intl. Conf. on Spoken Language Processing, vol. 2. – Denver, 2002. C.
901-904
128.
Storjohann, P., Mohrs, Ch. Das elexiko-Wörterbuch im Wandel - Typische Verwendungen neu beleuchtet // Sprachreport 23.– Mannheim, 2007.
C. 12-16
129.
Tamura, A. Bilingual lexicon extraction from comparable corpora using label propagation / Tamura A, Watanabe T., Sumita E. // Proceedings of
the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. – Association for
Computational Linguistics, 2012. C. 24–36.
130.
Tomaszczyk, J. The bilingual dictionary under review // Zurilex’86
Proceedings: Papers Read at the Euralex International Congress. – University of Zurich, 1986. C. 289–97.
131.
Tsunakawa, T. Building a Bilingual Lexicon Using Phrase-based Statistical Machine Translation via a Pivot Language / Tsunakawa T., Okazaki
N., и Tsujii T. // COLING (Posters), 2008. C. 127–30.
132.
Turcato, D. Automatically creating bilingual lexicons for machine
translation from bilingual text // Proceedings of the 17th international conference on Computational linguistics-Volume 2. – Association for Computational Linguistics, 1998. C. 1299–1306.
133.
Tyers, F. M., Pienaar J.A. Extracting bilingual word pairs from
Wikipedia // Collaboration: interoperability between people in the creation
of language resources for less-resourced languages 19, 2008. C. 19–22.
134.
Uszkoreit, J. Large scale parallel document mining for machine translation / Uszkoreit J., Ponte J.M., Popat A.C., Dubiner M. // Proceedings of
the 23rd International Conference on Computational Linguistics. – Association for Computational Linguistics, 2010. C. 1101–9.
135.
Wang, M. A critical evaluation of bilingual Chinese/English dictionaries for elementary and intermediate Mandarin learners at Stellenbosch University. – University of Stellenbosch, 2012.
136.
Wu, J.-C. TOTALrecall: A bilingual concordance for computer assisted translation and language learning / Wu J.-C., Yeh K.C., Chuang T.C.,
Shei W.-Ch., Chang J.S. // Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 2. – Association for Computational Linguistics, 2003. C. 201–4.
137.
Yamamoto, K., Matsumoto, Y. Acquisition of phrase-level bilingual
correspondence using dependency structure // Proceedings of the 18th conference on Computational linguistics-Volume 2. – Association for Computational Linguistics, 2000. C. 933–39.
138.
Yu, K., Tsujii J. Extracting bilingual dictionary from comparable corpora with dependency heterogeneity // Proceedings of Human Language
Technologies: The 2009 Annual Conference of the North American Chapter
of the Association for Computational Linguistics, Companion Volume: Short
Papers. – Association for Computational Linguistics, 2009. C. 121–24.
Приложение А.
Сравнение и оценка ранжирования иллюстрирующих
контекстов с помощью разных методов
Ранжирование контекстов на основе меры MI
ключ en
area
area
balance
balance
balance
balance
balance
balance
ключ ru
зона
местность
балансирование
балансировать
балансировка
балансовый
вес
весы
пример en
dining <area>
mountainous <area>
пример ru
обеденная <зона>
гористая <местность>
оценка
1
1
<balance>d market
балансирующий рынок
1
<balance> sheet value
балансовая стоимость
1
false <balance>
1
balance
balance
balance
остаток
противовес
равновесие
unspent <balance>
неверные <весы>
неизрасходованный
<остаток>
1
balance
capacity
сбалансировать
качество
well <balance>d diet
in various capacities
capacity
мощность
nominal <capacity>
capacity
care
потенциал
беречь
statistical <capacity>
building
<care> of Russia
care
care
care
care
внимательность
волновать
забота
заботить
prenatal <care>
душевное <равновесие>
хорошо сбалансированная
диета
в различном качестве
номинальная
<мощность>
наращивание
статистического
<потенциал>а
<беречь> Россию
пренатальная
<внимательность>
fatherly <care>
отеческая <забота>
0
care
заботиться
really <care>
care
care
care
carrier
carrier
осторожность
плевать
позаботиться
переносчик
теплоноситель
utmost <care>
действительно
<заботиться>
предельная
<осторожность>
take <care>
<позаботиться> о том
carrier
транспортер
character
признак
character
community
символ
общество
caterpillar <carrier>
morphological
<character>s
unprintable
<character>s
civil <community>
emotional <balance>
гусеничный
<транспортер>
морфологические
<признак>и
непечатные <символ>ы
гражданское <общество>
1
1
1
1
0
0
0
1
1
1
0
1
1
concert
concert
выступление
концертировать
solo <concert>
<concert> pianist
concert
containment
control
control
концертный
удержание
борьба
диспетчерский
контролировани
е
chamber <concert> hall
<containment> systems
pest <control>
<control> tower
сольное <выступление>
концертирующий пианист
камерный <концертный>
зал
система удержания
<борьба> с вредителями
диспетчерская вышка
remotely <control>
fire <control>
audit <control>
дистанционно
<контролировать>
пожарный <надзор>
аудиторская <проверка>
1
1
1
control
контролировать
надзор
проверка
проконтролиров
ать
control
control
регулирование
регулировать
infinitely variable
<control>
бесступенчатое
<регулирование>
1
control
detention
регулировка
лишение
automatic volume
<control>
arbitrary <detention>
detention
eventually
eventually
eventually
eventually
eventually
feast
feast
feast
feast
feast
feast
feast
guy
guy
guy
guy
guy
guy
guy
guy
содержание
впоследствии
наконец
окончательн
окончательно
с
банкет
застолье
пир
пировать
пиршество
празднество
праздник
мужчина
паренек
парень
парнишка
пацан
тип
человек
чувак
<detention> on remand
<eventually> become
автоматическая
<регулировка> громкости
произвольное <лишение>
<содержание> под
стражей
<впоследствии> стать
<eventually> come
<окончательно> прийти
0
celebratory <feast>
wedding <feast>
праздничное <застолье>
брачный <пир>
1
1
wedding <feast>
свадебное <пиршество>
1
<feast> of tabernacles
<праздник> кущей
0
skinny <guy>
тощий <парень>
1
type of <guy>
young <guy>
<тип> ванты
молодой <человек>
0
1
history
history
however
however
however
however
however
improve
improve
краеведческий
хронология
вместе
же
ни
но
однако
повысить
повыситься
regional <history>
museum
file <history>
<краеведческий> музей
<хронология> файлов
0
1
<however> strange
<ни> странно
0
dramatically <improve>
существенно <повысить>
1
control
control
control
control
1
1
1
0
1
1
1
1
1
1
improve
improve
повышать
улучшаться
greatly <improve>
continually <improve>
improve
industry
industry
улучшиться
сфера
хозяйство
insurance
insurance
integration
integration
integration
страхование
страхсбор
включение
внедрение
встраивание
significantly <improve>
banking <industry>
agricultural <industry>
compulsory pension
<insurance>
pet <insurance>
possible <integration>
easy <integration>
European <integration>
process
integration
интеграционный
integration
less
less
less
интеграция
низко
поменьше
редко
manufacturer
manufacturer
промышленник
товаропроизводи
тель
manufacturer
фабрикант
mode
mode
mode
mode
вид
время
метод
мода
textile <manufacturer>
different transport
<mode>s
real time <mode>
safe <mode>
waveguide <mode>s
mode
способ
capitalist <mode>
report
донесение
intelligence <report>
report
заключение
auditor's <report>
report
report
отчет
рапортовать
stenographic <report>
Eurasian economic
<integration>
association of
<manufacturer>s
domestic
<manufacturer>
значительно <повышать>
постоянно <улучшаться>
существенно
<улучшиться>
банковская <сфера>
сельское <хозяйство>
обязательное пенсионное
<страхование>
<страхсбор> любимчика
возможное <включение>
легкое <внедрение>
европейский
<интеграционный>
процесс
Евразийская
экономическая
<интеграция>
ассоциация
<промышленник>ов
отечественный
<товаропроизводитель>
текстильный
<фабрикант>
различные <вид>ы
транспорта
режим реального времени
невредимый <метод>
волноводные моды
капиталистический
<способ>
разведывательное
<донесение>
аудиторское
<заключение>
стенографический
<отчет>
report
репортаж
televised <report>s
report
сводка
meteorological <report>
report
сообщать
promptly <report>
report
save
sitting
sitting
сообщение
экономия
сидячий
усаживание
unconfirmed <report>s
toner <save> mode
<sitting> meditation
телевизионные
<репортаж>и
метеорологическая
<сводка>
незамедлительно
<сообщать>
неподтвержденные
сообщения
режим экономии тонера
сидячая медитация
size
величина
maximal <size>
максимальная
<величина>
1
1
1
1
1
1
0
0
0
1
1
1
1
0
1
1
0
0
0
1
1
1
1
1
1
1
0
1
1
size
size
size
size
size
size
size
габарит
крупность
масштаб
объем
площадь
размерный
типоразмер
small <size>
малые <габарит>ы
1
total <size>
actual <size>
<size> range
frame <size>
1
1
1
1
size
small
small
формат
малогабаритный
маломерный
small
малочисленный
custom <size> paper
<small> apartment
<small> vessels
numerically <small>
peoples
суммарный <объем>
реальная <площадь>
<размерный> ряд
<типоразмер> корпуса
бумага нестандартного
<формат>а
малогабаритная квартира
маломерных судов
small
малый
sole
sure
sure
sure
sure
sure
threaten
together
together
too
too
too
too
единственный
точно
убедиться
уверенн
уверенный
удостовериться
грозить
воедино
сочетание
излишне
очень
чересчур
чрезмерно
too
wheat
wheat
чрезмерный
пшеница
пшеничный
<too> much alcohol
<wheat> bran
<wheat> bran
wireless
беспроводный
<wireless> LAN
1
0
0
малочисленные народы
микроскопически
microscopically <small> <малый>
единственное право
<sole> proprietorship
собственности
know for <sure>
<точно> знать
always make <sure>
всегда <убедиться>
1
not quite <sure>
не совсем <уверенный>
1
<too> bad
<too> risky
<too> high
<очень> жаль
<чересчур> рискованный
<чрезмерно> высокий
чрезмерное употребление
алкоголя
отруби пшеницы
пшеничные отруби
беспроводная локальная
сеть
0
1
1
1
1
1
0
0
1
1
1
Ранжирование контекстов на основе частоты перевода
ключ en
area
area
ключ ru
зона
местность
пример en
dining <area>
rural <area>
balance
balance
balance
balance
balance
balance
балансирование
балансировать
балансировка
балансовый
вес
весы
careful <balance>
<balanced> market
load <balance>
<balance> sheet
<balance> law
analytical <balance>
balance
остаток
unspent <balance>
balance
противовес
additional <balances>
balance
равновесие
ecological <balance>
пример ru
обеденная <зона>
сельская <местность>
тщательное
<балансирование>
<балансирующий> рынок
<балансировка> нагрузки
<балансовая> ведомость
закон <весов>
аналитические <весы>
неизрасходованный
<остаток>
дополнительные
<противовесы>
экологическое
<равновесие>
оценка
1
1
0
1
1
1
1
1
1
0
1
balance
capacity
сбалансировать
качество
<balanced> approach
business <capacity>
capacity
мощность
production <capacity>
capacity
care
потенциал
беречь
national <capacity>
<care> cartridges
care
care
care
care
внимательность
волновать
забота
заботить
dental <care>
really <care>
special <care>
<care> more
care
care
care
care
carrier
заботиться
осторожность
плевать
позаботиться
переносчик
really <care>
great <care>
<care> deeply
best <care>
oxygen <carrier>
carrier
теплоноситель
<carrier> temperature
carrier
character
character
community
concert
транспортер
признак
символ
общество
выступление
horizontal <carrier>
sexual <character>
special <character>
local <community>
live <concert>
concert
concert
containment
control
control
<concert> organist
<concert> hall
<containment> systems
biological <control>
<control> center
control
концертировать
концертный
удержание
борьба
диспетчерский
контролировани
е
control
контролировать
<controlled> substance
control
control
state <control>
internal <control>
control
control
control
надзор
проверка
проконтролиров
ать
регулирование
регулировать
control
detention
detention
eventually
eventually
eventually
eventually
eventually
feast
регулировка
лишение
содержание
впоследствии
наконец
окончательн
окончательно
с
банкет
automatic <control>
unlawful <detention>
<detention> conditions
<eventually> become
lessen <eventually>
<eventually> lead
<eventually> become
<eventually> defeat
wedding <feast>
<control> costs
<control> flood
<control> measure
<controlled> substance
<сбалансированный>
подход
деловые <качества>
производственная
<мощность>
национальный
<потенциал>
<беречь> патроны
зубоврачебная
<внимательность>
особо <волновать>
особая <забота>
<заботить> больше
действительно
<заботиться>
большая <осторожность>
глубоко <плевать>
лучше <позаботиться>
<переносчик> кислорода
температура
<теплоносителя>
горизонтальный
<транспортер>
половой <признак>
специальный <символ>
местное <общество>
живое <выступление>
<концертирующий>
органист
<концертный> зал
система <удержания>
биологическая <борьба>
<диспетчерский> центр
<контролирование>
расходов
<контролируемое>
вещество
государственный
<надзор>
внутренние <проверки>
<проконтролировать>
поток
мера <регулирования>
<регулируемое> вещество
автоматическая
<регулировка>
незаконное <лишение>
условия <содержания>
<впоследствии> стать
уменьшать <наконец>
<окончательн> вести
<окончательно> стать
<со> счетом
свадебный <банкет>
0
1
1
0
0
0
1
1
0
1
1
0
0
1
0
0
0
1
1
1
1
1
0
0
1
0
0
1
1
0
1
0
1
0
1
0
0
0
0
0
1
feast
feast
feast
feast
feast
feast
guy
guy
guy
guy
guy
guy
guy
guy
history
history
however
however
however
however
however
improve
застолье
пир
пировать
пиршество
празднество
праздник
мужчина
паренек
парень
парнишка
пацан
тип
человек
чувак
краеведческий
хронология
вместе
же
ни
но
однако
повысить
georgian <feast>
wedding <feast>
<feast> together
great <feast>
winter <feast>
great <feast>
white <guy>
poor <guy>
bad <guy>
little <guy>
normal <guy>
bald <guy>
young <guy>
cool <guy>
<history> museum
job <history>
<however> great
<however> cold
<however> strange
<however> sooner
<however> much
significantly <improve>
improve
improve
повыситься
повышать
<improved> capacity
significantly <improve>
improve
улучшаться
gradually <improve>
improve
industry
industry
улучшиться
сфера
хозяйство
<improve> significantly
banking <industry>
fish <industry>
insurance
страхование
health <insurance>
insurance
integration
integration
integration
страхсбор
включение
внедрение
встраивание
auto <insurance>
possible <integration>
system <integration>
perfect <integration>
integration
интеграционный
<integration> process
integration
less
less
less
интеграция
низко
поменьше
редко
european <integration>
be <less>
<less> nervous
meet <less>
manufacturer
manufacturer
промышленник
товаропроизводи
тель
russian <manufacturer>
domestic
<manufacturer>
manufacturer
mode
mode
фабрикант
вид
время
textile <manufacturer>
different <modes>
animation <mode>
грузинское <застолье>
свадебный <пир>
<пировать> вместе
большое <пиршество>
зимние <празднества>
великий <праздник>
белый <мужчина>
бедный <паренек>
плохой <парень>
маленький <парнишка>
нормальный <пацан>
лысый <тип>
молодой <человек>
крутой <чувак>
<краеведческий> музей
<хронология> задания
<вместе> великий
<же> холод
<ни> странно
<но> рано
<однако> много
значительно <повысить>
<повысившийся>
потенциал
значительно <повышать>
постепенно
<улучшаться>
значительно
<улучшиться>
банковская <сфера>
рыбное <хозяйство>
медицинское
<страхование>
автоматический
<страхсбор>
возможное <включение>
<внедрение> системы
идеальное <встраивание>
<интеграционный>
процесс
европейская
<интеграция>
быть <ниже>
<поменьше> нервничать
встречаться <реже>
российский
<промышленник>
отечественный
<товаропроизводитель>
текстильный
<фабрикант>
различные <виды>
шкала <времени>
0
1
0
1
1
1
0
1
1
0
0
1
1
1
0
1
0
0
0
0
0
1
0
1
1
1
1
0
1
0
0
0
0
1
1
1
0
0
0
1
0
1
0
mode
mode
метод
мода
safe <mode>
wave <mode>
mode
способ
capitalist <mode>
report
донесение
intelligence <report>
report
report
report
report
report
report
заключение
отчет
рапортовать
репортаж
сводка
сообщать
medical <report>
annual <report>
regular <reports>
special <report>
weather <report>
also <report>
report
save
sitting
sitting
size
size
size
size
size
size
size
сообщение
экономия
сидячий
усаживание
величина
габарит
крупность
масштаб
объем
площадь
размерный
official <report>
<save> time
<sitting> position
<sitting> area
average <size>
small <size>
boundary <size>
small <size>
total <size>
total <size>
<size> range
size
size
типоразмер
формат
different <sizes>
different <sizes>
small
small
small
small
sole
sure
sure
sure
sure
малогабаритный
маломерный
малочисленный
малый
единственный
точно
убедиться
уверенн
уверенный
<small> apartment
<small> vessels
<small> people
<small> business
<sole> purpose
entirely <sure>
make <sure>
<sure> pakistan
absolutely <sure>
sure
threaten
together
together
too
too
too
too
too
wheat
wheat
wireless
удостовериться
грозить
воедино
сочетание
излишне
очень
чересчур
чрезмерно
чрезмерный
пшеница
пшеничный
беспроводный
make <sure>
<threaten> latvia
bring <together>
bad <together>
<too> long
<too> often
be <too>
<too> high
<too> busy
winter <wheat>
<wheat> flour
<wireless> network
невредимый <метод>
волновая <мода>
капиталистический
<способ>
разведывательное
<донесение>
медицинское
<заключение>
годовой <отчет>
периодически <рапортуя>
специальный <репортаж>
<сводка> погоды
также <сообщать>
официальное
<сообщение>
<экономия> времени
<сидячее> положение
зона <усаживания>
средняя <величина>
малый <габарит>
граничная <крупность>
малый <масштаб>
общий <объем>
общая <площадь>
<размерный> ряд
различных
<типоразмеров>
различных <форматов>
<малогабаритная>
квартира
<маломерных> судов
<малочисленный> народ
<малый> бизнес
<единственная> цель
сказать <точно>
сначала <убедиться>
<уверенн> пакистан
абсолютно <уверенный>
окончательно
<удостовериться>
<грозить> латвии
свести <воедино>
неплохое <сочетание>
<излишне> длинный
<очень> часто
быть <чересчур>
<чрезмерно> высокий
<чрезмерная> занятость
озимая <пшеница>
<пшеничная> мука
<беспроводная> сеть
0
0
0
1
1
1
0
1
1
0
1
0
1
0
0
1
0
1
1
1
1
0
0
0
0
0
1
1
0
0
0
1
0
0
1
0
1
1
0
1
0
1
1
1
Ранжирование R F 1
ключ en
area
area
ключ ru
зона
местность
пример en
priority <area>
vast <area>
balance
балансирование
constant <balance>
balance
балансировать
<balanced> document
balance
balance
balance
balance
balance
балансировка
балансовый
вес
весы
остаток
exceptional <balance>
<balance> part
<balance> interface
family <balance>
life <balance>
balance
противовес
application <balances>
balance
равновесие
optimal <balance>
balance
capacity
capacity
capacity
care
сбалансировать
качество
мощность
потенциал
беречь
<balanced> approach
structural <capacity>
total <capacity>
total <capacity>
<care> sister
care
care
care
care
care
внимательность
волновать
забота
заботить
заботиться
palliative <care>
really <care>
loving <care>
<care> more
daily <care>
care
care
осторожность
плевать
maximum <care>
even <care>
care
позаботиться
daily <care>
carrier
переносчик
information <carrier>
carrier
теплоноситель
transportation <carrier>
carrier
character
character
транспортер
признак
символ
community
concert
общество
выступление
tracked <carrier>
main <character>
control <character>
international
<community>
live <concert>
concert
концертировать
<concerts> russia
concert
containment
control
control
концертный
удержание
борьба
диспетчерский
<concert> organization
<containment> systems
<control> programme
<control> panel
пример ru
приоритетная <зона>
обширная <местность>
постоянное
<балансирование>
<балансирующий>
документ
исключительная
<балансировка>
<балансовая> часть
интерфейс <весов>
семейные <весы>
<остаток> жизни
применение
<противовесов>
оптимальное
<равновесие>
<сбалансированный>
подход
структурные <качества>
общая <мощность>
общий <потенциал>
<беречь> сестру
паллиативная
<внимательность>
особо <волновать>
любящая <забота>
<заботить> больше
ежедневно <заботиться>
максимальная
<осторожность>
вообще <плевать>
<позаботиться>
ежедневно
информационный
<переносчик>
транспортировка
<теплоносителя>
гусеничный
<транспортер>
главный <признак>
управляющий <символ>
международное
<общество>
живое <выступление>
<концертировать>
россией
<концертная>
организация
система <удержания>
программа <борьбы>
<диспетчерский> пульт
оценка
0
1
0
0
0
1
0
0
0
0
1
0
0
1
1
0
0
1
0
0
0
0
0
0
0
0
1
0
1
1
1
0
1
0
1
1
control
control
control
control
контролировани
е
<control> costs
<control> system
police <control>
<control> system
control
control
control
control
detention
detention
eventually
eventually
eventually
eventually
eventually
feast
feast
feast
feast
feast
feast
feast
guy
guy
guy
guy
guy
guy
guy
guy
history
history
however
however
however
however
however
improve
improve
improve
improve
контролировать
надзор
проверка
проконтролиров
ать
регулирование
регулировать
регулировка
лишение
содержание
впоследствии
наконец
окончательн
окончательно
с
банкет
застолье
пир
пировать
пиршество
празднество
праздник
мужчина
паренек
парень
парнишка
пацан
тип
человек
чувак
краеведческий
хронология
вместе
же
ни
но
однако
повысить
повыситься
повышать
улучшаться
improve
industry
industry
insurance
insurance
улучшиться
сфера
хозяйство
страхование
страхсбор
integration
включение
significantly <improve>
construction <industry>
agricultural <industry>
<insurance> policy
<insurance> policy
psychological
<integration>
<control> situation
<control> system
<control> system
<control> system
illegal <detention>
illegal <detention>
<eventually> reach
<eventually> see
<eventually> lead
work <eventually>
<eventually> defeat
greatest <feast>
family <feast>
mental <feast>
<feast> forever
family <feast>
big <feast>
favorite <feast>
big <guy>
young <guy>
big <guy>
small <guy>
solid <guys>
big <guy>
big <guy>
arab <guy>
<history> museum
<history> data
<however> great
<however> possible
<however> far
<however> sooner
<however> own
significantly <improve>
<improved> demand
significantly <improve>
continuously <improve>
<контролирование>
расходов
<контролирующая>
система
полицейский <надзор>
система <проверки>
<проконтролировать>
ситуацию
система <регулирования>
<регулирующая> система
система <регулировки>
незаконное <лишение>
незаконное <содержание>
<впоследствии> достичь
увидеть <наконец>
<окончательн> вести
работать <окончательно>
<со> счетом
большой <банкет>
семейное <застолье>
<пир> разума
<пировать> вечно
<пиршество> семьи
большое <празднество>
любимый <праздник>
крупный <мужчина>
молодой <паренек>
здоровенный <парень>
маленький <парнишка>
солидные <пацаны>
важный <тип>
большой <человек>
арабский <чувак>
<краеведческий> музей
данные <хронологии>
<вместе> великий
<же> способы
<ни> далеко
<но> рано
<однако> иметь
значительно <повысить>
<повысившийся> спрос
значительно <повышать>
постоянно <улучшаться>
значительно
<улучшиться>
строительная <сфера>
сельское <хозяйство>
политика <страхования>
<страхсбор> политика
психологическое
<включение>
0
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
1
0
0
1
1
1
1
1
1
1
0
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
integration
integration
внедрение
встраивание
integration
интеграционный
numerical <integration>
russian <integration>
<integration>
organization
integration
less
less
less
интеграция
низко
поменьше
редко
economic <integration>
buy <less>
pay <less>
pay <less>
manufacturer
manufacturer
manufacturer
mode
mode
промышленник
товаропроизводи
тель
фабрикант
вид
время
russian <manufacturer>
domestic
<manufacturer>
russian <manufacturer>
control <mode>
day <mode>
mode
mode
mode
report
report
report
report
report
report
report
метод
мода
способ
донесение
заключение
отчет
рапортовать
репортаж
сводка
сообщать
improved <mode>
standby <mode>
proper <mode>
police <report>
police <report>
entitled <report>
regular <reports>
big <report>
police <report>
immediately <report>
report
save
сообщение
экономия
sitting
sitting
size
size
сидячий
усаживание
величина
габарит
immediately <report>
<save> money
<sitting>
accommodation
pretty <sitting>
great <size>
total <size>
size
size
size
size
крупность
масштаб
объем
площадь
maximum <size>
physical <size>
engine <size>
internal <size>
size
size
size
размерный
типоразмер
формат
<size> relation
large <sizes>
large <size>
small
small
малогабаритный
маломерный
<small> module
<small> boats
small
small
малочисленный
малый
<small> organization
<small> part
sole
sure
единственный
точно
<sole> owner
<sure> need
численное <внедрение>
<встраивание> россии
<интеграционная>
организация
экономическая
<интеграция>
покупать <низко>
платить <поменьше>
платить <реже>
российский
<промышленник>
отечественный
<товаропроизводитель>
русский <фабрикант>
<вид> управления
дневное <время>
усовершенствованный
<метод>
бай <мод>
верный <способ>
полицейское <донесение>
<заключения> полиции
озаглавленный <отчет>
периодически <рапортуя>
большой <репортаж>
полицейская <сводка>
немедленно <сообщать>
незамедлительное
<сообщение>
<экономия> средств
0
0
<сидячие> места
милое <усаживание>
крупная <величина>
суммарные <габариты>
максимальная
<крупность>
физический <масштаб>
рабочий <объем>
внутренняя <площадь>
<размерное>
соотношение
большие <типоразмеры>
большой <формат>
<малогабаритный>
модуль
<маломерные> суда
<малочисленная>
организация
<малая> часть
<единственный>
владелец
<точно> надо
1
0
0
1
0
1
0
0
0
0
1
0
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
1
1
1
1
0
1
1
1
1
1
1
0
sure
sure
sure
sure
threaten
together
together
too
too
too
too
убедиться
уверенн
уверенный
удостовериться
грозить
воедино
сочетание
излишне
очень
чересчур
чрезмерно
<sure> arguments
<sure> pakistan
<sure> way
<sure> first
<threaten> america
put <together>
bring <together>
<too> fast
<too> far
<too> fast
care <too>
too
wheat
wheat
чрезмерный
пшеница
пшеничный
<too> fast
buy <wheat>
<wheat> money
wireless
беспроводный
<wireless> device
<убедиться>
рассуждениями
<уверенн> пакистан
<уверенный> шаг
сначала <удостовериться>
<грозить> сша
складывать <воедино>
достичь <сочетания>
<излишне> голодать
<очень> далеко
<чересчур> быстрый
<чрезмерно> опекать
<чрезмерная>
торопливость
покупать <пшеницу>
<пшеничные> деньги
<беспроводное>
устройство
0
0
0
0
0
1
0
0
1
1
0
0
0
0
1
Ранжирование R F 2
ключ en
area
area
ключ ru
зона
местность
пример en
beach <area>
rural <area>
balance
balance
balance
balance
balance
balance
balance
балансирование
балансировать
балансировка
балансовый
вес
весы
остаток
careful <balance>
<balanced> market
<balance> quality
<balance> sheet
<balance> law
analytical <balance>
account <balance>
balance
противовес
additional <balances>
balance
равновесие
ecological <balance>
balance
capacity
capacity
capacity
care
сбалансировать
качество
мощность
потенциал
беречь
<balanced> food
moral <capacities>
full <capacity>
trade <capacity>
<care> cartridges
care
care
care
care
care
care
care
внимательность
волновать
забота
заботить
заботиться
осторожность
плевать
hospital <care>
really <care>
skin <care>
<care> more
watchful <care>
due <care>
even <care>
care
carrier
позаботиться
переносчик
watchful <care>
healthy <carrier>
пример ru
пляжная <зона>
сельская <местность>
тщательное
<балансирование>
<балансирующий> рынок
качество <балансировки>
<балансовая> ведомость
закон <весов>
аналитические <весы>
<остаток> счета
дополнительные
<противовесы>
экологическое
<равновесие>
<сбалансированное>
питание
моральные <качества>
полная <мощность>
торговый <потенциал>
<беречь> патроны
<внимательность>
стационара
особо <волновать>
<забота> кожи
<заботить> больше
чутко <заботиться>
должная <осторожность>
вообще <плевать>
хорошенько
<позаботиться>
здоровый <переносчик>
оценка
1
1
0
1
0
1
1
1
1
0
1
1
1
1
1
0
0
1
0
0
0
1
0
0
0
carrier
теплоноситель
<carrier> temperature
carrier
транспортер
character
character
признак
символ
community
общество
caterpillar <carrier>
morphological
<characters>
<character> class
kazakhstan
<community>
concert
выступление
next <concert>
concert
concert
containment
control
control
концертировать
концертный
удержание
борьба
диспетчерский
контролировани
е
<concert> organist
<concert> program
<containment> systems
effective <control>
<control> area
<controlled> substance
technical <control>
customs <control>
control
контролировать
надзор
проверка
проконтролиров
ать
control
control
control
detention
detention
регулирование
регулировать
регулировка
лишение
содержание
thermal <control>
<controlled> substance
level <control>
illegal <detention>
illegal <detention>
eventually
eventually
eventually
впоследствии
наконец
окончательн
<eventually> use
arrive <eventually>
<eventually> lead
eventually
eventually
feast
feast
feast
feast
feast
feast
feast
guy
guy
guy
guy
guy
guy
guy
guy
окончательно
с
банкет
застолье
пир
пировать
пиршество
празднество
праздник
мужчина
паренек
парень
парнишка
пацан
тип
человек
чувак
<eventually> reach
<eventually> defeat
wedding <feast>
wedding <feast>
wedding <feast>
<feasting> priests
real <feast>
winter <feast>
church <feast>
white <guy>
italian <guy>
big <guy>
nice <guy>
normal <guy>
big <guy>
bad <guy>
normal <guy>
control
control
control
control
erosion <control>
personally <control>
температура
<теплоносителя>
гусеничный
<транспортер>
морфологические
<признаки>
класс <символов>
казахстанское
<общество>
ближайшее
<выступление>
<концертирующий>
органист
<концертная> программа
система <удержания>
эффективная <борьба>
<диспетчерский> район
<контролирование>
эрозии
<контролируемое>
вещество
технический <надзор>
таможенная <проверка>
лично
<проконтролировать>
термостатическое
<регулирование>
<регулируемое> вещество
<регулировка> уровня
незаконное <лишение>
незаконное <содержание>
<впоследствии>
использовать
<наконец> дойти
<окончательн> вести
<окончательно>
достигнуть
<со> счетом
свадебный <банкет>
свадебное <застолье>
свадебный <пир>
<пирующие> жрецы
настоящее <пиршество>
зимние <празднества>
церковный <праздник>
белый <мужчина>
итальянский <паренек>
большой <парень>
милый <парнишка>
нормальный <пацан>
важный <тип>
плохой <человек>
нормальный <чувак>
0
1
0
1
0
1
1
1
0
1
0
1
0
1
1
1
1
0
0
1
1
0
0
0
1
0
1
1
1
0
1
0
1
0
0
1
1
0
1
1
0
history
history
however
however
however
however
however
improve
improve
краеведческий
хронология
вместе
же
ни
но
однако
повысить
повыситься
improve
improve
повышать
улучшаться
improve
industry
industry
insurance
insurance
улучшиться
сфера
хозяйство
страхование
страхсбор
integration
integration
integration
включение
внедрение
встраивание
integration
интеграционный
integration
less
less
less
интеграция
низко
поменьше
редко
manufacturer
manufacturer
промышленник
товаропроизводи
тель
manufacturer
mode
mode
mode
mode
mode
report
фабрикант
вид
время
метод
мода
способ
донесение
report
report
report
заключение
отчет
рапортовать
report
report
report
report
save
sitting
sitting
репортаж
сводка
сообщать
сообщение
экономия
сидячий
усаживание
<history> department
<history> file
<however> great
<however> cold
<however> strange
<however> sooner
<however> much
significantly <improve>
<improve> moderately
<краеведческий> отдел
файл <хронологии>
<вместе> великий
<же> холод
<ни> странно
<но> рано
<однако> много
существенно <повысить>
умеренно <повыситься>
<повышать>
<improve> efficiency
эффективность
also <improve>
также <улучшаться>
значительно
significantly <improve> <улучшиться>
banking <industry>
банковская <сфера>
water <industry>
водное <хозяйство>
<insurance> money
<страхование> деньги
pet <insurance>
<страхсбор> любимчика
progressive
постепенное
<integration>
<включение>
easy <integration>
легкое <внедрение>
easy <integration>
простое <встраивание>
<интеграционная>
<integration> initiative
инициатива
региональная
regional <integration>
<интеграция>
<less> anticipations
<ниже> ожиданий
drink <less>
пить <поменьше>
appear <less>
появляться <реже>
domestic
отечественные
<manufacturers>
<промышленники>
российский
russian <manufacturers> <товаропроизводитель>
текстильный
textile <manufacturer>
<фабрикант>
alternative <mode>
альтернативный <вид>
animation <mode>
шкала <времени>
treatment <mode>
<метод> лечения
wave <mode>
волновая <мода>
alternative <mode>
альтернативный <способ>
combat <reports>
боевые <донесения>
аудиторское
audit <report>
<заключение>
final <report>
итоговый <отчет>
regular <reports>
периодически <рапортуя>
эксклюзивный
exclusive <report>
<репортаж>
weather <report>
<сводка> погоды
also <report>
также <сообщать>
media <report>
<сообщение> сми
<save> money
<экономия> средств
<sitting> position
<сидячее> положение
<sitting> position
положение <усаживания>
0
0
0
0
0
0
0
1
1
1
0
1
1
0
0
0
0
0
0
0
1
0
1
0
1
0
0
1
0
1
0
1
1
1
1
0
1
1
0
1
0
1
0
size
size
size
size
size
size
size
size
size
величина
габарит
крупность
масштаб
объем
площадь
размерный
типоразмер
формат
average <size>
small <size>
feed <size>
project <size>
total <size>
total <size>
<size> group
valve <size>
page <size>
small
small
small
small
малогабаритный
маломерный
малочисленный
малый
<small> apartment
<small> boats
<small> nation
<small> business
sole
sure
sure
sure
sure
единственный
точно
убедиться
уверенн
уверенный
<sole> source
entirely <sure>
make <sure>
<sure> pakistan
absolutely <sure>
sure
threaten
together
together
удостовериться
грозить
воедино
сочетание
make <sure>
<threaten> latvia
come <together>
bring <together>
too
too
too
too
too
wheat
wheat
излишне
очень
чересчур
чрезмерно
чрезмерный
пшеница
пшеничный
<too> restrictive
ask <too>
<too> active
<too> high
<too> busy
winter <wheat>
<wheat> field
wireless
беспроводный
<wireless> keyboard
средняя <величина>
небольшой <габарит>
начальная <крупность>
<масштаб> проекта
общий <объем>
общая <площадь>
<размерная> группа
<типоразмер> клапана
<формат> страницы
<малогабаритная>
квартира
<маломерные> суда
<малочисленный> народ
<малый> бизнес
<единственный>
источник
сказать <точно>
сначала <убедиться>
<уверенн> пакистан
абсолютно <уверенный>
окончательно
<удостовериться>
<грозить> латвии
сойтись <воедино>
достичь <сочетания>
<излишне>
ограничительный
требовать <очень>
<чересчур> активный
<чрезмерно> высокий
<чрезмерная> занятость
озимая <пшеница>
<пшеничное> поле
<беспроводная>
клавиатура
0
1
0
1
1
1
1
1
1
пример ru
<зона> конфликта
гористая <местность>
постоянное
<балансирование>
ловко <балансировать>
<балансировка> нагрузки
<балансовый> счет
чувствительность
<весов>
электронные <весы>
<остаток> счета
дополнительные
<противовесы>
хрупкое <равновесие>
оценка
1
1
0
1
0
1
1
0
0
0
1
0
0
1
0
0
0
1
1
0
1
1
1
Ранжирование R F 3
ключ en
area
area
ключ ru
зона
местность
пример en
conflict <area>
mountainous <area>
balance
balance
balance
balance
балансирование
балансировать
балансировка
балансовый
constant <balance>
deftly <balance>
load <balance>
<balance> account
balance
balance
balance
вес
весы
остаток
<balance> sensitivity
electronic <balance>
account <balance>
balance
balance
противовес
равновесие
additional <balances>
delicate <balance>
0
1
1
1
1
1
1
0
1
balance
capacity
сбалансировать
качество
<balanced> budget
sea <capacity>
capacity
мощность
maximum <capacity>
capacity
care
care
care
care
care
care
care
care
care
carrier
потенциал
беречь
внимательность
волновать
забота
заботить
заботиться
осторожность
плевать
позаботиться
переносчик
production <capacity>
special <care>
<care> tips
really <care>
special <care>
<care> more
particularly <care>
special <care>
<care> deeply
best <care>
energy <carrier>
carrier
теплоноситель
<carrier> temperature
carrier
транспортер
character
character
community
concert
признак
символ
общество
выступление
tracked <carrier>
morphological
<characters>
special <character>
human <community>
live <concert>
concert
concert
containment
control
control
концертировать
концертный
удержание
борьба
диспетчерский
<concert> organist
<concert> tour
<containment> systems
rigid <control>
<control> point
control
контролирование
obstacle <control>
control
control
control
<controlled> study
fire <control>
fiscal <controls>
control
контролировать
надзор
проверка
проконтролирова
ть
control
регулирование
temperature <control>
control
control
detention
detention
eventually
eventually
eventually
eventually
eventually
feast
регулировать
регулировка
лишение
содержание
впоследствии
наконец
окончательн
окончательно
с
банкет
automatically <control>
level <control>
unlawful <detention>
<detention> conditions
<eventually> become
<eventually> turn
<eventually> lead
<eventually> come
<eventually> defeat
wedding <feast>
<control> situation
<сбалансированный>
бюджет
мореходные <качества>
максимальная
<мощность>
производственный
<потенциал>
особенно <беречь>
концы <внимательности>
особо <волновать>
особая <забота>
<заботить> больше
особенно <заботиться>
особая <осторожность>
глубоко <плевать>
лучше <позаботиться>
<переносчик> энергии
температура
<теплоносителя>
гусеничный
<транспортер>
морфологические
<признаки>
специальный <символ>
человеческое <общество>
живое <выступление>
<концертирующий>
органист
<концертный> тур
система <удержания>
жесткая <борьба>
<диспетчерский> пункт
<контролирование>
препятствий
<контролируемое>
исследование
пожарный <надзор>
налоговые <проверки>
<проконтролировать>
ситуацию
<регулирование>
температуры
автоматически
<регулировать>
<регулировка> уровня
незаконное <лишение>
условия <содержания>
<впоследствии> стать
<наконец> обратить
<окончательн> вести
<окончательно> прийти
<со> счетом
свадебный <банкет>
1
0
1
1
0
0
1
1
0
1
1
0
0
1
0
1
0
1
1
1
1
1
0
1
1
1
0
1
1
1
1
1
0
0
1
0
0
0
0
0
1
feast
feast
feast
застолье
пир
пировать
abundant <feast>
marriage <feast>
<feasting> priests
feast
feast
feast
guy
guy
guy
guy
guy
guy
guy
guy
history
history
however
however
however
however
however
пиршество
празднество
праздник
мужчина
паренек
парень
парнишка
пацан
тип
человек
чувак
краеведческий
хронология
вместе
же
ни
но
однако
grandiose <feast>
sumptuous <feast>
great <feast>
burly <guy>
puny <guy>
bad <guy>
funny <guy>
normal <guy>
nasty <guy>
nice <guy>
coolest <guy>
<history> museum
brief <history>
<however> great
<however> also
<however> regrettable
<however> sooner
<however> there
improve
improve
повысить
повыситься
<improve> performance
<improved> demand
improve
повышать
<improve> performance
improve
улучшаться
gradually <improve>
improve
industry
industry
insurance
insurance
улучшиться
сфера
хозяйство
страхование
страхсбор
<improve> considerably
energy <industry>
fishing <industry>
personal <insurance>
art <insurance>
integration
integration
integration
включение
внедрение
встраивание
full <integration>
<integration> strategy
easy <integration>
integration
integration
less
less
less
интеграционный
интеграция
низко
поменьше
редко
<integration> process
successful <integration>
<less> zero
talk <less>
occur <less>
manufacturer
manufacturer
промышленник
товаропроизводи
тель
major <manufacturer>
domestic
<manufacturer>
manufacturer
mode
mode
фабрикант
вид
время
french <manufacturer>
alternative <mode>
zoom <mode>
обильное <застолье>
брачный <пир>
<пирующие> жрецы
грандиозное
<пиршество>
пышное <празднество>
великий <праздник>
дородный <мужчина>
маленький <паренек>
плохой <парень>
веселый <парнишка>
нормальный <пацан>
мерзкий <тип>
порядочный <человек>
прикольный <чувак>
<краеведческий> музей
краткая <хронология>
<вместе> великий
<же> тоже
<ни> прискорбно
<но> рано
<однако> есть
<повысить>
производительность
<повысившийся> спрос
<повышать>
производительность
постепенно
<улучшаться>
значительно
<улучшиться>
энергетическая <сфера>
рыбное <хозяйство>
личное <страхование>
<страхсбор> искусства
полноценное
<включение>
стратегия <внедрения>
простое <встраивание>
<интеграционный>
процесс
успешная <интеграция>
<ниже> нуля
<поменьше> говорить
происходить <реже>
крупный
<промышленник>
отечественный
<товаропроизводитель>
французский
<фабрикант>
альтернативный <вид>
шкала <времени>
1
1
0
1
1
1
1
1
1
1
0
1
0
1
0
1
0
0
0
0
0
1
1
1
1
1
1
0
1
0
0
0
0
1
1
0
0
0
1
1
0
1
0
mode
mode
mode
report
метод
мода
способ
донесение
safe <mode>
demo <mode>
manual <mode>
battle <reports>
report
report
report
report
report
заключение
отчет
рапортовать
репортаж
сводка
medical <report>
view <reports>
regular <reports>
special <report>
weather <report>
report
сообщать
immediately <report>
report
save
sitting
sitting
size
сообщение
экономия
сидячий
усаживание
величина
official <report>
<save> energy
<sitting> position
done <sitting>
physical <size>
size
габарит
maximum <size>
size
size
size
size
size
крупность
масштаб
объем
площадь
размерный
maximum <size>
immense <size>
maximum <size>
actual <size>
<size> range
size
size
типоразмер
формат
different <sizes>
standard <size>
small
small
small
small
sole
sure
малогабаритный
маломерный
малочисленный
малый
единственный
точно
<small> apartment
<small> vessels
<small> nation
<small> weight
<sole> reason
<sure> need
sure
sure
sure
убедиться
уверенн
уверенный
quite <sure>
<sure> pakistan
absolutely <sure>
sure
threaten
together
together
удостовериться
грозить
воедино
сочетание
quite <sure>
<threaten> israel
gather <together>
bad <together>
too
too
too
too
излишне
очень
чересчур
чрезмерно
<too> impressionable
<too> weak
prove <too>
<too> high
too
wheat
чрезмерный
пшеница
<too> emotional
<wheat> variety
невредимый <метод>
демонстрация <мод>
ручной <способ>
боевые <донесения>
медицинское
<заключение>
просмотр <отчетов>
периодически <рапортуя>
специальный <репортаж>
<сводка> погоды
незамедлительно
<сообщать>
официальное
<сообщение>
<экономия> энергии
<сидячее> положение
сделанное <усаживание>
физическая <величина>
максимальные
<габариты>
максимальная
<крупность>
огромные <масштабы>
максимальный <объем>
жилая <площадь>
<размерный> ряд
различных
<типоразмеров>
стандартный <формат>
<малогабаритная>
квартира
<маломерных> судов
<малочисленный> народ
<малый> вес
<единственная> причина
<точно> надо
окончательно
<убедиться>
<уверенн> пакистан
абсолютно <уверенный>
окончательно
<удостовериться>
<грозить> израилю
собрать <воедино>
неплохое <сочетание>
<излишне>
впечатлительный
<очень> слабый
оказаться <чересчур>
<чрезмерно> высокий
<чрезмерная>
эмоциональность
сорт <пшеницы>
0
0
1
1
1
0
0
1
1
1
1
0
1
0
1
1
0
1
1
1
1
0
1
0
0
0
1
1
0
0
0
1
0
0
1
0
1
1
0
1
0
1
wheat
пшеничный
<wheat> beer
wireless
беспроводный
<wireless> connection
<пшеничное> пиво
<беспроводное>
соединение
1
пример кг
географическая <зона>
живописная <местность>
постоянное
<балансирование>
<балансирующий> рынок
динамическая
<балансировка>
<балансовый> счет
поверка <весов>
аналитические <весы>
непогашенный <остаток>
дополнительные
<противовесы>
экологическое
<равновесие>
<сбалансированный>
подход
нравственные <качества>
максимальная
<мощность>
оценка
1
1
укрепление <потенциала>
<беречь> патроны
учредительство
<внимательностей>
особо <волновать>
материнская <забота>
<заботить> больше
особо <заботиться>
особая <осторожность>
глубоко <плевать>
лучше <позаботиться>
<переносчик> глюкозы
температура
<теплоносителя>
гусеничный
<транспортер>
отличительный
<признак>
управляющий <символ>
гражданское <общество>
живое <выступление>
<концертирующий>
органист
<концертная> площадка
надежное <удержание>
тактика <борьбы>
0
0
1
Ранжирование R F 4
ключ en
area
area
ключ ru
зона
местность
пример en
geographic <area>
scenic <area>
balance
balance
балансирование
балансировать
constant <balance>
<balanced> market
balance
balance
balance
balance
balance
балансировка
балансовый
вес
весы
остаток
dynamic <balance>
<balance> account
<balance> calibration
analytical <balance>
outstanding <balance>
balance
противовес
additional <balances>
balance
равновесие
ecological <balance>
balance
capacity
сбалансировать
качество
<balanced> approach
moral <capacity>
capacity
мощность
capacity
care
потенциал
беречь
maximum <capacity>
strengthening
<capacity>
<care> cartridges
care
care
care
care
care
care
care
care
carrier
внимательность
волновать
забота
заботить
заботиться
осторожность
плевать
позаботиться
переносчик
<cares> foundation
really <care>
maternal <care>
<care> more
special <care>
special <care>
<care> deeply
best <care>
glucose <carrier>
carrier
теплоноситель
<carrier> temperature
carrier
транспортер
tracked <carrier>
character
character
community
concert
признак
символ
общество
выступление
distinctive <character>
control <character>
civil <community>
live <concert>
concert
concert
containment
control
концертировать
концертный
удержание
борьба
<concert> organist
<concert> venue
reliable <containment>
<control> tactics
0
1
0
1
1
1
1
0
1
0
1
0
0
1
1
0
1
1
0
0
1
0
1
1
1
1
1
1
1
1
1
control
диспетчерский
контролировани
е
<control> center
<controlled> trial
veterinary <control>
thorough <control>
control
control
контролировать
надзор
проверка
проконтролиров
ать
регулирование
control
control
detention
detention
eventually
eventually
eventually
eventually
eventually
feast
feast
feast
feast
feast
feast
feast
guy
guy
guy
guy
guy
guy
guy
guy
history
history
however
however
however
however
however
improve
improve
improve
регулировать
регулировка
лишение
содержание
впоследствии
наконец
окончательн
окончательно
с
банкет
застолье
пир
пировать
пиршество
празднество
праздник
мужчина
паренек
парень
парнишка
пацан
тип
человек
чувак
краеведческий
хронология
вместе
же
ни
но
однако
повысить
повыситься
повышать
<control> valve
<control> pressure
illegal <detention>
illegal <detention>
<eventually> become
<eventually> turn
<eventually> lead
<eventually> destroy
<eventually> defeat
wedding <feast>
wedding <feast>
marriage <feast>
<feast> forever
wedding <feast>
sumptuous <feast>
religious <feast>
old <guy>
young <guy>
big <guy>
young <guy>
tough <guy>
nasty <guy>
smart <guy>
cool <guy>
<history> museum
brief <history>
<however> great
provide <however>
<however> regrettable
<however> sooner
<however> own
significantly <improve>
<improved> demand
significantly <improve>
improve
улучшаться
gradually <improve>
improve
industry
industry
insurance
улучшиться
сфера
хозяйство
страхование
significantly <improve>
banking <industry>
agricultural <industry>
health <insurance>
control
control
control
control
regular <control>
<control> situation
<control> system
<диспетчерский> центр
регулярное
<контролирование>
<контролируемое>
исследование
ветеринарный <надзор>
тщательная <проверка>
<проконтролировать>
ситуацию
система <регулирования>
<регулирующая>
арматура
<регулировка> давления
незаконное <лишение>
незаконное <содержание>
<впоследствии> стать
<наконец> обратить
<окончательн> вести
<окончательно> погубить
<со> счетом
свадебный <банкет>
свадебное <застолье>
брачный <пир>
<пировать> вечно
свадебное <пиршество>
пышное <празднество>
религиозный <праздник>
пожилой <мужчина>
молодой <паренек>
здоровенный <парень>
молодой <парнишка>
крутой <пацан>
мерзкий <тип>
умный <человек>
крутой <чувак>
<краеведческий> музей
краткая <хронология>
<вместе> великий
<же> предоставить
<ни> прискорбно
<но> рано
<однако> иметь
значительно <повысить>
<повысившийся> спрос
значительно <повышать>
постепенно
<улучшаться>
значительно
<улучшиться>
банковская <сфера>
сельское <хозяйство>
<страхование> здоровья
1
1
0
1
1
1
1
0
0
1
1
0
0
0
1
0
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
0
1
0
0
0
0
0
1
1
1
1
1
1
1
1
insurance
integration
integration
integration
страхсбор
включение
внедрение
встраивание
personal <insurance>
smooth <integration>
gradual <integration>
easy <integration>
integration
integration
less
less
less
интеграционный
интеграция
низко
поменьше
редко
<integration> process
<integration> process
<less> zero
<less> smoke
<less> common
manufacturer
manufacturer
manufacturer
mode
mode
mode
mode
промышленник
товаропроизвод
итель
фабрикант
вид
время
метод
мода
russian <manufacturer>
domestic
<manufacturer>
wealthy <manufacturer>
widespread <mode>
day <mode>
safe <mode>
high <mode>
mode
report
способ
донесение
capitalist <mode>
investigation <reports>
report
report
report
report
report
report
заключение
отчет
рапортовать
репортаж
сводка
сообщать
audit <report>
<report> preparation
regular <reports>
special <report>
police <reports>
immediately <report>
report
save
sitting
sitting
size
size
сообщение
экономия
сидячий
усаживание
величина
габарит
official <report>
<save> money
<sitting> position
baby <sitting>
physical <size>
compact <size>
size
size
size
size
size
крупность
масштаб
объем
площадь
размерный
maximum <size>
enormous <size>
total <size>
actual <size>
<size> range
size
size
типоразмер
формат
<size> range
custom <size>
small
small
small
small
малогабаритный
маломерный
малочисленный
малый
<small> apartment
<small> vessels
<small> nation
<small> part
sole
sure
единственный
точно
<sole> shareholder
<sure> indication
приватный <страхсбор>
плавное <включение>
постепенное <внедрение>
простое <встраивание>
<интеграционный>
процесс
процесс <интеграции>
<ниже> нуля
<поменьше> надо
<редко> встречающийся
российский
<промышленник>
отечественный
<товаропроизводитель>
богатый <фабрикант>
распространенный <вид>
дневное <время>
невредимый <метод>
высокая <мода>
капиталистический
<способ>
<донесения> разведки
аудиторское
<заключение>
составление <отчетов>
периодически <рапортуя>
специальный <репортаж>
милицейские <сводки>
немедленно <сообщать>
официальное
<сообщение>
<экономия> денег
<сидячее> положение
<усаживание> младенца
физическая <величина>
компактные <габариты>
максимальная
<крупность>
огромные <масштабы>
суммарный <объем>
жилая <площадь>
<размерный> ряд
ассортимент
<типоразмеров>
нестандартный <формат>
<малогабаритная>
квартира
<маломерное> судно
<малочисленный> народ
<малая> толика
<единственный>
акционер
<точно> определить
0
0
1
0
1
1
0
0
0
0
1
1
0
0
0
0
0
1
1
1
0
1
1
1
1
0
1
0
1
1
0
1
1
1
1
0
1
0
0
0
1
1
0
sure
sure
sure
sure
threaten
together
together
too
too
too
убедиться
уверенн
уверенный
удостовериться
грозить
воедино
сочетание
излишне
очень
чересчур
<sure> beforehand
<sure> pakistan
<sure> step
<sure> first
<threaten> israel
merge <together>
bad <together>
speak <too>
<too> loud
<too> addicted
too
too
чрезмерно
чрезмерный
worry <too>
<too> optimistic
wheat
wheat
пшеница
пшеничный
food <wheat>
<wheat> bran
wireless
беспроводный
<wireless> device
<убедившись>
предварительно
<уверенн> пакистан
<уверенный> шаг
сначала <удостовериться>
<грозить> израилю
слиться <воедино>
неплохое <сочетание>
говорить <излишне>
<очень> шумный
<чересчур> увлекаться
<чрезмерно>
беспокоиться
<чрезмерный> оптимизм
продовольственная
<пшеница>
<пшеничные> отруби
<беспроводное>
устройство
0
0
0
0
0
1
0
0
1
0
0
0
1
1
1
Отзывы:
Авторизуйтесь, чтобы оставить отзыв