Санкт-Петербургский государственный университет
Филологический факультет
Кафедра математической лингвистики
Курочкина Юлия Николаевна
ОЦЕНКА АВТОМАТИЧЕСКИХ МЕТОДОВ ВЫЯВЛЕНИЯ
УСТОЙЧИВЫХ СЛОВОСОЧЕТАНИЙ
Магистерская диссертация
Направление «Лингвистика»
Образовательная программа «Прикладная и
экспериментальная лингвистика»
Профиль «Компьютерная лингвистика и
интеллектуальные технологии»
Научный руководитель:
доц., к.ф.н. Захаров В.П.
Санкт-Петербург
2017
Оглавление
Generating Table of Contents for Word Import ...
Аннотация
Данная работа посвящена оценке мер ассоциации, используемых для выявления коллокаций.
Поставлена цель выяснить, насколько эффективны и релевантны эти меры ассоциации, и
показать это на примере популярных мер. В работе рассматриваются теоретические вопросы
извлечения коллокаций, классификации устойчивых словосочетаний, дано описание мер
ассоциаций. В работе описан эксперимент по выявлению коллокаций из корпуса Araneum
Russicum Russicum Maius объемом 1,2 млрд токенов в системе NoSketch Engine, представлена
оценка работы мер ассоциации.
Ключевые слова: корпуса, извлечение коллокаций, меры ассоциации.
2
ВВЕДЕНИЕ
Важность и роль выражений из нескольких слов, т.е. устойчивых
словосочетаний, в прикладной лингвистике и в сфере обработки естественного
языка давно признаны. Тем не менее, эти единицы требуют дальнейшего
изучения. Ранее, без помощи компьютерных устройств, научное исследование
было сопряжено с многими техническими трудностями, но при наличии
соответствующих инструментов исследования стало проще, быстрее и удобнее.
Наш научный интерес сосредоточен на устойчивых сочетаниях, в состав
которых входят сочетания разных типов.
Существуют различные методы автоматического выявления устойчивых
словосочетаний (коллокаций) на базе больших корпусов текстов. В целом
процедура заключается в отборе кандидатов в коллокации на основе выбранных
критериев.
Помимо выявления устойчивых словосочетаний, нужна еще и оценка
методов их выявления. Суть исследования заключается в том, чтобы
проанализировать возможные и доступные автоматические методы, сравнить
их, выявить положительные и отрицательные стороны и предложить вариант их
улучшения или применения в зависимости от полученного результата.
Актуальность работы состоит в том, что эта тема в современной
компьютерной лингвистике важна как в теоретическом, так и в практическом
плане. Выявление устойчивых словосочетаний значимо для составления
словарей, а также для использования их в самых разных прикладных задачах.
Кроме того, эта задача представляет собой еще и теоретическое исследование,
изучающее закономерности сочетаемости языковых единиц.
Объект изучения - устойчивые словосочетания.
Предмет исследования – методы автоматического извлечения на основе
мер ассоциации и способы оценки их применимости и эффективности.
Материалом исследования послужили данные различных корпусов и
инструменты корпусных систем.
3
Цель исследования - выяснить, насколько эффективны и релевантны
меры ассоциации.
Сформулированная таким образом цель определила ряд стоящих
перед нами задач:
1.
описать понятие сочетаемости
2.
рассмотреть методы выявления устойчивых словосочетаний;
3.
описать меры ассоциации
4.
выбрать метрики для оценки методов выявления устойчивых
словосочетаний;
5.
провести эксперименты по выявлению коллокаций;
6.
провести оценку эффективности мер ассоциации;
7.
наметить пути повышения эффективности методов выявления
коллокаций.
Методы исследования включают использование корпусных
инструментов, предназначенных для извлечения словосочетаний, их настройку,
статистическую обработку данных путем сопоставления их с ассоциативными,
толковыми, фразеологическими словарями, экспертную оценку.
Существует несколько точек зрения на определение термина устойчивое
словосочетание, в данной работе мы будем рассматривать устойчивые
словосочетания с точки зрения корпусной лингвистики, то есть опираясь на
статистические методы. Также в нашей работе слово «словосочетание» будет
заменяться на выражение коллокация, в соответствии с зарубежным термином
collocation или multiword expression.
Практическая значимость данной работы заключается в том, что
полученные результаты могут быть применены при решении различных задач
прикладной лингвистики. Можно предположить, что итоги исследования
окажутся полезными при составлении словарей, корпусов, снятии
семантической неоднозначности.
Работа состоит из введения, четырех глав, заключения, списка литературы
и приложений. В первой главе рассказывается про отношения в языке, дается
4
определение понятию "словосочетания" и приводится классификация
устойчивых словосочетаний. Во второй главе обсуждаются методы извлечения
коллокаций и дается классификация и описание мер лексической ассоциации.
Третья глава посвящена методам и критериям оценки как таковой в целом и
оценки методов
извлечения устойчивых словосочетаний. Четвертая глава
содержит описание эксперимента и оценки работы мер ассоциации различными
способами.
5
ГЛАВА 1. СЛОВОСОЧЕТАНИЯ В ЯЗЫКЕ
1.1.Отношения между словами
Что такое словосочетание? Это осмысленное сочетание слов, связанных
по смыслу и грамматически. Словосочетания не следует путать с n-граммами,
которые представляют собой обычную последовательность слов в тексте.
П о с л е д о в ат е л ь н о с т ь и з д ву х э л е м е н т о в н а з ы в а ю т б и г р а м м о й ,
последовательность из трёх элементов - триграммой. В отличие от n-грамм,
словосочетания связаны отношениями языка, а именно парадигматическими и
синтагматическими.
Язык как знаковую систему принято изучать с точки зрения
парадигматики и с точки зрения синтагматики.
"СИНТАГМАТИКА -1) один из двух аспектов исследований языка –
изучение языковых единиц в линейном ряду, в тех реальных отношениях,
которыми они связаны в тексте; противополагается парадигматике".
[Лингвистический энциклопедический словарь, http://tapemark.narod.ru/les/
447d.html].
"ПАРАДИГМАТИКА -
1) один из двух аспектов системного изучения
языка, определяемый выделением и противопоставлением двух типов
отношений между элементами и/или единицами языка — парадигматических и
синтагматических; раздел науки о языке, занимающийся парадигматическими
отношениями, их классификацией, определением области их действия и т. п.;
противопоставляется синтагматике по типу изучаемых отношений и их
группировок; 2) в более широком смысле — то же, что система языковая,
понимаемая как совокупность лингвистических классов — парадигм;
противопоставляется синтагматике как синониму понятия лингвистического
процесса и текста (Л. Ельмслев)". [Лингвистический энциклопедический
словарь, http://tapemark.narod.ru/les/366b.html]. Законы построения предложений
и сочетания слов основываются на этих связях.
Существует мнение, что в голове у человека находятся уже готовые
синтагмы. Когда человек создает текст, в этом тексте имеют место как
6
синтагматические, так и парадигматические связи, однако принято считать, что
в тексте присутствуют только синтагмы.
Язык - это парадигматическая система. Слова, расположенные близко
друг к другу в тексте, могут быть не связаны по смыслу и не образовывать
словосочетание, но при этом они будут связаны парадигматически, так как
относятся к одной теме. Приведем пример: некий инструмент извлечения
коллокаций выдает нам сочетание «болезнь таблетка» в качестве коллокации.
Он сделал это потому, что эти понятия (болезнь и таблетка) находятся в одном
семантическом поле, и это парадигматическая связь. В данной ситуации нам
покажется это сочетание бессмысленным, хотя по сути инструмент сработал
правильно - эти два слова действительно связаны по смыслу.
1.2. Понятие сочетаемости
Сочетаемость - это "свойство языковых единиц сочетаться при
образовании единиц более высокого уровня; одно из фундаментальных свойств
языковых единиц, отражающее синтагматические отношения между
ними" [Лингвистический энциклопедический словарь, 1990]. Лингвисты
обычно выделяют универсальные и конкретно-языковые законы и тенденции
сочетаемости, отступив от которых говорящий или пишущий нарушает норму
или провоцирует изменение свойств языковых единиц. Однако намеренное
нарушение правил сочетаемости может быть средством художественной
выразительности.
Существует классификация сочетаемости в зависимости от позиции —
контактная (когда языковые единицы соположены) и дистантная
(находятся на расстоянии); в зависимости от факторов сочетаемости —
обусловленная (определяет ся на личием у языковых элементов
различительных черт) и произвольная (определяется лишь принятой нормой);
в зависимости от уровня языка — формальная и семантическая.
Понятие сочетаемости относится к разным уровням языка. На уровне
фонем обусловленная сочетаемость заключается в совместимости или в
несовместимости их дифференциальных признаков (например, во многих
7
языках не могут сочетаться глухие и звонкие согласные, и т. п.). На
морфологическом уровне языка сочетаемость зависит от комбинации морфем и
различается на формальном и семантическом уровнях. На более высоком
уровне языка сочетаемость слов определяется грамматическими, лексическими,
семантическими факторами и изучается теорией словосочетаний. Лингвисты
обычно связывают словосочетания с лексикологией и синтаксисом.
Грамматическая сочетаемость заключается в принадлежности слов к частям
речи: "например, для многих языков подчинительное сочетание из двух
существительных не характерно, и зависимое существительное либо проявляет
тенденцию к адъективации (англ. a stone wall), либо его адъективная функция
подкрепляется его морфологическим изменением (англ. my brother’s friend) или
использованием транспонирующего служебного слова (the friend of my
brother)". Что касается лексического фактора, сочетаемость определяется
избирательностью лексем, ср. «оказать услугу, внимание», но «не оказать
заботу, интерес». На семантическом уровне сочетаемость слов проявляется в
семантическом согласовании —сочетающиеся компоненты не должны
иметь противоречащие семы, например, глагол или прилагательное должны
сочетаться с существительными одушевленными («люди разговаривают»,
«больной человек»), так как обозначают действие или свойство живого
существа; в противном случае нарушается норма или переосмысляется один из
компонентов («больная совесть», «весь дом говорил об этом»).
Изучение сочетаемости помогает идентифицировать языковые элементы,
определять их принадлежность к таксономическим классам, выявлять их
варианты, определять условия образования переносных значений. Идея
сочетаемости как одного из основных факторов структуры и функционирования
языка активно разрабатывается в 20 в., в частности после работ Ф. де Соссюра,
в фонологии (комбинаторная фонетика, работы Н. С. Трубецкого), в связи с
теорией функциональной транспозиции (Ш. Балли) и теорией словосочетаний
(В. В. Виноградов). Дистрибутивная грамматика использовала сочетаемость как
основу лингвистического анализа, рассматривая её исключительно на
8
формальном уровне. Интерес к семантической стороне языка побудил изучать
закономерности семантической синтагматики, играющей важнейшую роль в
образовании смысла высказывания. Сочетаемость изучается как в формальном,
так и в семантическом аспектах [Лингвистический энциклопедический словарь,
1990].
1.3. Устойчивые словосочетания
От понятия сочетаемости мы переходим к фразеологизмам, или
устойчивым словосочетаниям. В.В. Виноградов пишет [Виноградов 1972:154],
что Ш. Балли дал фразеологизмам определение общего характера: «сочетания,
прочно вошедшие в язык, называются фразеологическими оборотами».
Исследователи В.Л. Архангельский, С.Г. Гаврин, В.Н. Телия определяют
устойчивое словосочетание как языковую единицу, для которой характерны
такие второстепенные признаки как метафоричность, эквивалентность и
синонимичность слову. Но, по мнению Н.М. Шанского [Шанский 1985:223],
метафоричность присуща также и многим словам, а эквивалентность — не всем
устойчивым сочетаниям. Поэтому включение этих второстепенных и
зависимых признаков в определение фразеологизма не совсем корректно.
Ученый также подчеркивал, что «правильная дефиниция фразеологизма
невозможна без учета его отличий от слова и свободного сочетания».
Правила, по которым формируются устойчивые словосочетания,
уникальны, что обусловлено идиоматичностью и принципом экономии.
И д и о м ат и ч н о с т ь о тл и ч а е т с я н е с ко л ь к и м и о с о б е н н о с т я м и –
переинтерпретация (почесать нос и стоять на носу корабля), то есть одно
значение создается на основе другого значения, непрозрачность (бить
баклуши), так как сложно вычислить настоящее значение идиомы из-за
отсутствия правила, позволяющего выделить это значение, и усложнение
способа указания на денотат (обманывать и вешать лапшу на уши), когда
можно сказать одно и то же по-разному. Выражение считается идиоматичным,
если в нем есть одна из этих особенностей [Баранов, Добровольский
2014:44-61].
9
1.4. Классификации словосочетаний
1.4.1. Классификация устойчивых словосочетаний по В.В.Виноградову
Существует множество классификаций, сошлемся, по крайней мере, на
следующие: [van der Wouden 1997], [Čermák 2006], [Sag et al. 2002:3-7],
[Mel’ˇcuk 1998] и [Виноградов 1972].
В данной работе мы будем опираться на классификацию В.В.
Виноградова в связи с ее полнотой и законченностью. Итак, по [Виноградов,
1972] словосочетания делятся на 3 типа.
Фразеологические сращения – это семантически неделимые обороты,
«значение которых совершенно независимо от их лексического состава, от
значений их компонентов».
К числу сращений относятся, например, такие словосочетания, как бить
баклуши, валять дурака, поминай как звали, во всю ивановскую, у черта на
куличиках и др. Из отдельных компонентов сращений нельзя вывести значение
всей единицы.
Фразеологические единства – фразеологизмы, общее значение которых
вытекает из значений составляющих частей. Большая часть фразеологизмов
этого разряда образовалась в результате метафорического переосмысления
свободных словосочетаний: взваливать на плечи, видеть насквозь, вить гнездо,
белая ворона.
Фразеологические сочетания – словосочетания, состоящие из двух
знаменательных слов, из которых одно имеет самостоятельное, а другое –
связанное значение: обращать внимание («внимание» будет всегда иметь одно
и то же значение, а «обращать» будет менять смысл в зависимости от
словосочетания, в котором оно употребляется: обращать внимание – обращать
в другую веру), оказывать помощь, впадать в нужду и др.
Впоследствии Шанский добавил еще один тип – фразеологические
выражения. Это «устойчивые в сво ем со ст аве и упот реблении
фразеологические обороты, которые не только являются семантически
членимыми, и состоят целиком из слов со свободными значениями» [Шанский
10
1964:201]. Эти выражения делятся еще на два типа - «фразеологические
выражения коммуникативного характера» (хрен редьки не слаще, человек — это
звучит гордо) и «фразеологические выражения номинативного характера»( кот
наплакал, руки не доходят, куры не клюют). Поскольку к выражениям
коммуникативного характера, например, относятся и пословицы, и крылатые
слова, такая классификация не вполне точна. Отсюда можно сделать вывод, что
задача распределения фразеологизмов по классам зависит от исследования.
С учетом различных исследований А.Н. Барановым и
Д.О.Добровольским была создана классификация, несколько упрощенная, и
отвечающая традиции, и включающая в себя новшества. Она состоит из семи
типов словосочетаний [Баранов и Добровольский 2014:67-96].
1.4.2. Классификация устойчивых словосочетаний по А.Н. Баранову и
Д.О. Добровольскому
1)
Идиомы
«Идиомы — это сверхсловные образования, которым свойственна
высокая степень идиоматичности и устойчивости». Они выделяются в
соответствии с параметрами переинтерпретации, непрозрачности и
устойчивости, о которых речь шла выше (шишка на ровном месте; работать
спустя рукава; выпустить джинна из бутылки; не мытьем, так катаньем;
сойти с ума; хоть ты тресни). Среди идиом выделяются те или иные типы:
a)
Речевые формулы. Некоторые фразеологизмы рассматриваются с
точки зрения их связи с моментом речи. В этом подклассе появляется
непосредственная отсылка к коммуникативной ситуации: старость не
радость; где наша не пропадала; не гони лошадей; избави бог; дурак или
родом так?; поживем — увидим; как только, так сразу; где уж нам,
дуракам, чай пить!
b)
идиомы-комментарии, с их помощью говорящий выражает
отношение к происходящему: дурак и уши холодные; не лаптем щи
хлебаем; лед тронулся; дела идут — контора пишет; за что боролись, на
то и напоролись. Помимо комментариев выделяется еще один тип
11
речевых формул. Полуавтономные речевые формулы синтаксически
зависимы, это не законченные предложения: хоть [ты] убей, хоть [ты]
тресни, хоть [ты] лопни, но несмотря на это, они могут выделяться в
речи интонационно и синтаксически.
c)
идиомы-перформативы выражают речевые действия. Например,
идиомы вот те / тебе крест, зуб даю, век свободы не видать и т.п.
реализуют речевой акт клятвы. В свою очередь, идиомы чтоб глаза
повылезали / вылезли (у кого-л.), чтоб пусто было (кому-л.), чтоб руки
отсохли (у кого-л.) связаны с выражением речевого акта проклятия.
Имеются речевые формулы, реализующие и другие типы речевых актов:
отказ(шёл бы ты своей дорогой, нашёл дурака, скатертью дорога, и
думать забудь, катись колбаской, много будешь знать — скоро
состаришься, спешу и падаю), просьба(не в службу, а в дружбу; позолоти
ручку!; не корысти ради), обещание(будет вам и белка, будет и свисток;
дай срок).
d)
Формулы ответа – заранее заготовленные ответы на определенные
вопросы: {– Ну?}— Баранки гну; {– Где?} — У тебя на бороде; {–
Откуда?} — От верблюда; {– Куда?} — На кудыкину гору; {– Почему?}
— По кочану; {– Говорят...} — Кур доят; {– Привет!} — Привет от
старых штиблет; {– Как дела?} — Как сажа бела. А также формулы
вопроса - (дурак или родом так?; какая муха тебя укусила?
2)
Пословицы (Примеры: цыплят по осени считают; без труда не
вытащишь и рыбку из пруда; не подмажешь — не поедешь; волков
бояться — в лес не ходить; назвался груздем — полезай в кузов)
«Пословица — это фразеологизм, имеющий структуру предложения, с
семантикой всеобщности, выражающий рекомендацию (совет, нравоучение или
запрет) и/или объясняющий обсуждаемое положение дел с точки зрения правил
наивной логики». Так, в пословицах часто встречаются слова все, всё, всякий,
каждый, а также употребляется обобщенно-личная форма глагола.
Отличительной особенностью пословиц является определенного рода
12
независимость от контекста или ситуации. Например, Писатель А.Н.
Островский использовал в названиях своих пьес много пословиц, и читателями
воспринимается это совершенно естественно. Пословицы специфичны, и это
позволяет отделить их от других речевых формул. Главное отличие –
рекомендательная сила пословиц и отсылка к общему знанию носителей
данного языка. Еще несколько особенностей: во-первых, смысл пословицы
имеет возможность «расширения», во-вторых, предложение с пословицей
должно сочетаться с вводными выражениями: как известно, как учит народная
мудрость и т.п. Если в предложении они не сочетаются, то перед нами
поговорка. Однако, между пословицами и поговорками нет четкой грани.
3)
Грамматические фразеологизмы (Примеры: во что бы то ни
стало; по крайней мере; по меньшей мере; едва не; хотя бы; потому что;
из-за того, что; вследствие того, что).
Виноградов выделял среди фразеологизмов «союзные речения»,
включающие предлоги, союзы, указательные местоимения а также некоторые
модальные частицы, ср. до тех пор пока, с тех пор как, между тем как, после
того как, подобно тому как, едва только / лишь, чуть лишь. С формальной
точки зрения большую часть фразеологизмов из этой группы составляют
соединения служебных слов. «Грамматические фразеологизмы — это
неоднословные выражения, которые с содержательной точки зрения
характеризуются идиоматичностью значения (т.е. их план содержания не
вычисляется по регулярным правилам) и которые связаны с нерегулярным
выражением грамматических (в том числе модальных) смыслов и/или
представляют собой сочетания различных служебных слов.» Эти
фразеологизмы используются в широком списке случаев: при выражении
времени (чуть что), пространства (из-под, из-за, по-над), частиц (как раз, ну
вот, да и). Некоторые из них напоминают по функции идиомы (чуть что, как
раз, по крайней мере, по меньшей мере), а также выполняют метатекстовые
функции. Например, фразеологизм и вот. Он может выражать вывод из
повествования,.— Я здоров как бык. Но эти проклятые семейные сцены...
13
Короче говоря, я поссорился с баронессой — и вот я здесь[А. и Б. Стругацкие.
Трудно быть богом], или вводить новую сцену: Виктор целый год не был в
родном городе. И вот он снова дома.
4) Фразеологизмы-конструкции
«Фразеологизмы-конструкции — это синтаксически автономные выражения
устойчивого состава, в которых пропущены некоторые элементы (актанты —
обычные или пропозициональные). Причем фиксированные элементы
конструкции, вместе с ее синтаксисом, характеризуются единым значением,
приближающимся к лексическому.»
Например:
X — он и в Африке X (Кризис — он и в Африке кризис; Работа — она и в
Африке работа; Блондинка — она и в Африке блондинка);
тоже мне X (Тоже мне подарок; Охотнички тоже мне; Тоже мне
Европа).
Идиоматичность сосредоточена в самой структуре и
фиксированной
части, однако, на заполняемые места также действуют некоторые ограничения.
Например, вместо «всем глазам глаза» лучше сказать не глаза, а глазищи. Эти и
подобные фразеологизмы изучаются в рамах Грамматики конструкций.
Существуют также «фразеосхемы», как назвал их Д.Н. Шмелев. Это
продуктивные синтаксические конструкции русского языка, которые, однако, не
являются фразеологизмами-конструкциями в рассматриваемом понимании. Они
отличаются от идиом тем, что слова, используемые в «пустых» местах,
используются в прямых значениях. Например, туча тучей и дура дурой. В
первом случае слова туча использовано в переносном значении. Использующий
это выражение имеет в виду, что у него плохое настроение. Во втором же
словосочетании смысл прозрачен, и в эту конструкцию можно поставить другие
слова, выражающие тот же смысл – дурак дураком, болван болваном и т.п.
Таким образом, туча тучей – это идиома.
5)
Ситуативные клише
14
«Ситуативные клише — это слабоидиоматичные или неидиоматичные
словосочетания, фразеологичность которых определяется преимущественно
устойчивостью и прежде всего прямой зависимостью от правил («писаных и
неписаных»), действующих в конкретной ситуации.» Такие фразеологизмы
употребляются в определенных ситуациях – когда того требует, например,
традиция, этикет или какой-либо устав. Ср. добрый день; до свидания;
спокойной ночи; руки вверх; ко мне; стой, кто идет. Также есть совершенно не
идиоматичные выражения – это давно зафиксированные конструкции,
изменяющиеся от языка к языку. Например, надпись на упаковке продукта,
свидетельствующая о его свежести:
рус. Годен до...;
англ. Best before... букв. «Лучше всего до...»;
нем. Mindestens haltbar bis... букв. «Способен храниться по крайней мере
до...» или Zu verbrauchen bis... букв. «Употребить до...»;
фр. À consommer de préférence avant le... букв. «Предпочтительно
употребить до...»;
Ситуативные клише воспроизводятся в конкретных ситуациях как единое
целое, поэтому они относятся к фразеологизмам. Наиболее близки они к
коллокациям.
6)
Крылатые слова
«Крылатыми словами принято называть различные в структурном
отношении устойчивые сочет ания слов, в большинстве случаев
афористического характера, источник возникновения которых (литературный,
публицистический, имеющий мифологическую основу и т.п.) мыслится как
общеизвестный».
Отнесение выражений к крылатым словам зависит от знаний людей, их
употребляющих. Как квалифицировать, к примеру, такое выражение, как время
жить, время умирать? Для одних оно относится к крылатым словам потому,
что известен его источник — Книга Екклесиаста; для других — потому, что так
называется один из романов Э.М. Ремарка; для третьих это вообще не крылатое
15
слово, а просто слабоидиоматичное устойчивое русское выражение
афористического характера. То же касается античных выражений. Те, кто учили
латынь, знают латинские крылатые слова, например, жребий брошен.
Поэтические тексты с большим содержанием крылатых выражений и аллюзий
на них могут быть прочитаны по-разному, в зависимости от знаний читателя.
Когда источник высказывания известен, выражение трактуется как цитата
и поэтому употребляется именно таким образом: как говорил Остап Бендер...
Для русской действительности источником крылатых слов стали басни
И.А. Крылова, кинофильмы («Служебный роман»), популярные романы
(«Двенадцать стульев») .
7)
Коллокации
« Ко л л о к а ц и и — э т о с л а б о и д и ом ат и ч н ы е ф р а з е о л о г и з м ы
преимущественно со структурой словосочетания, в которых семантически
главный компонент (база) употреблен в своем прямом значении, а сочетаемость
со вспомогательным компонентом (коллокатором) может быть задана в
терминах семантического класса, но выбор конкретного слова предопределен
узусом». Примеры: проливной [коллокатор] дождь [база], принимать
[коллокатор] решение [база], зерно [коллокатор] истины [база], ставить под
[коллокатор] сомнение [база], топорная [коллокатор] работа [база], трескучий
[коллокатор] мороз [база]. Коллокатор обычно произволен, и со временем может
заменяться на такой же по смыслу. Ср. полагать надежду в «Пиковой даме»
Пушкина и современную форму возлагать надежды: Она описала ему самыми
черными красками варварство мужа и сказала наконец, что всю свою надежду
полагает на его дружбу и любезность. Хотя, например, в коллокации
проливной дождь конструкция постоянна и ограничена. Очень часто один
коллокатор может сочетаться с разными базами. Например, принимать:
принимать решение, принимать соболезнования, принимать участие. Но
установить, с каким классом слов сочетается этот глагол, нельзя – выбор базы
для возможного коллоката непредсказуем. К примеру, можно сказать принимать
решение, но нельзя сказать *принимать заключение (надо сказать прийти к
16
заключению), можно сказать принимать соболезнования, но нельзя сказать
*принимать сожаления, соответственно, можно сказать принимать участие, но
нельзя сказать *принимать членство, можно только быть членом. Коллокации
группируются на основе лексических функций – выделяются коллокацииmagn, коллокации-oper-func, коллокации-real-fact, коллокации-sing,
коллокации-mult.
a)
Коллокации-magn являются словосочетаниями с компонентом,
необычным способом выражающие смысл magn, жгучий брюнет,
закадычный друг, заклятый враг, закоренелый преступник, проливной
дождь.
b)
Коллокации-oper-func содержат компонент, уникальным образом
выражающий смыслы OPER или FUNC, ср. принимать решение, ставить
вопрос, одержать победу, потерпеть поражение, взять реванш,
c)
коллокации-real-fact — это, соответственно, устойчивые
словосочетания, нестандартным образом передающие смыслы REAL или
FACT (также в комбинации с другими смыслами типа CAUS, FIN), ср.
желание сбывается, справедливость торжествует, долг велит (кому-л.
сделать что-л.).
d)
Коллокации-sing передают значение одного экземпляра, а MULT –
наоборот, множества. ср. порыв ветра, кочан капусты и отара овец,
стадо коров, косяк трески.
Также существуют метафорические коллокации – один компонент в
них употребляется в прямом смысле, а второй – как метафора. Например, зерно
истины и червь сомнения.
Часто коллокации судят на основе критерия семантической связанности, то
есть, выражен ли смысл всей конструкцией или отдельными словами.
Коллокации описывают тремя критериями:
•
Некомпозиционность. Значение коллокации не состоит прямо из
связей смыслов частей коллокации
17
•
неизменность . Многие коллокации не могут быть свободно
изменены с помощью добавления лексики или грамматических
изменений
•
незаменимость. Мы не можем заменить ближайшие синонимы
компонентами коллокации.
В корпусной лингвистике коллокации определяют как статистически
устойчивые словосочетания на основании близости слов в тексте.
Выводы по главе 1
1.
Словосочетания следует отличать от n-грамм. Сочетания всегда
осмысленны. Эта осмысленность проявляется в том, что сочетания слов и
связи между ними могут иметь как синтагматический, так и
парадигматический характер.
2.
Сочетаемость - это "свойство языковых единиц сочетаться при
образовании единиц более высокого уровня". Сочетаемость существует на
всех уровнях языка.
3.
Синтагматические словосочетания изучаются в первую очередь в
синтаксисе и в лексикологии. Особо выделяют устойчивые
словосочетания. Существует много типов устойчивых словосочетаний. И
много их классификаций.
4.
Особо выделяют коллокации "слабоидиоматичные фразеологизмы
преимуще ственно со структурой слово сочетания, в которых
семантически главный компонент употреблен в своем прямом значении, а
сочетаемость со вспомогательным компонентом может быть задана в
терминах семантического класса, но выбор конкретного слова
предопределен узусом";
5.
В корпусной лингвистике коллокации определяют как статистически
устойчивые словосочетания.
18
ГЛАВА 2. МЕТОДЫ ВЫЯВЛЕНИЯ УСТОЙЧИВЫХ
СЛОВОСОЧЕТАНИЙ
2.1. Корпуса текстов как исходный материал для выявления
коллокаций
Методика извлечения устойчивых словосочетаний на 99% связана с
корпусной лингвистикой, которая напрямую работает с корпусами.
Лингвистический корпус текстов это большой, представленный в
электронном виде, унифицированный, структурированный, размеченный,
филологически компетентный массив языковых данных, предназначенный для
решения конкретных лингвистических задач. Понятие «корпус текстов»
включает также систему управления текстовыми и лингвистическими данными,
которая называется корпусным менеджером (или корпус-менеджером) (англ.
corpus manager). Она является специализированной поисковой системой,
содержащей программные средства для поиска данных в корпусе, получения
статистической информации и предоставления результатов пользователю в
удобной форме [Захаров 2005: 5].
Смысл создания и удобство использования корпусов определяется
следующими причинами:
1)
достаточно большой объем корпуса обеспечивает полноту
представления всего спектра языковых явлений;
2)
Содержание в корпусе данных разного типа в естественной
контекстной форме позволяет использовать их в целях всестороннего и
объективного изучения;
3)
Возможно сть использовать однажды собранный корпус
многократно в различных целях.
Практически все современные лингвистические исследования и работы
по составлению словарей ориентированы на использование корпусов текстов.
Современные интеллектуальные программные системы (и их создание),
предназначенные для обработки текстов на естественном языке, также требуют
19
большого массива лингвистических данных. Корпусные данные востребованы в
связи с появлением соответствующих технических возможностей.
Признаки хорошего корпуса:
1. репрезентативность - Под репрезентативностью понимается
необходимо-достаточное и пропорциональное представление в корпусе текстов
различных периодов, жанров, стилей, авторов и т.п. Можно сказать, что данное
понятие относительно, и у него много определений, и применительно к
общеязыковому (национальному) корпусу это понятие сложно рассчитать и
описать строго математически, однако к этому можно и нужно стремиться в
процессе создания корпуса;
2.
сбалансированность (жанров, стилей, текстов каких-либо авторов и
3.
уникальная разметка (например, мультимедийная);
4.
хорошая документированность;
5.
дружественность по отношению к пользователю.
т.д.);
Существует большое количество видов корпусов [Захаров 2005: 5-6].
Наличие текстов не решает различные лингвистические задачи - для
адекватного их решения нужно, чтобы в массиве содержалась лингвистическая
информация. Для того, чтобы извлечь нужную информацию из текста,
например, коллокации, в корпус нужно добавить лингвистическую
информацию. Такое действие называется разметкой или лингвистической
предобработкой текста. Под лингвистической предварительной обработкой мы
имеем в виду морфологическую разметку и синтаксическую разметку на этапе
создания корпуса и снятия неоднозначности, анализ и устранение
неоднозначности на уровне морфологии и синтаксиса. Разметка (tagging,
annotation) заключается в приписывании текстам специальных меток , или
тэгов(tags): экстралингвистических (сведения об авторе и сведения о тексте:
автор, название, год и место издания, жанр, тематика - метаразметка),
структурных (глава, абзац, предложение, словоформа) и собственно
лингвистических маркеров. Лингвистические тэги
содержат в себе
20
информацию о лексических и грамматических свойствах компонентов текста.
Характер разметки обычно определяет и способ использования данного
корпуса. Существуют различные лингвистические типы разметки.
Для извлечения коллокаций важнее всего морфологиче ская,
синтаксическая и семантическая разметки.
Как правило, лингвистическая предварительная обработка не является
обязательной для извлечения коллокаций, особенно при работе с языками с
простой морфологией (например, английский), или, если мы ориентируемся,
например, только на фиксированные соседние и немодифицируемые
словосочетания. Тем не менее, если мы имеем дело со сложной морфологией
(например, в русском языке) и если мы хотим
извлечь синтаксически
ограниченные словосочетания со свободным порядком слов, эта информация
является весьма полезной. Языковая информация также может быть
использована на последующей стадии для фильтрации потенциальных
коллокаций и выявления дополнительных особенностей в методах, сочетающих
статистические и лингвистические данные в более сложных моделях [Pecina
2009:27-28].
На данном этапе информация о тексте, морфологических категориях, и
синтаксисе предложения формируется в целях выявления потенциальных
коллокаций и всех их вхождений - независимо от формы слов и позиции в
предложении.
2.2. Коллокации и их извлечение
Автоматическое извлечение коллокаций обычно выполняется как процесс,
состоящий из нескольких шагов [Evert and Kermes 2003:83-86]:
Во-первых, корпус в виде набора машиночитаемых текстов на одном
языке лингвистически предварительно обрабатывается (как уже было сказано
выше) - размечается морфологически и, возможно, синтаксически и снимается
неоднозначность.
Во-вторых, все сочетания, которые могут быть коллокацией выявляются,
и их статистика встречаемости извлекается из корпуса.
21
В-третьих, кандидаты фильтруются для повышения точности (на основе
грамматических моделей и / или частоты встречаемости).
В-четвертых, выбирается мера ассоциации и применяется к
статистическим данным встречаемости, полученным из корпуса.
И, наконец, кандидаты в коллокации классифицируются в соответствии с
количественной оценкой их сочетаемости и эта оценка сравнивается с
определенным порогом - кандидаты выше этого порога классифицируются как
слово сочетания,
кандидаты ниже этого порога - не являются
словосочетаниями.
Задача извлечения коллокаций далее сводится к ранжированию
кандидатов в коллокации. Цель состоит не просто в извлечении ограниченного
набора словосочетаний из данного корпуса, а в
ранжировании всех
потенциальных словосочетаний в зависимости от силы связи элементов
словосочетания, так что те кандидаты, в которых наблюдается наиболее крепкая
связь, оказываются в верхней части списка [Pecina 2009:26].
Не следует также забывать, что слова, которые имеют тенденцию к
расположению рядом друг с другом, в любом случае не могут быть найдены в
произвольном порядке, поскольку существуют грамматические правила языка.
Существуют также методы, учитывающие синтаксическую природу
коллокаций.
Б. Дай утверждает, что лингвистические знания резко улучшают качество
"стохастических" (случайных) систем [Daille 1994 192]. Одним из методов
учета синтаксиса являются так называемые ворд скетчи (эскизы слов), которые
представляют собой списки статистических сочетаний, где каждое слово имеет
по отношению друг к другу синтаксическую связь [Kilgarriff, Tugwell 2004].
Кроме того, оценка силы связи зависит от типа единиц (лемм или
словоформ), статистика которых используется для расчетов. Иногда извлечение
коллокации статистическими мерами должна производиться на уровне
словоформы, а не на уровне лемм. Анализ, описанный в [Захаров, Хохлова
2014: 340], показал, что в некоторых случаях показатель силы связи для
22
словоформ получает значительно большее значение для всех мер ассоциации,
причем таких словосочетаний много.
Само количество вычисленных коллокатов и значение меры ассоциации
также зависят от «диапазона» между базой и коллокатом, который был выбран
для вычислений. Когда диапазон увеличивается, помимо значимых синтагм,
слова из общего лексико-семантического поля находятся в качестве кандидатов
коллокации [Захаров 2017:2-3].
2.3.Факторы, от которых зависит качество работы методов
1.
Исследуемый материал:
a)
тип конструкций, которые мы хотим выявить;
b)
язык, для которого мы это делаем;
c)
область знаний, к которой отно сят ся устойчивые
словосочетания (в художественной литературе будет много метафор и т.д.,
в научной литературе много терминов);
2.
Характеристики корпуса, с которым мы работаем:
a)размер
b)репрезентативность и сбалансированность
c)уровень анализа
d)«изощренность» дистрибутивно-статистического аппарата,
e)учет зависимости между методами и текстовым материалом.
2.4.Меры лексической ассоциации
В настоящее время существует несколько способов рассчитать силу связи
частей коллокации. Естественно предположить, что одним из способов
определения устойчивости словосочетания является частота их совместной
встречаемости. Встречаемость, в свою очередь, связана с частотой отдельных
компонентов коллокации. Было создано много формул (или заимствовано из
других наук) для интеграции различных факторов, которые определяют связь
между компонентами коллокации. Обычно такие формулы называются мерами
ассоциации. Большинство из них основано на сравнении частот для пар слов,
23
извлеченных из фактического корпуса с относительными частотами, взятыми из
гипотетического корпуса, в котором все слова случайно расположены. Это
делается для выявления статистически значимых колебаний между
наблюдаемыми и ожидаемыми частотами [Dunning 1993: 61-74].
«Меры ассоциации – статистические формулы, вычисляющие силу
синтагматической связи элементов в составе устойчивого словосочетания на
основе частоты совместной встречаемости, частот в данном корпусе каждого
отдельного слова и других характеристик»[Захаров, Масевич 2014:49].
Меры ассоциации часто основаны на гипотетическом статистическом
критерии. Работает это так. Есть две гипотезы, нужно выбрать одну
правильную. При нулевой гипотезе – u и v независимы(где u и v обозначают
лексические элементы, отображаемые в таблице сопряженности). При
альтернативной гипотезеH1 - u и v взаимно зависимы. H1 выбирается системой.
Если гипотеза нулевая, то кандидаты не могут быть названы коллокацией.
Ошибки, которые могут быть сделаны при работе с гипотезами:
Тип 1 – в случае, когда неправильно отвергли нулевую гипотезу, хотя она на
самом деле верна (кандидат неверно считается коллокатом, это ложный
результат);
Тип 2 – когда не отвергли нулевую гипотезу, хотя она неверная (кандидат не
засчитывается как коллокат, хотя должен, это также ложный результат).
Мера может быть односторонней и двусторонней. Двусторонняя мера не
различает положительную и отрицательную силу связи.
Ст ат и с т и ч е с к и й к р и т е р и й м оже т б ы т ь п а р а м е т р и ч е с к и м и
непараметрическим:
• Параметрические критерии (например, t-score, z-score, log- likelihood)
включают числовые данные, и чаще всего их использование предполагает,
что данные нормально или биноминально распределены.
• непараметрические критерии (например, χ2) включают в себя порядковые
данные (ранги) и являются более эффективными, чем параметрические
24
критерии, там, где
не соблюдены некоторые условия относительно
совокупности.
Существуют различные меры, основанные на вычислении степени
близости слов в тексте. P.Pečina приводит 82 меры, описывает их
математические основы, включая их формулы и ключевые ссылки [Pecina 2009:
44-45, 48]. Наиболее популярными мерами, по-видимому, являются MI, t-score и
log- likelihood.
Лексические меры ассоциации применяются к вхождению ключевого
слова (узла). Список кандидатов, ранжированных по количественным
значениям мер, является результатом всего процесса. Верхняя часть списка
представляет собой словосочетания, которые, как предполагается, имеют
наибольшую связь друг с другом и, следовательно, являются наиболее
вероятными кандидатами на коллокации. В целом, все они учитывают частоту
совместной встречаемости ключевого слова (узла) и его коллоката, тем самым
отвечая на вопрос о том, насколько случайна сила связи между соседними
словами. Но формулы отличаются друг от друга, и они демонстрируют разную
силу связи для одного и того же сочетания, поэтому коллокационные ранги,
полученные разными мерами, не совпадают. Известно также, что некоторые
меры выдают аналогичные результаты, а другие значительно отличаются [Křen
2006: 246-247].
Т-score и z-score не рекомендуется использовать для низкочастотных
кандидатов. Известно, что t-score извлекает наиболее частые коллокации.
z-
score не используют на малых выборках, для этого лучше применить t-score.
Log--likelihood предпочитают использовать, так как эта мера хорошо
показывает себя на всех размерах корпусов, а также продвигает менее
частотных кандидатов.
Н а п р о т и в , м е р а M I п о з в о л я е т в ы я в и т ь н и з ко ч а с т о т н ы е
терминологические сочетания из нескольких слов и имена собственные. Кроме
того, следует отметить, что
частота совместной встречаемости также может
быть хорошим показателем , но она имеет недостаток, заключающийся в том,
25
что не может идентифицировать редкие термины [Daille 1994: 172-173]. χ2 не
использует нормальное распределение. Данная мера менее чувствительна к
низким частотам. χ2 не точен, когда выборка маленькая [Seretan 2011:43].
Несмотря на такое разнообразие мер и их подробное описание, имеются
некоторые неразрешенные задачи. Есть идея, что для разных функциональных
стилей нужны разные меры ассоциаций. Ягунова Е.В. и
Пивоварова Л.М. в
статье "Природа коллокаций в русском языке"сравнивали работу мер
ассоциаций на материале коллокаций в новостных текстах. Они выяснили, что
мера MI больше всего подходит для выявления терминов, объектов, сложных
номинаций. T-score, напротив, лучше работает при выделении «общеязыковых
устойчивых сочетаний» (производных служебных слов, дискурсивных слов) и
«устойчивых конструкций», где и те, и другие характеризуют именно
стилистические особенности текстов рассматриваемого типа (в данном случае –
новостных текстов) [Ягунова, Пивоварова 2010].
Также существует мнение, что можно использовать сразу все меры, а
потом найти их среднее арифметическое их рангов.
Есть еще другие подходы, как использовать меры:
o Исследовать, являются ли биграммы (Или триграммы) разрывными или нет.
Это значит, что нас интересует, вклиниваются ли между словами другие
слова, но такие подсчеты более сложны.
o Использовать синтаксический метод, метод шаблонов. Указывается, какие
должны быть коллокации – какая часть речи, согласование, разрывные или
нет. Об этом можно найти информацию в документации NoSketch Engine
[https://www.NoSketchEngine.co.uk/documentation]. В языке, например, могут
встречаться сочетания A+N, N+N и т.д. Первое – слова согласовываются,
могут быть разрывными (много других прилагательных между ними).
Возможные варианты сочетания N+N - это может быть сочинительная связь
(союз и), второе слово может быть в родительном падеже или, если между
ними предлог, то зависимое слово будет стоять в падеже согласно предлогу.
26
Отдельные шаблоны можно записывать не только в терминах синтаксиса, но
и семантики, если у нас есть семантически размеченный корпус.
2.5. Классификация мер ассоциации
В нашей работе мы использовали инструмент NoSketch Engine. NoSketch
Engine - это запросная веб-система корпусов, которая поддерживает ряд
функций на основе морфологически аннотированных текстов. Эти функции
включают в себя конкорданс, частотные списки, распределительный тезаурус и
word sketches (ворд скетчи, одностраничная сводка грамматического и
разговорного поведения слова). Ворд скетчи могут восприниматься как
типичные фразы, определяемые, с одной стороны, синтаксисом, который
ограничивает «коллективность» слов в данном языке, а с другой вероятностью, тесно связанной с использованием слов.
[Kilgarriff 2014:105-116].
В NoSketch Engine реализовано 7 мер: T-score, MI, MI3, log-likelihood,
min.sensitivity, log-Dice, MI log_f. Дадим их краткую характеристику [https://
www.sketchengine.co.uk/documentation/statistics-used-in-sketch-engine].
Условные обозначения:
N– размер корпуса,
ƒA– сколько раз встретилось ключевое слово во всем корпусе (конкорданс),
ƒB – сколько раз встретился коллокат во всем корпусе,
ƒAB– сколько раз встретился коллокат в конкордансе (количество вхождений)
T-Score
T-score выражает определенность, с которой мы можем утверждать, что
существует связь между словами, то есть их совпадение не является
случайным. Значение зависит от частоты всей коллокации, поэтому очень
частые словосочетания имеют тенденцию достигать высокого значения T-score,
несмотря на то, что не являются значимыми в качестве коллокаций.
T-score использует критерий Стьюдента. Является односторонней
параметрической мерой, которая предполагает, что выборка сделана из
нормально распределенной совокупности. Он сравнивает среднее значение
27
выборки, X (то есть, наблюдаемое среднее), со средним значением выборки, µ
(т.е. средняя оценка в предположении нулевой гипотезы). Высокая разность
указывает на то, что образец не был составлен из совокупности, в которой
имеет место нулевая гипотеза. Таким образом, в случае лексических данных,
высокое значение T свидетельствует о том, что образец не был составлен из
совокупности, в которой две лексические единицы являются независимыми, и,
следовательно, указывает на сильную положительную ассоциацию
В большинстве случаев показатель T-score является более надежным или
более полезным, чем показатель MI.
Рассчитывается по формуле:
_
AB −
AB
N
AB
MI Score
Mutual Information (взаимная информация) отражает степень совпадения
слов по сравнению количества раз, когда они появляются отдельно. Показатель
MI сильно зависит от частоты, низкочастотные слова обычно имеют высокий
показатель MI, что может вводить в заблуждение. Вот почему NoSketch Engine
позволяет установить лимит, а слова с частотой ниже этого предела не будут
включены в расчет.
Рассчитывается по формуле:
log-2
ABN
AB
MI3-Score отличается тем, что формула возведена в куб. MI3 использует
более высокий показатель в числителе, чтобы еще больше увеличить оценку
силы связи высокочастотных слов, представляет собой чисто эвристический
подход.
log-2
3ABN
AB
28
log-likelihood относится к мерам наибольшего правдоподобия, известна как
логарифмическая функция правдоподобия. Получает результат на основе
таблицы вероятности.
Рассчитывается по формуле:
2*(xlx(ƒAB)+xlx(ƒA-ƒAB)+xlx(ƒB-ƒAB)+xlx(N)+xlx(N+-ƒAB -ƒA -ƒB)-xlx(ƒA)xlx(ƒB)-xlx(N-ƒA)-xlx(N-ƒB)),
где xlx(ƒ) это ƒln(ƒ).
Min.sensitivity
Еще одной мерой ассоциации, относящейся к группе точечной оценки
силы связи, которая не получила широкого распространения, является
минимальная чувствительность (MS).
Рассчитывается по формуле:
min(_
AB AB
,_
)
B A
Коэффициент Dice, мера, также относящаяся к группе точечно й
оценки, интересна тем, что, как считают некоторые лингвисты (Smadja), что она
идентифицирует пары слов с особенно высокой степенью силы связи (т. е. с
силой связи почти 100%).
Рассчитывается по формуле:
_
2AB
A + AB
MI. log_f
Рассчитывается по формуле:
MI-Score*ln(ƒAB+1).
Выводы по главе 2
1.
Методика извлечения коллокаций напрямую связана с корпусной
лингвистикой. Корпуса текстов и корпусные менеджеры – незаменимый
материал и инструмент для выявления коллокаций. Для выявления
коллокаций на базе корпуса большое значение имеют лингвистическая
29
разметка текстов и предобработка данных в корпусе, а также снятие
неоднозначности.
2.
Устойчивость словосочетаний (коллокаций) определяется разными
факторами: лексическими, грамматическими, узуальными.
3.
Есть несколько факторов, от которых зависит качество работы
м е т о д о в и з в л е ч е н и я ко л л о к а ц и й : р е п р е з е н т а т и в н о с т ь и
сбалансированность корпуса, «изощренность» дистрибутивностатистического аппарата, учет зависимости между методами и текстовым
материалом.
4.
Меры ассоциации – статистические формулы, вычисляющие силу
синтагматической связи элементов в составе устойчивого словосочетания
на основе частоты совместной встречаемости. Существует большое
количество различных мер и исследований по их оценке.
5.
Автоматическое извлечение коллокаций представляет собой
несколько последовательных шагов. Первый - предобработка текстов, из
которых извлекаются коллокации. Второй шаг- все потенциальные
коллокации и статистика их встречаемости выявляются на основе
грамматики заданного языка, третий шаг- кандидаты в коллокации
фильтруются для повышения точности, четвертый шаг - к статистическим
корпусным данным применяется мера лексической ассоциации и затем
кандидаты ранжируются в соответствии с порогом истинности.
30
ГЛАВА 3. МЕТОДЫ И КРИТЕРИИ ОЦЕНКИ
К автоматическим способам оценки автоматизированных систем
относится вычисление полноты, точности, F-меры и средней точности, которые
часто используются многими исследователями.
Процедура извлечения коллокаций включает в себя
получение списка
кандидатов в устойчивые словосочетания. Оценка результатов выделения
коллокаций заключается в том, чтобы среди выделенных кандидатов
определить настоящие коллокации и оценить результаты по выбранным
метрикам.
Способы оценки можно делить по нескольким основаниям [Ramisch
2012:70-72]:
1.
по природе используемых мер:
a. количественные. Такой вид оценки предполагает использование
полноты, точности, F-меры, а также среднее арифметическое точности;
b. качественные.
При качественной оценке производится обзор
полученного списка с учетом таких критериев, как частеречные цепочки,
частотное распределение и контекст. Такая оценка возможна как вручную,
так и при помощи статистического анализа. Обычно она имеет рекурсивный
характер – получение списка кандидатов, его оценка, учет ошибок, прогон
заново, и т.д. до получения приемлемого результата;
2.
по типу доступных ресурсов для оценки:
a. оценка вручную. При такой оценке носители языка или эксперты в
той предметной области, для которой выделялись устойчивые
словосочетания, вручную оценивают получившийся список кандидатов в
устойчивые словосочетания и отбирают среди них действительные и ложные
устойчивые словосочетания. К сожалению, такой вид оценки очень
затратный по временным и человеческим ресурсам;
b.автоматическая оценка. Такой вид оценки проводится при наличии
золотого стандарта, который является некоторым эталоном, списком, который
содержит только «правильные» устойчивые словосочетания. Для подобной
31
оценки необходимым условием должно быть полное или значительное
покрытие устойчивых словосочетаний золотым стандартом.
3.1.Точность и полнота
Для нашего эксперимента потребуются такие формулы, как точность
(precision) и полнота (recall), которые являются метриками и используются при
оценке большей части алгоритмов извлечения информации. Они могут
использоваться также в качестве основы для производных метрик, например,
для F-меры.
Точность – это доля документов (в нашем случае коллокаций), действительно
принадлежащих данному классу (совпадающих с золотым стандартом)
относительно всех документов, которые система отнесла к этому классу.
Полнота – это доля найденных классификатором документов (коллокаций),
принадлежащих классу относительно всех документов этого класса в тестовой
выборке.
Эти значения рассчитываются на основании таблицы контингентности,
которая составляется для каждого класса отдельно.
Категория i
Оценка системы
Экспертная оценка
положительная
отрицательная
Положительная
TP
FP
Отрицательная
FN
TN
В таблице содержится информация, сколько раз система приняла верное и
сколько раз неверное решение по документам заданного класса. А именно:
•
TP(true positive) — истино-положительное решение;
•
TN (true negative)— истино-отрицательное решение;
•
FP (false positive)— ложно-положительное решение;
•
FN (false negative)— ложно-отрицательное решение.
Тогда, точность и полнота определяются следующим образом:
Precision=_
TP
TP + FP
32
Recall=_
TP
TP + FN
В работе потребуется так называемая "условная" полнота, так как в
нашем материале невозможно найти нужные компоненты для вычисления
истинной полноты. Пример вычисления условной полноты приведен в главе 4.
3.2.F-мера
F-мера, или гармоническое среднее, часто используется как единая
метрика, объединяющая в себе метрики полноты и точности, являясь, таким
образом, их усредненным значением.
Вычисляется по следующей формуле:
F=_
Precision + Recall
2
F-мера это необязательно среднее арифметическое. Точности и полноте в
этой формуле можно приписывать различные коэффициенты, в зависимости от
целей исследования, но в нашей работе мы этого не делали. Именно поэтому
мы используем в формуле F-меры среднее арифметическое.
3.3.Средняя точность
Средняя точность (mean average precision)
учитывает приоритет
словосочетаний, имеющих высокий ранг перед словосочетаниями,
находящимися в конце списка, позволяя более точно оценить качество работы
того или иного метода выявления устойчивых словосочетаний.
3.4.Составление золотого стандарта
Для оценки автоматизированных систем нужен золотой стандарт или
список действительных устойчивых словосочетаний и метод, который
составляет ранжированный список возможных устойчивых словосочетаний.
Сложность составления золотого стандарта заключается в том, что часто
бывает неясно, откуда взять данные, и часто это очень трудоемкая задача.
Поэтому иногда составляют золотой стандарт только для конкретного
33
эксперимента. Но важность и удобство золотого стандарта давно широко
признаны.
Выводы по главе 3
1.
Метрики оценки включают в себя вычисление полноты, точности,
F-меры, средней точности.
2.
Для адекватной оценки результатов извлечения требуется наличие
так называемого золотого стандарта.
3.
В качестве золотого стандарта используются данные имеющихся
словарей лексикографических материалов, предварительно размеченные
корпусы и экспертная оценка получаемых результатов.
4.
В нашей работе мы будем оценивать получаемые результаты в
целом и эффективность отдельных мер ассоциации на основе оценок
экспертов и золотого стандарта на базе словарей, подготовленного нами
специально для данной работы.
34
ГЛАВА 4. ОЦЕНКА АВТОМАТИЧЕСКИХ МЕТОДОВ ИЗВЛЕЧЕНИЯ
КОЛЛОКАЦИЙ
Для исследования разных методов выявления коллокаций, а именно
статистических, мы провели ряд экспериментов.
Цель экспериментов – оценить эффективность статистических мер путем
сравнения результатов автоматического выделения коллокаций с «золотым
стандартом», а также экспертной оценкой.
Задачи:
•
Выбрать метрики для их оценки
•
Создать золотой стандарт
•
Оценить меры
Инструменты:
Исследование проводилось с помощью системы NoSketch Engine на
корпусе Araneum Russicum Russicum Maius
объемом в 1,20 млрд токенов с
использованием различных словарей русского языка. Для извлечения
коллокаций есть готовые инструменты, в частности, функция Collocations,
встроенная в NoSketch Engine (NoSkE). Данная система управления корпусом
способна работать с чрезвычайно крупными корпусами и способна
предоставить платформу для вычисления широкого диапазона лексической
статистики.
Система спроектирована по модульному принципу. Она содержит
библиотеку индексирования для сжатия, создания и извлечения индексов,
модуль оценки запросов с классами для различных операций запроса,
анализатор запросов, который преобразует запросы в абстрактные
синтаксические деревья, набор инструментов командной строки для построения
и обслуживания корпусов, два графических пользовательских интерфейса.
[Rychlý 2007:65-70].
Материалы:
Эксперимент проводился на корпусе Araneum Russicum Russicum Maius
объемом в 1,20 млрд токенов. Этот корпус был разработан в рамках проекта
[Benko 2014: 257-264] и также доступен в сайте братиславского университета
35
(http://ucts.uniba.sk). Наш выбор пал именно на данный корпус, так как,
например,
в корпусе НКРЯ невозможно выделение коллокаций. Название
корпусов происходит от латинского названия "лингвистически нейтральный", и
обозначения языка, соответственно, Araneum Anglicum, Araneum Germanicum,
Araneum Russicum и т.д. Каждый корпус существует в четырех вариантах
размеров, из которых основных два: Maius (от лат. "больше") объемом 1,2 млрд.
токенов и Minus (от лат. "меньше"), составляющий 10% от корпуса Maius.
Также есть версия Maximum, содержащая столько данных, сколько можно
загрузить из Интернета для конкретного языка, а их размер в основном
определяется конфигурацией сервера.
Сбор всех исходных данных для корпусов Aranea осуществляется с
помощью SpiderLing, веб-сканера, оптимизированного для сбора текстовых
данных из Интернета. Система содержит встроенный модуль кодирования
символов (chared.py) и распознавания языка (trigrams.py), а также инструмент
для удаления шаблона (jusText). В корпусе устранены дубли. Для
автоматического аннотирования текста используется теггер под названием
TreeTagger. Чтобы упростить создание совместимых грамматик, все
собственные тэг-таблицы внесены в универсальный набор тегов Araneum. Для
всех корпусов были написаны совместимые скетч-грамматики. Их основная
идея состоит в том, чтобы иметь одинаковое количество граммем (и отображать
таблицы ворд скетчей) для всех классов слов во всех языках [Benko 2014,
257-264].
Методы:
Метод исследования заключается в сопоставлении статистических мер и
других параметров, предназначенных для извлечения словосочетаний.
Приводим подробный план работы:
•
Выбрать слова разных частей речи для эксперимента;
•
Выбрать словари для составления золотого стандарта;
•
Из словарных статей взять коллокации, в которых встречаются эти
слова; это и будет золотой стандарт;
36
•
Сравнить золотой стандарт с коллокациями, извлеченными мерами
ассоциации;
•
Вычислить корреляцию между мерами;
•
Попросить экспертов оценить выданные мерами коллокации;
•
Выбрать лучшую меру по результатам эксперимента.
В ходе эксперимента были использованы следующие словари1:
•
Словарь сочетаемости русского языка под редакцией Денисова и
Морковкина,
•
МАС (малый академический словарь),
•
СИБАС (Сибирский ассоциативный словарь русского языка)
•
БТС (Большой Толковый Словарь),
•
Русский ассоциативный словарь,
•
Ассоциативная база данных УрРАС,
•
Словарь-тезаурус ЕВРАС,
•
Толковый словарь Ушакова,
•
Толковый словарь Ожегова,
•
Толковый словарь Ефремовой,
Лингво-страноведческий словарь Русские фразеологизмы В.П.
•
Фелициной и В.М. Мокиенко;
•
Фразеологический словарь русского языка под редакцией А.И.
Молоткова.
4.1.Эксперимент
С помощью названных выше словарей был создан "золотой стандарт" ad
hoc под 7 слов, которые мы анализировали (сердце, вода, рука, белый, скакать,
семь, свой). См. приложения 1-7. Мы также сравнили, в скольких словарях
встретилась та или иная коллокация. Например, словосочетание питьевая вода
встретилось в 5 из 12 словарей, правая рука- 10 из 12, доброе сердце - 9 из 12
(таблица 1).
1 Библиографические описания словарей см. в Источники
37
Таблица 1. Словосочетания для слова вода и их присутствие в словарях золотого стандарта
(фрагмент)
сло
М
Си
БТ
русс
Рус
Ас
Сл
сло
сло
сло Сл
вар
АС
бас
С
кий
ски
соц
ова
вар
вар
вар ова ло
ь
ассо
й
иат
рь-
ь
ь
ь
соч
циа
асс
ив
тез
Уш
Ож
Еф Мо рь
ета
тив
оц
ная
аур
ако
его
ре
лот М
ем
ный
иат
баз
ус
ва
ва
мо
ков ок
ост
слов
ив
а
ЕВ
ва
а
и
арь
ны
дан
РА
нк
й
ны
С
о
сло
х
вар
Ур
ь
РА
рь
С
ва
ие
С
питьевая
горячая
+
+
+
+
+
+
+
+
+
+
+
живая
+
+
как рыба в
воде
+
+
+
+
как с гуся
вода
+
+
+
+
+
+
В нашем материале есть также очень редкие коллокации. Говоря
«редкие», мы имеем в виду словосочетания, встретившиеся лишь в одном или
двух словарях. Для слова рука мы выбрали из всех словарей 246 коллокаций со
словом рука, для слова вода - 328, для слова сердце – 245, для слова белый – 90,
для слова скакать – 62, для слова семь – 24, для слова свой – 75. Мы полагаем,
что имеем основания опираться на данную подборку в качестве золотого
стандарта. Более подробно коллокации можно посмотреть в приложениях 1-7.
В NoSketch Engine реализовано 7 мер: T-score, MI, MI3, log-likelihood,
min.sensitivity, log-Dice, MI. log- _f. Из них для своей работы мы выбрали 4
меры. Этот выбор обусловлен тем, что:
38
1)
Из трех MI-подобных мы взяли MI3, считающуюся наиболее
оптимальной;
2)
На мере log-Dice, которая в NoSketchEngine вообще является
основной, строятся основные сервисы NoSketchEngine, такие как
wordsketches, thesaurus, Differences;
3)
Мера T-score и log-likelihood являются противоположными MI .
Коллокации могут вычисляться для разных диапазонов, поэтому нужно с
ними определиться. Этот вопрос не такой простой, как кажется с первого
взгляда, поэтому даже может стать темой отдельного исследования. Само число
вычисленных коллокатов и значение меры ассоциации также зависят от
«диапазона» между ключевым словом и коллокатом, который был выбран для
вычислений. Когда диапазон увеличивается, помимо значимых синтагм система
находит в качестве кандидатов коллокации слова из общего лексикосемантического поля. По умолчанию в NoSketch Engine предлагается диапазон
-5..+5, но мы считаем, что при его использовании выдается много «шума», то
есть много коллокаций, не являющихся синтагмами. Однако, при очень
маленьком диапазоне также могут возникнуть проблемы. В статье Efficiency of
the Sketch Engine grammar приводится пример словосочетания «запуск
двигателя по будильнику», при этом система выделяет коллокацию "двигатель
по будильнику", которая является бессмысленной. Такая проблема возникает по
причине заданного маленького диапазона, не охватывающего рядом стоящие
слова [Khokhlova, Zakharov 2016]. Мы в своей работе нашли оптимальный
диапазон от-3 до 3, хотя иногда и он варьируется в зависимости от части речи. В
корпусной лингвистике вообще считается, что для большинства случаев это не
сильно принципиально.
В системе NoSketch Engine есть инструмент Collocations, с помощью
которого пользователь имеет возможность извлекать коллокации. Для этого
нужно ввести запрос в основное окно корпуса, получить результат и перейти во
вкладку Collocations. В открывшемся окне (см. рисунок 1) задать параметры
извлечения (выбрать меру, сортировку, диапазон, минимальную частоту и т.д.).
39
Рисунок 1. Инструмент извлечения коллокаций в NoSketch Engine
Б ы л и
исследованы кандидаты в коллокаты для слов рука, вода и сердце с диапазонами
от 0 до 1,от 0 до 2,от 0 до 3,от -1 до 0, от -2 до 0, от -3 до 0 и для слов белый от 0
до +3, скакать от -1 до 1, семь от -3 до 3, свой от -1 до 1. При этом мы сравнили
выдачу меры T-score с при диапазонах от 0 до 1 и от 0 до 3 для слова белый.
Можно видеть, что результаты одинаковые, то есть размер диапазона не очень
влияет на работу мер ассоциации. См. таблицу 2.
Мы сравнили наш золотой стандарт с коллокациями, выданными разными
мерами, проанализировав, встречаются ли в выдаче мер коллокаты,
извлеченные нами из словарей. Для примера возьмем список коллокатов для
слова сердце ( для всех семи слов проделано то же самое). Словосочетание
доброе сердце встретилось в 9 словарях (Словарь сочетаемости, Малый
академический, Сибирская ассоциативная база и т.д.), и все 4 меры его выдали.
Словосочетание с замиранием сердца встретилось в 3 словарях и выдано 2
мерами (см. таблицу 3). И далее по списку. Полный список представлен в
приложении 1.
Полные списки коллокатов каждой меры совпадают, но мы используем
только верхнюю, более релевантную их часть, поэтому они отличаются рангами
коллокатов. То есть, может оказаться так, что в выдаче какой-либо меры
хорошие коллокаты ( то есть коллокаты из золотого стандарта) "спустились" в
самый низ, но остальные меры выдали их в начале своих списков. Как правило,
большая часть «хороших» коллокатов
оказывается в верхней части списка.
40
Поэтому кажется целесообразным оценивать только эту верхнюю часть. Мы
определяли пороговое значение каждой меры эмпирическим путем, хотя есть
исследования, предлагающие такие пороговые значения (напр., Ф. Чермак для
меры MI предлагает порог, равным 8 [Čermák 2006:223-248]).Была сделана
попытка проверить эту гипотезу на нашем материале. Мы сравнили две
таблицы - верхняя часть списка (значение log-Dice ≈9-8) и нижняя (значение
log-Dice ≈3), таблицы 4 и 5 соответственно. В первой таблице из 10 коллокатов
6 составляют устойчивые словосочетания (левая рука, палец руки, правая рука,
взять в руки, под руку и т.д.), согласно мнению экспертов (подробнее об
экспертной оценке речь пойдет далее).
Во второй таблице, напротив, из 10
кандидатов ни один не формирует устойчивое словосочетание. Из этого
следует, что не стоит рассматривать нижнюю часть списков коллокатов, так как
коллокаты, образовывающие хорошие устойчивые словосочетания, в основном
сосредоточены в верхней части списка.
41
Таблица 2. Диапазоны меры T-score для слова белый
с
н
е
г
х
ф
ц
ф а
л
в
о л
а
е
н а
г
т
т
ч
з
к
е
п
г
н
м
о
к
р
л ш
е
л
а
о
л
о
а
о у
с
и
л
р
о
н
с
в м
о
н
е
е
т
ь
к
е
к
а
т
о
а
к
р
о
з
а
р
у
б
а
ш
к
а
п
о
л
о
с
а
с
п
и
с
о
к
о
д
е
ж
д
а
с
т
е
н
а
м
р
а
м
о
р
ш
о
к
о
л
а
д
п
г
о
т
о
з р
и
р
а о
г
о
л ш
р
д
о
к
э
к
р
а
н
г
о
л
у
б
ь
п
о
т
о
л
о
к
с
а
х
а
р
з
а
в
и
с
т
ь
а
к
у
л
а
з
а
р
п
л
а
т
а
О
т
0
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
д
о
1
О
т
0
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
д
о
3
Таблица 3.Коллокаты для слова сердце.
сл
ов
ар
ь
со
че
та
ем
ос
ти
М Си
БТ
А ба
С
С с
биение
+
+
доброе
+
+
+
Рус
ски
й
СО
ПО
СТ
АВ
ИТ
ЕЛ
ЬН
ЫЙ
ассо
циа
тив
ный
сло
вар
ь
+
Ас
со
ци
ат Сл
сл сл
ив ова
ов ов
на рьар ар
я тез
ь ь
ба аур
у ож
за ус
ша ег
да ЕВ
ко ов
нн РА
ва а
ых С
Ур
РА
С
+
+
+
+
сло
вар
ь
еф
ре
мо
ва
мол
отко
в
+
MI
3
lo
T- gsc lik
or eli
e ho
od
+
+
+
+
+
+
+
+
М
log
ок
ие
dic
нк
e
о
42
завоеват
ь
Как
ножом
по
сердцу
Львиное
+
+
+
+
Ничто
не
шевельну
лось в
моём с.
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
остановк
а
положа
руку на
сердце
+
+
+
+
Предлож
ение
руки и
сердца
+
+
+
+
разбитое
с
замиран
ием
+
+
+
+
+
+
+
+
+
+
+
+
собачье
+
+
+
+
+
+
+
Холодно
е
+
+
+
+
+
+
+
Храброе
+
+
+
+
Таблица 4. Кандидаты в коллокаты из верхней части списка log-Dice
Частота
совместной
встречаемос
ти
logDice
держа
ть
13124
9,734
0
0
1
1
0,5
0,57735027
ногам
и
13313
9,540
2
2
0
2
1,5
1
Экспер Экспер Экспер
т0
т1
т2
Экспер
т3
Стандартн
Среднее
ое
арифетическ
отклонени
ое
е
43
левый
8235
9,109
2
2
2
2
2
0
палец
8056
9,068
0
0
0
0
0
0
правы
й
922
9,042
2
1
2
2
1,75
0,5
рука
12985
8,977
0
0
0
0
0
0
взять
9588
8,877
2
0
1
0
0,75
0,95742711
под
16757
8,761
1
1
1
1
1
0
свой
46443
8,728
2
2
2
2
2
0
кисть
3861
8,142
1
1
1
1
1
0
Таблица 5. Кандидаты в коллокаты из нижней части списка log-Dice
Значение
совместной
встречаемости
logЭксп
Dic
ерт 0
e
Эксп
ерт 1
Эксп
ерт2
Эксп
ерт3
Среднее
Стандартное
арифметичес
отклонение
кое
располаг
аться
200
3,75
6
0
0
0
0
0
0
определе
нный
287
3,75
6
0
0
0
0
0
0
паспорт
199
3,75
3
0
0
0
0
0
0
христос
192
3,75
0
0
0
0
0
0
0
ухажива
ть
181
3,75
0
0
0
0
0
0
0
хоть
214
3,74
7
0
0
0
0
0
0
называть
ся
213
3,74
6
0
0
0
0
0
0
напряже
ние
206
3,74
5
0
0
0
0
0
0
кружок
178
3,74
4
0
0
0
0
0
0
множест
во
252
3,74
0
0
0
0
0
0
0
44
Как было сказано выше, в нашем исследовании мы вычисляем условную
полноту. Мы не можем вычислить истинную полноту, но можно утверждать, что
на достаточно большом корпусе должно встречаться большинство коллокаций
из золотого стандарта.
Условная полнота была вычислена следующим образом (на примере слова
рука):
коллокация считается хорошей, если она встретилась более в чем 2
словарях и выдана более чем 1 мерой. см. таблицу 6.
Таблица 6. Пример оценки коллокатов к слову рука.
Количество Количество
словарей
мер
как рукой сняло
2
2
хорошая
мужчины
2
1
хорошая
рукой подать
2
2
хорошая
умывать руки
2
1
хорошая
3
2
хорошая
кривые
3
2
хорошая
матери
3
2
хорошая
нечистые
3
2
хорошая
под
3
2
хорошая
под рукой
3
1
хорошая
подать руку
3
2
хорошая
просить руки
3
1
хорошая
целовать
3
2
хорошая
вытянуть
1
3
девушки
1
3
кисть
1
4
кожа
1
4
обе
1
3
прибрать к
1
3
Всё валится из
рук
46
ребенка
1
3
с пустыми
1
3
трогать
1
3
чешутся
1
4
в четыре руки
2
3
хорошая
не доходят
2
3
хорошая
Рука на пульсе
2
3
хорошая
Дано: всего b коллокаций, a – количество «хороших» коллокатов,c количество коллокатов в золотом стандарте. Для нашего слова рука это a=72, b=
a
246,c= 153. Полнота = _ .
b
Таким образом, мы вычислили точность, условную полноту и F-меру (см.
главу 3) для наших слов (таблица 7).
Таблица 7. Полнота, точность, F-мера для мер ассоциации
Слово
Полнота
Точность
F-мера
Вода
0,2
0,3
0,25
Сердце
0,4
0,3
0,35
Рука
0,3
0,32
0,31
Белый
0,6
0,3
0,45
Скакать
0,3
0,1
0,2
Семь
0,4
0,2
0,3
Свой
0,12
0,2
0,12
Также мы разделили все получившиеся словосочетания по группам:
группа 1 - кандидаты, не встретившиеся в словарях, и выданы 1-2 мерами;
группа 2 - кандидаты, не встретившиеся в словарях, и выданы 3-4 мерами;
группа 3 - кандидаты, встретившиеся в 1-3 словарях, и выданы 1-2 мерами;
группа 4 - кандидаты, встретившиеся в 1-3 словарях, и выданы 3-4 мерами;
группа 5 - кандидаты, встретившиеся в 4-12 словарях, и выданы 1-2 мерами;
группа 6 - кандидаты, встретившиеся в 4-12 словарях, и выданы 3-4мерами;
группа 7 - кандидаты, встретившиеся в 1-3 словарях, но не выданы ни одной
47
мерой; группа 8 - кандидаты, встретившиеся в 4-12словарях,но не выданы ни
одной мерой. Приводим ниже таблицы 8-9 для наглядности.
Таблица 8. Распределение количества коллокаций для слов рука, вода, сердце
рука
вода
словари
меры
0
1--2
0
сердце
словари
меры
словари
меры
44
0
1--2
25
0
1--2
53
3--4
30
0
3--4
45
0
3--4
31
1--3
1--2
21
1--3
1--2
10
1--3
1--2
26
1--3
3--4
21
1--3
3--4
49
1--3
3--4
33
4--12
1--2
8
4--12
1--2
1
4--12
1--2
14
4--12
3--4
27
4--12
3--4
15
4--12
3--4
22
1--3
0
134
1--3
0
229
1--3
0
135
4--12
0
31
4--12
0
25
4--12
0
14
Таблица 9. Распределение количества коллокаций для слов семь, свой, белый, скакать
семь
свой
словари
меры
словари
меры
0
1--2
8
0
1--2
1
0
3--4
7
0
3--4
24
1--3
1--2
2
1--3
1--2
4
1--3
3--4
1
1--3
3--4
1
4--12
1--2
0
4--12
1--2
0
4--12
3--4
0
4--12
3--4
1
1--3
0
4
1--3
0
40
4--12
0
0
4--12
0
4
белый
скакать
словари
меры
словари
меры
0
1--2
12
0
1--2
1
0
3--4
26
0
3--4
40
1--3
1--2
7
1--3
1--2
2
48
1--3
3--4
11
1--3
3--4
5
4--12
1--2
8
4--12
1--2
0
4--12
3--4
10
4--12
3--4
1
1--3
0
13
1--3
0
12
4--12
0
2
4--12
0
0
Такое разное количество коллокатов объясняется тем, что последние 4
слова (белый, скакать, семь, свой) являются низкочастотными, и взяты
намеренно с целью проанализировать работу статистических мер на разных
типах слов.
Далее мы воспользовались услугами экспертов. Мы опросили трех
экспертов с филологическим образованием, а также двоих с его отсутствием.
Кандидаты к коллокации были рассортированы по группам в зависимости от
количества случаев встречаемости в словарях и мер, которые выявили эти
коллокации. Экспертам было необходимо оценить каждый пример по шкале от
0 до 2, где 0 - не коллокация, 1- слабая коллокация/затрудняюсь ответить, 2 абсолютно точно коллокация.
Также экспертам был представлен текст, поясняющий, что есть
коллокация. Он звучит так: "Коллокации - это словосочетания, в которых
главный по смыслу компонент (база) употреблен в своем прямом значении, а
вспомогательный компонент (коллокатор) сочетается в рамках смыслового
класса, но выбор конкретного слова предопределен общепринятым
употреблением. Например: проливной [коллокатор] дождь [база], принимать
[коллокатор] решение [база], зерно [коллокатор] истины [база], ставить под
[коллокатор] сомнение [база], топорная [коллокатор] работа [база], трескучий
[коллокатор] мороз [база]"[Баранов и Добровольский 2014:73].
В таблице 10 представлен пример экспертной оценки коллокатов для
слова вода. С результатами экспертной оценки всех слов можно ознакомиться в
приложениях 8-14.
Как мы видим, в большинстве случаев ответы экспертов распределились в
соответствии с сортировкой кандидатов в коллокации в зависимости от выдачи
мер и количества случаев встречаемости в словарях. Также мы посчитали для
49
каждой коллокации среднее арифметическое ответов экспертов и стандартное
отклонение. Например, сочетание «выпрямить руки» было в группе №1, то есть
оно встретилось 0 раз в словарях и 1-2 раза оно было выдано мерами
ассоциации. Эксперты посчитали его «не коллокацией» и поставили 0. Это
подтверждает гипотезу о том, что данное словосочетание коллокацией не
является. Аналогично, выражение газированная вода, которое встретилось 8 раз
в словарях и было выдано всеми мерами, набрало максимальное количество
баллов, то есть все эксперты единодушно поставили 2. На основе этого мы
можем сделать вывод, словосочетание является «качественной» коллокацией.
Однако, не всегда мнение экспертов совпадает со словарями - в эксперименте
встретились сочетания, входящие в группы с редкой встречаемостью,
(например, в первую (0|1-2) , вторую( 0|3-4), седьмую( 1-3|0) и восьмую ( 4-12|0)
группы), которые также получили максимальное количество оценок «2» - в
самое сердце, водой не разольешь, под горячую руку, прижать к сердцу,
наложить руки. Основываясь на эксперименте, можно сделать вывод, что не
стоит полагаться на наш золотой стандарт, так как многие коллокации, не
встретившиеся в словарях, признаны экспертами «хорошими». Для примера
возьмем коллокации со словом сердце. В первой группе приблизительно 20%
коллокаций, получивших оценку 2, во второй 15%, в третьей 20%, в четвертой
25%, в пятой 38%, шестой 45%, седьмой 15% и восьмой 40%. Первая и вторая
группы содержат словосочетания, мало встретившиеся в словарях, но при этом
в них достаточно много (20 и 15%) коллокаций, отмеченных экспертами
оценкой 2. Также мы используем получившееся среднее арифметическое
оценок для каждого слова - предположим, что среднее арифметическое выше
1.6 - это хороший результат. Посмотрим, сколько коллокаций являются
хорошими с этой точки зрения. Результаты получились такие: сердце - 81 из 327
(24.77 %), вода - 44 из 398(11.06 %), рука - 50 из 314(15.92 %), белый - 49 из
91(53.85 %), скакать - 18 из 64(28.13 %), семь - 11 из 25(44 %), свой - 42 из
76(55.26 %).
50
Еще один способ сравнить меры ассоциации – это оценить их качество по
отношению друг к другу. Можно сделать это с помощью коэффициента
корреляции Спирмена. Для этого мы проранжировали слова и их значения,
выданные мерами. Каждое слово имеет разный ранг для разных мер. Например,
коллокация махнуть рукой - в T-score она на 101 месте, в MI3 на 19, loglikelihood на 39 и так далее. См. таблицу 11. Далее, опираясь на эти ранги, мы
посчитали Коэффициент корреляции Спирмена, где диапазонами считаются
ранги двух мер. Каждая из семи мер сравнивается с остальными шестью, а
также с рангом значения совместной встречаемости (Cooccurrence count rank,
второй столбец таблицы 12).
51
Таблица 10. Оценка экспертов коллокатов для слова вода.
Количес
Ср
тво
едн
Ста
коллокац
ее
нда
Количест
ий,
ари
ртн
во
выданны
Эк
Эк
Эк
фм
ое
коллокац
х мерами
спе
спе
спе
Экс
ети
откл
ий в
ассоциац
рт
рт
рт
Эксп
перт
чес
оне
словарях
ии
0
1
2
ерт 3
4
кое
ние
0,5951
туалетная
3
4
2
2
2
2
2
2
19
0,6400
родниковая
4
1
2
2
2
2
2
2
1,6996
газированна
я
95
8
4
2
2
2
2
2
2
73
1,2472
горячая
4
4
1
2
1
2
0
1,2
19
0,9537
жесткая
4
3
1
1
1
1
2
1,2
94
0,9537
живая
5
4
2
2
2
2
2
2
минеральна
я
94
1,7539
7
4
1
1
1
1
2
1,2
64
1,7539
морская
7
4
1
1
1
1
2
1,2
64
1,1873
питьевая
5
4
1
2
1
2
2
1,6
17
1,4624
прозрачная
4
4
0
0
1
0
0
0,2
94
0,7453
святая
4
4
2
2
2
2
2
2
56
52
1,7380
стакан
7
4
2
2
2
2
0
54
1,6
1,2472
теплая
4
4
1
1
1
1
0
19
0,8
1,2472
4
холодная
4
1
1
1
1
0
19
0,8
1,6393
5
чистая
4
0
1
0
0
2
6
0,6
0,7453
чистейшей
4
4
2
2
2
2
2
56
2
Таблица 11. Сводная таблица коллокаций для слова рука с рангами
T-score
MI3
14
114,
306
36,1
5
76
101
42,6
62
32,5
19
31
67
53,9
11
33,0
15
42
левый
30
90,4
89
палец
32
89,4
82
10
199
26,9
34
30,3
37
98
нога
12
114,
883
кисть
56
61,9
91
18
105
42,1
7
31,1
26
79
139
34,1
25
30,2
40
42
держат
ь
махнут
ь
протян
уть
поклад
ать
умелы
й
пожать
loglikelihood
log-Dice
MI
min,
sensitivity
MI,log-_f
7
1368
04,5
9,73
1
4
8,81
13
6
0,03
2
1
83,5
1
94
39
2542
7,65
7,13
33
4
10,8
2
69
0,00
53
4
81,6
2
04
28
3590
7,6
7,79
16
3
10,0
3
27
0,00
19
7
79,9
3
84
34,4
9
74
11
8136
7
9,10
3
9
8,45
17
9
7 0,02
76,2
4
7
34,3
12
12
7842
4,69
4
9,06
8
20 8,36
8
86
1121
6,63
5,81
182
4
11,3
1
9
0,00
152
2
75,0
6
47
35,2
8
54
8
1199
37,3
2 9,54
7,85
28
2
0,03
1
2
74,5
7
72
32,5
6
25
3966
8,71
48
2065
1,91
72
1406
3,21
10
8,14
2
15
8,73
1
15
0,01
9
0,00
9
5
8
75,1
97
72,1
08
36 7,09
9,57
8
9
0,00
54
4
71,7
9
15
6,48
75
9
9,86
5
5
0,00
93
3
69,6
10
75
53
вытяну
тый
130
36,8
45
30,4
35
55
65
1588
3,54
6,70
55
6
9,63
7
4
0,00
92
3
69,5
11
25
Таблица 12. Коэффициент корреляции Спирмена между различными мерами для слова рука.
Коэффицие
нт
корреляции
Спирмена
Tscore
MI
MI3
loglikeliho
od
min.
logsensitivi Dice
ty
MI.log_f
T-score
0,568
0
Х
-0,4390
0,70827 0,82077
7
7
0,64855 0,56798 -0,1582
8
5
4
MI
0,397
6
-0,439
0
Х
0,21489 0,08056
4
9
0,18981
0,94227
0,39761
8
3
MI3
0,733
9
0,708 0,21489
3
4
loglikelihood
0,777
7
0,820 0,08056
0,97637
8
9
min.
sensitivity
0,908
5
0,648 0,18981 0,63158 0,70756
6
8
9
5
Х
log-Dice
1,000
0
0,568
0,73400 0,77775
0,39761
0
3
1
0,90855
3
MI.log-_f
0,597
8
-0,158 0,94227 0,49747 0,37920
2
3
8
6
0,36947 0,59789
1
8
Х
0,97637
0,63158 0,73400 0,49747
9
3
8
Х
0,70756 0,77775 0,37920
5
1
6
0,90855 0,36947
3
1
Х
0,59789
8
Х
54
Корреляцию для остальных слов можно посмотреть в приложениях 15-21.
Чтобы оценить эффективность каждой меры, мы использовали метод
Харина-Ашманова [Ashmanov et al. 1997], который оценивает релевантность
возвращенной информации. На основе экспертной оценки выделенных
коллокатов и их места в ранжированном списке в отношении каждой меры был
сформирован набор характеристик. Набор характеристик означает количество
истинных коллокаций, полученных с различным количеством коллокатов из
ранжированного списка точности). Согласно [Ashmanov et al. 1997], мы
выбираем характеристические множества, которые содержат 5 элементов значения точности для первых 20, 50, 100, 150 и 200 коллокаций в верхней
части списка. В таблице 12 показано распределение количества истинных
коллокаций в разных мерах:
Таблица 12. Распределение количества истинных коллокаций в разных мерах
tscore
MI
MI3
Loglikeliho
od
Min.
sensitivi
ty
Log-Dice
MI.
log_f
1-20
1
8
3
2
5
4
7
1-50
5
15
7
6
10
10
15
1-100
10
22
16
16
19
14
21
1-150
14
25
17
19
24
17
24
1-200
22
26
21
24
25
22
25
Вес присваивается каждому элементу набора признаков (1, 2, 3, 4 и 5
соответственно). Каждый элемент «взвешивается»: каждое из пяти значений
точности умножается на его вес и делится на 15 (сумма весов). Сумма
взвешенных элементов - это результирующая точность характеристического
множества. Приведем пример для MI3.Количествоистинных коллокаций в мере
MI3 в первых20 примерах- 3 (точность 0,15), в первых50 - 7 (точность 0.14), в
первых 100- 16 (точность 0.16),в первых 150 - 17 (точность 0,113),в первых 200
55
- 21
(точно сть 0.105). Средняя точно сть получается
0.15*1/15+0.14*2/15+0.16*3/15+0.113*4/15+0.105*5/15=0,01+0,019+0,032+0,03+
0,035=0,126. В таблице 13 можно ознакомиться с результатами для остальных
мер ассоциации.
Таблица 13. Значения точности для разных мер.
t-score
MI
MI3
Log-
Min.sensitivity Log--
likelihood
Количество 22
26
21
24
0,099
0,199
0,080
6
1
7
25
MI.log-
Dice
_f
22
25
0,135
0,190
4
2
настоящих
коллокаций
Точность
Место
0,129
0,166
5
3
Итак, лидирует мера MI. На втором месте MI.log-_f, за ней следует
Min.sensitivity. Интересно заметить, что лучше всего оказались меры семейства
MI. Однако, родственная им мера MI3 оказалась на 7 месте, последнем.
Возможно, это связано с тем, что в формуле использовано возведение функции
в куб.
4.2. Оценка результатов
Актуальность данной работы состоит в том, чтобы сравнить результаты
проведенных исследований с похожими, уже имевшими место ранее в других
исследованиях. До проведения эксперимента мы считали, что словарные статьи
(золотой стандарт) производили впечатление достаточно полных, для того,
чтобы черпать из них коллокации. Как оказалось, это не так. Словари неполны,
а словосочетания, приведенные в них, являются, скорее идиомами, чем
устойчивыми словосочетаниями в широком смысле. Также мы считали
возможным, что мера ассоциации Log-Dice окажется лучшей и самой
эффективной среди остальных мер, но после наших расчетов стало видно, что
первое место завоевала мера MI, второй после нее оказалась
MI.log-_f, а
предполагаемый лидер занимает всего лишь 4 место из 7. После объявления
56
результатов сравнения реальности и ожиданий можно перейти к соотнесению
похожих работ на данную работу.
Похожее исследование было проведено Захаровым В.П. [Zakharov
2017:9], в этой работе также сравнивались меры ассоциации с помощью метода
[Ashmanov et al. 1997], в результате оказалось, что лучшая мера
MI.l-og_f.
Кроме того, в исследовании сказано, что точность меры log--likelihood ниже,
чем точность меры min. sensitivity. Меру же MI тоже нужно отметить, так как
она оказалась эффективной и отличается от остальных. В нашей работе мы
выяснили, что лучшей мерой(по точности) оказалась MI. Точность меры log-likelihood равняется 0,129, тогда как точность min. sensitivity - 0,166.Поэтому
мы согласны с утверждением, что точность первой меры меньше. Также в
приведенном исследовании сказано, что мера MI незаменима при извлечении
редких терминологических словосочетаний.
Еще одна похожая работа, автором которой является Хохлова М.В.
[Хохлова 2008:353-355], гласит, что в результате эксперимента выяснилось, что
меры извлекают словосочетания, не зафиксированные в словаре. Это
соотносится с нашим выводом о том, что словарные статьи неполны и устарели.
Также в этой статье замечено, что мера T-score выделила большее число
биграмм, в которых компонентом являются знаки препинания. Мы можем
сказать, что частично это подтвердилось и в нашем эксперименте, данная мера
действительно выделяет много знаков препинания.
Извлечением коллокаций помимо вышеназванных работ занимались
Кормачева Д., Пивоварова Л., Копотев М. [Kormacheva, Pivovarova, Kopotev
2014:4].
Все авторы сходятся в едином мнении, что результаты ручного
аннотирования совпадают с результатами оценки, полученными с помощью
золотого стандарта. В этом мы можем согласиться с авторами. Также авторы
статьи [Kormacheva, Pivovarova, Kopotev 2014:4] делают вывод, что мера t-score
справляется с извлечением устойчивых словосочетаний лучше, чем Dice и MI,
57
хотя в целом количество коллокаций, полученных с использованием этих мер,
высокое. Это утверждение спорное и требует проверки.
Выводы по главе 4
1) В результате эксперимента мы имеем возможность сравнить выбранные
меры ассоциации с золотым стандартом и с оценками экспертов, оценить
их качество и эффективность с помощью значений точности.
Важно отметить, что эксперимент был проведен на большом
репрезентативном корпусе, для всех слов были учтены и оценены все
выданные коллокации. Поэтому полученные результаты можно считать
достоверными.
2) Была проделана работа по выявлению корреляции между данными
автоматического извлечения коллокаций и наполнением нашего золотого
стандарта. При этом учитывалось, на основе какого количестве мер была
извлечена коллокация и в каком количестве словарей она присутствует.
3) В отношении золотого стандарта можно сказать, что словари неполны.
Наш золотой стандарт показал себя слабо: многие словосочетания,
выданные мерами и которые можно причислить к коллокациям
(устойчивым или идиоматичным), отсутствуют в словарях.
4) На основе работы, указанной в п. 2, можно сделать еще один вывод, что в
словарях в подавляющем большинстве содержатся фразеологизмы, а
эксперты оценивают просто устойчивые словосочетания.
5) Cравнение мер лексической ассоциации дало следующие результаты:
наибольшую эффективность показала мера MI, далее следуют MI.log-_f и
Min.sensitivity.
6) На наш взгляд, эффективность меры MI может быть объяснена тем, что в
процедуре извлечения коллокаций мы задавали ограничение по частоте
коллокаций, причем довольно высокое.
7) В отношении экспертной оценки можно сказать, что не стоит полагаться
на наш золотой стандарт, так как многие коллокации, не встретившиеся в
словарях, признаны экспертами «хорошими", причем единогласно. Судя
58
по оценке, можно сказать, что какие-то коллокации "сильнее" других, так
как эксперты поставили им больше баллов. Например, газированная вода
сильнее, чем питьевая вода, потому что первая коллокация получила от
экспертов самые высокие баллы в отличие от второй.
8) Вычислив полноту и точность мер, мы можем заявить, что результаты
получились примерно одинаковыми и особых расхождений не
наблюдается, поэтому мы делаем данные метрики основными в нашей
работе.
59
ЗАКЛЮЧЕНИЕ
В данном исследовании были описаны меры лексической ассоциации и
проведена оценка их эффективности с помощью золотого стандарта, оценки
людей-экспертов и вычисления точности. В качестве золотого стандарта была
собрана база
устойчивых словосочетаний на основе различных толковых и
фразеологических словарей.
Была проделана работа по выявлению корреляции между данными
автоматического извлечения коллокаций и наполнением нашего золотого
стандарта. При этом учитывалось, на основе какого количества мер была
извлечена коллокация и в каком количестве словарей она присутствует.
Результатом явилось то наблюдение, что информация об устойчивых
словосочетаниях в словарных статьях неполная - многие коллокации, выданные
мерами ассоциации, отсутствуют в словарях. Те же коллокации были высоко
оценены экспертами, что свидетельствует об их "истинности". Представляется
возможным включить такие устойчивые словосочетания в словари, таким
образом обновляя их.
С помощью вычисления точности мер был проведен анализ
эффективности мер ассоциации. Лучшей мерой оказалась мера MI, далее
следуют MI.log_f и Min.sensitivity. Это значит, что в подобных исследованиях в
первую очередь следует применять именно их.
В целом вс е меры ассоциации показа ли высокий уровень
работоспособности в сравнении со словарями.
Практическая и научная
значимость данной работы связана с
возможностью сравнить ее с похожими исследованиями, сопоставить
результаты. В последней главе это действие выполнено и наблюдение
показывает, что встречаются похожие цифры и результаты.
60
Список литературы
1. Баранов А.Н., Добровольский Д.О. Основы фразеологии. - М.:Флинта,
2014, с.44-96.
2. Виноградов В.В. Русский язык. – М.: Наука, 1972, с.
3. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб.,
2005,с 5.
4. Иорданская Л.Н., Мельчук И.А.Смысл и сочетаемость в словаре. - М.:
Языки славянских культур, 2007, с.227-228.
5. Хохлова М.В. Экспериментальная проверка методов выделения
коллокаций. Slavica Helsingiensia, Хельсинки, 2008, с.354-355.
6. Шанский Н .М. Лексикология современного русского языка. М., 1964, с.
201.
7. Шанский Н.М. Фразеология современного русского языка. – М.: Высшая
школа,1985, с.157.
8. Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке.
Опыт автоматического извлечения и классификации на материале
новостных текстов. - М.: Всероссийский институт научной и технической
информации РАН, 2010, с.14-15.
9. Ярцева В.Н. Лингвистический энциклопедический словарь.— М:
Советская энциклопедия, 1990. URL:http://tapemark.narod.ru/les/index.html.
10.Ashmanov I., Grigoryev S., Gusev V., Kharin N., Shabanov V. Using Statistical
Method for Intelligent Computer-Based Text Processing/ The Proceedings of
the Dialog-’97,1997, pp. 33-37.
11.Benko V. Aranea: Yet Another Family of (Comparable) Web Corpora // Petr
Sojka, Aleš Horák, Ivan Kopeček and Karel Pala (Eds.): Text, Speech and
Dialog-ue. 17th International Conference, TSD 2014, Brno: Springer
International Publishing Switzerland, 2014, pp.248-253.
12.Čermák F. Statistické metody hledání frazémů a idiomů v korpusech //
Kolokace, Praha, 2006, pp.223-248.
61
13.Daille B. Mixed approach for the automatic extraction of terminology: lexical
statistics and linguistic filters[Approche mixte pour l’extraction automatique de
terminologie: statistiques lexicales et filtres linguistiques],PhD thesis,
Université Paris, 1994 pp.70-72.
14.Dunning T.E. Accurate methods for the statistics of surprise and coincidence.
Computational Linguistics, 19(1), 1993, pp 61-74..
15.Evert S. The statistics of word cooccurrences: Word pairs and collocations.
PhD thesis, University of Stuttgart, 2004, p.35.
16.Evert
S., Kermes H. Experiments on candidate data for collocation extraction.
In Proceedings of the 10th Conference of The European Chapter of the
Association for Computational Linguistics (EACL), 2003, p.17.
17.Fano R.M. Transmission of information; a statistical theory of
communications. MIT Press, New York, 1961, pp.5-62.
18.Khokhlova M, Zakharov V, EFFICIENCY OF THE SKETCH GRAMMAR
FOR RUSSIAN, St.Petersburg, 2007, pp.4-6.
19.Kilgarriff A., Rychly P., Smrz
P., Tugwell D., The NoSketch Engine,
Proceedings of EURALEX-2004, 2004, pp.105-116.
20.Kormacheva
D., Pivovarova L. & Kopotev M.' Automatic Collocation
Extraction and Classification of Automatically Obtained Bigrams' in
Proceedings: Workshop on Computational, Cognitive, and Linguistic
Approaches to the Analysis of Complex Words and Collocations, 2014, pp.3-4.
21.Křen M. Collocation Measures and the Czech Language: Comparison on the
Czech National Corpus data, Praha, 2006, pp.246-247.
22.Mel’ˇcuk I. Collocations and lexical functions. // Cowie AP (ed) Phraseolog-y.
Theory, Analysis, and Applications, Claredon Press, Oxford, 1998, pp.23-53.
23.Pecina P. Lexical association measures and collocation extraction. Language
Resources and Evaluation 1(44), 2010, pp.27-28, 48.
24.Ramisch C. A generic and open framework for multiword expressions
treatment: from acquisition to applications. Computation and Language.
Universidade Federal do Rio Grande do Sul, 2012, p.46.
62
25.Rychlý, P. Manatee/Bonito – A Modular Corpus Manager // 1st Workshop on
Recent Advances in Slavonic Natural Language Processing. Brno: Masaryk
University, 2007, pp. 65-70.
26.Sag I., Baldwin T., Bond F., Copestake А., Flickinger D. Multiword
Expressions: A Pain in the Neck for NLP? International Conference on
Computational Linguistics and Intelligent Text Processing, Mexico City,
Mexico, Springer, 2002, pp.3-7.
27.Seretan V. Syntax-based Collocation extraction. Text, Speech and Language. –
Springer Science, 2011, p.43.
28.Sinclair J. Corpus, Concordance, Collocation. Oxford University Press,
Oxford, 1991, pp.123-140.
29.Zakharov V.P. A U TO MATIC CO LLO CATIO N EX TRA CTIO N :
ASSOCIATION MEASURES EVALUATION AND INTEGRATION//
Dialog-2017, 2017 (in print), pp.1-10.
Источники золотого стандарта
1. Ассоциативная база данных УрРАС. URL: iling-ran.ru/main/publications/
urras.
2. Большой академический словарь русского языка: РАН, Ин-т лингвистич.
исследований; Под ред. Л. Кругликовой, А. Шушкова. - М.: Наука, 2004.
3. Денисов П.Н., Морковкин В.В. Словарь сочетаемости слов русского
языка - М.:Рус.яз, 1983.
4. Русский ассоциативный словарь.URL:http://www.tesaurus.ru/dict/dict.php.
5. СИБАС (Сибирский ассоциативный словарь русского языка). URL: http://
adictru.nsu.ru/.
6. Словарь русского языка: В 4-х т. / РАН, Ин-т лингвистич. исследований;
Под ред. А. П. Евгеньевой. — 4-е изд., стер. — М.: Рус. яз.;
Полиграфресурсы, 1999.
7. Словарь-тезаурус ЕВРАС. URL: iling-ran.ru/main/publications/evras.
63
8. Современный толковый словарь русского языка/ Т. Ф. Ефремова - М.:
АСТ, 2006.
9. Толковый словарь русского языка / Под ред. Д.Н. Ушакова. — М.: Гос. инт "Сов. энцикл."; ОГИЗ; Гос. изд-во иностр. и нац. слов., 1935-1940.
10.Толковый словарь русского языка/ Под ред. С.И. Ожегова. - М.: Оникс,
2010.
11.Молотков А.И.Фразеологический словарь русского языка - М.:Советская
энциклопедия, 1968.
12.Фелицина В.П, Мокиенко В.М. Русские фразеологизмы: Лингвострановедческий словарь - М.: Рус.яз, 1990.
64
Приложение 1. Коллокаты для слова сердце
66
logdice
Ру
сс
сл
ки
ов
й
ар
ас
ь
со
С
со М
Б ци
и
че А
Т ат
ба
та С
С ив
с
е
ны
м
й
ос
сл
ти
ов
ар
ь
ангела
У
р
Р
А
С
Е
В
Р
А
С
сл
ов
ар
ь
У
ш
ак
ов
а
сл
ов
ар
ь
О
ж
ег
ов
а
сл
ов
ар
ь
Е
ф
ре
м
ов
о
й
С
л
ов
ар
ь
М
о
л
от
ко
ва
С
л
ов
ар
ь
М
о
к
ие
нк
о
от
0
д
о
3
от
-3
д
о
0
MI3
от
0
д
о
3
от
-3
д
о
0
Tscor
e
от
0
д
о
3
от
-3
д
о
0
Log
like
liho
od
от
0
д
о
3
от
-3
д
о
0
+
аритмия
+
бездонное
+
безумное
+
бешеное
+
биение
+
благородство
+
близко к
+
+
+
+
+
+
+
+
+
+
Бога
+
+
+
болезнь
+
болит
+
боль в
+
больного
+
больное
+
большое
+
+
+
+
болеть/любить
всем сердцем
за кого-л
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
67
боязнь
+
Брать за́ сердце
+
Бычье
бьется
+
бьющееся
в глубине
сердца
+
+
+
+
+
+
+ +
+
+
+
в пятки ушло
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
воспоминания
+
+
всем сердцем
выбор
+
+
+
+
вылетело
+
Вынуть
+
выпрыгнет
+
вырвать из
выстрелить в
+
героя
+
+
+
+
+
+
+
говяжье
+
+
голос
+
горит
города
+
+
гибнет
говорит
+
+
взыграло
вредно для
+
+
+
великодушное
волновать
+
+
+
в сердцах
Верное
+
+
в самое
веление
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
68
горячее
+
+
+ +
+
давление
дама
+
дамы
+
+
+
+
+
+
+
+
+
+
+
+
дать волю
сердцу
+
девичье
девушки
действует на
+
+
+
+
Держать
сердце на коголибо
держаться за
+
+
+
+
+
+
+
детское
деятельность
+
+
+
до глубины
доброе
+
дочери
+
дрогнуло
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
друга
Европы
+
екнуло
+
+
+
+
+
+
жгучее
+
женское
+
женщины
+
+
+
+
+
+
+
жестокое
+
живет
живое
+
+
друг сердца
жены
+
+
+
жить в сердце
+
жить сердцем
+
+
69
забилось
+
+
заболевание
+
+
+
+
завоевать
+
+
+
+
зажечь
+
зажигать
+
закрыто
+
замерло
замирает
+
+
+
+ +
+
+
+
+
заныло
+
+
занято
запасть в
+
затаить в
+
заячье
+
здоровое
+
+
+
+ +
+
+
+
+
+
Земли
+
злое
зов
+
золотое
+
+
+
+
+
+ +
+
+
+
+
+
+
из камня
+
измученное
изношенное
+
изучать
+
искусственное
+
испортить
+
+
+
+
+
+
+
+
исследование
+
Кавказа
Как маслом по
сердцу
+
Как ножом по
сердцу
+
каменное
+
+
+
+
+
+
+ +
+
+
+
70
камень с
сердца
клапан
+
+
+
+
+
+
клетки
+
+
+
ключик к
колотится
+
+
+
+
+
кольнуло
+
+
+
+
+
+
кровью обливается
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
ледяное
лечить
+
льва
+
Львиное
+
+
+
+
+
+
+
любимого
+
любимое
+
+
+
+
+
+ +
+
+
+
+
+
людей
+
людское
+
маленькое
+
+
мамы
массаж
+
массировать
+
матери
+
+
+
+
+
+
+
+
материнское
+
+
+
+
+
+
+
миллионов
+
мое
молодое
+
+
кровообращение
любящее
+
+
красавицы
красное
+
+
+
+
+
+
молчит
+
мощное
+
71
мудрого
человека
+
мужское
+
мужчины
+
музыка
мышцы
+
+
+
На с. тяжело,
легко, тоскливо
+
На сердце
кошки скребут
+
+
надрывать
+
+
+
+
+
нагрузка на
+
+
+
не выдержало
+
+
не камень
+
+
+
+
+
+
+
не лежит
+
+
не на месте
+
+
не обманет
+
+
+
+
+
+
+
+
+
+
не прикажешь
+
не хватит
+
+
недостаточност
ь
+
+
нет сердца
+
Ничто не
шевельнулось в
моём с.
+
новое
+
+
+
+
+
+
+
+
ноет
Обнаженные
+
+
нарушения
область
+
+
На с. накипело,
наболело
нежное
+
+
+
+ +
+
+
+
+
+
+
+
72
оборвалось
обследование
+
+
+
+
огромное
+
+
+
+
огрубело
+
одинокие
+
+
+
ожесточилось
+
операция
+
оперировать
+
+
+
+
останавливаетс
я
+
+
+
+
+
+
+
+
+
+
от всего
+
от глубины
+
+
от полноты
+
+
+
+
+
+
+
от сердца
отлегло
+
+
+
+
от чистого
отважное
+
отдавать
+
+
+
+
+
+
+
+
отдано
+
отзывчивое
+
отклик
+
открытое
+
+
+
+
отошло
+
+
+
+
+
+
+
+
+
+
+
отлегло от
+
+
+
+
+
+
+
оттаяло
+
отца
+
падает
память
+
+
остановка
открыть
+
+
ожирение
остановилось
+
+
+
+
+
+
+
73
Пармы
+
+
патологии
+
перебои
+
перевернулось
+
пересаживать
+
+
+
+
+
+
Петербурга
+
+
+
по сердцу
+
победить
+
подсказывает
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
поклонников
покорить
+
полезно для
+
положа руку на
сердце
+
попасть в
+
+
+
+
поет
+
+
плода
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
пополам
+
поражения
порок
+
+
потрясти
+
+
преданное
+
предложение
руки и
+
прижать к
+
принадлежит
+
принимает
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
прихватило
+
проблемы
проверять
+
+
+
пересадка
пламенное
+
+
+
+
74
продолговатое
пронзить
+
+
+
просит
простое
+
+
+
+
+
пылкое
+
работа
+
работает
+
+
+
+
+
радость
радуется
+
+
+
+
+ +
разбитое
+
+ +
разбить
+
разрыв
+
+
+
+
+
+
+
+
+
+
+
+
+
разрывается
+
+
+
+
+
+
раненое
+
ранимое
+
растопить
растравить
+
растревожить
+
+
+
+
+
рвется
+
+
+
+
+
+
режет
+
риск
ритм
+
+
разбито
ребенка
+
+
+
+
+
+
+
родное
+
России
руку и сердце
+
русское
+
с замиранием
+
+
+
с легким
+
+
с открытым
+
+
+
+
+
+
+
+
+
+
+
+
75
с тяжелым
+
+
с чистым
+
С. сердцу весть
подаёт
+
светлое
+
свинец на
+
+
+
+
+
+
+
+
свиное
сдает
+
сердце моё
+
+
+
+
+
сжалось
сжимается
+
+
+
сильное
+
скрепя
слабое
смелое
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
согревает
+
+
+
+
+
+
+
+
+
согреть
+
сокращения
+
+
Солдатское
Сорвать сердце
на ком-чем
+
+
+
+
+
состояние
+
сосуды
+
+
+
+
спокойное
+
+
+
+
+
Стальное
старика
+
старое
+
столицы
+
страдает
+
страны
+
+
собачье
спортсмена
+
+
+
+
+
+
+
+
+
76
стук
+
+
стучит
+
+
схватиться за
+
+
+
+
+ +
+
+
+
+
+
+
+
+
теплое
+
+
ткани
+
+
+
трансплантаци
я
+
тревожное
+
трепетное
+
+
+
трепещет
трогать сердце
+
труса
+
трусливое
+
+
+
+
+
+
+
+
удар
Ужалить в
самое с
+
+
УЗИ
Уколоть в
самое с
+
+
укреплять
+
ум
+
+
+
+
+
+
+
+
успокоилось
+
функции
+
Холодное
хорошее
+
+
теплое
Тоны
+
+
+
+
+
хрупкое
человека
+
человеческое
+
черствое
+
+
+
+
+
+
Храброе
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
77
честное
+
четырехкамерн
ое
чистое
+
+
Читать в
+
+
+
+
+
+
чувствует
+
+
+
+
+
чувствительное
чувствовать
+
+
+
+
+
+
чует
+
+
чуткое
шалит
+
широта
+
шумы
+
+
+
щемит
+
+
+
щемит
+
+
+
+
+
ЭКГ
юноши
+
+
+
+
+
+
+
78
Приложение 2. Коллокаты для слова вода
79
logDice
сл
ов
ар
С
ь
М И Б
со
А Б Т
че
С А С
та
С
ем
ос
ти
Рус
ски
й
асс
Е
оц
Ур В
иат
РА Р
ив
С А
ны
С
й
сло
вар
ь
с
л
с
о
л
в
сл о
а
ов в
р
ар а
ь
ь р
Е
У ь
ф
ш О
р
ак ж
е
ов ег
м
а о
о
в
в
а
о
й
Сл
ов
ар
ь
М
ол
от
ко
ва
С
л
о
в
а
р
ь
М
о
к
и
е
н
к
о
о
т
0
д
о
3
о
т
-3
д
о
0
о
т
0
д
о
3
LogT- likeliho
MI3 score
od
о
т
-3
д
о
0
о
т
0
д
о
3
о
т
-3
д
о
0
о
т
0
д
о
3
о
т
-3
д
о
0
от
0
до
3
анализ
+
+
+
+
артезианска
я
+
+
+
+
+
+
+
+
+
+
Байкала
+
бак
бассейн
бежит
+
+
+
+
бесцветная
+
+
большая
+
бочка
+
бочка для
+
бочка с
+
бросить в
+
броситься в
+
брызги
+
бурлит
+
Буря в
стакане
воды
+
+
+
+
80
бутилирова
нная
бутылка изпод
+
бутылка с
+
бутылка
+
+
бытовая
+
+
+
+
+
вешние
воды
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
вещества
Вилами на
воде писано
+
вкус
+
вкусная
+
Водой не
разлить (не
разольешь)к
ого
+
+
внутренние
+
+
+
+
+ +
+
+ +
+
+
+
воды моря
Воды не
замутит
+
воды
отошли
возить
+
+
ванна
водопровод
ная
+
+
В мутной
воде рыбу
ловить
ведро
+
+
+ +
+
+
+
+
Возить воду
войти в
+
Волги
+
+
+
+
+
81
вольная
вскипятить
+
+
Вывести на
чистую
воду
выйти из
+
+
+
+ +
+
+
+ +
+
Выйти
сухим из
воды
выкачать
+
вылить
+
вылить
+
вынырнуть
из
+
выпить
+
выпустить
+
+
высокая
вытекла
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
вышла из
берегов
газированна
я
+ + + +
глотать
+
глоток
+
+
голубая
горькая
+
горячая
+
графин
+
графин для
+
графин с
+
+
+
+
+
+
давление
+
+
+
+
+
+
грунтовые
грязная
+
+
+
+
82
дать
+
+
+
+
+
движение
+
+
+
+
+
дезинфицир
овать
+
дистиллиро
ванная
+
+
+
+
+
для мытья
+
для питья
+
для
поливки
+
для стирки
+
для
технически
х нужд
+
для
хозяйственн
ых нужд
+
для чая
+
Днепра
+
добавлять
+
+
+
+
+
+
+
+
добавляют
дождевая
+
+
+
емкость
жесткая
+
+
+
+
жесткость
+
живая
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
жидкая
жить без
+
жить в
+
+
журчит
загрязнения
+
+
дорогая
доставка
+
+
+
83
загрязнять
+
закипит
+
залить
+
+
+
+
+
залить
водой
замерзла
+
запас
+
запах
+
запить
+
затопила
+
зачерпнуть
+
здешняя
+
+
зеленая
идти за
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
ижевская
+
из воды
из
источника
+
из колодца
+
из родника
+
+
+
из
скважины
+
избыток
+
из-под
крана
+
иметь в
составе
+
искать
+
испарения
+
испарилась
+
использоват
ь
+
+
+
+
+
+
84
используетс
я
+
Кавказские
+
+
+
+
капля
+
+
кастрюля
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Как (будто,
словно) в
воду
опущенный
+
+
Как в воду
глядел
+
+
Как в воду
канул
+
+
Как водой
смыло
+
+
Как две
капли воды
+
+
+
Как рыба в
воде
+
+
+
+
Как с гуся
вода
+
+
+
+
камень
точит
+
канистра
+
капает
+
капля
+
качать
+
+
+
+
+
+
+
+
+
+
качество
кипяченая
+
кипячение
+
+
+
+
кипящая
кислая
+
ключевая
+
количество
+
колодезная
+
+
+
+
+
+
+
+
+
+
85
колодец
+
комнатная
концы в
воду
+
+
кончилась
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
котел для
+
кружка
+
кувшин для
+
+
кулер с
купаться в
+
ледяная
+
летать над
+
лечебная
+
+
+
лечиться на
водах
+
+
+ +
+
+
лимонная
Лить воду
+
Лить воду
на
мельницу
+
лишить
+
+
+
+ +
+
ложку
льется
+
любить
+
+
+
малая
+
менять
+
мертвая
местная
+
минеральна
я
+
Много воды
утекло
молекулы
+
+
+ +
+ + +
+
+ +
+
+ +
86
морская
+ + + +
московская
+
Мутить
воду
+
мутная
+
мыльная
+
мыться
+
мягкая
+
Набрать
воды в рот
+
нагрев
+
найти
+
наклонитьс
як
+
налить
+
наличие
+
наполнить
+
напор
+
направиться
к
+
находиться
в
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
нейтральны
е
+
+
+
низкая
носить
решетом
воду
+
+
негазирован
ная
носить
+
+
невкусная
недостаток
+ +
+
+
наглотаться
+
+
+
+
+
87
обезжелези
вание
+
обеззаражи
вание
+
обеспечить
+
обитать в
+
обливание
водой
облить
+
обнаружить
в
+
обнаружить
воду
+
обработка
+
обрызгать
+
обтираться
+
обходиться
без
+
обыкновенн
ая
+
+
океана
+
+
+
+
+
+
+
+
+
+
+
+
+
+
околоплодн
ые
окунуть
+
+
обычная
озера
+
+
+
+
+
+
+
+
ополоснуть
опустить в
+
оставаться в
+
остаться без
+
остыла
+
отделиться
от
+
отключить
+
+
+
+
88
оторваться
от
+
отравить
+
отравленная
+
отсутствие
охладить
+
+
+
+
+
+
+
+
+
охлаждение
очистить
+
очистка
воды
+
+
+
+
+
очищенная
+
+
+
+
+
паводковые
+
перевозка
+
перекрыть
+
перелить
+
переправлят
ь
+
пить воду
+
питьевая
+
плескаться
в
+
плохая
+
плыть по/
под
+
плыть
против
+
поверхност
ь
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
погружение
погрузить в
+
+
+
+
под водой
подавать
+
подача
+
+
+
89
подземные
+
+
подкисленн
ая
подогрев
+
подогретая
+
подогреть
+
подойти к
+
подсоленна
я
поить
+
показаться
из
+
полая
+
+
+
+
+
+
+
+
+
+
+
полива
+
полная
положить в
+
послать за
+
+
поступает
поток
+
+
+
+
потреблени
е
+
+
+
+
потребност
ьв
+
появиться
из
+
превратилас
ь в пар
+
превращени
е в пар
+
предпочита
ть
+
пресная
+
+
+
+
+
+
+
+
+
прибрежны
х
прибывает
+
+
+
+
+
90
приводит в
движение
+
привыкнуть
к
+
принести
+
пробовать
+
прогреваетс
я
прозрачная
+
+
Пройти
огонь и
воду (и
медные
трубы)
+
+
пролить
+
промыть
водой
+
прописать
+
прополоска
ть
+
+
+
прополоска
ть в трёх
водах
+
+
+
пропускать
+
прорвала
+
+
+
+
+
+
+
+
+
+
+
+
просачивает
ся
простая
+
+
протечка
проточная
+
+
прохладная
+
+
+
+
+
+
+
проходит
прыгнуть в
+
пустить
+
путешестви
е по
+
+
+
+
+
+
+ +
91
работа под
+
работать
под
+
разбавить
+
+
+
+
+
развести
водой
+
+
+
+
+
разлить
+
размыла
+
размыть
водой
+
растворить
в
+
+
+
+
+
расход
+
+
+
+
резервуар
+
+
+
+
+
+
+
+
+
реки
+
рекомендов
ать
+
речная
+ +
+
+
+
ржавая
родниковая
+
+
+
+
+
розовая
+
С лица не
воду пить
+
сброс
свежая
+
+
свойства
+ +
святая
Седьмая
вода на
киселе
+
синяя
+
+
+
+
+
+
+
+
+
+
+
+
+
+
сельтерская
сесть на
+
+
+
+
92
скользить
по
+
скопление
+
сладкая
+
+
слив
+
+
сливать
+
+
слить
+
слой
+
смешать с
+
смотреть на
+
+
+
смочить
+
+
смывается
смыла
+
смыть
водой
+
снабжать
+
снабжение
+
снести
водой
+
содержание
в чем-л
+
содержит
+
содержится
в
+
содовая
+
соленая
+
+
+
+
состав
+
+
+
+
+
+
+
+
+
+
+
состоит
сосуд с
+
+
+
+
спокойная
спустить
корабль на
+
стакан
+ + + +
+
+
+
+ +
+
+
+
+
93
стакан с
+
стекает
+
стоит
+
столовая
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
студеная
+
+
счетчик
сырая
+
+ +
+
тазик
талая
+
+
струится
струя
+
+
сточные
стоячая
+
+
Темна вода
во облацех
+
температур
а
+
теплая
+
+
+
+
+
+
+
термальной
территориа
льные воды
+ +
течение
+
течет
+
+
+
+
Тише воды,
ниже травы
+
+
Толочь воду
(в ступе);
+
+
+
+
+
+
+
+
+ +
толща
+
требуется
+
+
+
+
+
+
+
+
туалетная
+
+
Тяжелая
вода
+
+
+
+
+
+
94
удельный
вес
+
умываться
унесла
+
+
употреблять
уровень
+
+
+
+
+
+
+
фруктовая
+ +
химический
состав
+
хлорирован
ная
+
холодная
+
Холодной
водой
окатить
(или
облить)
+
+
+
хорошая
+
хранение
+
цвет
+
целебная
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
циркуляция
+
Чающие
движения
воды
Черного
моря
+
+
фильтры
для
цистерна
для
+
+
Утопить в
ложке воды
фильтрация
+
+
уровень
уронить в
+
+
+
95
чистая
+ + +
чистейшей
+
шумит
+
энергия
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
96
Приложение 3. Коллокаты для слова рука
97
Рус
сл
ски
ов
й
ар
асс
С
Е
ь
оц
М И Б
Ур В
со
иат
А Б Т
РА Р
че
ив
С А С
С А
тае
ны
С
С
мо
й
ст
сло
и
вар
ь
ампутиров
ать
+
ампутация
+
Ани
+
балерины
+
Без рук!
белые
+
+
с
л
о
в
а
р
ь
О
ж
ег
о
в
а
+
+
божья
С
л
о
в
а
р
ь
М
о
л
о
тк
о
в
а
С
л
о
ва
р
ь
М
о
к
и
е
н
к
о
logdice
MI3
о
т
0
д
о
3
о
т
0
д
о
3
о
т
-3
д
о
0
о
т
-3
д
о
0
+
большие
+
от
0
до
3
от
-3
до
0
+
+
+
+
+
+
+
+
+
+
+
+
+
брать
брать
инициатив
у в свои
+
Бриллиант
овая
В руках
чьих или у
кого
о о
т т
0 -3
д д
о о
3 0
Loglikelihoo
d
+
больные
болят
с
л
о
в
а
р
ь
У
ш
ак
о
в
а
с
л
о
ва
р
ь
Е
ф
р
е
м
о
в
о
й
Tscore
+
+
+
+
+
+
+
+
+
98
в четыре
руки
+
+
+
вдоль
туловища
+
верная
вести за
+
+
+
+
+
+
+
+
вести под
+
+
+
+
взмахнуть
+
взявшись
за
+
+
+
+
+
+
взять в
+
взять за
+
+
+
+
+
+
+
+
взять на
+
+
+
взяться за
+
влажные
+
+
+
+
+
+
властная
власть в
руках
+
воздеть
руки
волосатые
+
Всё
валится из
рук
+
+
+
+
выбить из
+
вывих
+
вывихнуть
+
+
+ +
+
+
+
+
+
всплеснут
ь
+
+
+
+
+
выпрямить
выпустить
из
+
вырвать из
+
выронить
из
+
+
+
+
+
+
+
+
99
вытирать
+
вытянуть
+
+
+
+
+
+
+
+
+
+
+
+
движение
м
+
+
движения
рук
+
+
+
+
двумя
+
+
+
+
гибкая
+
Глаза
боятся, а
руки
делают
+
голыми
горячая
+
+
+
+
Греть руки
+
грязные
+
Давать
волю
рукам
+
+
+
Дать по
рукам
кому-л
Дать руку
на
отсечение
+
+
+
грубые
+
+
+
+
+
+
+
+
+
+
+
+
девушки
+
дело рук
держать в
+
держать на
+
Держать
руку чью
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
держаться
за
+
детские
+
длинные
+
+
+
+
+
100
До ручки
дойти
+
добрые
руки
+
достать
дотянуться
+
+
+
дрожат
+
+
+
+
+
дрожащие
+
+
дружеская
+
железные
+
женские
+
женщины
+
жесткие
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
закона
+
замерзли
+
заняты
Запустить
руку во
что .
здоровые
+
знать чьюл руку
+
+
+
+
+
+
и ногами
+
+
+
+
+
+
+
+
+
+
+
золотые
из первых
+
+
загребуща
я
идти под
руку
+
+
заботливы
е
зажать в
+
+
друга
загорелые
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
101
Из рук в
руки
+
из рук вон
плохо
+
изящные
+
+
Иметь
(сильную)
рукугде
+
Искать
чьей руки
+
испачкать
+
+
+
+
+
+
+
+
как без рук
+
+
как рукой
сняло
+
карты в
руки
+
+
+
+
кисть
+
+
+
+
+
кожа
+
+
+
+
+
короткие
+
+
+
корявые
+
коснуться
костлявые
+
красивые
+
+
+
+
+
+
крем
крепкие
+
+
кривые
+
ласковая
+
левая
+
легкая
рука
ледяные
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
лежит
лечить
+
+
102
Лизать
руки
линии
+
лишиться
+
Ломать
руки
маленькие
+
+
+
+
+
+
+
+
+
малыша
+
Марать
рукиоб
+
+
матери
+
+
+
+
махать
+
мозоли на
+
мозолисты
е
+
мокрые
+
+
+
+
+
+
+
+
+
+
+
+
+
+
мошенник
ов
+
мужские
+
мужчины
+
мыть руки
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
мышцы
на все
руки
мастер
+
+
моторика
мягкие
+
+
мокрыми
морщинис
тые
+
+
массажист
а
махнуть
+
+
+
+
103
на
расстояни
и
вытянутой
На руках
иметь
+
+
На́
рукукому
+
+
+
+
+
Нагреть
руки
+
+
+
+
+
не доходят
+
+
не
покладая
рук
+
+
+
+
+
+
+
+
+
+
+
Не рука
кому-л
(устар.)
+
не с руки
не хватает
рук
+
+
+
+
+
+
+
+
+
+
+
+
нежные
+
нечистые
ноет
+
+
+
нести в
+
+
+
+
+
+
+
Наложить
руки на
себя.
небольшие
+
+
наложить
гипс
натянуть
на
+
+
+
надежные
надеть на
+
+
на скорую
набить
+
+
+
+
+
+
+
+
+
+
+
+
104
носить на
+
+
+
+
носят
+
+
Обагрить
руки
кровью
обе
+
+
+
+
+
обеими
+
+
Обломать
руки
+
+
+
одной
рукой
+
опускаютс
я
+
+
+
+
+
+
+
+
от руки
+
отбиться
от
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
отекла
+
очумелые
ручки
+
пальцы
+
перевязка
+
перелом
+
+
+
+
писателя
+
по обе
руки
+
По рукам!
+
+
+
+
+
+
+
писать
+
+
+
+
+
+
+
+
повязка на
погладить
+
+
+
опытные
отморозит
ь
+
+
обхватив
опустить
+
+
+
+
+
105
под
+
+
+
+
под
горячую
+
под рукой
+
Подать
(или
протянуть)
руку
(помощи)
+
подать
руку
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+ +
+
+
+
+
+
+
+
+
+
показыват
ь
+
+
+
+
+
положа
руку на
сердце
+
+
положение
попасть в
+
+ +
Подписать
ся обеими
руками
под чем-л.
положить
на
+
+
Поднять
рукуна
полные
+
+
поднять
руки к
небу
пожать
+
+
подержать
подобрать
что-л по
руке
+
+
+
подвернут
ься под
поднять
+
+
+
+
+
+
+
+
106
поранить
+
порезать
+
+
потирать
правая
+
+
+
правосуди
я
+
+
+
+
предложит
ь руку и
сердце
+
+
+
+
+
+
+
+
+
+
+
+
+
+
прибрать к
+
+
+ +
+
придержив
ая
+
приложить
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
рабочие
+
развязать
размахиват
ь
+
разогнуть
+
рана на
+
раненая
+
раскинув
+
+
профессионало
в
развести
руками
+
+
просить
руки
рабочего
+
+
+ + +
прикоснут
ься
протянуть
+
+
прижать
руки к
груди
провести
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
107
раскинуть
+
распухла
ребенка
+
+
+
розовая
+
+
+
+
рука
мастера
рука на
пульсе
+
рука не
дрогнет
рука не
поднимает
ся
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Рука об
руку
+
+
+
+
рука руку
моет
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
руки в
боки
+
+
руки вверх
+
+
+
+
+
+
руки за
голову
руки за
спину
+
+
+
Руки
коротки!
Руки по
швам
+
Руки
прочь от
+
рукой
подать
+
+
+
+
+
+
с руками
оторвут
+
+
+
+
+
+
+
+
+
+
с легкой
руки
с пустыми
+
+
+
+
+
+
+
+
108
С
рукикому
+
+
сбыть с
рук
+
+
свободной
своими
+
связать
+
сделать
своими
руками
+
+
+
+
+
+
сжимать в
+
+
+
+
+
+
+
+
синица в
+
+
синяк на
+
скрестив
+
слабые
+
сложа
руки
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
сложенные
сломать
руку
+
смотреть
из-под
+
снимок
(рентгенов
ский)
+
+
+
+
+
собственн
ыми
согнуть
+
+
сжать руки
в
кулак
сильные
+
+
+
сойти с
рук
+
Сон в руку
+
+
+
+
+
+
+
+
+
+
109
специалис
тов
+
старика
+
сунуть
+
сунуть
руки в
карман
+
+
суставы
+
сухие
+
схватить
за
+
+
талантлива
я
+
+
+
+
+
+
+
твердая
теплые
+
+
+
+
+
+
+
товарища
тонкие
+
травма
+
+
+
+
+
+
+
+
+
+
трогать
трясутся
+
трясущиес
я
+
тяжелая
рука
+
+
+
+
+
+
тянется
Тянуть
чью руку
+
ударить
+
ударить по
+
удариться
+
укол в
руку
+
Укоротить
руки кому
умелые
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
110
умывать
+
+
+
ухоженны
е
+
холеные
+
холодные
+
+
+
+
+
+
худые
+
целовать
+
+
+
+
+
+
+
+
+
человека
+
+
+
+
+
+
+
человеческ
ая
+
+
+
чешутся
+
+
Что-л.
само в
руки идёт
+
+
+
+
+
+
чужие
руки
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Чужими
руками
жар
загребать
+
+
+
+
+
+
щедрая
щедрой
рукой
+
+
частные
штангиста
+
+
художника
чистые
+
+
хорошие
+
+
+
111
Приложение 4. Коллокаты для слова белый
112
сло
вар
ь
соч
ета
ем
ост
и
билет
вино
С
М И Б
А Б Т
С А С
С
+
Рус
ски
й
асс
оци
ати
вн
ый
сло
вар
ь
УрРА
С
+
+ +
ворона
+
железо
+
изба
+
кость
+
мухи
+
мясо
+
ночи
+
+
+
стихи
+
+
уголь
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
ветер
воротн
ичок
+
гвардия
+ +
горячка
+
гриб
+
+
+
Белыми
ниткам
и шито
+
Lo
glike
lih
ood
+
+
ангел
+
T
lo
g- M
sc
di I3
or
ce
e
+
+ +
+ +
+
Сл
ова
рь
Мо
кие
нко
+
пятна
хлеб
сл
ова
ЕВ
рь
РА
Уш
С
ако
ва
сл
сло Сл
ов
вар ова
ар
ь
рь
ь
Еф Мо
О
ре лот
же
мо ков
гов
ва
а
а
+
+ + +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
113
Дела
как
сажа
бела
+
Довест
и до
белого
каления
+
+
дом
+
духовен
ство
+
заяц
+
+
+
+
+
и
пушист
ый
+
как
снег
+
+
клык
+
+
кот
+
+
лист
магия
+
медведь
+
Называ
ть
белое
черным
+
облако
олимпи
ада
+
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
+
+
+
+
+
пух
+
+
+
+
+
+
+
+
+
+
+
пепел
свет
+
+
+
зима
лебедь
+
+
+
+
+
+
+
114
Сказка
про
белого
бычка
снег
+
+
Среди
бела
дня
+
+
+
+
+
+
+
+
+
+
+
+
+
танец
флаг
фон
+
+
цвет
+
+
+
+
+
+
+
+
человек
+
Черным
по
белому
+
+
+
+
+
+
+ + +
+
+
+
+
+ + +
+
+
+ + +
+
+
+ + +
+
+
+
+
+
+
+ + +
+
море
+ + +
+
цветок
+ +
+
камень
+ +
+
платье
+ +
+
песок
+ + +
+
золото
+ + +
+
глина
+ + +
+
конь
+ + +
+
налет
+ + +
+
краска
+ + +
+
роза
+ + +
+
рубашк
а
+ + +
+
полоса
+ + +
+
список
+
+
+
одежда
+
+
+
шум
+
+
+
+
+
халат
+
115
стена
+
+
+
мрамор
+
+
+
шокола
д
+
+
+
город
+
+
тигр
+
+
+
зал
+
+
+
порошо
к
+
+
+
экран
+
+
+
голубь
+
+
+
потолок
+
+
сахар
+
+
зависть
+
+
+
акула
+
+
+
зарплат
а
+
+
пляж
+
+
парус
+
+
береза
+
+
лимузи
н
+
+
бумага
+
+
чай
+
+
дача
+
+
кролик
+
+
орел
+
+
каление
+
+
+
116
Приложение 5. Коллокаты для слова скакать
117
сло
вар
С
ь
М И Б
соч
А Б Т
ета
С А С
ем
С
ост
и
Русски
й
ассоци
ативны
й
словар
ь
УрР
АС
бегать и
сл
ов
ар
ЕВ
ь
РА
У
С
ша
ко
ва
сл
ов
ар
ь
О
же
го
ва
сло
вар
ь
Еф
ре
мо
ва
Сл
ова
рь
Мо
лот
ков
а
Сл
ова
рь
Мо
кие
нко
Lo
glike
lih
ood
+ + +
+
+
+
+
+ + +
+
+ + +
+
+
+
+
+ + +
+
+ + +
+
+ +
+
+
беззаботн
о
белка
T
lo
gsc
di M or
ce I3 e
+
бешено
блоха
+
бодро
быстро
+
+
вверхвниз
верхом
+
+
весело
во весь
дух или
опор
+
+
+
вокруг
+
воробей
+
+
+ +
+
вприпры
жку
+ + +
+
всадник
+ + +
+
галопом
+ +
впереди
давление
+
девочка
+
+
+
+
+
+ + +
доллар
жеребено
к
+
+
+
118
зайчик
+ + +
+
+ + +
+
+ + +
+
+ +
+
ковбой
+ + +
+
козел
+ + +
+
конь
+ + +
+
кузнечик
+ + +
+
лихо
+ + +
+
ловко
+ + +
+
+
+
+
+
+
+
+ + +
+
навстречу
+ + +
+
напряжен
ие
+ + +
+
настроен
ие
+ + +
+
неуклюже
+ + +
+
обезьяна
+ + +
+
опрометь
ю
+ +
+
перестать
+ +
+
посещаем
ость
+ + +
заяц
+
+
+
кавалерия
кенгуру
лошадь
+ +
+
+
+
лягушка
мысли
+
+
мысль
мяч
на одной
ноге.
+
+
+
постоянн
о
+ +
+
проворно
+ + +
+
+ +
+
прочь
119
псина
+ +
+
птица
+ +
+
пульс
+ + +
+
радостно
+ + +
+
резво
+ + +
+
рядом
+ +
+
+
+
тень
+ + +
+
тройка
+ + +
+
трусцой
+ + +
+
туда-сюда
+ + +
+
температу
ра
+
+
+
+
+
цены
через
веревочку
+
через
огонь
+
+
+
120
Приложение 6. Коллокаты для слова семь
121
сло
вар
ь
М СИ
соч
А БА
ета
С С
ем
ост
и
дней
Б
Т
С
Рус
ски
й
асс
оц
иат
ив
ны
й
сло
вар
ь
УрР
АС
сл
ова
ЕВ
рь
РА
Уш
С
ако
ва
сл
сло Сл
ов
вар ова
ар
ь
рь
ь
Еф Мо
О
ре лот
же
мо ков
гов
ва
а
а
Сл
ова
рь
Мо
кие
нко
+
За семь
верст
киселя
хлебать
+
За семью
замками
+
Книга за
семью
печатями
+
lo
Tg- M sc
di I3 or
ce
e
Lo
glike
lih
ood
+ + +
+
+
С. бед один ответ
+
+
+
седьмое
небо
+
седьмой
десяток
+
+
седьмой
сын
Семи
пядей во
лбу
+
+
+
+ +
семь
ангелов
+ + +
семь
богатырей
+ + +
семь
вечеров
+
+
+
122
семь
гномов
+ + +
+
семь
грехов
+ +
+
семь
мудрецов
+
семь нот
+
Семь
потов
сошло с
кого
+
Семь
пятниц на
неделе
+
семь раз
отмерь
+
+
+
+
+
+
+
+
+
+
+ +
+
семь
холмов
+
семь
цветов
радуги
+ + +
семь чакр
+ + +
+
семь чудес
света
+ +
+
у семи
нянек
дитя без
глазу
+ +
+
123
Приложение 7. Коллокаты для слова свой
124
сло
вар
ь
соч
ета
ем
ост
и
С
М И
А Б
С А
С
Своя
голова
на
плечах
+
(не)В
своем
уме
+
(не)На
своем
месте
+
(Рассказ
ать)
своими
словами
+
БТ
С
Рус
ски
й
асс
оц
иат
ивн
ый
сло
вар
ь
УрР
АС
сл сл
ов ов
ар ар
ЕВ
ь
ь
РА
У О
С
ша же
ко го
ва ва
сло
вар
ь
Еф
ре
мо
ва
Сл
ова
рь
Мо
лот
ков
а
Сл
ова
рь
Мо
кие
нко
T
lo
g- M
sc
di I3
or
ce
e
Lo
glike
lih
ood
+
+
бизнес
+
+ +
Брать
(взять)
свое
+
Быть не
в своей
тарелке
+
В свое
время
+
В свое
удоволь
ствие
+
В своем
роде .
+
В свою
очередь
+
+
+
+
+
+ +
125
выбор
дом
+
Жить
своим
умом
+
Знать
свое
место
+
Идти
своей
дорогой
+
Идти
своим
ходом
+
Идти
своим
чередом
+
Мастер
своего
дела
+
На свой
страх (и
риск)
+
На
своих
двоих
+
На свою
голову
+
Называт
ь вещи
своими
именам
и
+
Не в
свои
сани
сесть
+
+
+
+
+
+
+
+
+
126
Не
верить
своим
глазам
+
Не
своим
голосом
+
+
нести
свой
крест
Остатьс
я при
своих
+
+
отпуск
за свой
счет
+
парень
+
+
+
+
посвоему
Постави
ть на
свое
место
+
+
+
принци
п
+
+
+
Принять
на свой
счет
+
Сам не
свой
+
Свое на
уме
+
Свое я
+
Своего
поля
ягода
+
Своего
рода
+
+
+
+
127
Свой
брат
+ +
Свой в
доску
+ +
+
свой
народ
+
+
Своим
порядко
м
+
Своих
не
узнаешь
+
+
+
+
+
+
Своя
ноша не
тянет
+
Своя
рубаха
ближе к
телу.
+
Своя
рука
владыка
+
Сделать
своими
руками
+
Сказать
свое
слово
+
Стоять
на
своих
ногах
+
Умереть
(не)
своей
смертью
+
+
+
+ + +
+
+
+
+
+
+
+
+ +
+
свое
дело
+ + +
+
свое
мнение
+ + +
+
128
своя
квартир
а
+ + +
+
страна
+ + +
+
вкус
+ + +
+
усмотре
ние
+ + +
+
свое
отноше
ние
+ + +
+
решени
е
+ + +
+
знать
свой
организ
м
+ + +
+
свое
состоян
ие
+ + +
+
свой
компью
тер
+ + +
+
свой
участок
+ + +
+
свое
лицо
+ + +
+
подтвер
дить
свою
репутац
ию
+ + +
+
свой
доход
+ + +
+
свой
адрес
+ + +
+
свой
заказ
+ + +
+
129
своя
голова
на
плечах
+ + +
+
оставит
ь свой
отзыв
+ + +
+
своя
фантази
я
+ + +
+
написат
ь свое
пожелан
ие
+ + +
+
дать
свое
согласи
е
+ + +
+
указать
свой
телефон
+ + +
+
свое
воображ
ение
+ + +
+
130
Приложение 8. Экспертная оценка коллокаций, содержащих слово сердце
131
Количес
тво
словаре Количес Экспе Экспе
й
тво мер
рт 0
рт 1
Экспе Экспе
рт 2
рт 3
Экспе
рт 4
среднее
арифметич
еское
стандарт
ное
отклоне
ние
в самое
0
1
2
2
2
2
2
2
0
девичье
0
1
2
2
2
2
2
2
0
детское
0
1
1
1
1
1
1
1
0
замерло
0
2
2
2
2
2
2
2
0
заныло
0
1
2
2
2
2
0
1,6 0,894427
злое
0
1
2
2
1
2
1
1,6 0,547723
измученное
0
1
0
0
0
0
0
0
0
исследование
0
1
0
0
0
0
0
0
0
ключик к
0
1
2
2
2
2
2
2
0
ледяное
0
1
2
2
2
2
2
2
0
любимого
0
2
0
1
0
0
0
0,2 0,447214
людей
0
1
0
0
0
1
2
0,6 0,894427
людское
1
0
0
0
0
0
2
0,4 0,894427
маленькое
0
2
0
0
0
0
0
0
0
мамы
0
1
1
1
1
1
1
1
0
мужское
0
1
0
0
0
0
0
0
0
музыка
0
1
0
0
2
0
2
не камень
0
2
2
2
2
2
2
2
0
не прикажешь
0
2
2
2
2
2
2
2
0
недостаточност
ь
0
2
1
1
1
1
2
1,2 0,447214
Обнаженные
0
2
0
1
0
1
2
0,8
огрубело
0
1
0
0
1
0
1
0,4 0,547723
ожесточилось
0
1
0
0
0
0
1
0,2 0,447214
останавливаетс
я
0
1
1
1
1
1
1
1
0
от сердца
отлегло
0
2
2
2
2
2
2
2
0
отдано
0
1
2
2
2
2
2
2
0
оттаяло
0
1
2
2
2
2
2
2
0
отца
0
1
1
1
1
1
1
1
0
патологии
0
1
1
1
1
1
0
0,8 0,447214
поражения
0
1
1
1
1
1
0
0,8 0,447214
прихватило
0
1
2
1
2
2
2
1,8 0,447214
0,8 1,095445
0,83666
132
радость
0
1
0
0
1
0
0
раненое
0
1
1
1
1
1
1
риск
0
1
0
0
0
1
0
России
0
1
1
1
1
1
1
1
0
русское
0
1
1
1
1
1
1
1
0
согреть
0
1
1
1
1
1
1
1
0
сокращения
0
2
1
1
1
1
2
1,2 0,447214
Солдатское
0
1
1
1
1
1
2
1,2 0,447214
состояние
0
2
1
2
1
1
0
1 0,707107
теплое
0
1
1
1
1
1
1
1
ткани
0
1
1
1
2
1
0
1 0,707107
удар
0
1
1
1
1
0
0
0,6 0,547723
УЗИ
0
2
1
1
1
1
0
0,8 0,447214
успокоилось
0
1
1
1
1
0
0
0,6 0,547723
функции
0
1
1
1
1
0
0
0,6 0,547723
четырехкамерн
ое
0
1
1
2
1
0
2
1,2
ЭКГ
0
1
1
2
1
1
2
1,4 0,547723
аритмия
0
3
1
1
0
0
2
0,8
0,83666
Бога
0
3
1
1
1
1
1
1
0
болезнь
0
4
1
1
1
1
0
болеть/любить
всем сердцем
за кого-л
5
0
2
2
2
2
2
2
0
Брать за́ сердце
5
0
2
2
2
2
2
2
0
выпрыгнет
0
3
1
1
0
1
2
1 0,707107
давление
0
3
1
1
1
1
2
1,2 0,447214
Европы
0
4
1
1
1
1
1
женское
0
3
1
0
1
0
1
женщины
0
4
1
1
1
1
1
забилось
0
3
2
2
1
2
1
1,6 0,547723
заболевание
0
4
1
0
1
1
0
0,6 0,547723
завоевать
0
4
2
2
2
2
2
клетки
0
3
1
0
1
0
0
0,4 0,547723
кольнуло
0
3
1
0
1
1
1
0,8 0,447214
0,2 0,447214
1
0
0,2 0,447214
0
0,83666
0,8 0,447214
1
0
0,6 0,547723
1
2
0
0
133
кровообращени
е
0
3
1
1
1
1
2
материнское
0
3
2
2
2
2
2
миллионов
0
3
1
1
1
1
2
мужчины
0
4
0
0
0
0
0
нагрузка на
0
4
1
1
1
0
0
0,6 0,547723
нарушения
0
3
1
1
1
1
0
0,8 0,447214
остановка
0
3
1
1
0
1
0
0,6 0,547723
от чистого
0
4
2
2
2
2
2
2
0
отклик
0
4
0
0
0
0
0
0
0
Пармы
0
4
1
1
1
1
1
1
0
перебои
0
4
0
0
0
0
0
0
0
Петербурга
0
3
1
1
1
2
1
1,2 0,447214
плода
0
4
0
0
0
2
0
0,4 0,894427
поклонников
0
4
0
0
0
0
2
0,4 0,894427
проблемы
0
3
0
0
0
0
0
0
0
растопить
0
3
2
2
2
2
2
2
0
руку и сердце
0
3
2
2
2
2
2
2
0
сжалось
0
3
1
2
1
1
2
согревает
0
3
1
1
1
1
1
сосуды
0
4
1
1
1
1
0
0,8 0,447214
Стальное
0
3
1
1
1
1
2
1,2 0,447214
трансплантаци
я
0
3
0
1
0
0
0
0,2 0,447214
трепещет
0
3
1
1
0
1
2
1 0,707107
укреплять
0
4
0
0
0
0
0
0
в глубине
сердца
3
2
1
1
1
1
2
воспоминания
3
1
0
0
0
0
0
говяжье
1
2
0
1
0
0
0
0,2 0,447214
голос
1
1
0
1
0
0
1
0,4 0,547723
деятельность
1
1
0
0
0
0
0
0
екнуло
2
2
1
1
0
1
2
1 0,707107
зов
2
2
1
1
1
1
2
1,2 0,447214
мышцы
1
2
0
0
0
0
0
0
0
обследование
1
1
0
0
0
0
0
0
0
огромное
3
1
0
0
0
0
0
0
0
1,2 0,447214
2
0
1,2 0,447214
0
0
1,4 0,547723
1
0
0
1,2 0,447214
0
0
0
134
от глубины
2
1
0
1
0
0
2
0,6 0,894427
отзывчивое
1
1
0
1
0
0
1
0,4 0,547723
память
2
2
0
0
0
0
2
0,4 0,894427
пересадка
3
1
0
0
0
0
0
поет
1
1
1
1
1
1
2
1,2 0,447214
принадлежит
1
2
1
1
0
1
2
1 0,707107
работает
3
1
0
1
0
0
0
0,2 0,447214
радуется
3
1
2
2
2
2
2
2
0
разрывается
3
2
2
2
2
2
2
2
0
ребенка
1
2
0
0
0
0
1
с легким
2
1
2
2
2
2
2
2
0
с тяжелым
2
1
2
2
2
2
2
2
0
страдает
1
2
1
1
1
1
1
1
0
Тоны
1
1
0
0
0
1
0
0,2 0,447214
трогать сердце
2
1
0
0
1
0
2
0,6 0,894427
Храброе
2
2
2
2
2
2
2
2
0
черствое
3
1
2
2
2
2
2
2
0
чувствует
2
1
0
0
0
1
2
0,6 0,894427
чует
1
1
0
0
0
0
2
0,4 0,894427
биение
2
4
0
2
0
0
2
0,8 1,095445
Бычье
3
3
0
0
1
0
2
0,6 0,894427
бьющееся
2
3
0
0
0
1
0
0,2 0,447214
веление
2
4
2
2
2
2
2
дама
3
3
2
0
2
2
2
девушки
1
3
0
0
0
0
0
искусственное
2
4
1
1
1
1
0
0,8 0,447214
колотится
2
3
1
1
1
1
2
1,2 0,447214
красавицы
2
4
1
2
1
1
2
1,4 0,547723
массаж
1
3
1
1
1
1
0
0,8 0,447214
мое
3
3
0
0
0
0
0
0
не выдержало
1
4
1
1
2
1
0
1 0,707107
область
1
4
0
1
0
0
0
0,2 0,447214
одинокие
2
3
0
0
0
0
1
0,2 0,447214
операция
3
4
0
0
0
1
1
0,4 0,547723
открыть
3
4
1
1
1
1
2
1,2 0,447214
подсказывает
2
4
1
1
1
1
1
0
0
0,2 0,447214
2
0
1,6 0,894427
0
1
0
0
0
135
предложение
руки и
3
4
2
2
2
2
2
работа
1
4
0
0
1
0
0
ритм
1
4
0
0
0
0
0
0
0
с замиранием
3
4
2
2
2
2
2
2
0
с открытым
2
3
2
2
2
2
2
2
0
с чистым
3
3
2
2
2
2
2
2
0
слабое
3
3
2
2
2
2
2
2
0
собачье
3
4
2
2
2
1
2
1,8 0,447214
столицы
1
4
1
2
1
1
1
1,2 0,447214
ум
1
3
0
0
1
0
0
0,2 0,447214
Холодное
3
4
2
2
2
2
2
2
0
чуткое
1
3
2
2
2
2
2
2
0
шумы
1
3
1
1
1
1
1
1
0
щемит
3
3
1
1
1
1
2
близко к
6
2
2
2
2
2
2
2
болит
7
2
2
2 #ДЕЛ/0!
больное
5
1
1
1
1
0
0
0,6 0,547723
большое
7
2
1
2
1
1
2
1,4 0,547723
горит
4
1
1
0
1
1
2
1 0,707107
золотое
8
1
2
2
2
2
2
2
каменное
6
1
2
2
1
2
2
1,8 0,447214
матери
4
2
1
1
1
0
1
0,8 0,447214
нежное
4
2
1
1
1
1
1
остановилось
4
1
2
2
2
2
0
от всего сердца
5
1
2
2
2
2
2
2
0
положа руку на
сердце
6
2
2
2
2
2
2
2
0
сердце моё
4
1
0
0
0
0
2
0,4 0,894427
боль в
4
4
0
0
0
1
0
0,2 0,447214
бьется
8
4
0
0
1
0
0
0,2 0,447214
Верное
4
3
2
2
2
2
2
2
0
города
4
3
0
0
0
0
0
0
0
горячее
5
4
2
2
2
2
2
2
0
доброе
9
4
2
2
2
2
2
2
0
дрогнуло
4
3
2
2
2
2
2
2
0
замирает
5
3
2
2
2
2
2
2
0
2
0
0,2 0,447214
1,2 0,447214
1
0
0
0
1,6 0,894427
136
здоровое
4
3
0
0
1
0
0
клапан
4
3
0
0
0
0
0
0
0
кровью
обливается
5
4
2
2
2
2
2
2
0
Львиное
4
4
2
2
2
2
2
2
0
любящее
6
4
0
0
0
1
0
0,2 0,447214
не лежит
5
3
1
1
1
1
2
1,2 0,447214
покорить
5
4
2
2
2
2
2
порок
4
4
0
0
0
1
0
разбитое
4
3
2
2
2
2
2
2
0
сжимается
4
4
2
2
2
2
2
2
0
скрепя
4
4
2
2
2
2
2
2
0
стук
4
3
0
0
0
0
0
0
0
стучит
6
4
0
0
1
0
0
0,2 0,447214
человека
4
4
0
0
1
0
0
0,2 0,447214
человеческое
4
4
0
0
0
0
0
0
чистое
4
4
1
0
1
1
2
1 0,707107
ангела
1
0
0
0
0
0
0
0
бездонное
1
0
0
0
1
0
2
0,6 0,894427
безумное
1
0
0
0
0
1
1
0,4 0,547723
бешеное
1
0
0
0
0
1
2
0,6 0,894427
благородство
2
0
0
0
1
1
1
0,6 0,547723
больного
1
0
0
0
0
1
0
0,2 0,447214
боязнь
1
0
0
0
0
0
0
0
0
в пятки ушло
2
0
2
2
2
2
2
2
0
в сердцах
3
0
2
2
2
2
2
2
0
великодушное
1
0
1
0
1
1
1
0,8 0,447214
взыграло
2
0
1
0
1
1
2
1 0,707107
волновать
1
0
0
0
0
0
0
0
0
вредно для
1
0
0
0
0
0
0
0
0
всем сердцем
3
0
2
2
2
2
2
2
0
выбор
1
0
0
0
0
0
0
0
0
вылетело
1
0
0
0
0
0
2
0,4 0,894427
Вынуть
1
0
1
1
1
1
0
0,8 0,447214
вырвать из
3
0
1
1
1
1
2
1,2 0,447214
выстрелить в
3
0
0
0
0
0
0
0,2 0,447214
2
0
0,2 0,447214
0
0
0
0
137
героя
2
0
1
0
1
1
0
гибнет
1
0
1
1
1
1
1
1
0
говорит
1
0
1
1
1
1
1
1
0
дамы
1
0
0
0
0
0
2
0,4 0,894427
дать волю
сердцу
1
0
2
2
1
2
2
1,8 0,447214
действует на
1
0
2
2
2
2
2
2
0
держаться за
1
0
2
2
2
2
2
2
0
до глубины
1
0
2
2
2
2
2
2
0
дочери
1
0
0
0
0
0
0
0
0
друг сердца
1
0
2
2
2
2
2
2
0
друга
1
0
1
1
1
1
1
1
0
жгучее
1
0
1
1
2
1
1
1,2 0,447214
жены
1
0
1
1
1
1
0
0,8 0,447214
жестокое
1
0
2
1
2
2
2
1,8 0,447214
живет
0
1
0
0
0
0
0
0
0
живое
3
0
0
0
0
0
0
0
0
жить в сердце
1
0
1
1
1
1
2
1,2 0,447214
жить сердцем
1
0
1
1
1
1
2
1,2 0,447214
зажечь
1
0
0
1
0
1
2
0,8
зажигать
1
0
0
1
0
0
2
0,6 0,894427
закрыто
1
0
0
1
0
0
1
0,4 0,547723
занято
2
0
2
2
2
2
2
2
0
запасть в
1
0
2
2
2
2
2
2
0
затаить в
1
0
1
1
1
1
2
1,2 0,447214
заячье
2
0
1
1
1
1
2
1,2 0,447214
Земли
1
0
1
1
1
1
1
1
0
из камня
1
0
1
1
1
1
1
1
0
изношенное
2
0
0
0
0
0
0
0
0
изучать
1
0
0
0
1
0
0
испортить
1
0
0
0
0
0
0
0
0
Кавказа
1
0
1
1
1
1
1
1
0
Как маслом по
сердцу
2
0
1
1
1
1
2
Как ножом по
сердцу
3
0
2
2
2
2
2
0,6 0,547723
0,83666
0,2 0,447214
1,2 0,447214
2
0
138
камень с сердца
1
0
2
2
2
2
2
лечить
1
0
0
1
0
1
0
0,4 0,547723
льва
1
0
0
1
0
0
0
0,2 0,447214
любимое
3
0
0
0
1
0
0
0,2 0,447214
массировать
1
0
0
0
0
1
0
0,2 0,447214
молодое
2
0
0
0
1
1
0
0,4 0,547723
молчит
1
0
1
1
1
1
1
1
0
мощное
1
0
0
0
0
0
0
0
0
мудрого
человека
1
0
0
0
0
0
0
0
0
На с. накипело,
наболело
1
0
2
2
2
2
2
2
0
На с. тяжело,
легко, тоскливо
1
0
2
2
2
2
2
2
0
На сердце
кошки скребут
3
0
2
2
2
2
2
2
0
надрывать
3
0
0
0
0
0
2
не обманет
1
0
2
2
2
2
2
не хватит
1
0
0
0
1
0
1
нет сердца
2
0
2
2
2
2
2
2
0
Ничто не
шевельнулось в
моём с.
1
0
2
2
2
2
2
2
0
новое
1
0
0
0
0
0
0
0
0
оборвалось
2
0
1
1
1
1
1
1
0
ожирение
1
0
0
0
0
0
0
0
0
оперировать
1
0
0
0
0
1
0
от полноты
2
0
1
1
1
1
1
1
0
отважное
1
0
1
1
1
1
1
1
0
отошло
3
0
1
1
1
1
2
падает
3
0
2
2
2
2
2
2
0
перевернулось
1
0
2
2
2
2
2
2
0
пересаживать
1
0
0
1
0
0
0
0,2 0,447214
пламенное
3
0
0
1
0
0
2
0,6 0,894427
победить
1
0
1
2
1
1
1
1,2 0,447214
полезно для
1
0
0
0
0
0
0
попасть в
2
0
0
0
0
1
0
2
0
0,4 0,894427
2
0
0,4 0,547723
0,2 0,447214
1,2 0,447214
0
0
0,2 0,447214
139
пополам
1
0
1
1
1
1
1
1
0
потрясти
2
0
1
1
1
1
1
1
0
преданное
1
0
1
1
1
1
2
прижать к
3
0
2
2
2
2
2
2
0
принимает к
1
0
1
1
1
1
1
1
0
проверять
1
0
0
1
0
1
1
продолговатое
2
0
0
0
0
0
0
пронзить
3
1
0
0
0
0
1
просит
1
0
1
1
1
1
1
простое
1
0
1
1
2
1
1
пылкое
1
0
1
1
1
1
1
1
0
разбито
3
0
2
2
2
2
2
2
0
разрыв
2
0
1
1
2
1
2
ранимое
1
0
1
1
1
1
1
1
0
растравить
1
0
1
1
1
1
1
1
0
растревожить
2
0
1
2
2
1
2
1,6 0,547723
рвется
2
0
0
0
0
1
1
0,4 0,547723
режет
1
0
0
0
0
0
2
0,4 0,894427
родное
1
0
1
1
1
1
1
1
0
С. сердцу весть
подаёт
1
0
1
1
1
1
1
1
0
светлое
2
0
1
2
1
1
1
свинец на
1
0
1
1
1
1
1
1
0
0
0
0
0
0
0
0
свиное
1,2 0,447214
0,6 0,547723
0
0
0,2 0,447214
1
0
1,2 0,447214
1,4 0,547723
1,2 0,447214
сдает
1
0
0
0
0
0
2
сильное
2
0
0
0
0
0
0
смелое
1
0
1
1
2
1
1
1,2 0,447214
спокойное
1
0
1
2
1
1
1
1,2 0,447214
спортсмена
1
0
0
0
0
1
0
0,2 0,447214
старика
1
0
0
0
0
0
0
старое
1
0
0
0
0
2
0
страны
1
0
1
1
1
1
1
схватиться за
3
0
2
1
2
2
2
1,8 0,447214
теплое
2
0
0
0
0
0
1
0,2 0,447214
тревожное
1
0
0
0
0
0
0
трепетное
1
0
1
0
1
1
1
0,4 0,894427
0
0
0
0
0,4 0,894427
1
0
0
0
0,8 0,447214
140
труса
1
0
1
1
1
1
1
1
0
трусливое
2
0
1
1
1
1
1
1
0
Ужалить в
самое с
1
0
1
1
2
1
2
1,4 0,547723
Уколоть в
самое с
1
0
1
0
2
1
2
1,2
0,83666
хорошее
2
0
0
0
0
0
0
0
0
хрупкое
2
0
1
1
1
1
1
1
0
честное
1
0
1
1
1
1
1
1
0
Читать в
2
0
1
1
1
1
1
1
0
чувствительное
2
0
0
2
0
0
1
0,6 0,894427
чувствовать
3
0
0
0
0
2
2
0,8 1,095445
шалит
2
0
1
1
1
1
2
1,2 0,447214
широта
1
0
1
1
1
1
2
1,2 0,447214
щемит
3
0
1
1
1
1
1
юноши
2
0
0
0
0
2
0
0,4 0,894427
Держать
сердце на коголибо
4
0
2
1
2
2
2
1,8 0,447214
красное
4
0
0
0
0
0
0
0
0
не на месте
5
0
2
2
2
2
2
2
0
ноет
4
0
1
1
1
1
1
1
0
отдавать
4
0
2
2
2
2
2
2
0
открытое
4
0
0
0
1
0
1
отлегло от
4
0
2
2
2
2
2
по сердцу
5
0
2
2
2
1
2
1,8 0,447214
разбить
4
0
2
2
2
1
2
1,8 0,447214
Сорвать сердце
на ком-чем
5
0
2
2
2
2
2
1
0
0,4 0,547723
2
2
0
0
141
Приложение 9. Экспертная оценка коллокаций, содержащих слово вода
142
Количество
словарей
Количест
во мер
Экспе
рт 0
Экспе
рт 1
Экспе
рт 2
Экспе
рт 3
Экспе
рт 4
среднее
арифмети
ческое
стандар
тное
отклон
ение
бытовая
0
2
0
1
0
0
0
0,2
0,44721
4
используетс
я
0
2
0
0
0
0
0
0
0
колодец
0
1
0
0
0
0
0
0
0
кулер с
0
2
1
1
1
1
0
0,8
0,44721
4
обезжелези
вание
0
1
0
1
0
1
2
0,8 0,83666
обеззаражи
вание
0
1
0
0
0
0
0
0
0
обычная
0
1
1
1
1
1
0
0,8
0,44721
4
паводковые
0
1
1
1
1
1
2
1,2
0,44721
4
под водой
0
1
0
0
1
0
0
0,2
0,44721
4
поступает
0
1
0
0
0
0
0
0
0
прогреваетс
я
0
1
0
0
0
0
0
0
0
протечка
0
1
0
0
0
0
0
0
0
проходит
0
2
0
0
#ДЕЛ/
0!
резервуар
0
2
0
0
0
0
0
0
0
сливать
0
2
0
0
0
0
0
0
0
слить
0
2
0
0
1
0
0
0,2
0,44721
4
смочить
0
1
0
0
0
0
0
0
0
смывается
0
1
0
0
0
0
0
0
0
состоит
0
2
0
0
0
1
0
0,2
0,44721
4
стоит
0
2
1
1
1
1
1
1
0
толща
0
2
0
0
0
0
1
0,2
0,44721
4
уровень
0
2
1
1
1
1
1
1
0
циркуляция
0
1
0
1
0
0
0
0,2
0,44721
4
анализ
0
4
0
0
0
0
0
0
0
143
артезианска
я
0
3
1
1
1
1
2
1,2
0,44721
4
бак
0
3
0
0
0
0
0
0
0
бутилирова
нная
0
4
0
0
0
0
2
0,4
0,89442
7
ванна
0
4
0
0
0
1
0
0,2
0,44721
4
вещества
0
4
0
0
1
1
0
0,4
0,54772
3
воды моря
0
3
1
1
1
1
0
0,8
0,44721
4
грунтовые
0
4
1
1
1
1
2
1,2
0,44721
4
добавить
0
4
0
0
0
0
0
0
0
емкость
0
4
0
0
0
0
0
0
0
жесткость
0
4
1
1
1
1
1
1
0
залить
водой
0
4
0
0
0
0
0
0
0
из воды
0
3
0
2
0
0
0
0,4
0,89442
7
из
скважины
0
3
2
2
2
2
1
1,8
0,44721
4
Кавказские
0
4
2
2
2
2
2
2
0
капля
0
3
0
0
0
0
0
0
0
кастрюля
0
4
0
0
0
0
0
0
0
качество
0
4
0
0
0
0
0
0
0
кипяченая
0
4
1
1
1
1
2
1,2
0,44721
4
кипящая
0
3
0
0
2
0
1
0,6
0,89442
7
комнатная
0
3
1
1
1
1
0
0,8
0,44721
4
ложка
0
4
0
0
0
0
0
0
0
менять
0
4
0
1
0
2
0
0,6
0,89442
7
молекулы
0
3
0
2
1
0
0
0,6
0,89442
7
обливание
водой
0
3
2
2
2
2
1
1,8
0,44721
4
обработка
0
4
0
0
2
1
0
0,6
0,89442
7
околоплодн
ые
0
3
2
2
2
2
2
2
0
144
ополоснуть
0
4
1
1
1
1
1
1
0
отсутствие
0
4
1
1
1
1
0
0,8
0,44721
4
охлаждение
0
4
0
2
1
1
0
0,8 0,83666
погружение
0
3
0
0
0
0
0
0
0
4
1
1
1
1
2
1,2
0,44721
4
подземные
подкисленн
ая
0
3
1
0
0
0
2
0,6
0,89442
7
подсоленна
я
0
3
1
1
1
1
1
1
0
полив
0
3
1
1
1
1
1
1
0
прибрежны
х
0
4
1
1
1
1
2
1,2
0,44721
4
простая
0
4
1
1
1
1
0
0,8
0,44721
4
расход
0
4
1
1
1
1
0
0,8
0,44721
4
сброс
0
3
1
1
1
1
0
0,8
0,44721
4
свойства
0
4
0
0
0
0
0
0
0
слив
0
4
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
состав
стекает
0
4
0
0
0
0
0
0
0
сточные
0
4
2
2
2
2
2
2
0
счетчик
0
4
1
1
1
1
0
0,8
0,44721
4
тазик
0
3
0
0
0
0
0
0
термальная
0
4
2
1
2
2
2
1,8
0,44721
4
требуется
0
4
0
0
0
0
0
0
0
употреблять
0
4
0
0
1
0
0
0,2
0,44721
4
фильтры
для
0
3
0
0
1
0
1
0,4
0,54772
3
закипит
3
2
1
1
1
1
1
1
0
залить
1
1
0
0
0
0
0
0
0
из-под
крана
3
2
1
1
1
1
1
1
0
количество
1
1
0
0
2
0
0
0,4
0,89442
7
145
поверхност
ь
1
1
0
1
0
0
0
0,2
0,44721
4
фильтрация
1
2
0
0
1
0
0
0,2
0,44721
4
хлорирован
ная
3
2
1
1
1
1
2
1,2
0,44721
4
бассейн
1
4
0
0
0
0
0
0
0
бутылка
2
4
0
0
0
0
0
0
0
ведро
1
4
0
0
0
0
0
0
0
вкус
1
4
0
0
0
0
0
0
0
водопровод
ная
2
4
2
2
2
2
2
2
0
выпить
2
3
0
0
1
0
0
0,2
0,44721
4
давление
1
4
0
0
0
0
0
0
0
дать
1
4
1
1
1
1
0
0,8
0,44721
4
движение
1
4
0
0
0
1
0
0,2
0,44721
4
дистиллиро
ванная
3
4
1
1
1
1
2
1,2
0,44721
4
дождевая
2
4
1
1
1
1
2
1,2
0,44721
4
доставка
1
4
0
0
0
0
0
0
0
загрязнения
1
4
1
1
1
1
0
0,8
0,44721
4
запас
1
4
1
1
1
1
0
0,8
0,44721
4
из
источника
1
3
1
1
1
1
0
0,8
0,44721
4
испарения
1
4
0
0
1
0
1
0,4
0,54772
3
использоват
ь
1
3
0
0
0
0
0
0
0
колодезная
3
3
1
1
1
1
2
1,2
0,44721
4
ледяная
2
4
1
1
0
1
1
0,8
0,44721
4
мутная
3
3
1
0
1
1
0
0,6
0,54772
3
мыльная
1
4
1
2
1
1
1
1,2
0,44721
4
146
мягкая
2
4
1
1
1
0
2
1
0,70710
7
нагрев
1
3
0
0
0
0
0
0
0
налить
1
4
0
0
0
0
0
0
0
напор
1
4
0
0
0
0
0
0
0
негазирован
ная
1
3
1
1
1
1
1
1
0
озера
2
4
1
1
0
1
0
0,6
0,54772
3
океана
1
4
1
1
1
1
0
0,8
0,44721
4
очистка
воды
1
4
0
0
1
0
0
0,2
0,44721
4
очищенная
1
4
1
1
1
1
0
0,8
0,44721
4
пить воду
1
4
0
0
0
0
0
0
0
подача
1
4
0
0
0
0
0
0
0
поток
1
3
0
0
0
0
0
0
0
потреблени
е
1
4
1
0
1
0
0
0,4
0,54772
3
пресная
3
3
2
2
2
2
2
2
0
промыть
водой
1
3
0
1
1
1
0
0,6
0,54772
3
проточная
2
3
1
1
1
1
2
1,2
0,44721
4
прохладная
1
4
0
0
2
0
0
0,4
0,89442
7
разбавить
1
4
1
1
1
1
0
0,8
0,44721
4
развести
водой
1
4
1
1
1
1
0
0,8
0,44721
4
растворить
в
1
4
1
1
1
1
0
0,8
0,44721
4
розовая
2
3
2
1
0
2
2
1,4
0,89442
7
свежая
2
2
0
0
0
0
0
0
0
содержит
1
3
0
0
0
0
0
0
0
соленая
3
4
1
1
1
1
0
0,8
0,44721
4
струя
1
4
0
0
0
0
0
0
0
талая
1
4
1
1
1
1
2
1,2
0,44721
4
147
температура
1
4
0
0
0
0
0
0
0
течение
1
4
0
0
0
0
0
0
0
течет
3
4
0
0
0
0
0
0
0
туалетная
3
4
2
2
2
2
2
2
0
родниковая
4
1
2
2
2
2
2
2
0
газированна
я
8
4
2
2
2
2
2
2
0
горячая
4
4
1
2
1
2
0
1,2 0,83666
жесткая
4
3
1
1
1
1
2
1,2
0,44721
4
живая
5
4
2
2
2
2
2
2
0
минеральна
я
7
4
1
1
1
1
2
1,2
0,44721
4
морская
7
4
1
1
1
1
2
1,2
0,44721
4
питьевая
5
4
1
2
1
2
2
1,6
0,54772
3
прозрачная
4
4
0
0
1
0
0
0,2
0,44721
4
святая
4
4
2
2
2
2
2
2
0
стакан
7
4
2
2
2
2
0
1,6
0,89442
7
теплая
4
4
1
1
1
1
0
0,8
0,44721
4
холодная
4
4
1
1
1
1
0
0,8
0,44721
4
чистая
5
4
0
1
0
0
2
0,6
0,89442
7
чистейшей
4
4
2
2
2
2
2
2
0
Байкала
1
0
1
1
1
1
0
0,8
0,44721
4
бесцветная
1
0
0
0
0
1
0
0,2
0,44721
4
большая
2
0
1
1
1
1
2
1,2
0,44721
4
бочка
1
0
0
0
1
0
0
0,2
0,44721
4
бочка для
2
0
0
0
0
0
0
0
0
бочка с
1
0
0
1
0
0
0
0,2
0,44721
4
бросить в
1
0
0
0
0
0
0
0
0
броситься в
1
0
0
0
0
0
0
0
0
148
брызги
1
0
0
0
1
0
0
0,2
0,44721
4
бурлит
1
0
0
0
0
1
0
0,2
0,44721
4
Буря в
стакане
воды
2
0
2
0
2
2
2
1,6
0,89442
7
бутылка изпод
1
0
0
0
0
0
0
0
0
бутылка с
1
0
0
1
0
1
0
0,4
0,54772
3
вешние
воды
2
0
2
2
2
2
2
2
0
Вилами на
воде писано
3
0
2
2
2
2
2
2
0
вкусная
3
0
0
1
0
0
0
0,2
0,44721
4
внутренние
3
0
2
2
2
2
0
1,6
0,89442
7
воды
отошли
2
0
2
2
2
2
2
2
0
Возить воду
3
0
0
0
0
0
0
0
0
войти в
1
0
0
0
1
0
0
0,2
0,44721
4
Волги
3
0
1
1
1
1
0
0,8
0,44721
4
вольная
2
0
1
1
1
1
0
0,8
0,44721
4
вскипятить
1
0
1
1
1
1
1
1
0
выйти из
1
0
0
0
0
0
0
0
0
выкачать
1
0
0
0
0
0
0
0
0
вылить
1
0
0
0
0
0
0
0
0
вынырнуть
из
1
0
1
1
1
1
0
0,8
0,44721
4
выпустить
1
0
0
0
0
0
0
0
0
высокая
3
0
1
1
1
1
2
1,2
0,44721
4
вытекла
1
0
0
0
0
0
0
0
0
вышла из
берегов
2
0
1
1
1
1
2
1,2
0,44721
4
глотать
1
0
0
1
0
0
0
0,2
0,44721
4
149
глоток
1
0
0
0
0
1
0
0,2
0,44721
4
голубая
3
0
0
0
1
0
0
0,2
0,44721
4
горькая
2
0
0
1
0
0
0
0,2
0,44721
4
графин
1
0
1
1
1
1
0
0,8
0,44721
4
графин для
1
0
1
1
1
1
0
0,8
0,44721
4
графин с
1
0
1
1
1
1
0
0,8
0,44721
4
дезинфицир
овать
1
0
0
1
0
1
0
0,4
0,54772
3
для мытья
1
0
0
0
1
1
0
0,4
0,54772
3
для питья
1
0
0
0
1
0
0
0,2
0,44721
4
для поливки
1
0
0
0
0
1
0
0,2
0,44721
4
для стирки
1
0
0
0
0
0
0
0
0
для
технически
х нужд
1
0
0
1
0
0
2
0,6
0,89442
7
для
хозяйственн
ых нужд
1
0
0
1
0
0
1
0,4
0,54772
3
для чая
1
0
0
0
0
0
0
0
0
Днепра
1
0
1
1
1
1
0
0,8
0,44721
4
добавлять
1
0
0
0
0
0
0
0
дорогая
1
0
0
0
0
0
0
0
0
жидкая
1
0
0
0
0
0
0
0
0
жить без
1
0
0
0
1
0
0
0,2
0,44721
4
жить в
1
0
0
0
0
0
0
0
0
журчит
1
0
0
0
0
1
1
0,4
0,54772
3
загрязнять
1
0
1
1
1
1
0
0,8
0,44721
4
замерзла
1
0
0
0
1
0
1
0,4
0,54772
3
запах
1
0
0
0
0
1
0
0,2
0,44721
4
150
запить
1
0
1
1
1
1
0
0,8
0,44721
4
затопила
1
0
1
0
0
0
0
0,2
0,44721
4
зачерпнуть
1
0
0
0
1
0
0
0,2
0,44721
4
здешняя
1
0
0
0
0
0
0
0
0
зеленая
2
0
0
0
0
0
0
0
0
идти за
3
0
0
0
1
0
0
0,2
0,44721
4
ижевская
1
0
1
1
1
1
0
0,8
0,44721
4
из колодца
2
0
1
1
0
1
0
0,6
0,54772
3
из родника
1
0
1
1
1
1
0
0,8
0,44721
4
избыток
1
0
0
0
0
0
0
0
0
иметь в
составе
1
0
0
1
0
0
0
0,2
0,44721
4
искать
1
0
0
0
0
1
0
0,2
0,44721
4
испарилась
1
0
0
0
0
0
0
0
0
Как (будто,
словно) в
воду
опущенный
3
0
2
2
2
2
2
2
0
Как в воду
глядел
3
0
2
2
2
2
2
2
0
Как в воду
канул
3
0
2
2
2
2
2
2
0
Как водой
смыло
2
0
2
2
2
2
2
2
0
Как две
капли воды
3
0
2
2
1
2
2
1,8
0,44721
4
камень
точит
2
0
2
2
2
2
2
2
0
канистра
1
0
0
2
0
0
0
0,4
0,89442
7
капает
1
0
0
0
1
0
0
0,2
0,44721
4
капля
2
0
0
0
0
1
0
0,2
0,44721
4
качать
1
0
0
1
0
0
0
0,2
0,44721
4
151
кипячение
1
0
0
0
0
0
1
0,2
0,44721
4
кислая
1
0
0
0
1
0
0
0,2
0,44721
4
концы в
воду
3
0
2
2
2
2
2
2
0
кончилась
1
0
0
0
0
0
0
0
0
котел для
1
0
0
1
0
0
0
0,2
0,44721
4
кружка
2
0
1
1
1
1
0
0,8
0,44721
4
кувшин для
1
0
1
1
1
1
0
0,8
0,44721
4
купаться в
1
0
0
0
0
1
0
0,2
0,44721
4
летать над
1
0
0
0
0
0
0
0
0
лечебная
3
0
1
1
1
1
0
0,8
0,44721
4
лимонная
1
0
1
0
1
1
0
0,6
0,54772
3
Лить воду
3
0
1
1
1
1
1
1
0
лишить
1
0
0
0
0
0
0
0
0
льется
2
0
0
0
0
0
0
0
0
любить
1
0
0
0
0
0
0
0
0
малая
2
0
0
0
0
0
0
0
0
мертвая
2
0
2
2
2
2
2
2
0
местная
1
0
0
0
1
0
0
0,2
0,44721
4
московская
1
0
0
1
0
0
0
0,2
0,44721
4
Мутить
воду
2
0
1
1
0
1
2
1
0,70710
7
мыться
1
0
0
0
0
0
0
0
0
Набрать
воды в рот
3
0
2
2
2
2
2
2
0
наглотаться
1
0
1
0
1
1
0
0,6
0,54772
3
найти
1
0
0
0
0
1
0
0,2
0,44721
4
наклонитьс
як
1
0
0
0
1
0
0
0,2
0,44721
4
наличие
1
0
0
0
0
0
0
0
0
152
наполнить
1
0
0
1
0
0
0
0,2
0,44721
4
направиться
к
1
0
0
0
1
0
0
0,2
0,44721
4
находиться
в
1
0
0
1
0
0
0
0,2
0,44721
4
невкусная
1
0
0
0
1
0
0
0,2
0,44721
4
недостаток
1
0
0
0
0
1
0
0,2
0,44721
4
нейтральны
е
2
0
0
1
1
0
2
0,8 0,83666
низкая
1
0
0
0
0
0
1
0,2
0,44721
4
носить
1
0
0
1
1
0
0
0,4
0,54772
3
носить
решетом
воду
3
0
1
1
1
1
2
1,2
0,44721
4
обеспечить
1
0
0
0
0
0
0
0
0
обитать в
1
0
0
1
0
1
0
0,4
0,54772
3
облить
1
0
0
0
1
0
0
0,2
0,44721
4
обнаружить
в
1
0
0
1
1
1
0
0,6
0,54772
3
обнаружить
воду
1
0
0
0
1
0
0,2
0,44721
4
обрызгать
1
0
0
0
0
0
0
0
0
обтираться
1
0
1
1
1
1
0
0,8
0,44721
4
обходиться
без
1
0
0
0
1
0
0
0,2
0,44721
4
обыкновенн
ая
1
0
0
0
0
0
0
0
0
окунуть
1
0
0
0
0
0
0
0
0
опустить в
2
0
0
0
0
0
0
0
0
оставаться в
1
0
0
0
0
0
0
0
0
остаться без
1
0
0
0
0
0
0
0
0
остыла
1
0
0
0
0
0
0
0
0
отделиться
от
1
0
0
0
0
0
0
0
0
отключить
2
0
0
0
0
0
0
0
0
153
оторваться
от
1
0
0
0
0
0
0
0
0
отравить
1
0
0
0
0
0
0
0
0
отравленная
1
0
0
0
0
0
0
0
0
охладить
1
0
0
0
0
0
0
0
0
очистить
1
0
0
0
0
0
0
0
0
перевозка
1
0
0
0
1
0
0
0,2
0,44721
4
перекрыть
1
0
1
1
1
1
0
0,8
0,44721
4
перелить
1
0
0
0
0
0
0
0
0
переправлят
ь
1
0
0
0
0
0
0
0
0
плескаться
в
1
0
0
0
0
0
1
0,2
0,44721
4
плохая
1
0
0
0
0
0
0
0
0
плыть по/
под
2
0
0
0
0
0
0
0
0
плыть
против
2
0
0
0
0
0
0
0
0
погрузить в
1
0
0
0
1
0
0
0,2
0,44721
4
подавать
1
0
0
0
0
0
0
0
0
подогрев
1
0
0
0
0
0
0
0
0
подогретая
1
0
0
1
0
0
0
0,2
0,44721
4
подогреть
1
0
0
0
0
0
0
0
0
подойти к
1
0
0
0
0
0
0
0
0
поить
1
0
0
0
0
0
0
0
0
показаться
из
1
0
0
0
0
1
0
0,2
0,44721
4
полая
1
0
1
1
1
1
0
0,8
0,44721
4
полная
1
0
2
2
2
2
0
1,6
0,89442
7
положить в
1
0
0
0
1
0
0
0,2
0,44721
4
послать за
1
0
0
0
0
0
0
0
0
потребност
ьв
1
0
0
0
0
0
0
0
0
появиться
из
1
0
0
0
11
0
0
2,2 4,91935
154
превратилас
ь в пар
1
0
1
1
1
1
0
0,8
0,44721
4
превращени
е в пар
1
0
0
1
0
0
0
0,2
0,44721
4
предпочита
ть
1
0
0
0
0
0
0
0
0
прибывает
2
0
1
1
1
1
1
1
0
приводит в
движение
1
0
0
0
0
0
0
0
0
привыкнуть
к
1
0
0
0
0
0
0
0
0
принести
1
0
0
0
0
0
0
0
0
пробовать
1
0
0
0
0
0
0
0
0
пролить
1
0
0
0
0
0
0
0
0
прописать
1
0
1
1
1
1
0
0,8
0,44721
4
прополоска
ть
1
0
1
1
1
1
1
1
0
прополоска
ть в трёх
водах
2
0
2
2
2
2
1
1,8
0,44721
4
пропускать
1
0
0
0
0
0
0
0
0
прорвала
1
0
1
1
1
1
0
0,8
0,44721
4
просачивает
ся
1
0
0
0
0
0
0
0
0
прыгнуть в
1
0
0
0
0
0
0
0
0
пустить
1
0
0
0
0
0
0
0
0
работа под
1
0
0
0
0
0
0
0
0
работать
под
2
0
0
0
0
0
0
0
0
разлить
1
0
0
0
0
0
0
0
0
размыла
1
0
0
0
0
0
0
0
0
размыть
водой
1
0
1
1
1
1
0
0,8
0,44721
4
реки
1
0
1
1
1
1
0
0,8
0,44721
4
рекомендов
ать
1
0
0
0
1
0
0
0,2
0,44721
4
ржавая
1
0
0
0
0
0
0
0
0
С лица не
воду пить
1
0
2
2
2
2
2
2
0
155
сельтерская
1
0
2
2
2
2
2
2
0
сесть на
1
0
0
0
0
0
2
0,4
0,89442
7
синяя
1
0
0
0
0
0
0
0
0
скользить
по
1
0
0
0
1
0
0
0,2
0,44721
4
скопление
1
0
0
0
0
0
0
0
0
сладкая
2
0
0
1
0
0
0
0,2
0,44721
4
слой
1
0
0
0
0
0
0
0
0
смешать с
1
0
0
0
0
0
0
0
0
смотреть на
1
0
0
0
0
1
0
0,2
0,44721
4
смыла
1
0
0
0
0
0
0
0
0
смыть
водой
1
0
0
1
0
0
0
0,2
0,44721
4
снабжать
1
0
0
0
1
0
0
0,2
0,44721
4
снабжение
1
0
0
0
0
1
0
0,2
0,44721
4
снести
водой
1
0
0
1
0
0
0
0,2
0,44721
4
содержание
в чем-л
1
0
0
1
0
0
0
0,2
0,44721
4
содержится
в
1
0
0
0
0
0
0
0
0
содовая
1
0
1
1
1
1
0
0,8
0,44721
4
сосуд с
1
0
0
0
0
0
0
0
0
спокойная
1
0
0
0
0
0
0
0
0
спустить
корабль на
3
0
1
1
1
1
2
1,2
0,44721
4
стакан с
1
0
1
1
1
1
0
0,8
0,44721
4
столовая
1
0
0
0
0
0
0
0
0
стоячая
2
0
1
1
1
1
2
1,2
0,44721
4
струится
1
0
0
0
0
0
0
0
0
студеная
2
0
1
1
1
1
1
1
0
Тише воды,
ниже травы
3
0
1
0
1
1
2
1
0,70710
7
156
удельный
вес
1
0
0
0
0
0
0
0
0
умываться
1
0
0
0
1
0
0
0,2
0,44721
4
унесла
1
0
0
0
0
0
0
0
0
уровень
1
0
0
0
0
0
0
0
0
уронить в
1
0
0
0
0
0
0
0
0
Утопить в
ложке воды
2
0
1
1
1
1
0
0,8
0,44721
4
химический
состав
1
0
0
0
1
0
0
0,2
0,44721
4
Холодной
водой
окатить
(или
облить)
2
0
2
2
2
2
2
2
0
хорошая
2
0
0
1
0
0
0
0,2
0,44721
4
хранение
1
0
0
0
0
0
0
0
0
цвет
1
0
0
0
0
1
0
0,2
0,44721
4
целебная
2
0
0
0
0
0
0
0
0
цистерна
для
1
0
0
0
0
0
0
0
0
Чающие
движения
воды
1
0
2
2
2
2
0
1,6
0,89442
7
Черного
моря
1
0
1
1
1
1
0
0,8
0,44721
4
шумит
2
0
0
0
0
0
0
0
0
энергия
1
0
0
0
0
0
0
0
0
бежит
4
0
1
1
1
1
1
1
0
В мутной
воде рыбу
ловить
5
0
2
2
2
2
2
2
0
Водой не
разлить (не
разольешь)
кого
4
0
2
2
2
2
2
2
0
Воды не
замутит
4
0
2
2
2
2
2
2
0
возить
4
0
1
1
0
1
0
0,6
0,54772
3
157
Вывести на
чистую
воду
5
0
2
2
2
2
2
2
0
Выйти
сухим из
воды
4
0
2
2
2
2
2
2
0
вылить
4
0
0
0
0
0
0
0
0
грязная
4
0
0
0
0
0
0
0
0
Как рыба в
воде
4
0
2
2
2
2
2
2
0
Как с гуся
вода
5
0
2
2
0
2
2
1,6
0,89442
7
ключевая
4
0
1
0
1
1
2
1
0,70710
7
лечиться на
водах
4
0
2
2
2
2
2
2
0
Лить воду
на
мельницу
4
0
2
2
2
2
2
2
0
Много воды
утекло
5
0
2
2
2
2
2
2
0
Пройти
огонь и
воду (и
медные
трубы)
4
0
2
2
2
2
2
2
0
путешестви
е по
4
0
0
0
0
0
0
0
0
речная
4
0
0
0
0
0
0
0
0
Седьмая
вода на
киселе
4
0
2
2
2
2
2
2
0
сырая
4
0
1
1
1
1
1
1
0
Темна вода
во облацех
4
0
2
2
2
2
2
2
0
территориа
льные воды
4
0
1
1
0
1
2
1
0,70710
7
Толочь воду
(в ступе);
4
0
2
1
2
2
2
1,8
0,44721
4
Тяжелая
вода
4
0
1
0
1
1
2
1
0,70710
7
фруктовая
4
0
2
2
1
1
1
1,4
0,54772
3
158
Приложение 10. Экспертная оценка коллокаций, содержащих слово рука
159
Количество
словарей
брать за
Количест
во мер
0
среднее
арифмети
Экспе
ческое
рт 4
стандар
тное
отклоне
ние
Экспе
рт 0
Экспе
рт 1
Экспе
рт 2
Экспе
рт 3
1
1
1
1
0
0,8
0,44721
4
2
2
2
2
2
2
0
1
1
1
0
1
1
0,8
0,44721
4
1
2
2
2
2
2
2
0
2
2
2
2
2
2
2
0
1
брать
инициативу
в свои
0
взмахнуть
0
власть в
руках
0
воздеть
руки
0
выпрямить
0
1
0
0
0
0
0
0
0
достать
0
1
0
0
1
0
0
0,2
0,44721
4
дрожащие
0
1
1
1
1
1
0
0,8
0,44721
4
заботливые
0
1
1
1
1
1
2
1,2
0,44721
4
коснуться
0
1
0
1
0
0
0
0,2
0,44721
4
лежит
0
1
0
0
0
1
0
0,2
0,44721
4
мокрыми
0
2
2
2
2
2
0
1,6
0,89442
7
мошеннико
в
0
1
1
1
1
0
0
0,6
0,54772
3
не с руки
0
2
2
2
2
2
0
1,6
0,89442
7
обхватив
0
2
1
1
1
1
0
0,8
0,44721
4
опытные
0
2
1
1
0
1
2
1
0,70710
7
под
горячую
0
2
2
2
2
2
2
2
0
подержать
0
2
1
1
1
1
0
0,8
0,44721
4
поднять
руки к небу
0
2
1
1
1
1
0
0,8
0,44721
4
потирать
0
2
0
0
0
0
1
0,2
0,44721
4
1
160
придержива
я
0
2
0
0
0
0
0
0
0
раскинув
0
2
1
0
1
1
1
0,8
0,44721
4
раскинуть
0
1
1
1
1
1
0
0,8
0,44721
4
руки в боки
0
1
1
1
0
1
2
1
0,70710
7
руки за
голову
0
1
2
2
2
2
1
1,8
0,44721
4
с руками
оторвут
0
1
2
2
2
2
2
2
0
сбыть с рук
0
2
1
1
1
1
2
1,2
0,44721
4
свободной
0
2
1
1
1
0
0
0,6
0,54772
3
сжать руки
в кулак
0
2
2
2
2
2
2
0
синица в
0
2
2
2
2
2
2
2
0
сложенные
0
1
1
1
0
0
0,6
0,54772
3
специалист
ов
0
2
1
1
1
1
0
0,8
0,44721
4
суставы
0
1
0
0
0
0
0
0
0
трясутся
0
1
0
1
0
0
1
0,4
0,54772
3
трясущиеся
0
2
0
0
0
0
0
0
0
тянется
0
2
0
0
1
0
0
0,2
0,44721
4
частные
0
2
1
1
1
1
2
1,2
0,44721
4
человеческа
я
0
2
0
0
0
0
0
0
0
щедрая
0
1
0
0
0
0
2
0,4
0,89442
7
вдоль
туловища
0
4
0
1
0
0
1
0,4
0,54772
3
взявшись за
0
3
0
0
0
0
0
0
0
движением
0
3
1
1
1
1
2
1,2
0,44721
4
движения
рук
0
4
0
0
0
0
0
0
0
двумя
0
4
1
1
1
1
0
0,8
0,44721
4
2
161
дело рук
0
3
1
1
0
1
2
1
0,70710
7
добрые
руки
0
3
1
1
1
1
2
1,2
0,44721
4
заняты
0
3
0
0
0
0
0
0
0
крем для
0
3
0
0
0
0
0
0
0
малыша
0
3
0
0
0
0
0
0
0
массажиста
0
3
0
0
0
0
0
0
0
3
0
0
1
0
0
0,2
0,44721
4
махать
0
моторика
0
3
0
0
0
0
0
0
0
мышцы
0
3
0
0
0
0
0
0
0
на
расстоянии
вытянутой
0
4
1
1
1
1
1
1
0
3
1
1
1
1
2
1,2
0,44721
4
4
1
1
1
1
2
1,2
0,44721
4
3
0
0
1
0
0
0,2
0,44721
4
4
0
0
0
0
0
0
0
4
1
1
1
1
2
1,2
0,44721
4
3
2
2
2
2
2
2
0
3
0
0
0
0
0
0
0
3
0
0
1
0
0
0,2
0,44721
4
3
1
1
1
1
1
1
0
3
0
0
0
0
2
0,4
0,89442
7
4
1
0
1
1
2
1
0,70710
7
4
2
2
2
2
2
2
0
4
1
1
0
1
1
0,8
0,44721
4
1
1
1
1
1
1
0
на скорую
надежные
обеими
одной
рукой
опускаются
0
0
0
0
0
положа
руку на
сердце
0
положение
0
прижать
руки к
груди
0
профессион
алов
0
рабочие
0
рука
мастера
0
с легкой
руки
0
своими
собственны
ми
0
0
4
162
ухоженные
хорошие
0
0
4
0
0
0
0
0
0
0
3
0
0
0
0
1
0,2
0,44721
4
всплеснуть
1
2
0
1
0
1
1
0,6
0,54772
3
держаться
за
1
1
0
0
0
0
0
0
0
женщины
1
2
0
0
0
0
0
0
0
размахиват
ь
1
2
0
1
0
1
0
0,4
0,54772
3
розовая
1
1
0
0
0
1
0
0,2
0,44721
4
согнуть
1
2
0
0
0
0
0
0
0
Без рук!
2
1
2
2
2
2
2
2
0
как рукой
сняло
2
2
2
2
2
2
2
2
0
мужчины
2
1
0
0
0
0
0
0
0
рукой
подать
2
2
2
1
2
2
2
1,8
0,44721
4
1
2
2
2
2
2
2
0
2
2
2
2
2
2
2
0
2
1
1
1
1
2
1,2
0,44721
4
2
0
0
0
0
1
0,2
0,44721
4
2
0
0
0
0
2
0,4
0,89442
7
умывать
руки
Всё валится
из рук
кривые
матери
нечистые
2
3
3
3
3
под
3
2
0
0
1
0
2
0,6
0,89442
7
под рукой
3
1
1
1
1
1
2
1,2
0,44721
4
подать руку
3
2
0
0
0
0
1
0,2
0,44721
4
просить
руки
3
1
1
1
1
1
2
1,2
0,44721
4
целовать
3
2
0
0
1
0
0
0,2
0,44721
4
вытянуть
1
3
0
0
0
0
0
0
0
девушки
1
3
0
0
0
1
0
0,2
0,44721
4
кисть
1
4
0
0
0
0
0
0
0
163
кожа
1
4
0
0
0
0
0
0
0
обе
1
3
0
0
1
0
0
0,2
0,44721
4
3
1
1
1
1
2
1,2
0,44721
4
прибрать к
1
ребенка
1
3
0
0
0
0
0
0
0
с пустыми
1
3
1
1
1
1
2
1,2
0,44721
4
трогать
1
3
0
0
0
0
0
0
0
чешутся
1
4
1
0
1
1
2
1
0,70710
7
в четыре
руки
2
3
2
2
2
2
2
2
0
не доходят
2
3
2
2
2
2
2
2
0
рука на
пульсе
2
4
2
2
1
2
2
1,8
0,44721
4
сложа руки
2
4
2
2
2
2
2
2
0
чужие руки
2
3
0
0
0
0
2
0,4
0,89442
7
длинные
3
3
0
0
0
0
0
0
0
3
1
1
1
1
2
1,2
0,44721
4
3
1
1
1
1
2
1,2
0,44721
4
4
2
2
2
2
2
2
0
из первых
3
набить
3
не покладая
рук
3
поднять
3
4
0
0
0
0
1
0,2
0,44721
4
развязать
3
3
0
0
0
0
2
0,4
0,89442
7
3
0
0
1
0
2
0,6
0,89442
7
схватить за
3
Бриллианто
вая
4
2
2
2
2
2
1
1,8
0,44721
4
дрожат
4
2
0
0
0
0
0
0
0
друга
4
1
0
0
1
0
2
0,6
0,89442
7
красивые
4
2
0
0
0
0
0
0
0
сломать
руку
4
1
0
0
0
0
0
0
0
2
0
0
0
0
2
0,4
0,89442
7
выпустить
из
5
164
носить на
5
1
1
1
1
1
2
1,2
0,44721
4
рука руку
моет
6
1
1
1
1
1
2
1,2
0,44721
4
4
1
1
1
1
2
1,2
0,44721
4
4
0
0
0
0
2
0,4
0,89442
7
голыми
грязные
4
4
держать в
4
4
0
0
1
1
2
0,8 0,83666
и ногами
4
3
2
2
0
2
2
1,6
0,89442
7
махнуть
4
4
0
0
0
0
2
0,4
0,89442
7
мыть руки
4
4
0
0
0
0
0
0
0
пальцы
4
4
0
0
0
0
2
0,4
0,89442
7
пожать
4
4
1
1
1
1
1
1
0
приложить
4
3
1
1
1
1
2
1,2
0,44721
4
руки вверх
4
3
1
1
1
1
2
1,2
0,44721
4
руки за
спину
4
3
1
1
1
1
1
1
0
4
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
0
1
1
1
1
0
0,8
0,44721
4
умелые
4
человека
4
4
взять в
5
4
протянуть
5
3
1
1
1
1
0
0,8
0,44721
4
развести
руками
5
4
1
1
1
1
2
1,2
0,44721
4
рука не
поднимаетс
я
5
3
2
2
2
2
2
2
0
сильные
5
3
0
0
0
1
0
0,2
0,44721
4
скрестив
5
3
0
0
0
0
0
0
0
опустить
6
4
1
1
1
1
2
1,2
0,44721
4
предложить
руку и
сердце
6
4
2
2
2
2
2
2
0
165
чистые
6
4
0
0
0
0
2
0,4
0,89442
7
золотые
7
4
2
2
2
2
2
2
0
Подать
(или
протянуть)
руку
(помощи)
8
3
2
2
2
2
2
2
0
4
1
1
1
1
0
0,8
0,44721
4
4
2
1
2
2
2
1,8
0,44721
4
0
1
0
0
0
0,2
0,44721
4
левая
правая
9
10
ампутирова
ть
1
0
ампутация
1
0
0
0
0
0
0
0
0
Ани
1
0
0
0
0
0
0
0
0
балерины
1
0
0
0
0
0
0
0
0
божья
1
0
1
1
1
1
2
1,2
0,44721
4
верная
1
0
1
1
1
1
1
1
0
влажные
1
0
0
0
1
0
0
0,2
0,44721
4
властная
1
0
1
1
1
1
2
1,2
0,44721
4
выбить из
1
0
0
0
0
0
2
0,4
0,89442
7
вывих
1
0
0
0
0
1
0
0,2
0,44721
4
вырвать из
1
0
0
0
0
0
2
0,4
0,89442
7
вытирать
1
0
0
0
1
0
0
0,2
0,44721
4
Глаза
боятся, а
руки
делают
1
0
2
2
2
2
2
2
0
грубые
1
0
0
0
0
0
0
0
0
Держать
руку чью
1
0
0
0
0
1
0
0,2
0,44721
4
детские
1
0
0
0
0
0
0
0
0
До ручки
дойти
1
0
1
1
1
1
2
1,2
0,44721
4
дотянуться
1
0
0
1
0
0
0
0,2
0,44721
4
166
дружеская
1
0
рука закона
1
0
замерзли
1
0
здоровые
1
0
Искать чьей
руки
1
испачкать
1
0
карты в
руки
1
0
корявые
1
0
костлявые
1
0
ледяные
1
0
лечить
1
0
линии
1
0
лишиться
1
0
мозоли на
1
0
мозолистые
1
0
мокрые
1
0
морщинист
ые
1
0
на все руки
мастер
1
0
натянуть на
1
0
не хватает
рук
1
0
небольшие
1
0
носят
1
от руки
1
отекла
1
отморозить
1
0
0
0
0
0
1
1
1
1
1
1
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
0
1
1
1
1
0
0,8
0,44721
4
2
2
2
2
2
2
0
0
0
1
0
0
0,2
0,44721
4
2
2
2
2
2
2
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
0
0
0
0
0
1
0,2
0,44721
4
0
0
0
1
0
0,2
0,44721
4
0
0
0
0
2
0,4
0,89442
7
0
0
0
0
0
0
0
0
0
0
1
0
0,2
0,44721
4
0
0
0
0
0
0
0
0
1
0
0
0
0,2
0,44721
4
0
0
0
0
0
0
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
0
2
2
2
2
2
2
0
0
0
1
0
0
0,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
0
0
0
1
0
0,2
0,44721
4
0
0
0
0
0
0
0
167
очумелые
ручки
1
0
перевязка
1
0
по обе руки
1
0
повязка на
1
0
показывать
1
0
попасть в
1
поранить
1
0
провести
1
разогнуть
2
2
2
2
2
2
0
0
0
0
0
0
0
0
0
0
0
0
1
0,2
0,44721
4
0
0
0
0
0
0
0
0
0
1
0
0
0,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
0
1
0
0
0
0,2
0,44721
4
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
рана на
1
0
0
0
0
0
0
0
0
распухла
1
0
0
0
1
0
0,2
0,44721
4
С руки
кому
1
1
1
1
1
2
1,2
0,44721
4
сжимать в
1
0
0
0
0
0
0
0
0
синяк на
1
0
0
0
0
0
0
0
0
слабые
1
0
0
0
0
0
1
0,2
0,44721
4
смотреть
из-под
1
0
1
1
1
1
0
0,8
0,44721
4
снимок
(рентгеновс
кий)
1
0
0
0
1
0
0
0,2
0,44721
4
старика
1
0
0
0
0
0
0
0
0
сунуть
1
0
0
0
0
0
0
0
0
сунуть руки
в карман
1
0
0
0
0
0
0
0
0
сухие
1
0
0
0
0
1
0
0,2
0,44721
4
талантлива
я
1
0
1
1
1
1
1
1
0
травма
1
0
0
0
0
0
0
0
0
удариться
1
0
0
0
0
0
0
0
0
укол в руку
1
0
0
0
0
0
0
0
0
холеные
1
0
0
0
0
1
0
0,2
0,44721
4
0
0
0
168
0
1
0
0
0
0,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
0
0,8
0,44721
4
0
1
1
1
1
1
1
0
2
0
1
1
1
1
1
1
0
вывихнуть
2
0
0
0
0
0
0
0
0
выронить
из
2
0
0
0
0
0
0
0
0
гибкая
2
0
0
0
0
0
0
0
0
горячая
2
0
0
0
0
0
2
0,4
0,89442
7
Дать руку
на
отсечение
2
2
1
2
2
2
1,8
0,44721
4
железные
2
0
1
1
1
1
2
1,2
0,44721
4
жесткие
2
0
0
0
0
1
2
0,6
0,89442
7
загорелые
2
0
0
0
0
0
0
0
0
загребущая
2
0
2
2
2
2
2
2
0
зажать в
2
0
0
0
0
0
0
0
0
Запустить
руку во
что .
2
0
0
0
0
2
0,4
0,89442
7
Иметь
(сильную)
руку где
2
2
2
2
2
0
1,6
0,89442
7
как без рук
2
2
1
2
1
2
1,6
0,54772
3
короткие
2
0
1
1
1
1
0
0,8
0,44721
4
ласковая
2
0
0
0
0
0
0
0
Лизать
руки
2
0
0
0
0
2
0,4
0,89442
7
Ломать
руки
2
0
0
0
0
2
0,4
0,89442
7
Марать
руки об
2
1
1
1
1
2
1,2
0,44721
4
мужские
2
0
0
0
1
2
0,6
0,89442
7
штангиста
1
0
щедрой
рукой
1
0
больные
2
0
вести под
2
взяться за
0
0
0
0
0
0
0
0
169
мягкие
2
0
наложить
гипс
2
0
ноет
2
0
Обагрить
руки
кровью
2
Обломать
руки
2
отбиться от
2
0
подвернуть
ся под
2
0
Поднять
руку на
2
0
0
0
Подписатьс
я обеими
руками под
чем-л.
2
полные
2
0
положить
на
2
0
порезать
2
0
прикоснуть
ся
2
0
раненая
2
0
Руки
коротки!
2
связать
2
0
сделать
своими
руками
2
0
товарища
2
0
Тянуть чью
руку
2
ударить по
2
Укоротить
руки кому
2
художника
2
0
0
0
0
0
0
0
0
0
1
0
0
0,2
0,44721
4
0
0
0
0
0
0
0
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
2
2
2
2
2
2
0
0
0
0
0
2
0,4
0,89442
7
1
1
1
1
2
1,2
0,44721
4
2
2
2
2
2
2
0
0
0
0
0
2
0,4
0,89442
7
0
1
0
0
0
0,2
0,44721
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0,4
0,89442
7
2
2
2
2
2
2
0
0
0
1
0
2
0,6
0,89442
7
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
0
1
1
1
1
2
1,2
0,44721
4
2
2
2
2
2
2
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
170
Что-л. само
в руки идёт
2
В
рукахчьих
или у кого
3
0
0
2
2
2
2
2
2
0
2
2
2
2
2
2
0
2
2
2
2
2
2
0
0
0
0
1
0
0,2
0,44721
4
0
0
1
0
1
0,4
0,54772
3
2
2
2
2
2
2
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
0
0
0
2
2
2
2
2
2
0
2
2
2
2
2
2
0
0
0
0
0
0
0
0
0
1
0
0
0
0,2
0,44721
4
0
0
0
0
0
0
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
1
0,2
0,44721
4
0
0
1
0
2
0,6
0,89442
7
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
из рук вон
плохо
3
0
изящные
3
0
крепкие
3
0
На́ руку
кому
3
Нагреть
руки
3
надеть на
3
Наложить
руки на
себя.
3
Не рука
кому
(устар.)
3
нежные
3
0
нести в
3
0
перелом
3
0
писателя
3
0
подобрать
что-л по
руке
3
0
правосудия
3
0
Руки по
швам
3
Руки прочь
от
3
сойти с рук
3
0
2
2
2
2
2
2
0
Сон в руку
3
0
2
2
2
2
2
2
0
худые
3
0
1
1
1
1
2
1,2
0,44721
4
Давать
волю рукам
3
0
2
2
2
2
2
2
0
0
0
0
0
0
0
0
171
Дать по
рукам
кому-л
3
0
белые
4
0
болят
4
вести за
2
2
2
2
2
2
0
0
0
0
0
2
0,4
0,89442
7
0
0
1
0
0
0
0,2
0,44721
4
4
0
0
0
0
0
0
0
0
взять на
4
0
0
0
1
0
0
0,2
0,44721
4
Греть руки
4
0
0
0
0
0
2
0,4
0,89442
7
держать на
4
0
0
0
0
0
2
0,4
0,89442
7
идти под
руку
4
0
1
1
1
1
2
1,2
0,44721
4
Из рук в
руки
4
0
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
0
0
1
0
2
0,6
0,89442
7
На руках
иметь
4
писать
4
0
По рукам!
4
0
2
2
2
2
2
2
0
погладить
4
0
0
0
0
0
0
0
0
рабочего
4
0
1
1
1
1
2
1,2
0,44721
4
рука не
дрогнет
4
2
2
2
2
2
2
0
теплые
4
0
0
0
0
0
0
0
0
тонкие
4
0
0
1
0
1
0
0,4
0,54772
3
ударить
4
0
0
0
0
0
2
0,4
0,89442
7
холодные
4
0
0
0
0
0
0
0
0
Чужими
руками жар
загребать
4
2
2
2
2
2
2
0
большие
5
0
0
0
0
0
0
0
0
взять за
5
0
0
0
0
0
0
0
0
волосатые
5
0
0
0
0
0
2
0,4
0,89442
7
знать чью-л
руку
5
0
1
1
1
1
2
1,2
0,44721
4
0
0
0
172
легкая рука
5
0
маленькие
5
0
твердая
5
0
тяжелая
рука
5
0
женские
7
0
Рука об
руку
8
0
1
1
1
1
2
1,2
0,44721
4
0
1
0
1
0
0,4
0,54772
3
1
1
1
1
2
1,2
0,44721
4
1
1
1
1
2
1,2
0,44721
4
0
0
0
0
2
0,4
0,89442
7
1
1
1
1
2
1,2
0,44721
4
173
Приложение 11. Экспертная оценка коллокаций, содержащих слово белый
174
Количество
словарей
Количест
во мер
Экспе
рт 0
Экспе
рт 1
Экспе
рт 2
Экспе Экспе
рт 3
рт 4
стандарт
среднее
ное
арифметич
отклонен
еское
ие
город
0
2
0
0
0
0
0
0
0
потолок
0
2
0
0
0
0
0
0
0
сахар
0
2
0
0
0
0
0
0
0
зарплата
0
2
2
2
2
2
2
2
0
пляж
0
2
2
2
2
2
1
1,8
0,447214
береза
0
2
0
0
0
0
0
0
0
лимузин
0
2
0
0
0
0
0
0
0
бумага
0
2
0
1
0
0
0
0,2
0,447214
чай
0
2
0
0
0
0
2
0,4
0,894427
дача
0
2
0
0
0
0
0
0
0
кролик
0
2
0
0
1
0
0
0,2
0,447214
орел
0
2
0
0
0
0
0
0
0
море
0
4
2
2
2
2
2
2
0
цветок
0
3
0
0
1
0
0
0,2
0,447214
камень
0
3
0
1
0
0
0
0,2
0,447214
платье
0
3
0
0
0
0
0
0
0
песок
0
4
0
0
0
0
0
0
0
золото
0
4
1
1
1
1
2
1,2
0,447214
глина
0
4
1
1
1
1
2
1,2
0,447214
конь
0
4
0
0
0
0
0
0
0
налет
0
4
0
0
0
0
0
0
0
краска
0
4
0
0
0
0
0
0
0
роза
0
4
0
1
0
0
0
0,2
0,447214
рубашка
0
4
0
0
0
0
0
0
0
полоса
0
4
0
0
0
0
0
0
0
список
0
3
2
2
2
2
2
2
0
одежда
0
3
0
0
0
0
0
0
0
стена
0
3
0
0
1
0
0
0,2
0,447214
мрамор
0
3
0
0
0
1
0
0,2
0,447214
шоколад
0
3
2
2
2
2
2
2
0
тигр
0
3
2
2
2
2
2
2
0
зал
0
3
2
2
2
2
2
2
0
порошок
0
3
0
1
0
0
0
0,2
0,447214
175
экран
0
3
1
1
1
1
2
1,2
0,447214
голубь
0
3
0
0
0
0
0
0
0
зависть
0
3
2
2
2
2
2
2
0
акула
0
3
0
0
0
1
2
0,6
0,894427
парус
0
3
2
2
2
2
2
2
0
мясо
3
2
2
2
2
2
2
2
0
уголь
2
2
2
2
2
2
2
2
0
ангел
3
1
0
0
1
2
2
1
1
ветер
1
2
2
2
2
2
2
2
0
воротнич
ок
1
4
2
2
2
2
2
2
0
Довести
до белого
каления
3
3
2
2
2
2
2
2
0
духовенс
тво
2
2
2
2
2
2
2
2
0
олимпиа
да
1
1
2
2
2
2
2
2
0
ворона
3
3
2
2
2
2
2
2
0
пятна
3
3
2
2
0
0
2
1,2
1,095445
дом
3
3
2
2
2
2
2
2
0
кот
3
3
0
0
0
0
0
0
0
магия
2
3
2
2
2
2
2
2
0
облако
2
3
0
0
0
0
0
0
0
фон
1
4
0
0
0
0
0
0
0
халат
2
4
2
2
2
2
1
1,8
0,447214
цвет
3
4
0
0
1
0
0
0,2
0,447214
шум
1
4
2
2
2
2
2
2
0
стихи
4
1
2
2
2
2
2
2
0
гвардия
6
1
2
2
2
2
2
2
0
горячка
5
2
2
2
2
2
2
2
0
клык
4
2
2
2
2
2
2
2
0
пух
4
1
0
2
0
0
0
0,4
0,894427
свет
6
2
2
2
2
2
2
2
0
танец
4
1
2
2
2
2
1
1,8
0,447214
человек
6
2
2
2
2
2
2
2
0
вино
4
3
2
2
2
2
2
2
0
ночи
4
3
2
2
2
2
2
2
0
176
хлеб
9
3
2
2
2
2
2
2
0
гриб
6
4
2
2
2
2
2
2
0
лебедь
5
4
2
2
2
2
1
1,8
0,447214
лист
5
3
0
0
0
1
2
0,6
0,894427
медведь
5
3
2
2
2
2
2
2
0
снег
6
3
2
2
2
2
2
2
0
Среди
бела дня
8
4
2
2
2
2
2
2
0
флаг
4
3
2
2
2
2
2
2
0
железо
1
0
0
0
0
1
2
0,6
0,894427
изба
2
0
2
2
2
2
2
2
0
кость
2
0
2
2
2
2
2
2
0
мухи
1
0
2
2
2
2
2
2
0
Белыми
нитками
шито
1
0
2
2
2
2
2
2
0
Дела как
сажа
бела
1
0
2
2
2
2
2
2
0
зима
2
0
2
2
2
2
1
1,8
0,447214
и
пушисты
й
3
0
2
2
2
2
2
2
0
как снег
2
0
2
2
2
2
0
1,6
0,894427
Называть
белое
черным
1
0
2
2
2
2
2
2
0
пепел
2
0
2
2
2
2
2
2
0
Сказка
про
белого
бычка
3
0
2
2
2
2
2
2
0
Черным
по
белому
1
0
2
2
2
2
2
2
0
заяц
4
0
1
1
1
1
1
1
0
билет
4
0
2
2
2
2
2
2
0
177
Приложение 12. Экспертная оценка коллокаций, содержащих слово скакать
178
стандартн
среднее
ое
арифметическ
Экспер Экспер Экспер Экспер Экспер
отклонени
ое
т0
т1
т2
т3
т4
е
галопом
0
2
2
1
1
2
2
1,5
0,547723
беззаботно
0
4
0
0
0
0
0
0
0
бешено
0
4
1
1
1
1
0
1
0,447214
бодро
0
4
1
1
1
1
0
1
0,447214
вверх-вниз
0
4
0
0
0
0
0
0
0
весело
0
4
0
0
0
0
0
0
0
впереди
0
3
0
0
0
0
0
0
0
вприпрыжк
у
0
4
1
1
1
1
1
1
0
всадник
0
4
2
2
2
2
1
2
0,447214
доллар
0
4
2
2
2
2
2
2
0
зайчик
0
4
0
0
0
0
0
0
0
кавалерия
0
4
1
1
1
1
0
1
0,447214
кенгуру
0
3
0
0
0
0
0
0
0
ковбой
0
4
0
0
0
0
0
0
0
козел
0
4
0
0
0
0
0
0
0
конь
0
4
1
1
1
1
0
1
0,447214
кузнечик
0
4
0
0
0
0
0
0
0
лихо
0
4
0
0
0
0
0
0
0
ловко
0
4
0
0
0
0
0
0
0
мысль
0
4
2
2
2
2
2
2
0
навстречу
0
4
0
0
0
0
0
0
0
напряжение
0
4
2
2
2
2
2
2
0
настроение
0
4
2
2
2
2
2
2
0
неуклюже
0
4
0
0
0
0
0
0
0
обезьяна
0
4
0
0
0
0
0
0
0
опрометью
0
3
0
0
0
0
0
0
0
перестать
0
3
0
0
0
0
0
0
0
посещаемос
ть
0
3
2
2
2
2
2
2
0
постоянно
0
3
0
0
0
0
0
0
0
проворно
0
4
0
0
0
0
0
0
0
прочь
0
3
0
0
0
0
0
0
0
псина
0
3
0
0
0
0
0
0
0
179
птица
0
3
0
0
0
0
0
0
0
пульс
0
4
2
2
2
2
2
2
0
радостно
0
4
0
0
0
0
0
0
0
резво
0
4
0
0
0
0
0
0
0
рядом
0
3
0
0
0
0
0
0
0
тень
0
4
1
1
1
1
0
1
0,447214
тройка
0
4
2
2
2
2
2
2
0
трусцой
0
4
2
2
2
2
2
2
0
туда-сюда
0
4
0
0
0
0
0
0
0
воробей
1
2
0
0
0
0
0
0
0
давление
2
2
2
2
2
2
2
2
0
белка
1
3
0
0
0
0
0
0
0
быстро
2
3
0
0
0
0
0
0
0
заяц
3
4
0
0
0
0
0
0
0
лягушка
1
3
0
0
0
0
0
0
0
температур
а
3
3
2
2
2
2
2
2
0
лошадь
6
3
0
0
0
0
0
0
0
блоха
1
0
1
1
1
1
0
1
0,447214
верхом
2
0
2
2
2
2
2
2
0
во весь дух
или опор
3
0
2
2
2
2
2
2
0
вокруг
0
3
0
0
0
0
0
0
0
девочка
3
0
0
0
0
0
0
0
0
жеребенок
1
0
0
0
0
0
0
0
0
мяч
1
0
2
2
2
2
0
2
0,894427
на одной
ноге.
1
0
2
2
2
2
0
2
0,894427
цены
1
0
2
2
2
2
2
2
0
через
веревочку
3
0
2
2
2
2
1
2
0,447214
через огонь
1
0
2
2
2
2
0
2
0,894427
бегать и
1
0
0
0
0
0
0
0
0
180
Приложение 13. Экспертная оценка коллокаций, содержащих слово семь
181
Количество
словарей
Количест
во мер
Экспе
рт 0
Экспе
рт 1
Экспе
рт 2
Экспе
рт 3
среднее
арифметиче
Экспе
ское
рт 4
стандарт
ное
отклонен
ие
седьмое
небо
0
2
2
2
2
2
2
2
0
седьмой
десяток
0
1
2
1
1
1
0
1
0,707107
седьмой
сын
0
1
0
1
2
1
0
0,8
0,83666
семь
вечеров
0
2
1
2
0
1
2
1,2
0,83666
семь
мудрец
ов
0
1
2
2
2
2
2
2
0
семь
нот
0
2
0
1
0
0
1
0,4
0,547723
семь
холмов
0
2
0
1
0
0
0
0,2
0,447214
у семи
нянек
дитя без
глазу
0
2
2
2
1
2
2
1,8
0,447214
семь
ангелов
0
4
0
0
0
0
2
0,4
0,894427
семь
богатыр
ей
0
3
0
1
1
1
2
1
0,707107
семь
гномов
0
4
1
1
1
1
1
1
0
семь
грехов
0
3
2
1
1
0
2
1,2
0,83666
семь
цветов
радуги
0
3
0
0
0
0
1
0,2
0,447214
семь
чакр
0
4
0
1
1
1
1
0,8
0,447214
семь
чудес
света
0
3
2
2
2
2
2
2
0
Семи
пядей
во лбу
2
2
2
2
2
2
2
2
0
Семь
потов
сошло с
кого
1
1
2
2
2
2
2
2
0
182
семь
раз
отмерь
3
3
2
2
2
2
2
2
0
дней
1
4
0
1
1
0
0
0,4
0,547723
За семь
верст
киселя
хлебать
1
0
2
2
2
2
2
2
0
За
семью
замкам
и
2
0
2
2
2
2
2
2
0
Книга
за
семью
печатям
и
1
0
2
2
2
2
2
2
0
С. бед один
ответ
3
0
2
2
2
2
2
2
0
183
Приложение 14. Экспертная оценка коллокаций, содержащих слово свой
184
Количество
словарей
Количест
во мер
Экспе
рт 0
Экспе
рт 1
Экспе
рт 2
Экспе
рт 3
Экспе
рт 4
среднее
арифмети
ческое
стандарт
ное
отклонен
ие
бизнес
0
2
1
1
1
1
1
1
0
свое дело
0
4
1
1
1
1
1
1
0
свое
мнение
0
4
1
1
1
1
0
0,8
0,447214
своя
квартира
0
4
1
1
1
2
1
1,2
0,447214
страна
0
4
1
1
1
1
1
1
0
вкус
0
4
1
1
1
1
1
1
0
усмотрен
ие
0
4
1
1
1
2
1
1,2
0,447214
свое
отношени
е
0
4
1
1
1
2
0
1
0,707107
решение
0
4
1
1
1
1
0
0,8
0,447214
знать свой
организм
0
4
0
1
0
0
0
0,2
0,447214
свое
состояние
0
4
0
1
0
0
0
0,2
0,447214
свой
компьюте
р
0
4
0
1
0
0
0
0,2
0,447214
свой
участок
0
4
0
1
0
0
0
0,2
0,447214
свое лицо
0
4
0
1
0
0
0
0,2
0,447214
подтверди
ть свою
репутаци
ю
0
4
0
1
0
0
0
0,2
0,447214
свой
доход
0
4
0
1
0
0
0
0,2
0,447214
свой
адрес
0
4
0
1
0
0
0
0,2
0,447214
свой заказ
0
4
0
1
0
0
0
0,2
0,447214
своя
голова на
плечах
0
4
2
1
2
2
2
1,8
0,447214
оставить
свой
отзыв
0
4
0
1
0
0
0
0,2
0,447214
своя
фантазия
0
4
0
1
0
0
0
0,2
0,447214
185
написать
свое
пожелани
е
0
4
0
1
0
0
1
0,4
0,547723
дать свое
согласие
0
4
2
1
2
2
2
1,8
0,447214
указать
свой
телефон
0
4
0
1
0
0
0
0,2
0,447214
свое
воображе
ние
0
4
0
1
0
0
0
0,2
0,447214
(Рассказат
ь) своими
словами
2
1
2
1
2
2
2
1,8
0,447214
Быть не в
своей
тарелке
1
1
2
1
2
2
2
1,8
0,447214
В свою
очередь
1
2
2
1
2
2
2
1,8
0,447214
Своя
ноша не
тянет
2
2
2
1
2
2
2
1,8
0,447214
свой
народ
3
4
1
1
1
2
1
1,2
0,447214
Сделать
своими
руками
4
3
2
1
2
2
2
1,8
0,447214
Своя
голова на
плечах
1
0
2
1
2
2
2
1,8
0,447214
(не)В
своем уме
2
0
2
1
2
2
2
1,8
0,447214
(не)На
своем
месте
1
0
2
1
2
2
2
1,8
0,447214
Брать
(взять)
свое
3
0
2
1
2
2
2
1,8
0,447214
В свое
время
2
0
2
1
2
2
2
1,8
0,447214
В свое
удовольст
вие
1
0
2
1
2
2
2
1,8
0,447214
В своем
роде
1
0
2
1
2
2
2
1,8
0,447214
выбор
2
0
0
1
0
0
0
0,2
0,447214
186
Жить
своим
умом
2
0
2
1
2
2
2
1,8
0,447214
Знать свое
место
2
0
2
1
2
2
2
1,8
0,447214
Идти
своей
дорогой
1
0
2
1
2
2
2
1,8
0,447214
Идти
своим
ходом
1
0
2
1
2
2
2
1,8
0,447214
Идти
своим
чередом
1
0
2
1
2
2
2
1,8
0,447214
Мастер
своего
дела
1
0
2
1
2
2
2
1,8
0,447214
На свой
страх (и
риск)
1
0
2
1
2
2
2
1,8
0,447214
На своих
двоих
1
0
2
1
2
2
2
1,8
0,447214
На свою
голову
1
0
2
1
2
2
2
1,8
0,447214
Называть
вещи
своими
именами
2
0
2
1
2
2
2
1,8
0,447214
Не в свои
сани
сесть
1
0
2
1
2
2
2
1,8
0,447214
Не верить
своим
глазам
1
0
2
1
2
2
2
1,8
0,447214
Не своим
голосом
2
0
2
1
2
2
2
1,8
0,447214
нести
свой
крест
1
0
2
1
2
2
2
1,8
0,447214
Остаться
при своих
1
0
2
1
2
2
2
1,8
0,447214
отпуск за
свой счет
1
0
0
1
0
0
2
0,6
0,894427
по-своему
2
0
0
1
0
0
2
0,6
0,894427
Поставит
ь на свое
место
2
0
0
1
0
0
2
0,6
0,894427
187
принцип
1
0
0
1
0
0
0
0,2
0,447214
Принять
на свой
счет
2
0
2
1
2
2
2
1,8
0,447214
Сам не
свой
1
0
2
1
2
2
2
1,8
0,447214
Свое на
уме
1
0
2
1
2
2
2
1,8
0,447214
Свое я
1
0
2
1
2
2
1
1,6
0,547723
Своего
поля
ягода
3
0
2
1
2
2
2
1,8
0,447214
Своего
рода
1
0
2
1
2
2
2
1,8
0,447214
Своим
порядком
1
0
2
1
2
2
2
1,8
0,447214
Своих не
узнаешь
3
0
2
1
2
2
2
1,8
0,447214
Своя
рубаха
ближе к
телу.
1
0
2
1
2
2
2
1,8
0,447214
Своя рука
владыка
1
0
2
1
2
2
2
1,8
0,447214
Сказать
свое
слово
1
0
1
1
1
1
1
1
0
Стоять на
своих
ногах
1
0
1
1
1
1
2
1,2
0,447214
Умереть
(не) своей
смертью
1
0
2
1
2
2
2
1,8
0,447214
дом
4
0
1
1
1
1
1
1
0
парень
5
0
2
2
2
2
2
2
0
Свой брат
4
0
2
1
2
2
2
1,8
0,447214
Свой в
доску
5
0
2
1
2
2
2
1,8
0,447214
188
Приложение 15. Коэффициент корреляции Спирмена между различными
мерами для слова сердце
Коэффицие
нт
корреляции
Спирмена
Коэффициэ
нт
корреляции
меры с
основным
рангом
T-score
MI
MI3
loglikelihoo
d
min.
sensitivit
y
log-Dice
MI.log_f
0,4589
Х
-0,0709
0,476054
0,111765 0,173155 0,137262
0,341431
6
2
6
3
-0,0482
-0,0709
Х
0,434433 0,546953 0,820891 0,571268 0,267119
9
4
5
1
6
0,6018
0,4761
0,434433
9
loglikelihood
0,7379
0,3414
0,546953 0,776024
4
3
min.
sensitivity
0,2930
0,1118
0,820891 0,606276 0,745926
5
1
7
0,0608
0,1732
0,571268 0,528057 0,408065 0,534813
1
6
7
4
-0,0421
0,1373
0,267119 0,212583 0,136881 0,220798 0,384294
6
3
3
6
2
T-score
MI
MI3
log-Dice
MI.log-_f
Х
0,776024 0,606276 0,528057 0,212583
3
1
6
3
Х
0,745926 0,408065 0,136881
7
7
3
Х
0,534813 0,220798
4
6
Х
0,220798
6
Х
189
Приложение 16.Коэффициент корреляции Спирмена между различными
мерами для слова вода
Коэффициэн
т корреляции
Коэффициен меры с
т корреляции основным
Спирмена
рангом
T-score
T-score
MI
MI3
log-likelihood
min.
sensitivity
log-Dice
MI.log-_f
MI
MI3
loglikelihoo
d
min.
sensitivit
y
MI.loglog-Dice _f
0,9999
Х
-0,5554
0,87415
3
0,979242 0,955725
0,99979
7
0,50119
4
-0,5620
-0,5554
Х
-0,15201
-0,4082
-0,38475
-0,54672
0,32191
1
0,8703
0,8742
-0,15201
Х
0,950133
0,94105
0,87748
3
0,82118
7
0,9775
0,9792
-0,4082
0,95013
3
Х
0,975809
0,98073
1
0,64580
1
0,9544
0,9557
-0,38475
0,94105
0,975809
Х
0,95608
8
0,63258
5
0,9995
0,9998
-0,54672
0,87748
3
0,980731 0,956088
Х
0,51109
3
0,4932
0,5012
0,32191
1
0,82118
7
0,645801 0,632585
0,51109
3
Х
Приложение 17.Коэффициент корреляции Спирмена между различными
мерами для слова рука
Коэффициэн
т корреляции
Коэффициен меры с
т корреляции основным
Спирмена
рангом
T-score
T-score
MI
MI3
log-likelihood
min.
sensitivity
log-Dice
MI.log-_f
MI
MI3
loglikelihoo
d
min.
sensitivit
y
MI.loglog-Dice _f
0,9424
Х
0,0867
0,50526
0,651345
0,346511
0,26625
3
0,29538
0,1455
0,0867
Х
0,14154
3
0,338573
0,775252
0,28588
2
0,90340
6
0,5363
0,5053
0,14154
3
Х
0,778135
0,177671
0,76486
5
0,29807
9
0,7089
0,6513
0,33857
3
0,77813
5
Х
0,422769
0,58293
2
0,52363
6
0,4055
0,3465
0,77525
2
0,17767
1
0,422769
Х
0,33934
1
0,81244
3
0,3064
0,2663
0,28588
2
0,76486
5
0,582932
0,339341
Х
0,81244
3
0,3693
0,2954
0,90340
6
0,29807
9
0,523636
0,812443
0,37169
7
Х
190
Приложение 18.Коэффициент корреляции Спирмена между различными
мерами для слова белый
Коэффициэн
т корреляции
Коэффициен меры с
т корреляции основным
Спирмена
рангом
T-score
T-score
MI
MI3
log-likelihood
min.
sensitivity
log-Dice
MI.log-_f
MI
MI3
loglikelihoo
d
min.
sensitivit
y
MI.loglog-Dice _f
0,7017
Х
0,5520
0,73883
2
0,695228 0,423133
0,63442
8
0,38312
0,0828
0,5520
Х
0,70683
2
0,674183 0,427334
0,71746
4
0,64623
2
0,5014
0,7388
0,70683
2
Х
0,838692 0,427906
0,74936
9
0,58498
4
0,4083
0,6952
0,67418
3
0,83869
2
Х
0,514905
0,75919
1
0,60073
2
0,1007
0,4231
0,42733
4
0,42790
6
0,514905
Х
0,71417
7
0,74381
5
0,2343
0,6344
0,71746
4
0,74936
9
0,759191 0,714177
Х
0,74381
5
0,0178
0,3831
0,64623
2
0,58498
4
0,600732 0,743815
0,77886
4
Х
Приложение 19.Коэффициент корреляции Спирмена между различными
мерами для слова скакать
Коэффициэн
т корреляции
Коэффициен меры с
т корреляции основным
Спирмена
рангом
T-score
T-score
MI
MI3
log-likelihood
min.
sensitivity
log-Dice
MI.log-_f
MI
MI3
loglikelihoo
d
min.
sensitivit
y
MI.loglog-Dice _f
0,8006
Х
0,0944
0,01943
0,691161
0,430243
0,43295
5
0,50509
5
-0,1216
0,0944
Х
-0,18224
0,101878 0,385095
0,38473
4
0,09832
6
0,1567
0,0194
-0,18224
Х
-0,02838
-0,17949
-0,17977 -0,12698
0,3521
0,6912
0,10187
8
-0,02838
Х
0,637432
0,63883
6
0,82875
5
-0,0777
0,4302
0,38509
5
-0,17949
0,637432
Х
0,99983
2
0,71365
1
-0,0742
0,4330
0,38473
4
-0,17977
0,638836 0,999832
Х
0,71365
1
0,1489
0,5051
0,09832
6
-0,12698
0,828755 0,713651
0,71459
9
Х
191
Приложение 20.Коэффициент корреляции Спирмена между различными
мерами для слова семь
Коэффициэн
т корреляции
Коэффициен меры с
т корреляции основным
Спирмена
рангом
T-score
T-score
MI
MI3
log-likelihood
min.
sensitivity
log-Dice
MI.log-_f
MI
MI3
loglikelihoo
d
min.
sensitivit
y
MI.loglog-Dice _f
0,9329
Х
0,0110
0,83082
7
0,829626
0,254219
0,13002
5
0,01103
1
-0,0485
0,0110
Х
0,22929
8
0,220011
0,367268
0,67674
3
1
0,7111
0,8308
0,22929
8
Х
0,983438
0,604061
0,40233
2
0,22929
8
0,6872
0,8296
0,22001
1
0,98343
8
Х
0,611784
0,42658
8
0,22001
1
0,0676
0,2542
0,36726
8
0,60406
1
0,611784
Х
0,53863
5
0,36726
8
-0,0455
0,1300
0,67674
3
0,40233
2
0,426588
0,538635
Х
0,36726
8
-0,0485
0,0110
1
0,22929
8
0,220011
0,367268
0,67674
3
Х
Приложение 21.Коэффициент корреляции Спирмена между различными
мерами для слова свой
Коэффициэн
т корреляции
Коэффициен меры с
т корреляции основным
Спирмена
рангом
T-score
T-score
MI
MI3
log-likelihood
min.
sensitivity
log-Dice
MI.log-_f
MI
MI3
loglikelihoo
d
min.
sensitivit
y
MI.loglog-Dice _f
0,7164
Х
0,2952
0,08449
3
0,378185
0,778714
0,51437
2
0,27245
-0,0538
0,2952
Х
0,38582
0,586988
0,043882
0,25709
9
0,85614
6
0,0318
0,0845
0,38582
Х
0,570406
0,087336
0,46026
4
0,55060
8
0,2310
0,3782
0,58698
8
0,57040
6
Х
0,249829
0,63303
3
0,72008
2
0,8907
0,7787
0,04388
2
0,08733
6
0,249829
Х
0,55999
1
0,09669
2
0,4415
0,5144
0,25709
9
0,46026
4
0,633033
0,559991
Х
0,09669
2
-0,0097
0,2724
0,85614
6
0,55060
8
0,720082
0,096692
0,33554
8
Х
192
Отзывы:
Авторизуйтесь, чтобы оставить отзыв