Санкт-Петербургский государственный университет
Филологический факультет
Кафедра математической лингвистики
Годгильдиева Мария Михайловна
КОРПУСНО-СТРУКТУРНЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ
ПОЛУАВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ ЗНАЧЕНИЙ И
СЕМАНТИЧЕСКИХ ВАЛЕНТНОСТЕЙ ГЛАГОЛОВ РУССКОГО ЯЗЫКА
Выпускная квалификационная
работа по направлению
45.03.02 «Лингвистика»,
образовательная программа
«Прикладная, экспериментальная и
математическая лингвистика»
Научный руководитель:
доц., к.ф.н. Захаров В.П.
Санкт-Петербург
2017
Оглавление
Generating Table of Contents for Word Import ...
Аннотация
В данной работе исследуется проблема выделения значений глаголов русского
языка и их семантической валентности методом корпусно-структурного анализа. Целью
исследования является создание прототипа словаря семантических валентностей русских
глаголов. В работе рассматриваются основные положения и понятия общей теории
валентности и отдельно – теоретические положения метода корпусно-структурного
анализа. Также в рамках исследования был сделан обзор словарей валентности и
подобных электронных ресурсов для разных языков. В практической части данного
исследования описан эксперимент по адаптации метода корпусно-структурного анализа
для русского языка и созданию с его помощью словаря для 16 глаголов русского языка.
Также представлен анализ эффективности используемого метода и оценка полученных
результатов.
Ключевые слова: корпусная лингвистика, семантика, словарь валентностей,
валентность, паттерны.
This paper deals with the extraction of Russian verb meanings and their semantic valence
using the method of Corpus Pattern Analysis. We aim at creating a prototype dictionary of
semantic valence of Russian verbs. We describe and examine basic principles and notions of
valence theory, especially, those of Corpus Pattern Analysis. Also, we reviewed various valence
dictionary of different languages. In our work, we carried on an experiment trying to adapt
Corpus Pattern Analysis for Russian language and make a dictionary for 16 Russian verbs.
Moreover, we analyzed the effectivity of the given method and presented the evaluation of the
results obtained.
Key words: corpus linguistics, semantics, valence dictionary, valence, patterns.
!3
Введение
Информация о значении слов и их семантической сочетаемости необходима во
многих областях как теоретической, так и прикладной лингвистики. В теории это один из
важных элементов описания системы и лексикона языка, на практике же подобные
сведения могут пригодиться для разных задач, к примеру, машинный перевод,
информационный поиск, выделение темы текста и др. Во всех случаях необходим ресурс,
содержащий сведения о семантике слов. Для русского языка существует достаточное
количество толковых словарей, описывающих значения и оттенки значений слов и
частично – их сочетаемость, но, к сожалению, подобные словари почти бесполезны при
автоматической обработке текста. Таким образом, возникает потребность в словаре
другого типа, словаре, который можно было бы использовать в компьютерных
технологиях. Подобный словарь должен содержать объективную, формализованную
информацию о значении слова, его рамках валентности (и синтаксической, и
семантической), о словах, часто встречающихся в его окружении, возможных идиомах.
На настоящее время создано и/или находится в разработке большое количество
электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского
языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь
Тузова1, проекты RussNet [1], FrameBank2. В данной работе мы решили воспользоваться
опытом и методами создания словаря Pattern Dictionary of English Verbs3. На данный
момент в словаре описана семантическая сочетаемость и значения около 2000 английский
глаголов. Словарь составляется на основе метода корпусно-структурного анализа (Corpus
Pattern Analysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация
(Theory of Norms and Exploitations, TNE). Можно выделить главные особенности данного
подхода:
•
выделение значений на основе семантического контекста глаголов;
•
анализ нормативных употреблений глагола.
Корпусно-структурный анализ позволяет по выборке из корпуса описать различные
семантические валентности глагола, сопоставить их с его значениями, определить их
1
http://emi.nw.ru/INDEX.html?0/Voc.html (дата доступа: 17.04.2017)
2
http://framebank.ru/article/pub/ (дата доступа: 17.04.2017)
3
http://pdev.org.uk/#browse (дата доступа: 17.04.2017)
!5
относительную частоту. При этом итоговое описание легко представляется в форме,
пригодной для автоматического анализа.
Целью данного исследования является адаптация для русского языка методики
выделения значений и семантической валентности глаголов по корпусным данным путём
создания прототипа словаря.
Для достижения поставленной цели было необходимо решить следующие
теоретические и практические задачи:
1) описать основные понятия и теоретические основы корпусно-структурного анализа;
2) адаптировать метод для русского языка;
3) составить пробный словарь;
4) оценить эффективность метода.
Объектом исследования являются семантика глаголов русского языка. Предмет
исследования – семантическая валентность глаголов и её связь с их значениями.
Материалом исследования является корпус Araneum Russicum Minus 4 и Национальный
корпус русского языка 5.
Теоретическая значимость работы определяется подробным описанием методики,
не используемой ранее на материале русского языка, и анализом её эффективности.
Практическая значимость данного исследования заключается в том, что полученные
результаты могут составить основу для создания словаря валентностей русского языка,
пригодного для использования как в теоретических, так и в практических целях.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из
40 названий и 2 приложений. В первой главе описываются теоретические вопросы,
связанные с описанием семантики глаголов русского языка и существующие ресурсы для
английского, чешского и русского языков. Вторая глава посвящена теоретическим основам
корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских
глаголов». В третьей главе описан эксперимент по составлению словарных статей
методами корпусно-структурного анализа, отмечены основные особенности, связанные с
системой русского языка, и представлена оценка полученных результатов.
4
http://sketch.juls.savba.sk/aranea_about/_russicum.html (дата доступа: 17.04.2017)
5
http://www.ruscorpora.ru (дата доступа: 17.04.2017)
!6
Глава 1. Валентность и её представление в словарях
В данной главе мы рассмотрим основные понятия теории валентности и опишем
основные зарубежные и отечественные словари и базы данных, описывающие
валентность глаголов.
1.
Понятие валентности
В лингвистике термин валентность был введен Л. Теньером в работе «Основы
структурного синтаксиса» [13]. Валентностью Теньер называет число актантов, которыми
управляет глагол. Актанты – это субъекты и объекты, принимающие участие в действии,
обозначаемым глаголом. Им противопоставлены сирконстанты, которые указывают на
время, место, образ действия и другие обстоятельства. Теньер утверждал, что глагол
может присоединять не более 4 актантов. Для русского языка Ю.Д. Апресян [2] привел
примеры, показывающие, что большее количество актантов возможно: арендовать (5
актантов) – кто? что? у кого? на сколько? за сколько? и командировать (6 актантов) – кто?
кого? куда? откуда? на сколько? с какой целью?
В.Г. Гак в «Лингвистическом энциклопедическом словаре» [3] определяет
валентность как «способность слова вступать в синтаксические связи с другими
элементами». В отличие от теории Теньера, здесь валентность выделяется и для других
частей речи, помимо глагола.
Принято разделять семантическую и синтаксическую валентности. Синтаксической
валентностью лексемы L называется «селективный признак, который указывает, что
данная лексема L может иметь в качестве вершины или в качестве зависимого слова слово
W (или составляющую фразовой категории С)» [14, с. 162]. Лексические единицы,
заполняющие синтаксические валентности лексемы, называются синтаксическими
актантами. Синтаксический актант не всегда является лексемой, иногда он может
выражаться конструкцией, соответствующей предложению. Подобные актанты Тестелец
называет сентенциальными.
«Семантической валентностью, или партиципантом, лексемы L называется любая
(несвязанная) переменная X, входящая в толкование (описание значения) L» [14, с. 158].
Языковые единицы, которые выражают валентности лексемы в предложении, называются
!7
её семантическими актантами. Ими могут быть как отдельные слова или словосочетания,
так и предикаты. Синтаксическая и семантическая валентность слова обычно согласованы.
Валентность бывает обязательной или факультативной. Для русского языка
характерна факультативность валентности. Также существуют определенные
синтаксические конструкции, в которых валентность глагола обычно не выражается
полностью, например, эллипсис. Если значение валентности можно вывести из
экстралингвистического контекста, то она обычно не реализуется в предложении.
С понятием семантической валентности связана идея о семантических ролях. Если
мы представляем себе значение глагола как описание некой экстралингвистической
ситуации, то его актанты воплощают собой участников ситуации (партиципантов). В
схожих ситуациях партиципанты будут играть схожие роли, и эти закономерности можно
описывать в терминах семантических ролей.
Впервые это идея появилась в работе Чарльза Филлмора «Дело о падеже» [18].
Филлмор исследовал «глубинные падежи», глубинные синтактико-семантические
отношения, которые выражаются в языке каким-либо способом (аффиксация, частицы,
порядок слов и т.д.). Они могут влиять на рамку валентностей глагола. «Для каждого
отдельного падежа допустимо его воплощение в виде сложной сущности (однородной
именной группы), но всякое падежное отношение встречается в простом предложении
только один раз» [18, с. 400]. Филлмор предложил 6 глубинных падежей: агентив –
инициатор действия, инструменталис – средство, датив – тот, кого затрагивает действия,
фактитив – результат действия, локатив – место действия, объектив – нейтральный падеж,
значение которого определяется глаголом. С тех пор было создано множество перечней
разного размера в зависимости от целей лингвиста.
2.
Словари валентности
Не существует единого стандарта описания валентности глагола. В бумажных
толковых словарях XX века валентность обычно, если и описывалась, то произвольным
образом, в рамках общего толкования значения. Авторы могли отмечать особенности
сочетания глагола с помощью неопределенных местоимений (с кем-то, от кого-то и т.д.),
чаще – с помощью иллюстративного материала.
В XXI веке большое развитие получили электронные ресурсы, содержащие
информацию о значении и валентности глаголов. В зависимости от намерений создателей,
!8
используются различные способы представления валентности. В большинстве случаев,
она описывается как аргументная структура, где аргументам приписываются их
семантические и/или синтаксические характеристики. Выбор характеристик сильно
зависит от языка, например, во флективных языках большую роль играет падеж, в котором
стоит актант.
В данном разделе мы рассмотрим несколько словарей русского, английского и
чешских языков, посвященных описанию валентности.
2.1.
Английские словари валентности
2.1.1. A Valency Dictionary of English (VDE)
Словарь был создан Томасом Хербстом [28] и издан в 2004 г. в бумажном виде. Он
предназначен как для лингвистов, так и для учителей и людей, изучающих английский
язык как иностранный. Базой для словаря является Bank of English, корпус современного
английского языка, на момент создания словаря включавший более 320 миллионов
словоупотреблений. Тем не менее, корпус служил только как источник иллюстративного
материала, поскольку большая часть описания осуществлялась интроспективным
методом. Это означает, что лингвист или команда лингвистов описывали управление
глагола, опираясь на своё собственное представление о языке и лингвистический опыт.
Всего в словаре описано 511 глаголов, 544 прилагательных и 274 существительных.
Лексемы подбирались по трём критериям: их валентностные свойства, частотность и
значимость для изучающих английский язык. В словарной статье (рис. 1.1) указываются
грамматические характеристики лексемы, рамки валентности лексемы (valency patterns)
для определённого значения, примеры с пояснениями, различия между рамками по
значению. Отдельно выделяются идиоматические фразовые глаголы (phrasal verbs).
Семантические роли указываются только в случаях, где два актанта идентичны по
форме, и их можно перепутать. В словаре используются три роли:
-
ÆFFECTED – тот (или то), на кого влияет данное действие или кто является
его результатом;
-
AGENT – тот, кто совершает действие;
-
BEN/REC – тот (или то), на кого направлено действие или кто получает
выгоду от него.
!9
!
Рис. 1.1. Пример словарной статьи из VDE для глагола free.
2.1.2.
Erlangen Valency Patternbank (EVP)
На базе VDE был создан Erlangen Valency Patternbank6.
Цель данного проекта −
создание инструмента, позволяющего лингвистам
исследовать валентность глаголов и семантические роли аргументов [27]. Лексемы,
представленные в данном словаре, повторяют словник VDE. EVP позволяет найти:
•
полный список рамок валентности английских глаголов (в активном и пассивном
залоге), существительных и прилагательных (по VDE);
•
для каждой рамки валентности − список лексем, активирующих её (по VDE);
•
для каждой лексемы − все рамки валентности (по VDE).
Рамки валентностей (рис. 1.2) описываются с помощью поверхностно-
ориентированных формальных категорий, например, NP - noun phrase. Такое описание, по
6
http://www.patternbank.uni-erlangen.de (дата доступа: 17.04.2017)
!10
утверждению авторов, наиболее независимо от разницы в теориях. Семантические роли
употребляются так же, как и в VDE.
!
Рис. 1.2. Пример словарной статьи из EVP для глагола enjoy.
2.1.3.
Framenet
Проект Framenet7 представляет собой базу данных для английского языка, объемом
более 10 000 значений. Материал − более 170000 вручную размеченных предложений.
Основателем Framenet являлся Чарльз Филлмор, создатель теории фреймовой семантики
(frame semantics). Главной идеей является положение о том, что значение слова можно
вывести из его семантических фреймов (описания события, отношения или сущности и
партиципантов в нём). Так, процесс готовки обычно включает человека, который готовит
еду (Cook), еду, которая готовится (Food), посуду, в которой готовится еда (Container) и
7
http://framenet.icsi.berkeley.edu/fndrupal/ (дата доступа: 17.04.2017)
!11
источник тепла (Heating_instrument). В Framenet данный сценарий называется Apply_heat и
включает в себя вышеперечисленные элементы фрейма. Глаголы, которые могут
активировать данный фрейм в предложении, называются его лексическими единицами
[34]. FrameNet описывает и глаголы, и существительные, но только те, которые в
состоянии сами активировать фрейм.
Одним из недостатков словаря FrameNet является то, что при его создании не
использовались корпусные данные [32]. Создатели отталкиваются не от слова, а от
фрейма, реальной ситуации, и, описывая её, пользуются своими собственными
представлениями о мире и о словоупотреблении. Таким образом, значения слова
представляются не систематично и не исчерпывающим образом.
Разметка фрейма (рис. 1.3) состоит из трех уровней для каждого элемента: имя
элемента фрейма (к примеру, Food), грамматическая функция (Object) и тип группы (NP).
!
Рис. 1.3. Пример словарной статьи из Framenet для глагола enjoy.
!12
2.2.
Чешские словари валентности
Для чешского языка существует несколько проектов, занимающихся описанием
валентности глаголов. С нашей точки зрения, схема представления валентности чешских
глаголов представляет больший интерес, чем английских, поскольку этот язык родственен
русскому и обладает схожей грамматической структурой.
2.2.1.
Vallex
Vallex8 – проект по созданию электронного словаря, отражающего синтаксические
и семантические свойства чешских глаголов. Словарь описывает рамки валентности с
синтаксической и семантической информацией, примеры употребления и другие
дополнительные сведения. В словник вошли наиболее частотные лексемы, всего более
16460 словарных статей (считая отдельно глаголы совершенного и несовершенного вида)
[36].
Рамка валентно сти (рис. 1.4) в формате Vallex представляет собой
последовательность слотов, каждому из которых приписываются 3 характеристики:
функтор, возможные реализации, тип аргумента (обязательный/факультативный).
Функторы используются для выражения типов отношений между глаголом и его
актантами. К примеру, функтор ACT обозначает того, кто совершает действие, MANN –
образ действия и т.д. Подобная терминология используется также в Prague Dependency
Treebank, что делает совместимыми эти базы данных. Однако список функторов в Vallex
несколько меньше, поскольку не все они используются
с глаголами, а некоторые
отражают только зависимость между глаголами или не имеют отношения к валентности
самого глагола.
8
http://ufal.mff.cuni.cz/vallex (дата доступа: 17.04.2017)
!13
!
Рис. 1.4. Пример словарной статьи из Vallex для глагола analyzovat.
2.2.2.
Verbalex
Формат представления данных словаря Verbalex9 весьма похож на формат словаря
Vallex, главной разницей является подход к описанию семантических свойств аргументов
глаголов. На данный момент Verbalex описывает более 10 500 глагольных лексем, при
выборе которых учитывалась их частотность [30].
В словарной статье словаря Verbalex описывается ряд глаголов и их составная
рамка валентности (complex valency frame). Заголовком статьи является не отдельный
глагол, а синсет (синонимический ряд). Более того, его элементами являются не леммы
целиком, а их отдельные значения. Важным отличием Verbalex от Vallex является его
тесная связь с семантической сетью WordNet. Так, для каждого синсета отмечается его
значение в WordNet [29].
Кроме того, приводится общее определение и семантический класс. В качестве
основы была использована классификация Бет Левин, созданная для английских глаголов.
В проекте Verbnet Марты Палмер
количество
базовых семантических классов
увеличилось от 48 до 82 классов. В рамках проекта Verbalex эта классификация была
переведена и адаптирована для чешского языка.
Второй частью словарной статьи является описание простых (базовых)
рамок
валентности (basic valency frames), характерных для всего синонимического ряда (рис.
1.5). При описании учитываются как морфосинтаксические, так и семантические
характеристики актантов. Для каждого актанта указывается падеж(и), в котором он может
9
https://nlp.fi.muni.cz/cs/VerbaLex (дата доступа: 17.04.2017)
!14
употребляться в данной конструкции. Для большой точности приводится вопрос, который
можно задать к актанту. Таким способом учитывается ещё и одушевленность/
неодушевленность существительных (вопросы кто? что?). В случае если один из актантов
факультативен, ставится помета opt.
Рамка представлена в так называемом стандартном порядке: актанты слева от
глагола (обычно подлежащее) – глагол – актанты справа от глагола. Создатели словаря
предполагают, что эта спецификация может пригодиться не для анализа предложения, но
для генерирования. Место глагола отмечается знаком VERB.
!
Рис. 1.5. Пример рамки валентности формата, используемого в Verbalex.
Семантические роли актантов приписываются на двух уровнях. На первом уровне
содержатся основные семантические роли, их описание основывается на сущностях
первого (1stOrderEntity) и второго порядка (2ndOrderEntity) по EuroWordNet Top Ontology
и Base Concepts. Оба списка описывают ядро межязыкового лексикона, всего используется
32 семантические роли первого уровня.
В качестве ролей второго уровня используются прямые гипонимы ролей первого
уровня из WordNet. Они формируют открытый список, который можно расширить по
необходимости. На 2013 г. список содержал 811 семантических ролей.
Абстрактные значения, почти совпадающие со значениями ролей первого порядка,
(к примеру, beneficiary:1, patient:2) заменяются конкретными
значениями (чаще всего
person:1, или другие варианты в зависимости от конструкции).
Подобный подход
позволяет сузить разнообразие лексико-семантических групп, элементы которых могут
занять данную позицию в рамке валентности. Например, в большей части случаев актанту
в позиции подлежащего приписывается роль AG (agens, агенс), которая обозначает того,
!15
кто выполняет данное действие. С помощью семантических ролей второго уровня можно
уточнить возможное значение данного актанта: человек, животное, организация и т.д. В
некоторых случаях это сужение может и не иметь большого смысла, но иногда является
очень значимым. Например, подлежащим глагола родить в прямом значении может быть
только женщина, поэтому роль первого порядка AG логично сузить до роли второго
порядка woman:1.
2.3.
2.3.1.
Русские словари валентности
Толково-комбинаторный словарь
Толково-комбинаторный словарь [7] (опыты семантико-синтаксического описания
русской лексики) был создан в рамках теории «Смысл-Текст» и опубликован И.А.
Мельчуком и А.К. Жолковским в 1984 г. Он является неотъемлемой частью описания
языка в рамках теории «Смысл-Текст».
Целью авторов словаря было исчерпывающе
отобразить все семантические и синтаксические возможности слов. Также словарь
включает в себя функции толкового, синонимического, фразеологического,
словообразовательного и других типов словарей.
Словарь создавался вручную коллективом авторов, и за 10 лет работы над ним было
подготовлено чуть больше 250 словарных статей. В словник входят единицы различных
частей речи, в т.ч. фразеологизмы. В основном, описываются три типа отношений между
словами: семантические, лексические (лексические функции), синтаксические (модели
управления). ТКС является словарем активного типа, т.е. направленным на порождения
текста по смыслу. Более того, это чисто теоретический словарь, направленный на узкий
круг читателей, а именно, на лингвистов.
Модель управления (рис. 1.6) – способ описания синтаксической и семантической
валентности глагола в теории «Смысл-Текст» [6]. Глагол представляется в виде предиката,
принимающего несколько переменных (X, Y, Z и т.д.), дается определение. Сама модель
управления выглядит как таблица, столбцы которой соотносятся с семантическими
актантами лексемы. Во второй строке представлены способы поверхностной реализации
синтаксического актанта. Одна лексема может обладать несколькими вариантами модели
управления, т.н. модификациями.
!16
!
Рис. 1.6. Пример модели управления для глагола радоваться.
Также в словаре указываются ограничения к модели управления, т.е.
условия
совместной встречаемости актантов и закономерности их соединения. Приводятся
примеры употребления и лексический функции, отображающие парадигматические и
синтагматический связи лексемы.
2.3.2.
Семантический словарь Тузова
Семантический словарь В. А. Тузова представляет собой описание слов русского
языка на формальном семантическом языке. Словарь строился на базе «Большого
толкового словаря русского языка» и некоторых других словарей. По состоянию на 2007
год словарь В.А. Тузова содержал 164 тысячи слов [9].
Все слова делятся на 2 большие группы: базовые и производные. Базовые слова в
рамках данного описания не выражаются через другие. Для них указывается
иерархический класс, например, слово ребенок получает класс: существительное >
физический объект > живой > человек > ребенок. Иерархия классов базовых понятий
содержит более 1500 классов. Производные слова описываются не только через класс, но и
с помощью базовых функций, например, каузировать, отрицание и т.д. Например, глагол
оценивать определяется как Caus(!Им,IncepHab(!Вин,ЦЕНА$110161(!вВин))), т.е. делать
так, чтобы что-то получило цену.
Для наших целей нам важно, как в словаре представлена валентность глаголов. Она
определяется через синтактико-семантическую формулу слова (рис. 1.7), которая включает
классы и падежи возможных синтаксических актантов исходного глагола [17].
!17
!
Рис. 1.7. Пример возможных синтактико-семантических формул для глагола идти.
2.3.3.
RussNet
Работа над проектом WordNet была начата в 1985 г. Дж. Миллером в Принстонском
университете. В оригинальной версии проекта информация о валентностях глагола
отображалась в виде фреймов предложений (sentence frames). Они используются только
для автоматического порождения иллюстративного материала, если он не предоставляется
лексикографом [35]. Таким образом показывается количество актантов у предиката и
варианты их заполнения.
WordNet стал образцом для создания подобных словарей для множества других
языков, в т.ч. и русского языка. Из всех русскоязычных версий наиболее полно
валентности глаголов русского языка представлены в словаре RussNet [1]. Это одна из
русских версий проекта WordNet, начатая в 1999 году на кафедре математической
лингвистики СПбГУ. В RussNet у глагольного синсета есть список рамок валентностей с
указанием на то, какая рамка соответствует какому члену синсета. Отмечается
грамматическая форма аргументов, их порядок и факультативность, наличие или
отсутствие предлога, семантические характеристики. Рамка валентностей наследуется от
гиперонима к гипониму. Более того, валентность помогает различать значения
многозначных глаголов.
2.3.4.
Framebank
!18
Словарь Framebank10 создавался как ресурс, где специалисты могли бы получить
данные «о типах глагольного управления, их распределении и вариативности в различных
лексических единицах, просмотреть иллюстративный материал на примерах из реальных
текстов» [5, с. 1]. Основным образцом для Framebank стал FrameNet (см. 1.2.1.3), но при
составлении словаря учитывались особенности и русского языка, и отечественной
лексической семантики.
Словарь ориентирован лексически, т.е. поиск ведется по лексемам, однако
в
примерах употребления размечаются все предикатные слова и связанные с ними
конструкции.
Список лексем формировался по их частотности и разнообразию
управления.
Базой примеров из реальных текстов для данного проекта стал
Национальный корпус русского языка, из которого на каждую лексему словаря отбиралось
не менее 100 предложений. Выборка была сбалансирована относительно характеристик
предложений (длины, сложности), места предиката в предложении, метатекстовых
признаков (датировки, автора, жанра). Для частотных глаголов также проверялись
контекстные маркеры, чтобы обеспечить большее разнообразие употреблений.
Информация о моделях управления (рис. 1.8) содержится как в словаре, так и в
текстовом употреблении. Каждой модели управления присваивается условное название,
они содержат «сокращенное обозначение участника, стандартный спо соб
морфосинтаксического выражения, синтаксический ранг, экспликация участника,
семантические ограничения на заполнение валентности» [5, с. 3]. Под экспликацией
участника понимается семантическая роль. Тем не менее, поскольку для глаголов
существует слишком большое разнообразие семантических ролей, а для других частей
речей роли почти не описаны, то в этом поле пишется пояснение, отождествляющее
участника.
!
10
http://framebank.ru/article/pub/ (дата доступа: 17.04.2017)
!19
Рис. 1.8. Пример модели управления для глагола восторгаться.
!20
Глава 2. Корпусно-структурный анализ
3.
История развития. Основные теоретические положения.
Проект «Корпусный анализ паттернов» (Corpus Pattern Analysis, CPA) зародился в
университете им. Т.Г. Масарика (г. Брно, Чехия) и в настоящее время продолжается в
Вулвергемптонcком университете под руководством Патрика Хэнкса. Главная задача
метода – определение всех стандартных паттернов употребления для английских глаголов
и разделение примеров употребления на «нормы» и «эксплуатации» [24]. В качестве
материала используется Британский национальный корпус. В рамках проекта в настоящее
время создается электронный ресурс «Словарь паттернов английских глаголов» (Pattern
Dictionary of English Verbs).
Метод корпусного анализа паттернов
(КАП) основывается на теории норм и
эксплуатаций (Theory of Norms and Exploitations, TNE). Центром этой теории является
лексикон языка, а не синтаксическая система. Одна из причин, почему именно лексика
ставится на первое место, заключается в следующем: ежедневное общение по большей
части состоит из привычных, часто встречающихся фраз, которые обычно не
анализируются с синтаксической точки зрения ни говорящим, ни слушающим. Скорее, эти
фразы представляют собой некие формулы, которые меняются при подстановке того или
иного слова. Более того, хотя существование системы правил языка неоспоримо,
невозможно с их помощью полностью описать реальную человеческую речь. Количество
исключений настолько велико, что их уже нельзя назвать ошибками [26].
Основное теоретическое положение метода заключается в том, что слова не имеют
значения сами по себе, вне употребления в речи [25]. Сами по себе слова обладают лишь
потенциальной возможностью получить значение. Реальное значение появляется в тот
момент, когда мы используем слова, помещая их в определённое окружение. Носители
языка хранят в уме одинаковые потенциалы значений, благодаря чему они способны
понимать друг друга в разговоре. Строго говоря, эти же потенциалы значений содержатся
и в традиционных словарях, описывающих слова изолированно.
Хэнкс выдвигает гипотезу о том, что количество вариаций окружений относительно
мало. Тем не менее, поскольку при данном подходе именно человек выступает как
создатель значения, могут появляться малочастотные редкие окружения, которые почти
невозможно предсказать по уже имеющимся. Таким образом, появляются понятия
!21
«нормы» и «эксплуатации». Авторы подхода предполагают, что все контексты, где может
встречаться слова, делятся на 2 группы: относительно небольшое количество часто
встречающихся контекстов и относительно большое количество редко встречающихся
контекстов. Первые, стандартные контексты тогда будут считаться нормой, а вторые – её
эксплуатацией. Эксплуатацией Хэнкс называет осознанное отклонение от принятого
нормативного употребления с целью описания либо новых понятий, либо старых, но
новым, необычным способом [25, с. 212]. Эксплуатации обычно оказывают большее
воздействие на слушателя, чем нормативное употребление, и поэтому часто становятся
риторическими приемами и фигурами речи. Теория норм и эксплуатаций предполагает,
что в естественных языках существует два набора правил: один отвечает за нормативное
употребление слов, второй – за тот, как эти нормы можно эксплуатировать. Таким образом,
эксплуатации не являются чем-то случайным, порождением фантазии носителя языка, но
тоже подчиняются определённым законам.
Хэнкс предложил классификацию эксплуатаций, в то же время признавая, что это
только предварительное описание, требующее более подробного исследования [25, с. 215]:
− эллипсис – опущение одного из актантов, в основном, объекта действия. Также
может быть одним из вариантов синтаксического чередования, но граница очень
размыта;
− аномальные коллокации – в слоте паттерна встречается слово, не
принадлежащее ни одному из классов, обычно занимающих эту позицию;
− «навязывание» семантического типа – контекст «навязывает» опредленное
значение актанту. Например, в зависимости от окружения слово газета может
иметь различные семантические типы: предмет, источник информации,
организация, здание и т.д.;
− метафоры и сравнения – самый распространенный тип эксплуатации.
Большинство метафорических употреблений, хотя когда-то и бывших
эксплуатациями, сейчас являются вторичной нормой;
− эксплуатация конструкции – эксплуатируется нормативное употребление не
одной лексической единицы, но целой конструкции.
!22
Между нормой и эксплуатацией нет четкой границы. Скорее, существует некая
шкала, где на одном конце будет норма, на другом – эксплуатация. Между ними находятся
чередования различных типов:
− лексические чередования – замена одного слова на другое без изменения общего
значения паттерна. Хэнкс утверждает, что чаще всего они встречаются в идиомах,
поговорках и устойчивых выражениях, например, to clutch/grasp at straws;
− синтаксические чередования – изменение синтаксической конструкции. Особенно
характерно для английского языка: to give flowers to smb – to give smb flowers. В
зависимости от влияния изменения структуры на значение глагола могут
выделяться как отдельные паттерны, так и один паттерн;
− семантические чередования – это чередование семантических типов внутри
паттерна. Одно из самых распространенных – чередование типов [[Human]] –
[[Human Group]] – [[Institution]], например, правительство заключило мирный
договор, общество надеется на лучшее будущее. Для семантических чередований
также характерна ситуация, когда нормой будет участие только одного подкласса.
Так, объявить войну может президент, король, премьер-министр и т.д., но, если это
сделает простой обыватель, то выражение станет метафорическим. Другой пример
избирательной сочетаемости – чередование типов [[Human]] – [[Animal]]. Человек
и животное могут бегать, прыгать, даже кричать, но если животное говорит, то это
эксплуатация нормы.
Следует отличать чередования от эксплуатации нормы. Например, если мы
говорим, что правительство одной страны ведет переговоры с правительством другой то
это вышеупомянутое чередование [[Human]] – [[Institution]]. Однако если сказано, что
хозяин ведет переговоры с котом, то это уже эксплуатация нормативного употребления
выражения вести переговоры, потому что животное не может являться его субъектом
действия.
Граница между нормой и эксплуатацией размыта как и с синхронической точки
зрения, так и с диахронической. Существует множество примеров, когда значение, бывшее
в определённый этап развития языка только эксплуатацией нормы, позже поменяло свой
статус и стало нормой. В основном, это общепринятые метафоры и метонимии. Например,
выражение бросить взгляд на кого-нибудь является очевидной эксплуатацией основного
!23
значения глагола бросать, но, поскольку оно вошло в употребление, оно стало вторичной
нормой.
Поскольку количество эксплуатаций на самом деле может оказаться бесконечным,
задачей лексикографа является описание значений только по нормативным контекстам.
Подзадачей будет определение и «отсеивание» ненормативных контекстов. Основной
критерий – это относительная частота встречаемости. Естественно, что возможность
провести подобное исследование появилась только после развития компьютерных
технологий и корпусной лингвистики.
2.
Понятие паттерна. Семантические типы и роли
Основным понятием КАП является паттерн (pattern). Оно близко таким понятиям
как «рамка валентности», «аргументная структура», но, тем не менее, имеет свои
особенности. Паттерны выглядят по-разному для разных частей речи. Хэнкс [23]
описывает паттерны для существительных и глаголов. Паттерны отглагольных
существительных строятся по образцу глагольных паттернов. Для других
существительных паттерн выглядит как список слов, наиболее часто вступающих в
синтагматические отношения с данным.
Наибольший интерес представляют собой глагольные паттерны (рис. 2.1). Паттерн
– это прототипический контекст глагола. Паттерн описывает значение глагола, но не с
помощью определения, как в традиционных словарях, а предоставляя обобщенную
информацию об употреблении слова в речи именно с этим значением. Паттерн включает в
себя в основном семантическую информацию, но также и синтаксическую [19].
!
Рис. 2.1. Пример паттерна глагола achieve.
Семантическая информация представлена в виде семантических типов и
семантических ролей. Сам паттерн выглядит как упорядоченная структура, в центре
которой стоит глагол. При активации паттерна, т.е. при его употреблении в речи, слоты
слева и справа могут заниматься словами. Семантический тип – это класс, который
!24
объединяет все слова, занимающий один определенный слот в одном паттерне.
Семантическая роль
- эта та роль, которую выполняет партиципант ситуации,
обозначаемой глагольным паттерном.
Поскольку в английском языке строгий порядок слов, то грамматические роли
определяются четким порядком следования: подлежащее – сказуемое – дополнение –
дополнение к подлежащему – объектное дополнение – обстоятельства – придаточное.
Также для английского языка учитывается наличие или отсутствие детерминатива,
поскольку это может полностью изменить значение глагола (например, an event took place /
someone took someone else's place).
Иногда перечисленных элементов бывает недостаточно, чтобы разрешить
неоднозначность. Тогда в паттерн добавляется дополнительная информация, которая
может уточнить значение определённого глагола. Например, в английском языке у глагола
shoot есть 2 значения, где объектом выступает человек ([[Human]]): «застрелить кого-то» и
«снимать кого-то в фильме». Обычно неоднозначность разрешается благодаря
семантической роли подлежащего – убийца, террорист, солдат или режиссер, оператор и
т.д. Если же подобной информации нет в контексте, то могут пригодиться и другая
информация, например, элемент dead во фразе he shot a person dead.
3.
Pattern Dictionary of English Verbs (PDEV)
Результатом прикладного применения метода КАП стал «Словарь паттернов
английских глаголов» 11 (рис 2.2). Работа над словарем была начата в 2000 г. Патриком
Хэнксом и продолжается до сих пор. На данный момент в словаре представлены 1364
полностью завершенные словарные статьи.
!
11
http://pdev.org.uk/#browse (дата доступа: 17.04.2017)
!25
Рис. 2.2. Pattern Dictionary of English Verbs
В словарной статье (рис. 2.3) для глагола приводится список его паттернов,
упорядоченных по частоте встречаемости в Британском национальном корпусе.
Указывается размер корпусной выборки, по которой исследовались паттерны, их общее
число.
!
Рис. 2.3. Словарная статья глагола avoid в PDEV.
Для каждого паттерна выводится его импликатура, т.е. то, какой смысл в него
вкладывается носителем языка при его использовании. Также приводится один реальный
пример из корпуса. Пользователь имеет возможность получить больше информации об
употреблении в речи, перейдя по ссылке “…More data”, и увидеть полную выборку
контекстов из корпуса для данного паттерна. Более того, можно отфильтровать список
паттернов, выбрав для просмотра только те, где искомый глагол является частью
фразового глагола. По ссылке «Access full data» можно перейти к полной выборке
контекстов в формате KWIC, размеченных номерами паттернов. Для части паттернов
также есть возможность увидеть соответствующий им фрейм из FrameNet.
Кроме собственно словаря на сайте представлена полная онтология семантических
типов, встречающихся в паттернах (рис. 2.4). Она состоит из 253 семантических типов.
Онтология существует в двух видах: как собственно иерархическая онтология и как
полный список типов, упорядоченный по алфавиту. Для каждого типа можно увидеть, в
описании каких глаголов он использовался, причем указывается номер нужного паттерна.
Также приводится список существительных английского языка, которые получали данный
!26
семантический тип при разметке контекстов, и указывается как общая частота
встречаемости, так и частота встречаемости в определённой грамматической роли.
!
Рис. 2.4. Фрагмент онтологии
4.
Общее описание метода
На первом этапе для исследуемого глагола создается корпусная выборка.
Лексикограф просматривает её, получая общее представление о поведении глагола в
тексте. Затем извлекается случайная выборка для подробного анализа. Её размер может
варьироваться от 200 до 1000 контекстов. Хэнкс утверждает, что оптимальный размер
выборки – 500 контекстов [22], но в действительности размер сильно зависит от степени
многозначности и частотности исследуемого глагола. На следующем этапе лексикограф
сортирует контекст, распределяя их в группы, имеющие сходное значение и сходную
синтаксическую структуру. Все актанты глагола размечаются с помощью семантических
типов, при необходимости указывается и дополнительная информация.
!27
Поскольку метод опирается на теорию норм и эксплуатаций, то важно определить
статус контекстов. Хэнкс предлагает следующую классификацию [23]:
•
нормы − нормативное употребление глагола;
•
эксплуатации – ненормативное употребление, изменение нормы;
•
чередования – в определенном слоте паттерна могут чередоваться
семантические типы;
•
имена – в слоте паттерна встречается имя собственное, которому в зависимости
от контекста можно или невозможно приписать семантический тип;
•
упоминания – в данном контексте глагол был не употреблен, но только
упомянут;
•
5.
ошибки – опечатки и неосознанное нарушение грамматической нормы.
Автоматизация
Метод КАП в том виде, как он был разработан изначально, требует ручной работы
в течении достаточно длительного времени. Естественно, были осуществлены попытки
автоматизировать хотя бы отдельные этапы процесса обработки.
В статье [31] предлагается алгоритм автоматического определения паттернов.
1) Получить список всех слов, встретившихся в определённой позиции
рамки валентности;
2) Выделить синтактические чередования;
3) Кластеризовать существительные, встретившиеся в одной и той же
позиции рамки валентности;
4) Для каждого кластера измерить его схожесть с уже имеющимися
лексическими классами. Если ни один из существующих классов не подходит
по выбранным критериям, то признать анализируемый кластер новым
лексическим классом и использовать его в дальнейшей работе. На этом шаге
необходимо искать общие семантические характеристики элементов.
Данный алгоритм был проверен на материале из Британского Национального
корпуса, размеченного в рамках эксперимента синтаксически и семантически.
!28
В статье [33] авторы предлагают другой способ выделения паттернов в контексте. В
качестве материала используется синтактически и семантически размеченный корпус.
Алгоритм выделяет и описывает грамматические отношения между предикатом и словами
из его ближайшего окружения с помощью 4 характеристик: основа, часть речи,
семантические типы и дополнительные теги (число, одушевленность и др.). На
следующем этапе алгоритм использует данные из обучающей выборки, чтобы отсеять
характеристики, скорее всего, не влияющие на значение предиката. На основе множества
характеристика вычисляется вероятность принадлежности анализируемого паттерна к
одному из имеющихся паттернов данного предиката. Точность измеряется до и после
извлечения «важных» характеристик. В результате эксперимент показал среднюю
точность в 61,1% при достаточно высокой степени полисемии в тестовой выборке. Для
большинства глаголов алгоритм показал более высокий результат на «очищенном»
множестве характеристик.
!29
Глава 3. Создание словаря
3.1. Постановка задач
Хотя методология КАП описана и проверена для глаголов английского языка, это не
означает, что подобный метод можно применить с тем же успехом и для других языков.
Перед нами стояла несколько задач:
1) адаптировать метод для русского языка:
− выбрать корпус
− выбрать разметку
− выбрать глаголы
− определить оптимальный размер выборки контекстов
2) проверить эффективность используемого метода:
− сравнением с толковыми словарями русского языка
− на материале других корпусов
3) описать особенности его применения на материале русского языка.
3.2. Выбор корпуса и разметки
Как уже упоминалось выше, для работы с английскими глаголами использовался
Британский национальный корпус. Нашей первой идеей было взять в качестве материала
Национальный корпус русского языка12. Его общий объем – около 280 млн. слов, основные
источники – современная проза и публицистика, научные и деловые тексты. Большим
достоинством этого корпуса могла бы стать уже имеющаяся семантическая разметка. Если
бы она оказалась подходящей для создания паттернов, то можно было бы опустить весьма
трудоемкий этап семантической разметки контекстов.
Для проверки гипотезы был взят глагол подниматься. Дополнительных
ограничений поиска не задавалось. Для эксперимента мы рассматривали только первые 50
контекстов, формат выдачи – не больше 1 примера из одного документа. Для каждого
актанта извлекалась семантическая информация (рис. 3.1). Актанты располагались в
прямом порядке слов. Таким образом, для каждого контекста мы получали наборы
12
http://www.ruscorpora.ru (дата доступа: 17.04.2017)
!30
семантических тегов каждого актанта, расположенных в определенном порядке. Предлоги
сохранялись в структуре без изменений, для наречий, важных для смысла, также
извлекалась семантическая характеристика.
!
Рис. 3.1. Пример разметки контекстов из НКРЯ.
К сожалению, оказалось, что для наших целей семантическая разметка НКРЯ
практически бесполезна. «При такой разметке большинству слов в тексте приписывается
один или несколько семантических и словообразовательных признаков, например, 'лицо',
'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека',
'диминутив', 'отглагольное имя' и т.п. Используется фасетная классификация, при которой
одно слово может попадать в несколько классов» [8].
К примеру, в предложении дневная температура поднимается до отметки 30-32
град слову температура приписывается набор тегов: r:abstr, t:param, t:temper. Они
расшифровываются следующим образом: непредметные имена, параметр, температура.
Для разметки паттерна важными оказываются не все теги, а, в лучшем случае, два
последних. В других же случаях, разметка может вообще не обозначать однозначно
семантику слова: в предложении поднимается артериальное давление слово давление
имеет теги der:s0, der:v, r:abstr, t:impact, которые означают: отглагольные наречия,
непредметные имена, физическое воздействие. Первый тег, по-видимому, является
ошибочным, остальные не определяют четко значение слова.
Другой проблемой оказалась разметка имен собственных, которая в определенных
случаях просто отсутствовала. Так, к примеру, в предложении американские "Аваксы"
поднимаются из Грузии слово Аваксы не имеет семантических тегов, хотя по контексту
!31
понятно, что речь идет о виде самолетов. Однако в аналогичном примере Putte-2
поднимался в воздух на пять метров у Putte-2 есть разметка:
r:concr, t:fam, t:tool:device:machine (предметные имена, фамилии, механизмы и приборы).
Более того, встречались контексты, где имена собственные размечались неправильно,
например, предложение он поднимался на Исаакий. Слово Исаакий является сокращенной
формой от Исаакиевский собор, но получил разметку r:propn, t:hum, t:persn (имена
собственные, лица, имена).
В результате первого эксперимента мы решили отказаться от НКРЯ в качестве
материала и выбрать другой корпус. Для второго эксперимента был взят корпус Araneum
Russicum Minus без семантической разметки.
Araneum Russicum13 – семья корпусов русского языка, созданный в 2013 году в
рамках проекта Aranea. Для их создания использовалась технология WaCky, позволяющая
получать тексты для корпуса из Интернета. Подбор ключевых слов осуществлялся таким
образом, чтобы получить наиболее сбалансированный корпус [20, 21]. Существует
несколько корпусов: Minus (120 млн), Majus (1,2 млрд словоупотреблений) и Maximum
(10,9 млрд). Также есть версии, где отдельно представлен русскоязычный материал,
собранный с российских доменов, и отдельно – с доменов других стран. Мы выбрали
версию Minus, поскольку для наших целей его размера достаточно, а скорость поиска
выше.
Для каждого глагола создавалась выборка из 500 случайных контекстов. Поиск
осуществлялся по лемме (рис. 3.2.), с одним ограничением: PoS = Vb (часть речи – глагол).
13
http://sketch.juls.savba.sk/aranea_about/_russicum.html (дата доступа: 17.04.2017)
!32
!
Рис. 3.2. Пример запроса в Araneum Russicum Minus.
Мы использовали контексты в формате предложения (рис. 3.3), а не KWIC, чтобы
получить полное представление об окружении глагола. Формат KWIC выдает только
заранее заданное количество словоформ слева и справа от искомого слова, но в русском
языке зависящие от глагола члены предложения могут оказаться слишком далеко друг
друга. Если глагол оказывался высокочастотным, то дополнительно выбиралось
ограничение 1st hit in doc (первое употребление, встретившееся в документе).
!
!33
Рис. 3.3. Пример выдачи из Araneum Russicum Minus.
3.3. Выбор глаголов
Для целей нашего исследования было необходимо исследовать глаголы разных
категорий с разной частотностью, разным количеством обязательных актантов. Чтобы
выбрать подобный набор глаголов, мы воспользовались «Толковым словарем русских
глаголов» [15]. Задача данного словаря – представить русскую глагольную лексику в
системном виде с семантической точки зрения. С этой целью элементы словника
рассортированы по лексико-семантическим группам. На самом деле, можно было бы
воспользоваться практически любой классификацией, например, представленной в
«Русском семантическом словаре» [11], поскольку наша главная задача – только отобрать
глаголы для эксперимента. Мы выбрали именно эту классификацию из-за её удобной
иерархической, пронумерованной организации.
В словаре представлены следующие группы и подгруппы:
I. Действие и деятельность
1. Глаголы движения
2. Глаголы перемещения объекта
3. Глаголы помещения
4. Глаголы физического воздействия на объект
5. Глаголы созидательной деятельности
6. Глаголы интеллектуальной деятельности
7. Глаголы речевой деятельности
8. Глаголы социальной деятельности
9. Глаголы физиологического действия
10. Глаголы звучания
II. Бытие, состояние, качество
1. Глаголы бытия
2. Глаголы качественного состояния
!34
III.Отношение
1. Глаголы взаимоотношения
2. Глаголы владения
3. Глаголы межличностных отношений
4. Глаголы социальных отношений
Подгруппы делятся на более мелкие разделы, но, если пользоваться настолько
подробным делением, то получился бы слишком большой набор глаголов, на обработку
которого просто бы не хватило времени. Поэтому мы взяли по одному глаголу для
дальнейшего исследования из каждой подгруппы. В итоге, получилась выборка из 16
глаголов (табл. 3.1).
Табл. 3.1.
Выбранные глаголы
Номер
Глагол
подгруппы
Абсолютная
Относительная
частота
частота (ipm)
Размер выборки
1.1
подниматься
3395
28,3
500
1.2
бросать
2045
17,0
300
1.3
накрывать
403
3,4
300
1.4
драться
563
4,7
300
1.5
пилить
222
1,9
222
1.6
следить
7768
64,7
500
1.7
говорить
66963
557,3
500
1.8
зарабатывать
4441
37,0
500
1.9
дышать
2721
22,6
300
1.10
кричать
2289
19,0
300
2.1
рожать
645
5,4
300
2.2
расти
14454
120,3
500
3.1
заменять
1920
16,0
300
3.2
владеть
4173
34,7
500
3.3
доверять
3670
30,5
500
3.4
выживать
709
5,9
300
!35
3.4. Подготовка разметки
Для каждого глагола из корпуса Araneum Russicum Minus мы получали
нумерованный список из 500 контекстов. Размер мог зависеть от общей частоты
встречаемости глагола в корпусе, например, глагол пилить встречается всего 222 раза.
Соответственно, размер выборки для него составил 222 контекста. Полученный список
разделялся на 10 подсписков, в каждом по 50 контекстов. Подобный частичный способ
разметки позволил впоследствии определить порог «насыщаемости» для глаголов
русского языка (см. раздел 3.5.1).
На следующем этапе из полных предложений выделялся глагол с зависимыми
членами. В основном, мы убирали все обстоятельства (места, времени, цели), если они не
определяли семантику глагола. Так, например, в определённых случаях обстоятельство
времени определяет семантику глагола подниматься. В предложении он поднимается в 5
утра глагол подниматься имеет значение просыпаться, вставать с кровати. С другой
стороны, обстоятельство места также часто входит в паттерны для глагола подниматься:
подниматься по лестнице.
Также именные группы, выступающие как актанты глагола, сокращались до одного
главного слова, в крайнем случае, двух, если по одному слову было невозможно
впоследствии определить семантический тип. Подобным образом убирались
распространяющие конструкции, например, различного вида обороты, определения. Ряды
сокращались до одного члена, если все члены принадлежали одному семантическому
типу.
В основном, проблемы возникали в случае сложных предложений. Если глагол
употреблялся в придаточном и управляет местоимением, то для полноты картины мы
всегда старались найти в главном предложении соответствующий антецедент и размечали
уже его. Вторая проблема – в выборку попадали и предложения, где глагол представлен в
форме причастия. Мы их оставляли, если причастие сохраняло рамку валентности личных
ф о р м гл а г о л а . М е н ь ш у ю п р о б л е м у п р е д с т а в л я ю т н а з в а н и я . Е с л и п о
экстралингвистическим знаниям или из предложения очевидно, что обозначает данное
название, то оно размечалось соответствующим образом.
!36
Естественно, в итоге размечались не все предложения. Таким образом, размер
выборки несколько сокращался. В таблице 3.2 представлен реальный размер полных
выборок для всех глаголов.
Табл. 3.2.
Реальный размер выборок
Глагол
Размер
50
100
150
200
250
300
350
400
450
полной
выборки
подниматься
463
47
95
140
183
227
274
бросать
288
49
98
145
192
241
288
накрывать
279
42
90
138
185
231
279
драться
286
45
94
144
193
239
286
пилить
207
49
98
145 207(из 222)
следить
485
50
98
145
194
241
говорить
494
48
98
147
197
зарабатывать
480
48
98
147
дышать
278
45
91
кричать
296
50
рожать
287
расти
321
370
417
290
337
385
435
247
296
346
394
444
196
244
294
344
394
434
136
184
230
278
100
150
197
246
296
50
97
142
191
239
287
487
49
99
148
197
247
295
343
393
438
заменять
284
36
86
136
184
234
284
владеть
475
50
100
148
197
242
285
325
375
425
доверять
496
49
98
148
197
247
297
347
396
446
выживать
299
50
100
150
199
249
299
На следующем этапе предстоял собственно сам процесс семантической разметки.
Мы взяли за основу онтологию семантических типов, представленную на сайте «Словаря
паттернов английских глаголов» (см. раздел 2.3). Её основные преимущества:
−
иерархическая структура типов;
−
сравнительно очевидные обозначения типов;
−
список существительных английского языка, которые относятся к данному
типу в определённых паттернах;
!37
−
список глаголов английского языка, в чьих паттернах встречается данный
тип.
При первичной разметке мы старались использовать типы, находящиеся в низу
иерархии. Так, контекст бросать мяч размечался как [[Human]] бросает [[Ball]]. Вместо
вышестоящего типа [[Artifact]] использовался нижестоящий тип [[Ball]].
Естественно, онтология не может полностью отразить богатство языковой лексики.
Если замечалось, что глагол часто встречается с одним существительным, то это
существительное указывалось вместе с семантическим типом. В основном, подобные
случаи относятся к устойчивым или даже идиоматическим выражениям. Однако
возникала необходимость «сужать» семантический тип и в других случаях. Подлежащее
глагола подниматься часто имеет семантический тип [[Food]], но обычно это
определённый тип еды: тесто, дрожжи, опара. Итоговый паттерн имеет следующий вид:
[[Food]](тесто!) поднимается.
С технической стороны, разметка (рис. 3.4) представляет собой файл формата .xls.
В первом столбце перечислены контексты. Напротив каждого контекста указывается его
семантическое представление с прямым порядком слов. Каждый семантический тип,
предлог или союз записывается в отдельную ячейку. Поскольку мы делали разметку по
частям, части отделялись друг от друга.
!
Рис. 3.4. Пример разметки для контекстов из Araneum Russicum Minus.
!38
3.5. Выделение паттернов
После завершения самой разметки мы перешли к выделению паттернов. Для этого
семантические представления сортировались по порядку слотов. Сначала сортировка
проводилась внутри каждой части (примерно 50 контекстов). Затем данные разметки были
перенесены в отдельный файл и были отсортированы уже полностью. По
отсортированному материалу были созданы первичные списки паттернов с указанием их
частоты. По сути, это были еще не настоящие паттерны, но их прототипы: все
конструкции, в которых встречался данный глагол в использованной корпусной выборке.
Для краткости будем называть их дальше протопаттернами. Первичные списки
сортировались по частоте встречаемости в порядке убывания.
На следующем этапе мы анализировали полученные протопаттерны, приводя их к
более обобщенным паттернам. Обобщение происходило в трёх направлениях.
•
Приведение нижестоящих в иерархии семантических типов к вышестоящим.
Основным критерием было сохранение значения паттерна. Например, при анализе
глагола бросать был выделен достаточно частотный протопаттерн [[Human]] бросает
[[Human]]. Однако при более подробном рассмотрении стало понятно, что на самом деле
это два разных паттерна: один со значением «кидать», а второй – «оставлять, покидать».
Это значение – очевидная эксплуатация первого нормативного значения. Поэтому
протопаттерн пришлось разделить, и первый вариант объединить с паттерном [[Human]]
бросает [[Physical_Object]]. Тем не менее, вопрос не исчерпан, поскольку в
метафорическом плане можно также бросать машину, бросать животное и т.д. Для него
характерны контекстные маркеры на произвол судьбы, на растерзание, но они не
регулярны. Более регулярен контекстный маркер первого паттерна DIRECTION. Поэтому
он был включен в первый паттерн.
Также мы не объединяли паттерны, где одни актанты обладали одним
семантическим типом, если была видна определенная устойчивость словосочетания. Для
того же глагола бросать встречались контексты бросать трубку, бросать якорь, бросать
оружие, где все объекты действия одного типа [[Artifact]]. Тем не менее, все эти
выражения, пусть изначально и были связаны с первичным значением глагола бросать, но
сейчас приобрели свой собственный смысл («резко закончить разговор»,
«пришвартоваться», «сдаться»). Поэтому мы выделили не один паттерн, но три.
!39
Иногда мы объединяли в один паттерн и контексты, где у одних актантов разные
семантические типы. Для глагола накрывать с большой частотой встречаются контексты
типа накрывать стол, накрывать завтрак, накрывать на стол. В целом, все они
обладают одним значением: «ставить еду на стол». Эти устойчивые сочетания с глаголом
накрывать сейчас вошли
в норму. Мы объединили их в один паттерн по схожести
значения.
Использование вышестоящего семантического типа вместо его нижестоящих не
всегда было регулярным. Так, для глагола рожать в основном в качестве субъекта
выступали слова с семантическими типами [[Human]], [[Animal]]. В большинстве
паттернов мы использовали более общий тип [[Animate]].
В паттерне [[Human]] рожает [[Human]] для/от/с/- [[Human]], мы оставили тип
[[Human]], поскольку в нашей корпусной выборке этот паттерн ни разу не встретился с
типом [[Animal]].
•
Выявление чередований.
Нам встретились все 3 типа: чередования семантических типов, семантические и
синтаксические чередования. Первые были выделены почти для всех глаголов, вторые –
только для одного глагола заменять. В результате сведения типа для него выделилось
некоторое количество пар паттернов с похожим чередованием структуры: Тип1 заменяет
Тип1 (собой) – [[Human]] заменяет Тип1 Типом1. Мы предположили, что в данном
случае имеет место быть синтаксическое чередование, но следует выделять их как
отдельные паттерны, поскольку изменение структуры в некоторой степени влияет на
значение глагола.
Семантическое чередование было отмечено для устойчивых словосочетаний,
характерных для определённых паттернов. Несмотря на то, что контекстные маркеры в
крайней степени индивидуальны, в некоторых случаях их тоже можно было объединить в
рамках одного паттерна. Например, глагол зарабатывать часто встречается вместе со
словосочетаниями на жизнь, на хлеб. Мы пренебрегли небольшой разницей в значении и
поместили их в один паттерн.
Чередования семантических типов были выделены для всех глаголов, кроме
рожать. Самым распространенным оказалось чередование типов [[Human]]/
[[Institution]] , как и отмечал Патрик Хэнкс для английского языка [25, с. 177]. Тем не
!40
менее, эти два типа не всегда автоматически объединялись. В некоторых случаев их
замена влияла на значение глагола, например, для подниматься. Паттерн [[Institution]]
поднимается имеет очень специфическое значение «расти, получать влияние», в то время
как сочетание с типом [[Human]] является частью большего количества паттернов как с
прямым, так и с переносным значением.
Чаще чередования выделялись в позиции объекта действия в том случае, если
объект не связан тесно с действием, выражаемым глаголом. Так, если рассматривать
паттерн [[Human]] говорит о чем-то, то его значение не будет зависеть от того, какой
семантический тип у второго актанта. В итоговом паттерне нам придется записать
чередование трех основных типов [[Abstract_Entity]], [[Physical_Object]], [[Eventuality]].
В другом случае для второго актанта выделялось несколько семантических типов,
относящихся к разным основным типам, но имеющих некоторое сходство. Например, для
глагола доверять мы объединили в один паттерн контексты, где у второго актанта
семантический тип – [[Language_Part]] или [[Concept]]. По сути, они не влияют на
значение паттерна, ведь нет большой разницы между контекстами доверять словам
свидетеля и доверять полученной информации.
•
Объединение дополнительных элементов паттерна.
Кроме семантических типов и самого глагола, элементами паттерна являются
предлоги и союзы (в том случае, когда от глагола может зависеть придаточное). Часто к
одному контексту относились разные предлоги, например, драться с [[Human]] / против
[[Human]]. Отсутствие предлога также могло отмечаться: [[Human]] рожает [[Human]]
[[Human]]/для [[Human]]/от [[Human]]. Иногда чередовались союзы, вводящие
придаточное предложение: следить за тем, чтобы/чтобы, кричать что/о том что и т.д.
В результате нами было выделено следующее количество паттернов для выборок в
300 контекстов (табл. 3.3). Как мы видим, число паттернов не зависит от частоты глагола.
Сами паттерны представлены в приложении А.
Табл. 3.3.
Количество выделенных паттернов
Глагол
Количество
Относительная
паттернов
частота (ipm)
!41
бросать
28
17.0
подниматься
28
28.3
следить
24
64.7
говорить
21
557.3
кричать
21
19.0
дышать
21
22.6
заменять
20
16.0
доверять
17
30.5
владеть
17
34.7
расти
15
120.3
накрывать
14
3.4
пилить
13
1.9
драться
13
4.7
выживать
11
5.9
зарабатывать
10
37.0
8
5.4
рожать
6.
Размер выборки
Нашей следующей задачей было определение оптимального размера выборки. Для
этого мы:
−
провели анализ «насыщаемости» паттернов для первых 300 контекстов;
−
разметили дополнительные 200 контекстов.
6.1.
Анализ насыщаемости
Насыщаемостью мы называем то, какое количество паттернов выделяется для
каждых следующих 50 контекстов. Для этого
мы воспользовались первой версией
разметки, которая была разделены на группы по 50 контекстов. По этим данным мы
определили, сколько итоговых паттернов встретилось в какой группе. Результаты можно
увидеть на графике (рис. 3.5).
!42
30
подниматься
бросать
накрывать
драться
пилить
следить
говорить
зарабатывать
дышать
кричать
рожать
расти
заменять
владеть
доверять
выживать
23
15
8
0
50
!
100
150
200
250
300
Рис. 3.5. График «насыщаемости»
По вертикали расположено количество встретившихся паттернов, по горизонтали −
группы контекстов: первые 50, первые 100 и т.д. Как видно из графика, все кривые
возрастают, но с разной скоростью. Чем больше общее количество паттернов, тем круче
будет подъем. Самый резкий перепад всегда происходит между первыми двумя группами.
Это значит, что большинство паттернов выделяется из первых 100 контекстов.
Если посмотреть на сами паттерны, то видно, что паттерны, выделенные в группах
250-300, в основном, имеют частоту 1. Более того, чаще всего это авторская эксплуатация
нормы, окказиональные употребления.
6.2.
Дополнительная разметка
Для части глаголов мы дополнительно разметили по 200 контекстов. Для этого мы
взяли все глаголы с частотой выше, чем у глагола подниматься. Подниматься был выбран
как глагол с наибольшим количеством паттернов (28). У глагола бросать такое же
количество паттернов, но их большую часть составляют устойчивые выражения. Более
того, подниматься встречается намного чаще, чем глагол бросать (28,3 и 17 ipm
соответственно).
Таким образом, были отобраны 7 глаголов (табл. 3.4).
!43
Табл. 3.4.
Глаголы, выбранные для дополнительной разметки
Относительная частота
Реальный объем
(ipm) в Araneum
дополнительной выборки
говорить
557,3
198
расти
120,3
192
следить
64,7
195
зарабатывать
37,0
186
владеть
34,7
190
доверять
30,5
199
подниматься
28,3
189
Процесс разметки происходил аналогично основной разметке: выделение
непосредственных контекстов, разметка семантическими типами. В табл. 3.5 представлена
количественная оценка полученных результатов.
Табл. 3.5.
Результаты дополнительной разметки
Количество
Количество
Полные
Полные
Расширение
паттернов по
паттернов по
новые
новые с
старых
первой разметке
дополнительной
паттерны
частото
паттернов
разметке
й>1
подниматься
28
30
7
1
3
следить
21
20
3
1
0
говорить
21
20
2
0
4
зарабатывать
10
10
3
1
2
расти
15
16
4
0
0
владеть
17
19
5
0
0
доверять
17
12
1
1
1
Как можно увидеть из таблицы, существенного увеличения количества паттернов
не произошло. Мы отделили случаи, когда выделялся полностью новый паттерн, от
случаев, когда в уже имеющийся паттерн добавлялся новый элемент. Почти все новые
!44
паттерны оказались эксплуатацией нормы. Следует упомянуть, что мы не учитывали
эллиптические конструкции при подсчете новых паттернов.
По полученным данным можно сделать вывод о том, что размер выборки в 300
контекстов относительно адекватен. Выборки подобного размера достаточно для
низкочастотных глаголов с небольшим разнообразием семантической сочетаемости. Для
глаголов с большей частотой встречаемости и с большим количеством возможных
паттернов можно увеличить размер выборки, как минимум, до 500 контекстов. Следует
отметить, что независимо от размера выборки всегда будут встречаться неохваченные
ранее паттерны. Однако они, скорее всего, будут являться авторской эксплуатацией нормы,
которая все равно не рассматривается при составлении словаря.
7.
Проверка независимости от корпуса
Поскольку весь материал для разметки мы брали из одного корпуса, мы решили
посмотреть, насколько выделенные паттерны характерны для языка в целом, а не для
языка, представленного в корпусе Araneum Russicum Minus.
Мы выбрали Национальный корпус русского языка для проверки имеющихся
паттернов. Для каждого глагола были составлены выборки по 50 контекстов. При запросе
мы искали глаголы по лемме, дополнительных ограничений поиска не задавалось. Формат
выдачи – не больше 1 примера из одного документа.
Далее полученный материал
обрабатывался также как и при разметке корпуса Araneum: выделение непосредственного
контекста, разметка семантическими типами. Данные о выборках представлены в таблице
3.6.
Табл. 3.6.
Характеристики глаголов по НКРЯ
ipm в Araneum
ipm в НКРЯ
Реальный размер
выборки
говорить
557,3
2098,6
50
расти
120,3
118,8
50
следить
64,7
78,1
49
зарабатывать
37,0
19,6
50
владеть
34,7
44,2
49
доверять
30,5
25,1
50
!45
подниматься
28,3
83,7
50
дышать
22,6
68,6
50
кричать
19,0
181,7
47
бросать
17,0
61,6
49
заменять
16,0
19,4
50
выживать
5,9
4,5
50
рожать
5,4
9,5
50
драться
4,7
29,9
50
накрывать
3,4
5,6
50
пилить
1,9
35,4
29
Можно заметить, что в некоторых случаях относительная частота глагола в НКРЯ и
в корпусе Araneum Russicum Minus сильно различаются. В каждом случае это можно
объяснить по-разному. Для глагола пилить в выдачу из НКРЯ вошло множество
контекстов, где форма пили относится не к глаголу пилить, а к глаголу пить. Как
следствие, глаголу пилить была приписана большая частота, чем есть на самом деле.
Другие различия можно объяснить характером корпусов. НКРЯ включает больше
художественных текстов, чем Araneum Russicum Minus, поэтому естественно, что глаголы
говорить и кричать, которые могут вводить прямую речь, обладают большей частотой.
Число контекстов, не относящихся к выделенным паттерном, не превысило 5 для
одного глагола, меньше всего (0) – у глагола заменять, больше всего (5) – у глагола
дышать. В среднем, их количество составило 4% от общего размера выборки (рис. 3.6).
Как и в предыдущих случаях, почти все они были авторскими эксплуатациями уже
имеющихся паттернов. Например, для глагола выживать
был изначально выделен
паттерн [[Human]] выживает [[Human]] из [[Location]]. В новой выборке встретился
контекст Книги практически выживают нас из дома ([[Inanimate]] выживает [[Human]]
из [[Location]]), в котором автор эксплуатирует нормативное употребление глагола
выживать. Много метафорических контекстов встретилось и для глагола дышать,
например, жизнь дышит со страниц этой удивительной книги. Очень редко встречались
контексты, которые можно было бы посчитать нормативным. Так, для глагола накрывать
встретился контекст они накрывали вражеские сходки. Подобное употребление глагола
!46
накрывать описано во всех толковых словарях русского языка (см. раздел 3.8). Тем не
менее, за всю разметку оно встретилось только 1 раз, в выборке из НКРЯ.
Количество контекстов, не охваченных име
Количество контекстов, охваченных имеющ
!
Рис. 3.6. Соотношение контекстов в выборке из НКРЯ
В целом, в НКРЯ частотность эксплуатаций оказалась несколько выше, чем в
Araneum Russicum. По-видимому, это связано с тем, что в НКРЯ вошло больше
публицистических текстов и текстов художественной литературы, для которых характерна
большая метафоричность. С этой точки зрения, Araneum Russicum представляет более
«приземленный», разговорный язык.
8.
Соотношение полученных паттернов и значений в толковых
словарях русского языка
Чтобы еще раз проверить эффективность используемого метода описания значений,
мы решили посмотреть, как полученные паттерны соотносятся со значениями и оттенками
значений, выделенными в толковых словарях русского языка. С этой целью мы выбрали 4
словаря: толковый словарь русского языка под ред. Д.Н. Ушакова [15], словарь русского
языка С.И. Ожегова [9], толковый словарь русского языка под ред. А.П. Евгеньевой [11] и
Большой толковый словарь русского языка под ред. С.А. Кузнецова. Мы составили
сводную таблицу значений, в которой объединили все значения, выделенные хотя бы в
одном из словарей, и отметили, в каких других словарях они встречались. В этой же
таблице перечислены и выделенные в словарях устойчивые сочетания. В некоторых
случаях значение могло описываться как одно значение в одном словаре, но разделяться на
два отдельных значения или оттенка значения в другом. Фрагмент полученной таблицы
для глагола накрывать представлен в табл. 3.7. Полную таблицу можно увидеть в
приложении Б.
!47
Табл. 3.7.
Пример сравнения значений по словарям
накрывать
Ушаков
Ожегов
Евгеньев
Кузнецов паттерны
а
что. Закрыть чем-н. положенным сверху
+
+
+
+
перен. кого-что. Поймать
+
+
+
+
Накрыть стол или накрыть на стол
+
+
+
+
+
+
+
+
+
Поразить огнем
+
Мы посчитали, сколько значений встречается хотя бы в одном из словарей, сколько
выделено в каждом словаре по отдельности и какие значения являются общими для всех
четырех словарей. Затем мы сопоставили словарные значения с полученными ранее
паттернами, и определили, сколько словарных значений охвачено паттернами (табл. 3.8).
Табл. 3.8.
Результаты сопоставления значений
Суммарное
Ушаков
Ожегов
Евгеньева Кузнецов
количество
Общее
паттерны
для 4
словарей
говорить
15
14
9
8
9
7
8
расти
9
8
8
9
9
8
9
следить
8
7
5
6
6
4
4
зарабатывать
3
2
2
2
2
1
3
владеть
9
5
4
6
7
4
7
доверять
3
3
2
2
3
2
2
23
10
10
18
14
3
15
дышать
8
4
5
5
7
2
5
кричать
7
4
4
5
6
3
5
бросать
19
14
7
13
13
4
11
заменять
3
3
3
3
3
3
3
выживать
6
3
3
6
5
2
2
подниматься
!48
рожать
4
3
3
4
4
2
3
драться
5
4
3
5
5
2
5
накрывать
4
3
4
4
4
3
3
пилить
5
3
2
4
4
1
5
На рис. 3.7 наглядно представлены те же данные: общее количество значений,
количество для трех словарей и число значений, совпадающих с паттернами. Для нас
важно то, что для всех глаголов количество паттернов равно или превышает количество
значений, общих для всех словарей. Тем не менее, именно значения, общие для всех
словарей, представляют глагол с объективной точки зрения. Различия между словарями –
субъективны, зависят от их авторов.
Суммарное количество
В 4 словарях:
паттерны
!
Рис. 3.7. Соотношение выделенных значений для трех словарей и паттернов.
Однако количество паттернов, выделенных нами, превышает число общих
словарных значений почти в 2 раза во многих случаях. Мы предполагаем, что это связано
с тем, что по корпусным данным выделяются более тонкие различия между значениями и
оттенками значений, опирающиеся на их валентностные характеристики. Также в список
паттернов вошли частотные авторские эксплуатации и некоторые устойчивые выражения,
которые, по всей видимости, не были включены в толковые словари.
9.
Классификация паттернов
Паттерны, выделенные нами по корпусному материалу, не все подходят для
словарной статьи. В список паттернов кроме нормативных употреблений вошли
эксплуатации, авторские и устоявшиеся, эллиптические конструкции, упоминания, и даже
встретились очевидные случаи неосознанного ошибочного употребления. Поэтому
!49
возникло необходимость классифицировать полученные паттерны, отделив при этом
кандидатов для словарной статьи.
Мы распределили полученные паттерны на 7
категорий: первичные и вторичные нормативные употребления, эксплуатации,
эллиптические конструкции, устойчивые выражения, упоминания и ошибки. Результаты
представлены в табл. 3. 9.m В словарь войдут только 3 категории: первичные и вторичные
нормы, устойчивые выражения.
Табл. 3.9.
Количественные характеристики классификации
Первичн
Вторичн
ые нормы ые нормы
Эксплуатац Эллипси
ии
с
Устойчив
Упоминан
Ошибк
ые
ия
и
выражени
я
10
5
-
2
3
-
1
расти
3
7
2
1
2
-
-
следить
5
11
-
2
3
1
2
зарабатывать
5
4
-
-
1
-
-
владеть
3
4
3
1
6
-
-
доверять
4
6
5
2
-
-
-
11
12
8
-
3
-
-
дышать
3
3
7
4
3
1
-
кричать
8
6
6
-
-
-
1
бросать
1
11
7
1
9
-
-
заменять
11
2
3
3
-
1
-
выживать
4
1
4
-
1
-
-
рожать
3
2
3
-
-
-
-
драться
7
3
3
-
-
-
-
накрывать
5
5
1
2
1
-
-
пилить
5
5
1
1
1
-
-
говорить
подниматься
В целом, процесс классификации является самой субъективной частью метода КАП
и, по-видимому, не подлежит автоматизации. Тем не менее, мы выделили несколько
!50
закономерностей, которые облегчают процесс принятия решения о включении паттерна в
определённую категорию.
1) Частотность
Паттерны с частотой, равной 1, с большой вероятностью являются авторскими
эксплуатациями. Это правило работает эффективнее всего при определении того,
является ли паттерн вторичной нормой или авторской эксплуатацией.
2) Семантический тип субъекта
Если
субъект действия не имеет семантического типа из класса
[[Physical_Object]], то, скорее всего, данный паттерн не является первичной нормой.
Эта закономерность важна при выборе между первичной и вторичной нормой.
3) Элементы паттерна
Если паттерн не полностью состоит из семантических типов, а включает в себя
языковые единицы (помимо предлогов и союзов), то он, вероятно, входит в категорию
устойчивых выражений.
Для наглядности разберём классификацию на примере глагола пилить (рис. 3.8).
!
Рис. 3.8. Паттерны глагола пилить.
Для краткости мы не повторяем каждый раз в паттерне сам глагол, а только
отмечаем его место в конструкции обозначением VERB (по примеру словаря Verbalex).
Паттерны глагола пилить распределяются только по первым 5 категориям, для него
не встретилось ошибок или упоминаний. Зеленым цветом выделен эллипсис, для этого
!51
паттерна было невозможно определить семантический тип объекта действия. Фиолетовым
цветом мы выделяли устойчивые выражения, идиомы. В данном случае это один
фразеологизм: пилить сук, на котором сидишь. Красным цветом обозначены авторские
эксплуатации, которые представлены для глагола пилить одним контекстом Борис
Натанович продолжил < пилить > толстое бревно литературы двуручной пилой. Автор
эксплуатирует нормативный паттерн [[Human]] пилит [[Wood]] ([[Artifact]]). Подобные
первичные нормы выделены черным цветом. Их можно обобщить следующим образом:
человек или созданный им инструмент пилит какой-то неодушевленный объект, чаще
всего древесину. Поскольку объект с семантическим типом [[Wood]] встречался очень
часто, мы выделили его в отдельный паттерн. Остальные частотные контексты,
обозначенные синим цветом, − это вторичные нормы. Как можно увидеть, в них глагол
пилить используется метафорически, но с устойчивым значением, общим для всех
носителей языка. Паттерн [[Human]] пилит на [[Musical_Instrument]] встретился в
нашей выборке только один раз, но мы классифицировали его как вторичную норму,
поскольку это употребление описано в толковом словаре русского языка под ред. А.П.
Евгеньевой [11]. Что касается категорий, не представленных для глагола пилить, то
ошибки выделялись оранжевым цветом, а упоминания – желтым.
Дополнительно мы посчитали абсолютную и относительную частоту
встречаемости для каждого паттерна. В случае глагола пилить первые 6 паттернов
покрывают практически 90% всех встретившихся контекстов. При этом отсутствуют
резкие «перепады» частот между паттернами, разница не превышает 10 %. Такое
распределение частот встречается не всегда, есть и глаголы, для которых характерны 1-2
паттерна с очень большой встречаемостью. Например, у глагола рожать первые два
паттерна имеют относительную частоту 62,63% и 31,32% соответственно, охватывая тем
самым более 90% всей выборки.
10.
Выводы
По результатам проведенного эксперимента можно говорить о том, что метод КАП
может с успехом применяться на материале русского языка. Тем не менее, следует сделать
несколько замечаний о его возможной модификации.
Во-первых, для русского языка необходимо указывать в паттерне
морфосинтаксическую информацию. Иначе, например, паттерн [[Human]] заменяет
!52
[[Inanimate]] можно понимать и как «человек заменяет некий предмет», и как «человек
заменяет собой некий предмет». Сложным остается вопрос о том, как предоставлять
подобные комментарии. Возможно несколько вариантов: указать падеж, задать вопрос или
написать пояснение ко всему паттерну. По-видимому, выбор варианта зависит от цели
описания. Для понимания человеком удобнее всего будет третий вариант, поскольку даже
указание падежа или вопроса не всегда сделает значение паттерна очевидным. Однако не
обязательно указывать морфосинтаксические характеристики для каждого элемента
паттерна. Во многих случаях они будут излишними, поскольку необходимая информация
уже содержится в предлогах.
Во-вторых, нам встретилось несколько паттернов, где слот может занять языковая
единица практически любого семантического типа. Самые яркие примеры можно
привести для глаголов говорить и кричать: говорить и кричать можно обо всем. Мы
решили, что для таких случаев было бы удобно ввести некое обозначение. В выделенных
нами паттернах мы использовали символ #.
В-третьих, как мы уже упоминали выше, во многих случаях возникла
необходимость сузить семантический тип. Если в некоторых паттернах его можно просто
заменить языковой единицей, например, бросать взгляд, бросать жребий, то в других
случаях так просто не получалось. Так, в разделе 3.3 уже был приведен пример про
семантический тип [[Food]], который в сочетании с глаголом подниматься реализуется
только определённым кругом слов: тесто, опара, дрожжи. В подобных случаях мы писали
[[Food]](тесто!).
!53
Заключение
В ходе данной работы мы провели анализ существующих на данный момент
словарей валентности для трёх языков. Как один из возможных способов описания, нами
был выбран метод анализа корпусного материала, используемый в «Словаре паттернов
английских глаголов». Данный метод, корпусный анализ паттернов, основывается на
теории норм и эксплуатаций, основные положения и понятия которой представлены во
второй части работы.
Основной целью практической части нашего исследования была адаптация метода
корпусного анализа паттернов для русского языка. Для этого мы создали пробную версию
словаря для 16 глаголов с применением исследуемого метода. В ходе создания нашего
словаря мы решили несколько практических проблем, в т.ч. выбрали корпус и способ
разметки, определили оптимальный размер выборки. Полученные паттерны мы
проанализировали в 2 аспектах: сравнение с размеченной выборкой из другого корпуса и
с существующими словарями русского языка. В первом случае мы определили, что в
среднем выделенные паттерны охватывают более 90-95% случайной корпусной выборки.
Для второй задачи мы провели сопоставительный анализ 4 толковых словарей русского
языка: толковый словарь русского языка под ред. Д.Н. Ушакова, словарь русского языка
С.И. Ожегова, толковый словарь русского языка под ред. А.П. Евгеньевой и Большой
толковый словарь русского языка под ред. С.А. Кузнецова. В результате оказалось, что для
всех глаголов полученные паттерны покрывают значения, общие для всех словарей, а в
половине случаев – и все словарные значения. С нашей точки зрения, данные результаты
доказывают как и эффективность использованного метода применительно к материалу
русского языка, так и то, что выбранного размера корпуса достаточно для выделения
паттернов.
Более того, мы сделали несколько выводов относительно изменения метода
корпусного анализа паттернов для русского языка, основываясь на проведенной работе.
Наши замечания касаются как и способа описания, так и самого метода. Мы добавили
несколько дополнительных обозначений для представления паттернов в более понятном и
компактном виде. Также, с нашей точки зрения, определённые паттерны для русского
языка не могут описываться без упоминания морфосинтаксических характеристик. Все
предложенные изменения учитывались нами при описании полученных паттернов.
!54
В дальнейшем мы видим несколько путей развития данного исследования.
Естественно, можно продолжать работу над созданием словаря. Однако мы считаем, что
это трудоемкий процесс, который займет слишком много времени, если продолжать
работу вручную. Полезнее всего будет разработка способов автоматизации корпусного
анализа паттернов. Во второй главе мы упомянули несколько работ, посвященных этой
теме, но на материале английского языка. Мы предполагаем, что автоматизировать можно
этап выделения паттернов, но в этом направлении возникает проблема нехватки
семантически размеченного корпуса. Поэтому, по-видимому, перед проведением какихлибо экспериментов по автоматическому выделению паттернов необходимо разметить
корпус семантическими типами, желательно, также не вручную.
!55
Список литературы
1. Азарова, И.В. RussNet как база представления лексического блока в системах
автоматизированного анализа текстов. СПб, 2015.
2. Апресян, Ю.Д. Избранные Труды. Том 1. Лексическая семантика. Синонимические
средства языка. М., 1995.
3. Большой толковый словарь русского языка. / Гл. ред. С.А. Кузнецов. СПб, 1998.
[Электронный ресурс] URL: http://www.gramota.ru/slovari/info/bts/ (дата обращения:
17.04.2017).
4. Гак, В.Г. Валентность // Лингвистический энциклопедический словарь. [Электронный
ресурс] URL: http://tapemark.narod.ru/les/079c.html (дата обращения: 17.04.2017).
5. Ляшевская, О.Н. Русский фреймнет: к задаче создания корпусного словаря
конструкций / О.Н. Ляшевская, Ю.Л. Кузнецова // Компьютерная лингвистика и
интеллектуальные технологии: По материалам ежегодной Международной
конференции «Диалог 2009». Вып. 8 (15). М., 2009. сс. 306-312.
6. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл-Текст». М., 1999.
7. Мельчук, И.А. Толково-комбинаторный словарь современного русского языка / И.А.
Мельчук, А.К. Жолковский. Вена, 1984.
8. Национальный корпус русского языка. Семантика. [Электронный ресурс] URL: http://
www.ruscorpora.ru/corpora-sem.html (дата доступа: 17.04.2017).
9. О словаре В.А. Тузова. [Электронный ресурс] URL: http://emi.nw.ru/INDEX.html?0/
Voc.html (дата доступа: 17.04.2017).
10. Ожегов Сергей Иванович. Словарь русского языка / Гл. ред. С. П. Обнорский. М., 1949.
[Электронный ресурс] URL: http://slovarozhegova.ru (дата обращения: 17.04.2017).
11. Русский семантический словарь. IV. Толковый словарь, систематизированный по
классам слов и значений / Отв. Ред. Н.Ю. Шведова. М., 2007.
12. Словарь русского языка: В 4-х т. / Под ред. А. П. Евгеньевой. М., 1999. [Электронный
ресурс] URL: http://feb-web.ru/feb/mas/mas-abc/default.asp (дата обращения: 17.04.2017).
13. Теньер, Л. Основы структурного синтаксиса. / Пер. с франц. Вступ. ст. и общ. ред. В. Г.
Гака. М., 1988.
14. Тестелец, Я. Г. Введение в общий синтаксис. М., 2001.
15. Толковый словарь русских глаголов: Идеографичекое описание. Английские
эквиваленты. Синонимы. Антонимы / Под ред. проф. Л.Г. Бабенко. М., 1999.
!56
16. Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова. М., 1935—1940.
[Электронный ресурс] URL: http://ushakovdictionary.ru (дата обращения: 17.04.2017).
17. Тузов, В.А. Компьютерная семантика русского языка. СПб, 2003.
18. Филлмор, Ч. Дело о падеже // Новое в зарубежной лингвистике. Вып. 10. М., 1981.
сс. 369495.
19. Baisa, V. Software and Data for Corpus Pattern Analysis / Vit Baisa, Ismaile El Maarouf,
Pavel Rychlý, Adam Rambousek // In Proceedings of the Ninth Workshop on Recent
Advances in Slavonic Natural Language Processing. Brno, 2015. pp. 75-86.
20. Benko, V. Aranea: Yet Another Family of (Comparable) Web Corpora. In Petr Sojka, Aleš
Horák, Ivan Kopeček and Karel Pala (Eds.): Text, Speech and Dialogue. 17th International
Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. LNCS
8655.Springer International Publishing Switzerland, 2014. pp. 257-264.
21. Benko, V. Compatible Sketch Grammars for Comparable Corpora. In Andrea Abel, Chiara
Vettori, Natascia Ralli (Eds.): Proceedings of the XVI EURALEX International Congress:
The User In Focus. 15–19 July 2014. Bolzano/Bozen: Eurac Research, 2014. pp. 417-430.
22. Hanks, P. A Pattern Dictionary for Natural Language Processing / Patrick Hanks, James
Pustejovsky // In: Revue Française de linguistique appliquée 2005/2 (Vol. X). pp. 6382.
23. Hanks, P. Corpus Pattern Analysis // In Proceedings of Euralex 2004. Lorient, 2004.
pp. 8797.
24. Hanks, P. Corpus Pattern for Semantic Processing / Patrick Hanks, Elisabetta Jezek, Daisuke
Kawahara, Octavian Popescu. Beijing, 2015. pp. 12-15.
25. Hanks, P. Lexical analysis. Norms and Exploitations. London, 2013.
26. Hanks, P. The Linguistic Double Helix: Norms and Exploitations // In After Half a Century
of Slavonic Natural Language Processing (Festschrift for Karel Pala). Brno, 2009. pp. 63-80.
27. Herbst, T.
Detailed Introduction to Patternbank. [Электронный ресурс] URL: http://
www.patternbank.uni-erlangen.de/cgi-bin/patternbank.cgi?do=introtxt
(дата доступа:
17.04.2017).
28. Herbst, T. A Valency Dictionary of English: A Corpus-Based Analysis of the
Complementation Patterns of English Verbs, Nouns and Adjectives. / Thomas Herbst, David
Heath, Ian F. Roe, Dieter Götz (eds.). Berlin, 2004.
!57
29. Hlaváčková, D. VerbaLex - New Comprehensive Lexicon of Verb Valencies for Czech /
Dana Hlaváčková, Aleš Horák // In Computer Treatment of Slavic and East European
Languages. Bratislava, 2006. pp. 107-115.
30. Horák, A. Preparing VerbaLex Printed Edition. / Aleš Horák, Dana Hlaváčková, Karel Pala //
In Seventh Workshop on Recent Advances in Slavonic Natural Language Processing,
RASLAN 2013. Brno, 2013. pp. 3-11.
31. Pustejovsky, J. Automated induction of sense in context / James Pustejovsky, Anna
Rumshisky, Patrick Hanks // In COLING 2004 Proceedings. Geneva, 2004. pp. 924-931.
32. Rumshisky, A. Constructing a Corpus-based Ontology using Model Bias / Anna Rumshisky,
Patrick Hanks, Catherine Havasi, James Pustejovsky // In Proceedings of FLAIRS 2006.
Menlo, 2006. pp. 327-332.
33. Rumshisky, A. Inducing Sense-Discriminating Context Patterns from Sense-Tagged
Corpora / Anna Rumshisky, James Pustejovsky // In Proceedings of LREC 2006. Genoa,
2006. pp. 837-840.
34. Ruppenhofer, J. FrameNet II: Extended Theory and Practice / Josef Ruppenhofer. Michael
Ellsworth. Miriam R. L. Petruck. Christopher R. Johnson. Jan Scheffczyk. Berkeley, 2006.
35. WordNet. Verb Frames. [Электронный ресурс] URL: http://wordnet.princeton.edu/man/
wninput.5WN.html (дата доступа: 17.04.2017).
36. Žabokrtský Z. Valency Information in VALLEX 2.0: Logical Structure of the Lexicon. /
Zdeněk Žabokrtský, Markéta Lopatková. The Prague Bulletin of Mathematical Linguistics,
No. 87, 2007. pp. 41-60.
!58
Приложение А. Полученные паттерны
Список сокращений:
АЧ – абсолютная частота;
НАЧ – накопленная абсолютная частота;
ОЧ – относительная частота;
НОЧ – накопленная относительная частота.
1. Подниматься
№
1
АЧ
80
НАЧ
ОЧ
НОЧ
80
17,54
%
17,54
%
Animate
34,87
%
Inanimat
e
VERB
(DIRECTION)
VERB
(DIRECTION)
2
79
159
17,32
%
3
47
206
10,31
%
45,18
%
Concept
VERB
Human/
Institution
4
30
236
6,58%
51,75
%
Vapour/
Dust
VERB
(DIRECTION)
(выше
Inanim
ate)
(на/до/выше
Numeri
cal_Val
ue)
(над
Physical_
Object )
Physical_Object
(лестница/
эскалатор!)
5
24
260
5,26%
57,02
%
Animate
VERB
по/на
6
22
282
4,82%
61,84
%
Temperat
ure
VERB
(выше/до
Numeric
al_Value
VERB
(Institution)
(DIREC
TION)
Numerical_Value)
(выше/до
Numeri
cal_Val
ue)
по
Natural_Landscap
e_Feature/Route
(DIREC
TION)
VERB
у/в
Human
Water
VERB
(DIRECTION)
81,80
%
Food(тес
то!)
VERB
Eventuali
ty(давле
ние!)
VERB
(у
Body_Pa
rt
VERB
inf/на
Human
7
19
301
4,17%
66,01
%
8
16
317
3,51%
69,52
%
Body_Pa
rt
VERB
DIRECTION
9
15
332
3,29%
72,81
%
Human
VERB
10
14
346
3,07%
75,88
%
Emotion
11
14
360
3,07%
78,95
%
12
13
373
2,85%
13
11
384
2,41%
84,21
%
14
8
392
1,75%
85,96
%
Human)
(до
(на
Numerica
l_Value)
Numerica
l_Value)
!59
15
8
400
1,75%
87,72
%
Eventuali
ty
Light_So
urce
VERB
DIRECTION
на
Numeri
cal_Val
ue
с
VERB
16
7
407
1,54%
89,25
%
17
7
414
1,54%
90,79
%
Human
VERB
в/-
Time_Point
18
6
420
1,32%
92,11
%
Human
VERB
выше/до
Eventuality
19
5
425
1,10%
93,20
%
Vehicle
VERB
DIRECTION
20
5
430
1,10%
94,30
%
Institutio
n
VERB
(с колен)
21
4
434
0,88%
95,18
%
Human
22
4
438
0,88%
96,05
%
Abstract
_Entity
VERB
23
3
441
0,66%
96,71
%
Wind/
Heat
VERB
24
2
443
0,44%
97,15
%
Route
VERB
25
2
445
0,44%
97,59
%
Abstract
_Entity
26
2
447
0,44%
98,03
%
27
2
449
0,44%
28
1
450
29
1
451
кровать
(карьерная)
лестни
ца
в
Natural_Landscap
e_Feature
на
Quantity
VERB
до
Human
Human
VERB
из-за
98,46
%
Human
VERB
на
Activity
0,22%
98,68
%
Time_Pe
riod
VERB
0,22%
98,90
%
Sound
VERB
из
Location
Eventuali
ty(взгля
д!)
VERB
на
Body_Part
к
Abstract_
Entity
по
(с колен)
стол
30
1
452
0,22%
99,12
%
31
1
453
0,22%
99,34
%
Human
VERB
с колен
32
1
454
0,22%
99,56
%
Human
VERB
от
Abstract_Entity
33
1
455
0,22%
99,78
%
Human
VERB
в
Abstract_Entity
34
1
456
0,22%
100,00
%
Abstract
_Entity
VERB
в
Abstract_Entity
2. Рожать
№
АЧ
НАЧ
ОЧ
НОЧ
1
176
176
62,63%
62,63%
Animate
VERB
2
88
264
31,32%
93,95%
Animate
VERB
Animate
(в
State_of_Affairs)
3
8
272
2,85%
96,80%
Human
VERB
Human
для/от/-/
с
Human
!60
4
3
275
1,07%
97,86%
Human(мужчина!)
VERB
Human
5
3
278
1,07%
98,93%
Human(мужчина!)
VERB
с
6
1
279
0,36%
99,29%
Body
VERB
7
1
280
0,36%
99,64%
Human
VERB
8
1
281
0,36%
100,00%
Soil
VERB
Human
Artifact
3. Пилить
№
АЧ
НАЧ
ОЧ
НОЧ
1
52
52
25,37%
25,37%
Human
VERB
Wood
(Artifact)
2
45
97
21,95%
47,32%
Human
VERB
Inanimate
(Artifact)
3
30
127
14,63%
61,95%
Human
VERB
4
26
153
12,68%
74,63%
Human
VERB
Human
5
16
169
7,80%
82,44%
Human/Institution
VERB
Money/Asset/Power
6
10
179
4,88%
87,32%
Human
VERB
DIRECTION
на
7
10
189
4,88%
92,20%
Human
VERB
?
(Artifact)
8
6
195
2,93%
95,12%
Human
VERB
Artifact
создавать
9
4
199
1,95%
97,07%
Human
VERB
Branch
10
3
202
1,46%
98,54%
Artifact
VERB
11
1
203
0,49%
99,02%
Artifact
VERB
Tree
12
1
204
0,49%
99,51%
Human
VERB
на
Musical_Instrument
13
1
205
0,49%
100,00%
Human
VERB
Abstract_Entity
Artifact
Vehicle
4. Накрывать
№
АЧ
НАЧ
ОЧ
НОЧ
1
143
143
51,44
%
51,44
%
Human
VERB
Physical_O
bject
Physical_O
bject
2
52
195
18,71
%
70,14
%
Human
VERB
на/-
стол/Food
3
18
213
6,47%
76,62
%
(Psych)
VERB
Human
4
14
227
5,04%
81,65
%
Inanimate
VERB
Physical_O
bject
5
12
239
4,32%
85,97
%
Wave/Water/Vapour/
Weather_Event
VERB
Physical_O
bject
6
8
247
2,88%
88,85
%
Human
VERB
Physical_O
bject
7
8
255
2,88%
91,73
%
Firearm
VERB
Location
Flame
8
8
263
2,88%
94,60
%
Animate
VERB
?
(?)
9
4
267
1,44%
96,04
%
?
VERB
(Cloth/
Food)
для
/-
(Hum
an)
!61
10
4
271
1,44%
97,48
%
11
3
274
1,08%
98,56
%
12
2
276
0,72%
99,28
%
13
1
277
0,36%
14
1
278
0,36%
VERB
Physical_O
bject
VERB
Human
Wave
Physical_Object
VERB
Physical_O
bject
Vapour
99,64
%
Human
VERB
Location
Firearm
100,00
%
Vehicle
VERB
Numerical_
Value
Abstract_Entity
5. Бросать
№
АЧ
НАЧ
ОЧ
1
86
86
29,97
%
2
73
159
25,44
%
3
33
192
11,50
%
НОЧ
29,97
%
Human
55,40
%
Human
VERB
Activity/
Institution
ради
VERB
Physical_O
bject
DIRECTION
66,90
%
Human/
Animal/
Instituti
on
VERB
Physical_O
bject
(на произвол
судьбы/на
растерзание)
VERB
вызов
#
Activity
(на
полпу
ти)
как
оставл
ять
4
20
212
6,97%
73,87
%
Human/
Instituti
on/
Eventu
ality
5
17
229
5,92%
79,79
%
Human
VERB
?
6
9
238
3,14%
82,93
%
Human
VERB
взгляд
7
6
244
2,09%
85,02
%
Human
VERB
трубка
8
6
250
2,09%
87,11
%
Human
VERB
Phrase
Human
в лицо
9
4
254
1,39%
88,50
%
VERB
Human
в
Emotion
от
10
4
258
1,39%
89,90
%
Human
VERB
жизнь
(к ногам
Human)
(на
кон)
Human/
Instituti
on/
Eventu
ality
VERB
Eventuality(
силы/
ресурсы!)
на
Activity
DIRECTION
11
4
262
1,39%
91,29
%
12
3
265
1,05%
92,33
%
Human
VERB
по
Location(ворота!)
VERB
Human
в
Emotion
VERB
Money
(на
Institution)
13
2
267
0,70%
93,03
%
Artwor
k/
Eventu
ality(вз
гляд!)
14
2
269
0,70%
93,73
%
Human
Eventu
ality
на
ветер
!62
15
2
271
0,70%
94,43
%
Human
VERB
Word
на ветер
16
2
273
0,70%
95,12
%
Eventu
ality?
VERB
тень
на
17
2
275
0,70%
95,82
%
Human
VERB
Concept
(на полдороге)
18
1
276
0,35%
96,17
%
Light_
Source
VERB
Light
на
Physical_O
bject
Physic
al_Obje
ct
VERB
тень
на
Physical_O
bject
на
Body_Part
Eventuality/
Institution
19
1
277
0,35%
96,52
%
20
1
278
0,35%
96,86
%
Abstrac
t_Entity
VERB
Plant
21
1
279
0,35%
97,21
%
Human
VERB
якорь
22
1
280
0,35%
97,56
%
Human
VERB
Body_Part
23
1
281
0,35%
97,91
%
Human
VERB
Artifact(ору
жие!)
24
1
282
0,35%
98,26
%
Human
VERB
Artwork
direction
25
1
283
0,35%
98,61
%
Human
VERB
Light_Sourc
e
в
26
1
284
0,35%
98,95
%
Human
VERB
жребий
27
1
285
0,35%
99,30
%
Human
VERB
из-под
Human(защитник!
)
28
1
286
0,35%
99,65
%
VERB
Human
в
Wave
29
1
287
0,35%
100,0
0%
VERB
Human
к
Location
как activity
Location
Wave
6. Драться
№
АЧ
НАЧ
ОЧ
НОЧ
1
164
164
58,16%
58,16%
Animate
VERB
2
48
212
17,02%
75,18%
Animate
VERB
с/
против
Animate
3
17
229
6,03%
81,21%
Animate
VERB
за
#
(с
Animate
4
12
241
4,26%
85,46%
Human
VERB
в/на
Eventuality
(с
Animate
5
10
251
3,55%
89,01%
Animate
VERB
между
Self
6
9
260
3,19%
92,20%
Human
VERB
(на/-)
Inanimate/Body_Part
7
8
268
2,84%
95,04%
Animate
VERB
до
Event
8
4
272
1,42%
96,45%
Institution
VERB
9
4
276
1,42%
97,87%
Institution
VERB
против/
c
Human/Institution
10
3
279
1,06%
98,94%
Institution
VERB
за
#
11
1
280
0,35%
99,29%
Human
VERB
с
Eventuality
!63
12
1
281
0,35%
99,65%
13
1
282
0,35%
100,00%
Human_Group
VERB
на
State_of_Affairs
VERB
в ответ
Human
7. Следить
№
АЧ
НАЧ
ОЧ
НОЧ
1
66
66
22,60%
22,60%
Human/Institution
VERB
за
Eventuality
2
53
119
18,15%
40,75%
Human/Institution
VERB
за
Activity
3
33
152
11,30%
52,05%
Human/Institution
VERB
за тем чтобы/
чтобы
придаточное
4
24
176
8,22%
60,27%
Human/Institution
VERB
за
State_of_Affairs
5
19
195
6,51%
66,78%
Animate/
Institution
VERB
за
Animate/Institution
6
18
213
6,16%
72,95%
Human/Institution
VERB
за
Information_Source
7
13
226
4,45%
77,40%
Human
VERB
за
Inanimate
8
11
237
3,77%
81,16%
Human
VERB
за
Numerical_Value/Temperature/
Time/Weight
9
9
246
3,08%
84,25%
Human
VERB
за
Self
придаточное
10
6
252
2,05%
86,30%
Human
VERB
как/за тем как/
какие/как бы
не
11
6
258
2,05%
88,36%
Human
VERB
за
Body/Body_Part
12
5
263
1,71%
90,07%
Human
VERB
за
?
13
6
269
2,05%
92,12%
Human
VERB
за
Abstract_Entity
14
5
274
1,71%
93,84%
Human/Institution
VERB
за
Artwork
15
4
278
1,37%
95,21%
Human
VERB
что/за тем что
придаточное
16
4
282
1,37%
96,58%
Artifact
VERB
за
Eventuality
17
2
284
0,68%
97,26%
Human
VERB
18
2
286
0,68%
97,95%
Artifact
VERB
за
Numerical_Value/Weight
19
1
287
0,34%
98,29%
Body_Part(мозг!)
VERB
за
Activity
20
1
288
0,34%
98,63%
Human
VERB
Eventuality
21
1
289
0,34%
98,97%
Human
VERB
за
Route
22
1
290
0,34%
99,32%
Human
VERB
за
Speech
23
1
291
0,34%
99,66%
Human
VERB
придаточное
24
1
292
0,34%
100,00
%
VERB
8. Расти
№
АЧ
НАЧ
ОЧ
НОЧ
1
65
65
22,03%
22,03%
Plant/Plant_Part
VERB
(в виде/-
Shape)
2
51
116
17,29%
39,32%
Numerical_Value
VERB
(в/-
Property)
3
47
163
15,93%
55,25%
Eventuality
VERB
(Property)
!64
4
32
195
10,85%
66,10%
Money_Value/Asset
VERB
5
26
221
8,81%
74,92%
Animate
VERB
6
18
239
6,10%
81,02%
Light_Source
VERB
7
15
254
5,08%
86,10%
Body_Part/Body
VERB
8
12
266
4,07%
90,17%
Inanimate
VERB
9
8
274
2,71%
92,88%
?
VERB
10
9
283
3,05%
95,93%
Abstract_Entity
VERB
11
5
288
1,69%
97,63%
Institution
VERB
12
3
291
1,02%
98,64%
руки
VERB
из «того» места/откуда/откуда надо
13
2
293
0,68%
99,32%
Physical_Object
VERB
как грибы после дождика/словно грибы
14
1
294
0,34%
99,66%
Illness
VERB
с
Human
15
1
295
0,34%
100,00%
Human
VERB
до
Eventuality
(в/-
Property)
как снежный ком
9. Кричать
№
АЧ
НАЧ
ОЧ
НОЧ
1
118
118
40,27%
40,27%
Human/
Human_Group
VERB
что/о том
что/-
придаточное
(Huma
n)
(о/
про
#)
2
80
198
27,30%
67,58%
Animate
VERB
(Sound)
3
26
224
8,87%
76,45%
Human
VERB
(придаточно
е/Word)
на
Anima
te
(по
Langua
ge)
4
20
244
6,83%
83,28%
Human
VERB
Word
5
10
254
3,41%
86,69%
Human
VERB
о/про
#
6
9
263
3,07%
89,76%
Visible_Feature
VERB
7
5
268
1,71%
91,47%
Human
VERB
от
Emotion/
Eventuality
8
3
271
1,02%
92,49%
Abstract_Entity
VERB
что/о том
что/-
придаточное
9
3
274
1,02%
93,52%
Body/
Body_Part
VERB
придаточное
10
3
277
1,02%
94,54%
Information_So
urce
VERB
Phrase
11
3
280
1,02%
95,56%
Inanimate
VERB
о
Eventuality
12
2
282
0,68%
96,25%
Human
VERB
Human
кому
13
2
284
0,68%
96,93%
Information_So
urce
VERB
о
Eventuality
14
2
286
0,68%
97,61%
Phrase
VERB
15
1
287
0,34%
97,95%
Eventuality
VERB
16
1
288
0,34%
98,29%
Human
VERB
чтобы
придаточное
17
1
289
0,34%
98,63%
Device
VERB
предложени
е
18
1
290
0,34%
98,98%
Emotion
VERB
о
Eventuality
19
1
291
0,34%
99,32%
Human
VERB
за
Eventuality
20
1
292
0,34%
99,66%
Liquid
VERB
!65
21
1
293
0,34%
100,00
%
Property(голос
!)
VERB
придаточное
Human
10. Владеть
№
АЧ
НАЧ
ОЧ
НОЧ
1
91
91
31,93%
31,93%
Human/Institution
VERB
Eventuality
2
49
140
17,19%
49,12%
Human
VERB
Language
3
42
182
14,74%
63,86%
Human/Institution
VERB
Physical_Object
4
30
212
10,53%
74,39%
Human/Institution
VERB
Information
5
25
237
8,77%
83,16%
Human/Institution
VERB
Asset/Money_Value
6
18
255
6,32%
89,47%
Human/Institution
VERB
Resource
7
7
262
2,46%
91,93%
Human
VERB
Artifact
8
6
268
2,11%
94,04%
Human/Institution
VERB
Institution
9
4
272
1,40%
95,44%
Human
VERB
Self
10
3
275
1,05%
96,49%
Abstract_Entity
VERB
Human_Group/Human
11
2
277
0,70%
97,19%
Human
VERB
Psych
12
2
279
0,70%
97,89%
Human
VERB
?
13
2
281
0,70%
98,60%
Artifact
VERB
Property
14
1
282
0,35%
98,95%
Body_Part
VERB
Eventuality
15
1
283
0,35%
99,30%
Concept
VERB
Property
16
1
284
0,35%
99,65%
Human
VERB
Body
17
1
285
0,35%
100,00%
Human
VERB
Property(голос!)
11. Дышать
№
АЧ
НАЧ
ОЧ
НОЧ
1
116
116
41,73%
41,73%
Animate
VERB
2
51
167
18,35%
60,07%
Inanimate
VERB
3
34
201
12,23%
72,30%
Human
VERB
4
23
224
8,27%
80,58%
Body/Body_Part
VERB
5
10
234
3,60%
84,17%
Animate
VERB
?
6
8
242
2,88%
87,05%
Human
VERB
(через)
7
6
248
2,16%
89,21%
Inanimate
VERB
Abstract_Entity
8
9
257
3,24%
92,45%
Human
VERB
Abstract_Entity
9
3
260
1,08%
93,53%
?
VERB
10
3
263
1,08%
94,60%
Plant/Plant_Part
VERB
11
3
266
1,08%
95,68%
Human
VERB
Human
12
3
269
1,08%
96,76%
Machine
VERB
на ладан
13
1
270
0,36%
97,12%
?
VERB
Eventuality
Vapour/Dust
Body_Part
в ухо/
затылок
!66
14
1
271
0,36%
97,48%
Abstract_Entity
VERB
15
1
272
0,36%
97,84%
Human
VERB
Artwork
16
1
273
0,36%
98,20%
Human
VERB
Fire
17
1
274
0,36%
98,56%
Human
VERB
Human
18
1
275
0,36%
98,92%
Human
VERB
Plant
19
1
276
0,36%
99,28%
Human
VERB
на
20
1
277
0,36%
99,64%
Time_Period
VERB
Time_Period
21
1
278
0,36%
100,00%
кем
?
VERB
12. Зарабатывать
№
АЧ
НАЧ
ОЧ
НОЧ
1
106
106
35,93%
35,93%
Human/
Institution
VERB
Money
2
83
189
28,14%
64,07%
Human/
Institution
VERB
(Human
_Role)
3
71
260
24,07%
88,14%
Human/
Institution
VERB
(Money)
на/от/-/
c
4
15
275
5,08%
93,22%
Human
VERB
Abstract
_Entity
(Eventu
ality)
(Eventu
ality)
кем
5
9
284
3,05%
96,27%
Human
VERB
на
жизнь/
хлеб
6
3
287
1,02%
97,29%
Artifact
VERB
(Money)
(Human
)
(на
VERB
(Eventu
ality/
Money)
(на
?)
Inanima
te/?
7
3
290
1,02%
98,31%
Abstract_E
ntity
8
3
293
1,02%
99,32%
Human
VERB
на
9
1
294
0,34%
99,66%
Human
VERB
Illness
Human
VERB
в
что на
чем
Eventuality/
Physical_Object/?
Eventu
ality)
на что
100,00
10
1
295
0,34%
%
Money
13. Заменять
№
АЧ
НАЧ
ОЧ
НОЧ
1
68
68
24,03%
24,03%
Inanimate
VERB
Inanimate
(собой)
(Human)
2
53
121
18,73%
42,76%
Human/Institution
VERB
Inanimate
(на)
Inanimate
3
39
160
13,78%
56,54%
Eventuality
VERB
Eventuality
(собой)
(Human)
4
35
195
12,37%
68,90%
Human/Institution
VERB
Inanimate
5
15
210
5,30%
74,20%
Human/Institution
VERB
Human/
Institution
(Human)
6
13
223
4,59%
78,80%
Human
VERB
Abstract_Ent
ity
(на)
7
13
236
4,59%
83,39%
Abstract_Entity
VERB
Abstract_Ent
ity
(собой)
8
11
247
3,89%
87,28%
Human
VERB
Eventuality
(на)
кто что
Abstract_Enti
ty
Eventuality
!67
9
8
255
2,83%
90,11%
Human
VERB
?
Eventuality/
Inanimate/?
10
7
262
2,47%
92,58%
Document
VERB
Document
(Human)
11
5
267
1,77%
94,35%
Inanimate
VERB
Animate
(Human)
12
4
271
1,41%
95,76%
Abstract_Entity
VERB
Eventuality
13
4
275
1,41%
97,17%
Eventuality/
Inanimate
VERB
?
14
2
277
0,71%
97,88%
Eventuality
VERB
Physical_Obj
ect
15
1
278
0,35%
98,23%
?
VERB
Abstract_Ent
ity
Abstract_Entity
16
1
279
0,35%
98,59%
Inanimate
VERB
Eventuality
Eventuality
17
1
280
0,35%
98,94%
Human
VERB
Abstract_Ent
ity
18
1
281
0,35%
99,29%
Human
VERB
Eventuality
Inanimate
19
1
282
0,35%
99,65%
Eventuality
VERB
Abstract_Ent
ity
на
20
1
283
0,35%
100,00
%
Abstract_Enti
ty
VERB
14. Говорить
№
АЧ
НАЧ
ОЧ
НОЧ
1
71
71
23,99%
23,99%
Human
VERB
о/про/-
#
(Human)
2
61
132
20,61%
44,59%
Human
VERB
придаточн
ое
(Human)
(о/про
#)
что / о
том, что/ о
том, как
придаточное
что
придато
чное
что/в пользу
того, что
придато
чное
3
51
183
17,23%
61,82%
Human
VERB
4
30
213
10,14%
71,96%
Human
VERB
5
17
230
5,74%
77,70%
6
9
239
3,04%
(Property)
VERB
80,74%
?/
Eventuali
ty
VERB
о/ в пользу
?/Eventuality/
Property
VERB
о том, что
придаточное
7
8
247
2,70%
83,45%
?/
Eventuali
ty
8
7
254
2,36%
85,81%
Human
VERB
Word/
Phrase
(Human)
9
7
261
2,36%
88,18%
neg
VERB
о
#
10
6
267
2,03%
90,20%
Human
VERB
по/на
Language
VERB
о
Eventuality/
11
6
273
2,03%
92,23%
Informati
on_Sour
ce
12
5
278
1,69%
93,92%
Human
VERB
с
Human
13
4
282
1,35%
95,27%
Numerica
l_Value
VERB
о
Eventuality/
VERB
чтобы/ для
того,
чтобы
придаточное
14
3
285
1,01%
96,28%
Human
(Hum
an)
!68
15
2
287
0,68%
96,96%
Human
VERB
Concept
16
2
289
0,68%
97,64%
Human
VERB
от
Name/Self
17
2
291
0,68%
98,31%
VERB
о том, что/
чтобы
придаточное
18
2
293
0,68%
98,99%
Artifact
VERB
о
Eventuality/
19
1
294
0,34%
99,32%
Abstract
_Entity
VERB
?
Human
20
1
295
0,34%
99,66%
Body_Pa
rt
VERB
?
о
21
1
296
0,34%
100,00
%
Human
VERB
за
Eventuality
придато
чное
что
(Hum
an)
Human
15. Выживать
№
АЧ
НАЧ
ОЧ
НОЧ
1
213
213
71,72%
71,72%
Animate
VERB
2
37
250
12,46%
84,18%
Institution/Human_Group
VERB
3
20
270
6,73%
90,91%
Human(сильнейший!)
VERB
4
11
281
3,70%
94,61%
Human
VERB
5
5
286
1,68%
96,30%
Body
VERB
6
5
291
1,68%
97,98%
Human
VERB
7
3
294
1,01%
98,99%
Abstract_Entity
VERB
8
1
295
0,34%
99,33%
Artifact
VERB
9
1
296
0,34%
99,66%
Plant
VERB
10
1
297
0,34%
100,00%
Eventuality
VERB
ОЧ
НОЧ
Human
(из
на
Money_Value
Location)
Human
16. Доверять
№
АЧ
НАЧ
Animate/
Animate/Institution/
1
164
164
54,85%
54,85%
Institution
VERB
Human_Group
2
23
187
7,69%
62,54%
Human
VERB
Language_Part/Concept
3
18
205
6,02%
68,56%
Human
VERB
Abstract_Entity
4
16
221
5,35%
73,91%
Human/Institution
VERB
Activity
Human_Group
5
15
236
5,02%
78,93%
Human/Institution
VERB
#
Human/Institution
6
14
250
4,68%
83,61%
Human/Institution
VERB
7
14
264
4,68%
88,29%
Human_Group
VERB
Eventuality/Decision
8
12
276
4,01%
92,31%
Human
VERB
Inanimate
9
7
283
2,34%
94,65%
Animate
VERB
Psych
10
6
289
2,01%
96,66%
Human
VERB
Self
11
3
292
1,00%
97,66%
Human
VERB
Money_Value
H
u
m
a
n
/
Human/
!69
12
2
294
0,67%
98,33%
Human
VERB
Abstract_Entity(Бог!)
13
1
295
0,33%
98,66%
Human
VERB
Concept
Artifact
14
1
296
0,33%
99,00%
Human
VERB
Activity
System
15
1
297
0,33%
99,33%
Human
VERB
State_of_Affairs
16
1
298
0,33%
99,67%
Human
VERB
что
Psych
VERB
Human
предложение
100,00
17
1
299
0,33%
%
!70
Приложение Б. Анализ словарных значений
!71
Ушаков
Ожегов
МАС
Кузнецов паттерны
подниматься
Взойти, взлететь наверх
+
+
+
+
Переместиться на вышенаходящееся место
+
+
+
+
+
встать
+
+
+
+
+
Проплыть вверх по реке, против течения
+
+
+
Появиться над горизонтом, взойти
+
+
+
+
+
+
+
Взбудоражиться
+
Тронуться, двинуться с места
+
восстать
+
Выйти из норы, логова (охот.).
+
Перейти в какой-н. аллюр (воен., спорт.)
+
Стать более высоким по тону (муз.).
+
+
Подняться с постели
+
+
+
+
+
+
+
+
+
+
+
+
(1 и 2 л. неупотр.). Увеличиться, повыситься
+
+
+
+
(1 и 2 л. не употр.). Налаживаясь, улучшиться, развиться
+
Возвыситься, укрепиться (в общественном положении)
+
(1 и 2 л. не употр.). О тесте, тестообразной массе
+
(1 и 2 л: не употр.).Возникнуть, начаться
+
Приступить к активным действиям
(1 и 2 л. не употр.).Стать более высоким, повыситься в
уровне
+
+
+
+
+
+
+
+
Располагаться, простираться в направлении снизу вверх
+
+
+
возвышаться над чем-л
+
+
+
Стать более бодрым, улучшиться (о настроении)
+
+
Рука не поднимается
+
+
бросать
кого-что. Выпустив из руки сильным размахом, заставлять
лететь и падать вдалеке
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Направлять, пускать
+
Нацеливаясь чем-н., пускать
+
Небрежно класть
+
Выбрасывать
Быстро передвигать, перебрасывать на какое-н. место,
сосредоточивая в каком-н. месте
Покидать, оставлять
+
Прекращать чем-л. заниматься
+
Говорить
+
кого-что во что, безл. Внезапно охватывать
+
Расточать, проматывать
+
+
+
+
+
+
+
+
+
+
+
+
+
+
!72
Бросать якорь
+
Бросать оружие
+
+
Бросать тень, свет(+ перен.)
+
+
+
+
Бросать взгляд
+
+
+
+
Бросать жребий
+
+
+
брось(те), также с неопр. Употр. в знач. перестань(те)
+
+
безл. Сильно качать
+
+
+
+
накрывать
что. Закрыть чем-н. положенным сверху
+
+
+
+
перен. кого-что. Поймать
+
+
+
+
Накрыть стол или накрыть на стол
+
+
+
+
+
+
+
+
+
+
+
+
+
Поразить огнем
+
драться
с кем-чем или без доп. бить друг друга
+
Сражаться (воен.)
+
+
+
+
без доп. бить, наносить побои
+
+
+
+
перен., за что. Бороться за что-н.
+
+
+
+
+
+
+
+
+
Сражаться (на поединке, в бою)
пилить
что. Разрезать твердое вещество
+
+
Пилить дрова
+
+
кого-что. Мучить
+
Резать пилой, а также снимать слой металла напильником
+
+
Играть на смычковом музыкальном инструменте
+
+
+
+
+
+
+
+
+
+
+
следить
за кем-чем (кого-что устар.) и без доп. Наблюдать
движущееся+
Вообще Наблюдать
п е р е н . , з а ке м - ч е м . В н и м ат е л ь н о в с л у ш и ват ь с я ,
всматриваться
+
+
+
+
+
+
+
+
+
перен., за чем. Интересоваться ходом, развитием чего-н
+
+
+
+
+
за кем-чем и без доп. Наблюдая, заботиться
+
+
+
+
+
+
+
+
+
+
+
за кем-чем. Наблюдать чьи-н. движения, действия с целью
выяснения чего-н
кого-что. Отыскивать по следу (охот.)
+
Охранять, оберегать
+
+
говорить
пользоваться, владеть устной речью
+
Уметь пользоваться устной речью на каком-н. языке
+
+
+
+
+
+
+
+
!73
что и о чем. устно сообщать что-н
+
что и без доп. Выступать публично
+
о ком-чем. Делать из кого-чего-н. предмет толков
+
о ком-чем. Высказывать, Выражать какое-н. мнение,
суждение о ком-чем-н
с кем-чем. Разговаривать
перен., что и без доп. Выражать что-н., быть содержательным
(о словах)
перен., что и о чем. Выражать какую-н. мысль, сообщать чтон. своим внешним видом (без помощи слов)
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
быть выразительным (разг.)
+
перен., о чем и в пользу чего. Свидетельствовать о чем-н.
+
+
+
+
Проявляться в чьих-н. поступках, словах
+
+
+
+
Нечего говорить
+
Как-то говоря вводное
+
на кого. Называть кого-н. как виновника чего-н
+
+
+
+
+
+
+
+
+
+
зарабатывать
что и без доп. Добыть, приобрести работой
+
Заработать себе на жизнь
+
Получить в результате чего-н. (прост, ирон.)
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
дышать
Делать вдохи и выдохи
+
Поглощать кислород
Дуть, веять (поэт. устар.)
+
чем. Быть проникнутым чем-н
+
+
перен. Пропускать воздух
+
На ладан дышит
+
+
+
+
+
Существовать, жить
+
Обнаруживаться, проявляться
+
+
кричать
без доп. Издавать громкие крики, вопли.
+
+
+
+
+
Громким голосом сообщать
+
+
+
+
+
на кого-что. Бранить кого-н
+
+
+
+
+
о чем. Привлекать общественное внимание
+
о ком-чем. Много и подробно обсуждать что-н. злободневное
(разг.)
Звать кого-л. громким голосом
Быть ярким свидетельством чего-л
+
+
+
+
+
+
+
+
рожать
!74
О женщине: путем родов произвести (производить) на свет
(младенца)
+
Дать жизнь кому-н
+
перен. Дать (давать) начало чему-н
+
О почве: принести(-носить) плоды, урожай
+
+
+
+
+
+
+
+
+
+
+
+
+
+
расти
О живых существах, организмах
+
+
+
+
+
О детях, подростках: жить, проводить время
+
+
+
+
+
Умножаться
+
+
+
+
+
Увеличиваться в размерах
+
+
+
+
+
Усиливаться
+
+
+
+
+
Совершенствоваться
+
+
+
+
+
О растениях: водиться
+
+
+
+
+
О растениях: находиться
+
+
+
+
+
+
+
+
Становиться взрослым
заменять
кем-чем. Заместить, взять, поставить взамен другого
+
+
+
+
+
Заступить место кого-чего-н
+
+
+
+
+
Прийти, появиться на смену кому-чему-н
+
+
+
+
+
чем. иметь что-н. своей собственностью
+
+
+
+
+
кем-чем. Держать в своей власти, управлять
+
+
+
+
+
владеть
Обладать способностью подчинять своему влиянию
+
перен. Подчинять себе, охватывать (о мыслях, чувствах
+
+
+
+
+
+
+
+
+
Быть в состоянии действовать чем-н
+
уметь обращаться с каким-н. предметом
+
Владеть собой
+
+
+
+
Владеть ситуацией
+
Владеть голосом
+
+
+
+
+
+
+
выживать
Остаться в живых, уцелеть
+
Пробыть, прожить где-н. нек-рое время (разг.)
+
+
Перенести, пережить
Принудить оставить помещение, место, выгнать откуда-н.
(разг.).
+
+
+
Выжить из памяти
+
+
Выжить из ума
+
+
+
+
+
+
доверять
кому-чему в чем. Иметь доверие
+
+
кого-что. Поручить, оставить на сохранение по доверию
+
+
+
+
+
+
+
!75
Дать поручение, выдать доверенность
+
+
!76
Отзывы:
Авторизуйтесь, чтобы оставить отзыв