Корпусно-структурный анализ как инструмент полуавтоматического выявления значений и семантических валентностей глаголов русского языка

Годгильдиева Мария Михайловна

Корпусно-структурный анализ как инструмент полуавтоматического выявления значений и семантических валентностей глаголов русского языка

В данной работе исследуется проблема выделения значений глаголов русского языка и их семантической валентности методом корпусно-структурного анализа. Целью исследования является создание прототипа словаря семантических валентностей русских глаголов. В работе рассматриваются основные положения и понятия общей теории валентности и отдельно – теоретические положения метода корпусно-структурного анализа. Также в рамках исследования был сделан обзор словарей валентности и подобных электронных ресурсов для разных языков. В практической части данного исследования описан эксперимент по адаптации метода корпусно-структурного анализа для русского языка и созданию с его помощью словаря для 16 глаголов русского языка. Также представлен анализ эффективности используемого метода и оценка полученных результатов.

Языкознание

Дипломы

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 5a6f88187966e12684ee9f59

UUID: c3f0f9e2-9bb6-4993-b3ef-978a1683ccb8

Язык: Русский

Опубликовано: больше 6 лет назад

Просмотры: 11

Годгильдиева Мария Михайловна

Источник: Санкт-Петербургский государственный университет

Комментировать 0

Рецензировать 0

Скачать - 2,5 МБ

Поделиться работой

Санкт-Петербургский государственный университет Филологический факультет Кафедра математической лингвистики Годгильдиева Мария Михайловна КОРПУСНО-СТРУКТУРНЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ ПОЛУАВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ ЗНАЧЕНИЙ И СЕМАНТИЧЕСКИХ ВАЛЕНТНОСТЕЙ ГЛАГОЛОВ РУССКОГО ЯЗЫКА Выпускная квалификационная работа по направлению 45.03.02 «Лингвистика», образовательная программа «Прикладная, экспериментальная и математическая лингвистика» Научный руководитель: доц., к.ф.н. Захаров В.П. Санкт-Петербург 2017

Оглавление Generating Table of Contents for Word Import ... Аннотация В данной работе исследуется проблема выделения значений глаголов русского языка и их семантической валентности методом корпусно-структурного анализа. Целью исследования является создание прототипа словаря семантических валентностей русских глаголов. В работе рассматриваются основные положения и понятия общей теории валентности и отдельно – теоретические положения метода корпусно-структурного анализа. Также в рамках исследования был сделан обзор словарей валентности и подобных электронных ресурсов для разных языков. В практической части данного исследования описан эксперимент по адаптации метода корпусно-структурного анализа для русского языка и созданию с его помощью словаря для 16 глаголов русского языка. Также представлен анализ эффективности используемого метода и оценка полученных результатов. Ключевые слова: корпусная лингвистика, семантика, словарь валентностей, валентность, паттерны. This paper deals with the extraction of Russian verb meanings and their semantic valence using the method of Corpus Pattern Analysis. We aim at creating a prototype dictionary of semantic valence of Russian verbs. We describe and examine basic principles and notions of valence theory, especially, those of Corpus Pattern Analysis. Also, we reviewed various valence dictionary of different languages. In our work, we carried on an experiment trying to adapt Corpus Pattern Analysis for Russian language and make a dictionary for 16 Russian verbs. Moreover, we analyzed the effectivity of the given method and presented the evaluation of the results obtained. Key words: corpus linguistics, semantics, valence dictionary, valence, patterns. !3

Введение Информация о значении слов и их семантической сочетаемости необходима во многих областях как теоретической, так и прикладной лингвистики. В теории это один из важных элементов описания системы и лексикона языка, на практике же подобные сведения могут пригодиться для разных задач, к примеру, машинный перевод, информационный поиск, выделение темы текста и др. Во всех случаях необходим ресурс, содержащий сведения о семантике слов. Для русского языка существует достаточное количество толковых словарей, описывающих значения и оттенки значений слов и частично – их сочетаемость, но, к сожалению, подобные словари почти бесполезны при автоматической обработке текста. Таким образом, возникает потребность в словаре другого типа, словаре, который можно было бы использовать в компьютерных технологиях. Подобный словарь должен содержать объективную, формализованную информацию о значении слова, его рамках валентности (и синтаксической, и семантической), о словах, часто встречающихся в его окружении, возможных идиомах. На настоящее время создано и/или находится в разработке большое количество электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь Тузова1, проекты RussNet [1], FrameBank2. В данной работе мы решили воспользоваться опытом и методами создания словаря Pattern Dictionary of English Verbs3. На данный момент в словаре описана семантическая сочетаемость и значения около 2000 английский глаголов. Словарь составляется на основе метода корпусно-структурного анализа (Corpus Pattern Analysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация (Theory of Norms and Exploitations, TNE). Можно выделить главные особенности данного подхода: • выделение значений на основе семантического контекста глаголов; • анализ нормативных употреблений глагола. Корпусно-структурный анализ позволяет по выборке из корпуса описать различные семантические валентности глагола, сопоставить их с его значениями, определить их 1 http://emi.nw.ru/INDEX.html?0/Voc.html (дата доступа: 17.04.2017) 2 http://framebank.ru/article/pub/ (дата доступа: 17.04.2017) 3 http://pdev.org.uk/#browse (дата доступа: 17.04.2017) !5

относительную частоту. При этом итоговое описание легко представляется в форме, пригодной для автоматического анализа. Целью данного исследования является адаптация для русского языка методики выделения значений и семантической валентности глаголов по корпусным данным путём создания прототипа словаря. Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи: 1) описать основные понятия и теоретические основы корпусно-структурного анализа; 2) адаптировать метод для русского языка; 3) составить пробный словарь; 4) оценить эффективность метода. Объектом исследования являются семантика глаголов русского языка. Предмет исследования – семантическая валентность глаголов и её связь с их значениями. Материалом исследования является корпус Araneum Russicum Minus 4 и Национальный корпус русского языка 5. Теоретическая значимость работы определяется подробным описанием методики, не используемой ранее на материале русского языка, и анализом её эффективности. Практическая значимость данного исследования заключается в том, что полученные результаты могут составить основу для создания словаря валентностей русского языка, пригодного для использования как в теоретических, так и в практических целях. Данная работа состоит из введения, трёх глав, заключения, списка литературы из 40 названий и 2 приложений. В первой главе описываются теоретические вопросы, связанные с описанием семантики глаголов русского языка и существующие ресурсы для английского, чешского и русского языков. Вторая глава посвящена теоретическим основам корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских глаголов». В третьей главе описан эксперимент по составлению словарных статей методами корпусно-структурного анализа, отмечены основные особенности, связанные с системой русского языка, и представлена оценка полученных результатов.  4 http://sketch.juls.savba.sk/aranea_about/_russicum.html (дата доступа: 17.04.2017) 5 http://www.ruscorpora.ru (дата доступа: 17.04.2017) !6

Глава 1. Валентность и её представление в словарях В данной главе мы рассмотрим основные понятия теории валентности и опишем основные зарубежные и отечественные словари и базы данных, описывающие валентность глаголов. 1. Понятие валентности В лингвистике термин валентность был введен Л. Теньером в работе «Основы структурного синтаксиса» [13]. Валентностью Теньер называет число актантов, которыми управляет глагол. Актанты – это субъекты и объекты, принимающие участие в действии, обозначаемым глаголом. Им противопоставлены сирконстанты, которые указывают на время, место, образ действия и другие обстоятельства. Теньер утверждал, что глагол может присоединять не более 4 актантов. Для русского языка Ю.Д. Апресян [2] привел примеры, показывающие, что большее количество актантов возможно: арендовать (5 актантов) – кто? что? у кого? на сколько? за сколько? и командировать (6 актантов) – кто? кого? куда? откуда? на сколько? с какой целью? В.Г. Гак в «Лингвистическом энциклопедическом словаре» [3] определяет валентность как «способность слова вступать в синтаксические связи с другими элементами». В отличие от теории Теньера, здесь валентность выделяется и для других частей речи, помимо глагола. Принято разделять семантическую и синтаксическую валентности. Синтаксической валентностью лексемы L называется «селективный признак, который указывает, что данная лексема L может иметь в качестве вершины или в качестве зависимого слова слово W (или составляющую фразовой категории С)» [14, с. 162]. Лексические единицы, заполняющие синтаксические валентности лексемы, называются синтаксическими актантами. Синтаксический актант не всегда является лексемой, иногда он может выражаться конструкцией, соответствующей предложению. Подобные актанты Тестелец называет сентенциальными. «Семантической валентностью, или партиципантом, лексемы L называется любая (несвязанная) переменная X, входящая в толкование (описание значения) L» [14, с. 158]. Языковые единицы, которые выражают валентности лексемы в предложении, называются !7

её семантическими актантами. Ими могут быть как отдельные слова или словосочетания, так и предикаты. Синтаксическая и семантическая валентность слова обычно согласованы. Валентность бывает обязательной или факультативной. Для русского языка характерна факультативность валентности. Также существуют определенные синтаксические конструкции, в которых валентность глагола обычно не выражается полностью, например, эллипсис. Если значение валентности можно вывести из экстралингвистического контекста, то она обычно не реализуется в предложении. С понятием семантической валентности связана идея о семантических ролях. Если мы представляем себе значение глагола как описание некой экстралингвистической ситуации, то его актанты воплощают собой участников ситуации (партиципантов). В схожих ситуациях партиципанты будут играть схожие роли, и эти закономерности можно описывать в терминах семантических ролей. Впервые это идея появилась в работе Чарльза Филлмора «Дело о падеже» [18]. Филлмор исследовал «глубинные падежи», глубинные синтактико-семантические отношения, которые выражаются в языке каким-либо способом (аффиксация, частицы, порядок слов и т.д.). Они могут влиять на рамку валентностей глагола. «Для каждого отдельного падежа допустимо его воплощение в виде сложной сущности (однородной именной группы), но всякое падежное отношение встречается в простом предложении только один раз» [18, с. 400]. Филлмор предложил 6 глубинных падежей: агентив – инициатор действия, инструменталис – средство, датив – тот, кого затрагивает действия, фактитив – результат действия, локатив – место действия, объектив – нейтральный падеж, значение которого определяется глаголом. С тех пор было создано множество перечней разного размера в зависимости от целей лингвиста. 2. Словари валентности Не существует единого стандарта описания валентности глагола. В бумажных толковых словарях XX века валентность обычно, если и описывалась, то произвольным образом, в рамках общего толкования значения. Авторы могли отмечать особенности сочетания глагола с помощью неопределенных местоимений (с кем-то, от кого-то и т.д.), чаще – с помощью иллюстративного материала. В XXI веке большое развитие получили электронные ресурсы, содержащие информацию о значении и валентности глаголов. В зависимости от намерений создателей, !8

используются различные способы представления валентности. В большинстве случаев, она описывается как аргументная структура, где аргументам приписываются их семантические и/или синтаксические характеристики. Выбор характеристик сильно зависит от языка, например, во флективных языках большую роль играет падеж, в котором стоит актант. В данном разделе мы рассмотрим несколько словарей русского, английского и чешских языков, посвященных описанию валентности. 2.1. Английские словари валентности 2.1.1. A Valency Dictionary of English (VDE) Словарь был создан Томасом Хербстом [28] и издан в 2004 г. в бумажном виде. Он предназначен как для лингвистов, так и для учителей и людей, изучающих английский язык как иностранный. Базой для словаря является Bank of English, корпус современного английского языка, на момент создания словаря включавший более 320 миллионов словоупотреблений. Тем не менее, корпус служил только как источник иллюстративного материала, поскольку большая часть описания осуществлялась интроспективным методом. Это означает, что лингвист или команда лингвистов описывали управление глагола, опираясь на своё собственное представление о языке и лингвистический опыт. Всего в словаре описано 511 глаголов, 544 прилагательных и 274 существительных. Лексемы подбирались по трём критериям: их валентностные свойства, частотность и значимость для изучающих английский язык. В словарной статье (рис. 1.1) указываются грамматические характеристики лексемы, рамки валентности лексемы (valency patterns) для определённого значения, примеры с пояснениями, различия между рамками по значению. Отдельно выделяются идиоматические фразовые глаголы (phrasal verbs). Семантические роли указываются только в случаях, где два актанта идентичны по форме, и их можно перепутать. В словаре используются три роли: - ÆFFECTED – тот (или то), на кого влияет данное действие или кто является его результатом; - AGENT – тот, кто совершает действие; - BEN/REC – тот (или то), на кого направлено действие или кто получает выгоду от него. !9

! Рис. 1.1. Пример словарной статьи из VDE для глагола free. 2.1.2. Erlangen Valency Patternbank (EVP) На базе VDE был создан Erlangen Valency Patternbank6. Цель данного проекта − создание инструмента, позволяющего лингвистам исследовать валентность глаголов и семантические роли аргументов [27]. Лексемы, представленные в данном словаре, повторяют словник VDE. EVP позволяет найти: • полный список рамок валентности английских глаголов (в активном и пассивном залоге), существительных и прилагательных (по VDE); • для каждой рамки валентности − список лексем, активирующих её (по VDE); • для каждой лексемы − все рамки валентности (по VDE). Рамки валентностей (рис. 1.2) описываются с помощью поверхностно- ориентированных формальных категорий, например, NP - noun phrase. Такое описание, по 6 http://www.patternbank.uni-erlangen.de (дата доступа: 17.04.2017) !10

утверждению авторов, наиболее независимо от разницы в теориях. Семантические роли употребляются так же, как и в VDE. ! Рис. 1.2. Пример словарной статьи из EVP для глагола enjoy. 2.1.3. Framenet Проект Framenet7 представляет собой базу данных для английского языка, объемом более 10 000 значений. Материал − более 170000 вручную размеченных предложений. Основателем Framenet являлся Чарльз Филлмор, создатель теории фреймовой семантики (frame semantics). Главной идеей является положение о том, что значение слова можно вывести из его семантических фреймов (описания события, отношения или сущности и партиципантов в нём). Так, процесс готовки обычно включает человека, который готовит еду (Cook), еду, которая готовится (Food), посуду, в которой готовится еда (Container) и 7 http://framenet.icsi.berkeley.edu/fndrupal/ (дата доступа: 17.04.2017) !11

источник тепла (Heating_instrument). В Framenet данный сценарий называется Apply_heat и включает в себя вышеперечисленные элементы фрейма. Глаголы, которые могут активировать данный фрейм в предложении, называются его лексическими единицами [34]. FrameNet описывает и глаголы, и существительные, но только те, которые в состоянии сами активировать фрейм. Одним из недостатков словаря FrameNet является то, что при его создании не использовались корпусные данные [32]. Создатели отталкиваются не от слова, а от фрейма, реальной ситуации, и, описывая её, пользуются своими собственными представлениями о мире и о словоупотреблении. Таким образом, значения слова представляются не систематично и не исчерпывающим образом. Разметка фрейма (рис. 1.3) состоит из трех уровней для каждого элемента: имя элемента фрейма (к примеру, Food), грамматическая функция (Object) и тип группы (NP). ! Рис. 1.3. Пример словарной статьи из Framenet для глагола enjoy. !12

2.2. Чешские словари валентности Для чешского языка существует несколько проектов, занимающихся описанием валентности глаголов. С нашей точки зрения, схема представления валентности чешских глаголов представляет больший интерес, чем английских, поскольку этот язык родственен русскому и обладает схожей грамматической структурой. 2.2.1. Vallex Vallex8 – проект по созданию электронного словаря, отражающего синтаксические и семантические свойства чешских глаголов. Словарь описывает рамки валентности с синтаксической и семантической информацией, примеры употребления и другие дополнительные сведения. В словник вошли наиболее частотные лексемы, всего более 16460 словарных статей (считая отдельно глаголы совершенного и несовершенного вида) [36]. Рамка валентно сти (рис. 1.4) в формате Vallex представляет собой последовательность слотов, каждому из которых приписываются 3 характеристики: функтор, возможные реализации, тип аргумента (обязательный/факультативный). Функторы используются для выражения типов отношений между глаголом и его актантами. К примеру, функтор ACT обозначает того, кто совершает действие, MANN – образ действия и т.д. Подобная терминология используется также в Prague Dependency Treebank, что делает совместимыми эти базы данных. Однако список функторов в Vallex несколько меньше, поскольку не все они используются с глаголами, а некоторые отражают только зависимость между глаголами или не имеют отношения к валентности самого глагола. 8 http://ufal.mff.cuni.cz/vallex (дата доступа: 17.04.2017) !13

! Рис. 1.4. Пример словарной статьи из Vallex для глагола analyzovat. 2.2.2. Verbalex Формат представления данных словаря Verbalex9 весьма похож на формат словаря Vallex, главной разницей является подход к описанию семантических свойств аргументов глаголов. На данный момент Verbalex описывает более 10 500 глагольных лексем, при выборе которых учитывалась их частотность [30]. В словарной статье словаря Verbalex описывается ряд глаголов и их составная рамка валентности (complex valency frame). Заголовком статьи является не отдельный глагол, а синсет (синонимический ряд). Более того, его элементами являются не леммы целиком, а их отдельные значения. Важным отличием Verbalex от Vallex является его тесная связь с семантической сетью WordNet. Так, для каждого синсета отмечается его значение в WordNet [29]. Кроме того, приводится общее определение и семантический класс. В качестве основы была использована классификация Бет Левин, созданная для английских глаголов. В проекте Verbnet Марты Палмер количество базовых семантических классов увеличилось от 48 до 82 классов. В рамках проекта Verbalex эта классификация была переведена и адаптирована для чешского языка. Второй частью словарной статьи является описание простых (базовых) рамок валентности (basic valency frames), характерных для всего синонимического ряда (рис. 1.5). При описании учитываются как морфосинтаксические, так и семантические характеристики актантов. Для каждого актанта указывается падеж(и), в котором он может 9 https://nlp.fi.muni.cz/cs/VerbaLex (дата доступа: 17.04.2017) !14

употребляться в данной конструкции. Для большой точности приводится вопрос, который можно задать к актанту. Таким способом учитывается ещё и одушевленность/ неодушевленность существительных (вопросы кто? что?). В случае если один из актантов факультативен, ставится помета opt. Рамка представлена в так называемом стандартном порядке: актанты слева от глагола (обычно подлежащее) – глагол – актанты справа от глагола. Создатели словаря предполагают, что эта спецификация может пригодиться не для анализа предложения, но для генерирования. Место глагола отмечается знаком VERB. ! Рис. 1.5. Пример рамки валентности формата, используемого в Verbalex. Семантические роли актантов приписываются на двух уровнях. На первом уровне содержатся основные семантические роли, их описание основывается на сущностях первого (1stOrderEntity) и второго порядка (2ndOrderEntity) по EuroWordNet Top Ontology и Base Concepts. Оба списка описывают ядро межязыкового лексикона, всего используется 32 семантические роли первого уровня. В качестве ролей второго уровня используются прямые гипонимы ролей первого уровня из WordNet. Они формируют открытый список, который можно расширить по необходимости. На 2013 г. список содержал 811 семантических ролей. Абстрактные значения, почти совпадающие со значениями ролей первого порядка, (к примеру, beneficiary:1, patient:2) заменяются конкретными значениями (чаще всего person:1, или другие варианты в зависимости от конструкции). Подобный подход позволяет сузить разнообразие лексико-семантических групп, элементы которых могут занять данную позицию в рамке валентности. Например, в большей части случаев актанту в позиции подлежащего приписывается роль AG (agens, агенс), которая обозначает того, !15

кто выполняет данное действие. С помощью семантических ролей второго уровня можно уточнить возможное значение данного актанта: человек, животное, организация и т.д. В некоторых случаях это сужение может и не иметь большого смысла, но иногда является очень значимым. Например, подлежащим глагола родить в прямом значении может быть только женщина, поэтому роль первого порядка AG логично сузить до роли второго порядка woman:1. 2.3. 2.3.1. Русские словари валентности Толково-комбинаторный словарь Толково-комбинаторный словарь [7] (опыты семантико-синтаксического описания русской лексики) был создан в рамках теории «Смысл-Текст» и опубликован И.А. Мельчуком и А.К. Жолковским в 1984 г. Он является неотъемлемой частью описания языка в рамках теории «Смысл-Текст». Целью авторов словаря было исчерпывающе отобразить все семантические и синтаксические возможности слов. Также словарь включает в себя функции толкового, синонимического, фразеологического, словообразовательного и других типов словарей. Словарь создавался вручную коллективом авторов, и за 10 лет работы над ним было подготовлено чуть больше 250 словарных статей. В словник входят единицы различных частей речи, в т.ч. фразеологизмы. В основном, описываются три типа отношений между словами: семантические, лексические (лексические функции), синтаксические (модели управления). ТКС является словарем активного типа, т.е. направленным на порождения текста по смыслу. Более того, это чисто теоретический словарь, направленный на узкий круг читателей, а именно, на лингвистов. Модель управления (рис. 1.6) – способ описания синтаксической и семантической валентности глагола в теории «Смысл-Текст» [6]. Глагол представляется в виде предиката, принимающего несколько переменных (X, Y, Z и т.д.), дается определение. Сама модель управления выглядит как таблица, столбцы которой соотносятся с семантическими актантами лексемы. Во второй строке представлены способы поверхностной реализации синтаксического актанта. Одна лексема может обладать несколькими вариантами модели управления, т.н. модификациями. !16

! Рис. 1.6. Пример модели управления для глагола радоваться. Также в словаре указываются ограничения к модели управления, т.е. условия совместной встречаемости актантов и закономерности их соединения. Приводятся примеры употребления и лексический функции, отображающие парадигматические и синтагматический связи лексемы. 2.3.2. Семантический словарь Тузова Семантический словарь В. А. Тузова представляет собой описание слов русского языка на формальном семантическом языке. Словарь строился на базе «Большого толкового словаря русского языка» и некоторых других словарей. По состоянию на 2007 год словарь В.А. Тузова содержал 164 тысячи слов [9]. Все слова делятся на 2 большие группы: базовые и производные. Базовые слова в рамках данного описания не выражаются через другие. Для них указывается иерархический класс, например, слово ребенок получает класс: существительное > физический объект > живой > человек > ребенок. Иерархия классов базовых понятий содержит более 1500 классов. Производные слова описываются не только через класс, но и с помощью базовых функций, например, каузировать, отрицание и т.д. Например, глагол оценивать определяется как Caus(!Им,IncepHab(!Вин,ЦЕНА$110161(!вВин))), т.е. делать так, чтобы что-то получило цену. Для наших целей нам важно, как в словаре представлена валентность глаголов. Она определяется через синтактико-семантическую формулу слова (рис. 1.7), которая включает классы и падежи возможных синтаксических актантов исходного глагола [17]. !17

! Рис. 1.7. Пример возможных синтактико-семантических формул для глагола идти. 2.3.3. RussNet Работа над проектом WordNet была начата в 1985 г. Дж. Миллером в Принстонском университете. В оригинальной версии проекта информация о валентностях глагола отображалась в виде фреймов предложений (sentence frames). Они используются только для автоматического порождения иллюстративного материала, если он не предоставляется лексикографом [35]. Таким образом показывается количество актантов у предиката и варианты их заполнения. WordNet стал образцом для создания подобных словарей для множества других языков, в т.ч. и русского языка. Из всех русскоязычных версий наиболее полно валентности глаголов русского языка представлены в словаре RussNet [1]. Это одна из русских версий проекта WordNet, начатая в 1999 году на кафедре математической лингвистики СПбГУ. В RussNet у глагольного синсета есть список рамок валентностей с указанием на то, какая рамка соответствует какому члену синсета. Отмечается грамматическая форма аргументов, их порядок и факультативность, наличие или отсутствие предлога, семантические характеристики. Рамка валентностей наследуется от гиперонима к гипониму. Более того, валентность помогает различать значения многозначных глаголов. 2.3.4. Framebank !18

Словарь Framebank10 создавался как ресурс, где специалисты могли бы получить данные «о типах глагольного управления, их распределении и вариативности в различных лексических единицах, просмотреть иллюстративный материал на примерах из реальных текстов» [5, с. 1]. Основным образцом для Framebank стал FrameNet (см. 1.2.1.3), но при составлении словаря учитывались особенности и русского языка, и отечественной лексической семантики. Словарь ориентирован лексически, т.е. поиск ведется по лексемам, однако в примерах употребления размечаются все предикатные слова и связанные с ними конструкции. Список лексем формировался по их частотности и разнообразию управления. Базой примеров из реальных текстов для данного проекта стал Национальный корпус русского языка, из которого на каждую лексему словаря отбиралось не менее 100 предложений. Выборка была сбалансирована относительно характеристик предложений (длины, сложности), места предиката в предложении, метатекстовых признаков (датировки, автора, жанра). Для частотных глаголов также проверялись контекстные маркеры, чтобы обеспечить большее разнообразие употреблений. Информация о моделях управления (рис. 1.8) содержится как в словаре, так и в текстовом употреблении. Каждой модели управления присваивается условное название, они содержат «сокращенное обозначение участника, стандартный спо соб морфосинтаксического выражения, синтаксический ранг, экспликация участника, семантические ограничения на заполнение валентности» [5, с. 3]. Под экспликацией участника понимается семантическая роль. Тем не менее, поскольку для глаголов существует слишком большое разнообразие семантических ролей, а для других частей речей роли почти не описаны, то в этом поле пишется пояснение, отождествляющее участника. ! 10 http://framebank.ru/article/pub/ (дата доступа: 17.04.2017) !19

Рис. 1.8. Пример модели управления для глагола восторгаться. !20

Глава 2. Корпусно-структурный анализ 3. История развития. Основные теоретические положения. Проект «Корпусный анализ паттернов» (Corpus Pattern Analysis, CPA) зародился в университете им. Т.Г. Масарика (г. Брно, Чехия) и в настоящее время продолжается в Вулвергемптонcком университете под руководством Патрика Хэнкса. Главная задача метода – определение всех стандартных паттернов употребления для английских глаголов и разделение примеров употребления на «нормы» и «эксплуатации» [24]. В качестве материала используется Британский национальный корпус. В рамках проекта в настоящее время создается электронный ресурс «Словарь паттернов английских глаголов» (Pattern Dictionary of English Verbs). Метод корпусного анализа паттернов (КАП) основывается на теории норм и эксплуатаций (Theory of Norms and Exploitations, TNE). Центром этой теории является лексикон языка, а не синтаксическая система. Одна из причин, почему именно лексика ставится на первое место, заключается в следующем: ежедневное общение по большей части состоит из привычных, часто встречающихся фраз, которые обычно не анализируются с синтаксической точки зрения ни говорящим, ни слушающим. Скорее, эти фразы представляют собой некие формулы, которые меняются при подстановке того или иного слова. Более того, хотя существование системы правил языка неоспоримо, невозможно с их помощью полностью описать реальную человеческую речь. Количество исключений настолько велико, что их уже нельзя назвать ошибками [26]. Основное теоретическое положение метода заключается в том, что слова не имеют значения сами по себе, вне употребления в речи [25]. Сами по себе слова обладают лишь потенциальной возможностью получить значение. Реальное значение появляется в тот момент, когда мы используем слова, помещая их в определённое окружение. Носители языка хранят в уме одинаковые потенциалы значений, благодаря чему они способны понимать друг друга в разговоре. Строго говоря, эти же потенциалы значений содержатся и в традиционных словарях, описывающих слова изолированно. Хэнкс выдвигает гипотезу о том, что количество вариаций окружений относительно мало. Тем не менее, поскольку при данном подходе именно человек выступает как создатель значения, могут появляться малочастотные редкие окружения, которые почти невозможно предсказать по уже имеющимся. Таким образом, появляются понятия !21

«нормы» и «эксплуатации». Авторы подхода предполагают, что все контексты, где может встречаться слова, делятся на 2 группы: относительно небольшое количество часто встречающихся контекстов и относительно большое количество редко встречающихся контекстов. Первые, стандартные контексты тогда будут считаться нормой, а вторые – её эксплуатацией. Эксплуатацией Хэнкс называет осознанное отклонение от принятого нормативного употребления с целью описания либо новых понятий, либо старых, но новым, необычным способом [25, с. 212]. Эксплуатации обычно оказывают большее воздействие на слушателя, чем нормативное употребление, и поэтому часто становятся риторическими приемами и фигурами речи. Теория норм и эксплуатаций предполагает, что в естественных языках существует два набора правил: один отвечает за нормативное употребление слов, второй – за тот, как эти нормы можно эксплуатировать. Таким образом, эксплуатации не являются чем-то случайным, порождением фантазии носителя языка, но тоже подчиняются определённым законам. Хэнкс предложил классификацию эксплуатаций, в то же время признавая, что это только предварительное описание, требующее более подробного исследования [25, с. 215]: − эллипсис – опущение одного из актантов, в основном, объекта действия. Также может быть одним из вариантов синтаксического чередования, но граница очень размыта; − аномальные коллокации – в слоте паттерна встречается слово, не принадлежащее ни одному из классов, обычно занимающих эту позицию; − «навязывание» семантического типа – контекст «навязывает» опредленное значение актанту. Например, в зависимости от окружения слово газета может иметь различные семантические типы: предмет, источник информации, организация, здание и т.д.; − метафоры и сравнения – самый распространенный тип эксплуатации. Большинство метафорических употреблений, хотя когда-то и бывших эксплуатациями, сейчас являются вторичной нормой; − эксплуатация конструкции – эксплуатируется нормативное употребление не одной лексической единицы, но целой конструкции. !22

Между нормой и эксплуатацией нет четкой границы. Скорее, существует некая шкала, где на одном конце будет норма, на другом – эксплуатация. Между ними находятся чередования различных типов: − лексические чередования – замена одного слова на другое без изменения общего значения паттерна. Хэнкс утверждает, что чаще всего они встречаются в идиомах, поговорках и устойчивых выражениях, например, to clutch/grasp at straws; − синтаксические чередования – изменение синтаксической конструкции. Особенно характерно для английского языка: to give flowers to smb – to give smb flowers. В зависимости от влияния изменения структуры на значение глагола могут выделяться как отдельные паттерны, так и один паттерн; − семантические чередования – это чередование семантических типов внутри паттерна. Одно из самых распространенных – чередование типов [[Human]] – [[Human Group]] – [[Institution]], например, правительство заключило мирный договор, общество надеется на лучшее будущее. Для семантических чередований также характерна ситуация, когда нормой будет участие только одного подкласса. Так, объявить войну может президент, король, премьер-министр и т.д., но, если это сделает простой обыватель, то выражение станет метафорическим. Другой пример избирательной сочетаемости – чередование типов [[Human]] – [[Animal]]. Человек и животное могут бегать, прыгать, даже кричать, но если животное говорит, то это эксплуатация нормы. Следует отличать чередования от эксплуатации нормы. Например, если мы говорим, что правительство одной страны ведет переговоры с правительством другой то это вышеупомянутое чередование [[Human]] – [[Institution]]. Однако если сказано, что хозяин ведет переговоры с котом, то это уже эксплуатация нормативного употребления выражения вести переговоры, потому что животное не может являться его субъектом действия. Граница между нормой и эксплуатацией размыта как и с синхронической точки зрения, так и с диахронической. Существует множество примеров, когда значение, бывшее в определённый этап развития языка только эксплуатацией нормы, позже поменяло свой статус и стало нормой. В основном, это общепринятые метафоры и метонимии. Например, выражение бросить взгляд на кого-нибудь является очевидной эксплуатацией основного !23

значения глагола бросать, но, поскольку оно вошло в употребление, оно стало вторичной нормой. Поскольку количество эксплуатаций на самом деле может оказаться бесконечным, задачей лексикографа является описание значений только по нормативным контекстам. Подзадачей будет определение и «отсеивание» ненормативных контекстов. Основной критерий – это относительная частота встречаемости. Естественно, что возможность провести подобное исследование появилась только после развития компьютерных технологий и корпусной лингвистики. 2. Понятие паттерна. Семантические типы и роли Основным понятием КАП является паттерн (pattern). Оно близко таким понятиям как «рамка валентности», «аргументная структура», но, тем не менее, имеет свои особенности. Паттерны выглядят по-разному для разных частей речи. Хэнкс [23] описывает паттерны для существительных и глаголов. Паттерны отглагольных существительных строятся по образцу глагольных паттернов. Для других существительных паттерн выглядит как список слов, наиболее часто вступающих в синтагматические отношения с данным. Наибольший интерес представляют собой глагольные паттерны (рис. 2.1). Паттерн – это прототипический контекст глагола. Паттерн описывает значение глагола, но не с помощью определения, как в традиционных словарях, а предоставляя обобщенную информацию об употреблении слова в речи именно с этим значением. Паттерн включает в себя в основном семантическую информацию, но также и синтаксическую [19]. ! Рис. 2.1. Пример паттерна глагола achieve. Семантическая информация представлена в виде семантических типов и семантических ролей. Сам паттерн выглядит как упорядоченная структура, в центре которой стоит глагол. При активации паттерна, т.е. при его употреблении в речи, слоты слева и справа могут заниматься словами. Семантический тип – это класс, который !24

объединяет все слова, занимающий один определенный слот в одном паттерне. Семантическая роль - эта та роль, которую выполняет партиципант ситуации, обозначаемой глагольным паттерном. Поскольку в английском языке строгий порядок слов, то грамматические роли определяются четким порядком следования: подлежащее – сказуемое – дополнение – дополнение к подлежащему – объектное дополнение – обстоятельства – придаточное. Также для английского языка учитывается наличие или отсутствие детерминатива, поскольку это может полностью изменить значение глагола (например, an event took place / someone took someone else's place). Иногда перечисленных элементов бывает недостаточно, чтобы разрешить неоднозначность. Тогда в паттерн добавляется дополнительная информация, которая может уточнить значение определённого глагола. Например, в английском языке у глагола shoot есть 2 значения, где объектом выступает человек ([[Human]]): «застрелить кого-то» и «снимать кого-то в фильме». Обычно неоднозначность разрешается благодаря семантической роли подлежащего – убийца, террорист, солдат или режиссер, оператор и т.д. Если же подобной информации нет в контексте, то могут пригодиться и другая информация, например, элемент dead во фразе he shot a person dead. 3. Pattern Dictionary of English Verbs (PDEV) Результатом прикладного применения метода КАП стал «Словарь паттернов английских глаголов» 11 (рис 2.2). Работа над словарем была начата в 2000 г. Патриком Хэнксом и продолжается до сих пор. На данный момент в словаре представлены 1364 полностью завершенные словарные статьи. ! 11 http://pdev.org.uk/#browse (дата доступа: 17.04.2017) !25

Рис. 2.2. Pattern Dictionary of English Verbs В словарной статье (рис. 2.3) для глагола приводится список его паттернов, упорядоченных по частоте встречаемости в Британском национальном корпусе. Указывается размер корпусной выборки, по которой исследовались паттерны, их общее число. ! Рис. 2.3. Словарная статья глагола avoid в PDEV. Для каждого паттерна выводится его импликатура, т.е. то, какой смысл в него вкладывается носителем языка при его использовании. Также приводится один реальный пример из корпуса. Пользователь имеет возможность получить больше информации об употреблении в речи, перейдя по ссылке “…More data”, и увидеть полную выборку контекстов из корпуса для данного паттерна. Более того, можно отфильтровать список паттернов, выбрав для просмотра только те, где искомый глагол является частью фразового глагола. По ссылке «Access full data» можно перейти к полной выборке контекстов в формате KWIC, размеченных номерами паттернов. Для части паттернов также есть возможность увидеть соответствующий им фрейм из FrameNet. Кроме собственно словаря на сайте представлена полная онтология семантических типов, встречающихся в паттернах (рис. 2.4). Она состоит из 253 семантических типов. Онтология существует в двух видах: как собственно иерархическая онтология и как полный список типов, упорядоченный по алфавиту. Для каждого типа можно увидеть, в описании каких глаголов он использовался, причем указывается номер нужного паттерна. Также приводится список существительных английского языка, которые получали данный !26

семантический тип при разметке контекстов, и указывается как общая частота встречаемости, так и частота встречаемости в определённой грамматической роли. ! Рис. 2.4. Фрагмент онтологии 4. Общее описание метода На первом этапе для исследуемого глагола создается корпусная выборка. Лексикограф просматривает её, получая общее представление о поведении глагола в тексте. Затем извлекается случайная выборка для подробного анализа. Её размер может варьироваться от 200 до 1000 контекстов. Хэнкс утверждает, что оптимальный размер выборки – 500 контекстов [22], но в действительности размер сильно зависит от степени многозначности и частотности исследуемого глагола. На следующем этапе лексикограф сортирует контекст, распределяя их в группы, имеющие сходное значение и сходную синтаксическую структуру. Все актанты глагола размечаются с помощью семантических типов, при необходимости указывается и дополнительная информация. !27

Поскольку метод опирается на теорию норм и эксплуатаций, то важно определить статус контекстов. Хэнкс предлагает следующую классификацию [23]: • нормы − нормативное употребление глагола; • эксплуатации – ненормативное употребление, изменение нормы; • чередования – в определенном слоте паттерна могут чередоваться семантические типы; • имена – в слоте паттерна встречается имя собственное, которому в зависимости от контекста можно или невозможно приписать семантический тип; • упоминания – в данном контексте глагол был не употреблен, но только упомянут; • 5. ошибки – опечатки и неосознанное нарушение грамматической нормы. Автоматизация Метод КАП в том виде, как он был разработан изначально, требует ручной работы в течении достаточно длительного времени. Естественно, были осуществлены попытки автоматизировать хотя бы отдельные этапы процесса обработки. В статье [31] предлагается алгоритм автоматического определения паттернов. 1) Получить список всех слов, встретившихся в определённой позиции рамки валентности; 2) Выделить синтактические чередования; 3) Кластеризовать существительные, встретившиеся в одной и той же позиции рамки валентности; 4) Для каждого кластера измерить его схожесть с уже имеющимися лексическими классами. Если ни один из существующих классов не подходит по выбранным критериям, то признать анализируемый кластер новым лексическим классом и использовать его в дальнейшей работе. На этом шаге необходимо искать общие семантические характеристики элементов. Данный алгоритм был проверен на материале из Британского Национального корпуса, размеченного в рамках эксперимента синтаксически и семантически. !28

В статье [33] авторы предлагают другой способ выделения паттернов в контексте. В качестве материала используется синтактически и семантически размеченный корпус. Алгоритм выделяет и описывает грамматические отношения между предикатом и словами из его ближайшего окружения с помощью 4 характеристик: основа, часть речи, семантические типы и дополнительные теги (число, одушевленность и др.). На следующем этапе алгоритм использует данные из обучающей выборки, чтобы отсеять характеристики, скорее всего, не влияющие на значение предиката. На основе множества характеристика вычисляется вероятность принадлежности анализируемого паттерна к одному из имеющихся паттернов данного предиката. Точность измеряется до и после извлечения «важных» характеристик. В результате эксперимент показал среднюю точность в 61,1% при достаточно высокой степени полисемии в тестовой выборке. Для большинства глаголов алгоритм показал более высокий результат на «очищенном» множестве характеристик. !29

Глава 3. Создание словаря 3.1. Постановка задач Хотя методология КАП описана и проверена для глаголов английского языка, это не означает, что подобный метод можно применить с тем же успехом и для других языков. Перед нами стояла несколько задач: 1) адаптировать метод для русского языка: − выбрать корпус − выбрать разметку − выбрать глаголы − определить оптимальный размер выборки контекстов 2) проверить эффективность используемого метода: − сравнением с толковыми словарями русского языка − на материале других корпусов 3) описать особенности его применения на материале русского языка. 3.2. Выбор корпуса и разметки Как уже упоминалось выше, для работы с английскими глаголами использовался Британский национальный корпус. Нашей первой идеей было взять в качестве материала Национальный корпус русского языка12. Его общий объем – около 280 млн. слов, основные источники – современная проза и публицистика, научные и деловые тексты. Большим достоинством этого корпуса могла бы стать уже имеющаяся семантическая разметка. Если бы она оказалась подходящей для создания паттернов, то можно было бы опустить весьма трудоемкий этап семантической разметки контекстов. Для проверки гипотезы был взят глагол подниматься. Дополнительных ограничений поиска не задавалось. Для эксперимента мы рассматривали только первые 50 контекстов, формат выдачи – не больше 1 примера из одного документа. Для каждого актанта извлекалась семантическая информация (рис. 3.1). Актанты располагались в прямом порядке слов. Таким образом, для каждого контекста мы получали наборы 12 http://www.ruscorpora.ru (дата доступа: 17.04.2017) !30

семантических тегов каждого актанта, расположенных в определенном порядке. Предлоги сохранялись в структуре без изменений, для наречий, важных для смысла, также извлекалась семантическая характеристика. ! Рис. 3.1. Пример разметки контекстов из НКРЯ. К сожалению, оказалось, что для наших целей семантическая разметка НКРЯ практически бесполезна. «При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т.п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов» [8]. К примеру, в предложении дневная температура поднимается до отметки 30-32 град слову температура приписывается набор тегов: r:abstr, t:param, t:temper. Они расшифровываются следующим образом: непредметные имена, параметр, температура. Для разметки паттерна важными оказываются не все теги, а, в лучшем случае, два последних. В других же случаях, разметка может вообще не обозначать однозначно семантику слова: в предложении поднимается артериальное давление слово давление имеет теги der:s0, der:v, r:abstr, t:impact, которые означают: отглагольные наречия, непредметные имена, физическое воздействие. Первый тег, по-видимому, является ошибочным, остальные не определяют четко значение слова. Другой проблемой оказалась разметка имен собственных, которая в определенных случаях просто отсутствовала. Так, к примеру, в предложении американские "Аваксы" поднимаются из Грузии слово Аваксы не имеет семантических тегов, хотя по контексту !31

понятно, что речь идет о виде самолетов. Однако в аналогичном примере Putte-2 поднимался в воздух на пять метров у Putte-2 есть разметка: r:concr, t:fam, t:tool:device:machine (предметные имена, фамилии, механизмы и приборы). Более того, встречались контексты, где имена собственные размечались неправильно, например, предложение он поднимался на Исаакий. Слово Исаакий является сокращенной формой от Исаакиевский собор, но получил разметку r:propn, t:hum, t:persn (имена собственные, лица, имена). В результате первого эксперимента мы решили отказаться от НКРЯ в качестве материала и выбрать другой корпус. Для второго эксперимента был взят корпус Araneum Russicum Minus без семантической разметки. Araneum Russicum13 – семья корпусов русского языка, созданный в 2013 году в рамках проекта Aranea. Для их создания использовалась технология WaCky, позволяющая получать тексты для корпуса из Интернета. Подбор ключевых слов осуществлялся таким образом, чтобы получить наиболее сбалансированный корпус [20, 21]. Существует несколько корпусов: Minus (120 млн), Majus (1,2 млрд словоупотреблений) и Maximum (10,9 млрд). Также есть версии, где отдельно представлен русскоязычный материал, собранный с российских доменов, и отдельно – с доменов других стран. Мы выбрали версию Minus, поскольку для наших целей его размера достаточно, а скорость поиска выше. Для каждого глагола создавалась выборка из 500 случайных контекстов. Поиск осуществлялся по лемме (рис. 3.2.), с одним ограничением: PoS = Vb (часть речи – глагол). 13 http://sketch.juls.savba.sk/aranea_about/_russicum.html (дата доступа: 17.04.2017) !32

! Рис. 3.2. Пример запроса в Araneum Russicum Minus. Мы использовали контексты в формате предложения (рис. 3.3), а не KWIC, чтобы получить полное представление об окружении глагола. Формат KWIC выдает только заранее заданное количество словоформ слева и справа от искомого слова, но в русском языке зависящие от глагола члены предложения могут оказаться слишком далеко друг друга. Если глагол оказывался высокочастотным, то дополнительно выбиралось ограничение 1st hit in doc (первое употребление, встретившееся в документе). ! !33

Рис. 3.3. Пример выдачи из Araneum Russicum Minus. 3.3. Выбор глаголов Для целей нашего исследования было необходимо исследовать глаголы разных категорий с разной частотностью, разным количеством обязательных актантов. Чтобы выбрать подобный набор глаголов, мы воспользовались «Толковым словарем русских глаголов» [15]. Задача данного словаря – представить русскую глагольную лексику в системном виде с семантической точки зрения. С этой целью элементы словника рассортированы по лексико-семантическим группам. На самом деле, можно было бы воспользоваться практически любой классификацией, например, представленной в «Русском семантическом словаре» [11], поскольку наша главная задача – только отобрать глаголы для эксперимента. Мы выбрали именно эту классификацию из-за её удобной иерархической, пронумерованной организации. В словаре представлены следующие группы и подгруппы: I. Действие и деятельность 1. Глаголы движения 2. Глаголы перемещения объекта 3. Глаголы помещения 4. Глаголы физического воздействия на объект 5. Глаголы созидательной деятельности 6. Глаголы интеллектуальной деятельности 7. Глаголы речевой деятельности 8. Глаголы социальной деятельности 9. Глаголы физиологического действия 10. Глаголы звучания II. Бытие, состояние, качество 1. Глаголы бытия 2. Глаголы качественного состояния !34

III.Отношение 1. Глаголы взаимоотношения 2. Глаголы владения 3. Глаголы межличностных отношений 4. Глаголы социальных отношений Подгруппы делятся на более мелкие разделы, но, если пользоваться настолько подробным делением, то получился бы слишком большой набор глаголов, на обработку которого просто бы не хватило времени. Поэтому мы взяли по одному глаголу для дальнейшего исследования из каждой подгруппы. В итоге, получилась выборка из 16 глаголов (табл. 3.1). Табл. 3.1. Выбранные глаголы Номер Глагол подгруппы Абсолютная Относительная частота частота (ipm) Размер выборки 1.1 подниматься 3395 28,3 500 1.2 бросать 2045 17,0 300 1.3 накрывать 403 3,4 300 1.4 драться 563 4,7 300 1.5 пилить 222 1,9 222 1.6 следить 7768 64,7 500 1.7 говорить 66963 557,3 500 1.8 зарабатывать 4441 37,0 500 1.9 дышать 2721 22,6 300 1.10 кричать 2289 19,0 300 2.1 рожать 645 5,4 300 2.2 расти 14454 120,3 500 3.1 заменять 1920 16,0 300 3.2 владеть 4173 34,7 500 3.3 доверять 3670 30,5 500 3.4 выживать 709 5,9 300 !35

3.4. Подготовка разметки Для каждого глагола из корпуса Araneum Russicum Minus мы получали нумерованный список из 500 контекстов. Размер мог зависеть от общей частоты встречаемости глагола в корпусе, например, глагол пилить встречается всего 222 раза. Соответственно, размер выборки для него составил 222 контекста. Полученный список разделялся на 10 подсписков, в каждом по 50 контекстов. Подобный частичный способ разметки позволил впоследствии определить порог «насыщаемости» для глаголов русского языка (см. раздел 3.5.1). На следующем этапе из полных предложений выделялся глагол с зависимыми членами. В основном, мы убирали все обстоятельства (места, времени, цели), если они не определяли семантику глагола. Так, например, в определённых случаях обстоятельство времени определяет семантику глагола подниматься. В предложении он поднимается в 5 утра глагол подниматься имеет значение просыпаться, вставать с кровати. С другой стороны, обстоятельство места также часто входит в паттерны для глагола подниматься: подниматься по лестнице. Также именные группы, выступающие как актанты глагола, сокращались до одного главного слова, в крайнем случае, двух, если по одному слову было невозможно впоследствии определить семантический тип. Подобным образом убирались распространяющие конструкции, например, различного вида обороты, определения. Ряды сокращались до одного члена, если все члены принадлежали одному семантическому типу. В основном, проблемы возникали в случае сложных предложений. Если глагол употреблялся в придаточном и управляет местоимением, то для полноты картины мы всегда старались найти в главном предложении соответствующий антецедент и размечали уже его. Вторая проблема – в выборку попадали и предложения, где глагол представлен в форме причастия. Мы их оставляли, если причастие сохраняло рамку валентности личных ф о р м гл а г о л а . М е н ь ш у ю п р о б л е м у п р е д с т а в л я ю т н а з в а н и я . Е с л и п о экстралингвистическим знаниям или из предложения очевидно, что обозначает данное название, то оно размечалось соответствующим образом. !36

Естественно, в итоге размечались не все предложения. Таким образом, размер выборки несколько сокращался. В таблице 3.2 представлен реальный размер полных выборок для всех глаголов. Табл. 3.2. Реальный размер выборок Глагол Размер 50 100 150 200 250 300 350 400 450 полной выборки подниматься 463 47 95 140 183 227 274 бросать 288 49 98 145 192 241 288 накрывать 279 42 90 138 185 231 279 драться 286 45 94 144 193 239 286 пилить 207 49 98 145 207(из 222) следить 485 50 98 145 194 241 говорить 494 48 98 147 197 зарабатывать 480 48 98 147 дышать 278 45 91 кричать 296 50 рожать 287 расти 321 370 417 290 337 385 435 247 296 346 394 444 196 244 294 344 394 434 136 184 230 278 100 150 197 246 296 50 97 142 191 239 287 487 49 99 148 197 247 295 343 393 438 заменять 284 36 86 136 184 234 284 владеть 475 50 100 148 197 242 285 325 375 425 доверять 496 49 98 148 197 247 297 347 396 446 выживать 299 50 100 150 199 249 299 На следующем этапе предстоял собственно сам процесс семантической разметки. Мы взяли за основу онтологию семантических типов, представленную на сайте «Словаря паттернов английских глаголов» (см. раздел 2.3). Её основные преимущества: − иерархическая структура типов; − сравнительно очевидные обозначения типов; − список существительных английского языка, которые относятся к данному типу в определённых паттернах; !37

− список глаголов английского языка, в чьих паттернах встречается данный тип. При первичной разметке мы старались использовать типы, находящиеся в низу иерархии. Так, контекст бросать мяч размечался как [[Human]] бросает [[Ball]]. Вместо вышестоящего типа [[Artifact]] использовался нижестоящий тип [[Ball]]. Естественно, онтология не может полностью отразить богатство языковой лексики. Если замечалось, что глагол часто встречается с одним существительным, то это существительное указывалось вместе с семантическим типом. В основном, подобные случаи относятся к устойчивым или даже идиоматическим выражениям. Однако возникала необходимость «сужать» семантический тип и в других случаях. Подлежащее глагола подниматься часто имеет семантический тип [[Food]], но обычно это определённый тип еды: тесто, дрожжи, опара. Итоговый паттерн имеет следующий вид: [[Food]](тесто!) поднимается. С технической стороны, разметка (рис. 3.4) представляет собой файл формата .xls. В первом столбце перечислены контексты. Напротив каждого контекста указывается его семантическое представление с прямым порядком слов. Каждый семантический тип, предлог или союз записывается в отдельную ячейку. Поскольку мы делали разметку по частям, части отделялись друг от друга. ! Рис. 3.4. Пример разметки для контекстов из Araneum Russicum Minus. !38

3.5. Выделение паттернов После завершения самой разметки мы перешли к выделению паттернов. Для этого семантические представления сортировались по порядку слотов. Сначала сортировка проводилась внутри каждой части (примерно 50 контекстов). Затем данные разметки были перенесены в отдельный файл и были отсортированы уже полностью. По отсортированному материалу были созданы первичные списки паттернов с указанием их частоты. По сути, это были еще не настоящие паттерны, но их прототипы: все конструкции, в которых встречался данный глагол в использованной корпусной выборке. Для краткости будем называть их дальше протопаттернами. Первичные списки сортировались по частоте встречаемости в порядке убывания. На следующем этапе мы анализировали полученные протопаттерны, приводя их к более обобщенным паттернам. Обобщение происходило в трёх направлениях. • Приведение нижестоящих в иерархии семантических типов к вышестоящим. Основным критерием было сохранение значения паттерна. Например, при анализе глагола бросать был выделен достаточно частотный протопаттерн [[Human]] бросает [[Human]]. Однако при более подробном рассмотрении стало понятно, что на самом деле это два разных паттерна: один со значением «кидать», а второй – «оставлять, покидать». Это значение – очевидная эксплуатация первого нормативного значения. Поэтому протопаттерн пришлось разделить, и первый вариант объединить с паттерном [[Human]] бросает [[Physical_Object]]. Тем не менее, вопрос не исчерпан, поскольку в метафорическом плане можно также бросать машину, бросать животное и т.д. Для него характерны контекстные маркеры на произвол судьбы, на растерзание, но они не регулярны. Более регулярен контекстный маркер первого паттерна DIRECTION. Поэтому он был включен в первый паттерн. Также мы не объединяли паттерны, где одни актанты обладали одним семантическим типом, если была видна определенная устойчивость словосочетания. Для того же глагола бросать встречались контексты бросать трубку, бросать якорь, бросать оружие, где все объекты действия одного типа [[Artifact]]. Тем не менее, все эти выражения, пусть изначально и были связаны с первичным значением глагола бросать, но сейчас приобрели свой собственный смысл («резко закончить разговор», «пришвартоваться», «сдаться»). Поэтому мы выделили не один паттерн, но три. !39

Иногда мы объединяли в один паттерн и контексты, где у одних актантов разные семантические типы. Для глагола накрывать с большой частотой встречаются контексты типа накрывать стол, накрывать завтрак, накрывать на стол. В целом, все они обладают одним значением: «ставить еду на стол». Эти устойчивые сочетания с глаголом накрывать сейчас вошли в норму. Мы объединили их в один паттерн по схожести значения. Использование вышестоящего семантического типа вместо его нижестоящих не всегда было регулярным. Так, для глагола рожать в основном в качестве субъекта выступали слова с семантическими типами [[Human]], [[Animal]]. В большинстве паттернов мы использовали более общий тип [[Animate]]. В паттерне [[Human]] рожает [[Human]] для/от/с/- [[Human]], мы оставили тип [[Human]], поскольку в нашей корпусной выборке этот паттерн ни разу не встретился с типом [[Animal]]. • Выявление чередований. Нам встретились все 3 типа: чередования семантических типов, семантические и синтаксические чередования. Первые были выделены почти для всех глаголов, вторые – только для одного глагола заменять. В результате сведения типа для него выделилось некоторое количество пар паттернов с похожим чередованием структуры: Тип1 заменяет Тип1 (собой) – [[Human]] заменяет Тип1 Типом1. Мы предположили, что в данном случае имеет место быть синтаксическое чередование, но следует выделять их как отдельные паттерны, поскольку изменение структуры в некоторой степени влияет на значение глагола. Семантическое чередование было отмечено для устойчивых словосочетаний, характерных для определённых паттернов. Несмотря на то, что контекстные маркеры в крайней степени индивидуальны, в некоторых случаях их тоже можно было объединить в рамках одного паттерна. Например, глагол зарабатывать часто встречается вместе со словосочетаниями на жизнь, на хлеб. Мы пренебрегли небольшой разницей в значении и поместили их в один паттерн. Чередования семантических типов были выделены для всех глаголов, кроме рожать. Самым распространенным оказалось чередование типов [[Human]]/ [[Institution]] , как и отмечал Патрик Хэнкс для английского языка [25, с. 177]. Тем не !40

менее, эти два типа не всегда автоматически объединялись. В некоторых случаев их замена влияла на значение глагола, например, для подниматься. Паттерн [[Institution]] поднимается имеет очень специфическое значение «расти, получать влияние», в то время как сочетание с типом [[Human]] является частью большего количества паттернов как с прямым, так и с переносным значением. Чаще чередования выделялись в позиции объекта действия в том случае, если объект не связан тесно с действием, выражаемым глаголом. Так, если рассматривать паттерн [[Human]] говорит о чем-то, то его значение не будет зависеть от того, какой семантический тип у второго актанта. В итоговом паттерне нам придется записать чередование трех основных типов [[Abstract_Entity]], [[Physical_Object]], [[Eventuality]]. В другом случае для второго актанта выделялось несколько семантических типов, относящихся к разным основным типам, но имеющих некоторое сходство. Например, для глагола доверять мы объединили в один паттерн контексты, где у второго актанта семантический тип – [[Language_Part]] или [[Concept]]. По сути, они не влияют на значение паттерна, ведь нет большой разницы между контекстами доверять словам свидетеля и доверять полученной информации. • Объединение дополнительных элементов паттерна. Кроме семантических типов и самого глагола, элементами паттерна являются предлоги и союзы (в том случае, когда от глагола может зависеть придаточное). Часто к одному контексту относились разные предлоги, например, драться с [[Human]] / против [[Human]]. Отсутствие предлога также могло отмечаться: [[Human]] рожает [[Human]] [[Human]]/для [[Human]]/от [[Human]]. Иногда чередовались союзы, вводящие придаточное предложение: следить за тем, чтобы/чтобы, кричать что/о том что и т.д. В результате нами было выделено следующее количество паттернов для выборок в 300 контекстов (табл. 3.3). Как мы видим, число паттернов не зависит от частоты глагола. Сами паттерны представлены в приложении А. Табл. 3.3. Количество выделенных паттернов Глагол Количество Относительная паттернов частота (ipm) !41

бросать 28 17.0 подниматься 28 28.3 следить 24 64.7 говорить 21 557.3 кричать 21 19.0 дышать 21 22.6 заменять 20 16.0 доверять 17 30.5 владеть 17 34.7 расти 15 120.3 накрывать 14 3.4 пилить 13 1.9 драться 13 4.7 выживать 11 5.9 зарабатывать 10 37.0 8 5.4 рожать 6. Размер выборки Нашей следующей задачей было определение оптимального размера выборки. Для этого мы: − провели анализ «насыщаемости» паттернов для первых 300 контекстов; − разметили дополнительные 200 контекстов. 6.1. Анализ насыщаемости Насыщаемостью мы называем то, какое количество паттернов выделяется для каждых следующих 50 контекстов. Для этого мы воспользовались первой версией разметки, которая была разделены на группы по 50 контекстов. По этим данным мы определили, сколько итоговых паттернов встретилось в какой группе. Результаты можно увидеть на графике (рис. 3.5). !42

30 подниматься бросать накрывать драться пилить следить говорить зарабатывать дышать кричать рожать расти заменять владеть доверять выживать 23 15 8 0 50 ! 100 150 200 250 300 Рис. 3.5. График «насыщаемости» По вертикали расположено количество встретившихся паттернов, по горизонтали − группы контекстов: первые 50, первые 100 и т.д. Как видно из графика, все кривые возрастают, но с разной скоростью. Чем больше общее количество паттернов, тем круче будет подъем. Самый резкий перепад всегда происходит между первыми двумя группами. Это значит, что большинство паттернов выделяется из первых 100 контекстов. Если посмотреть на сами паттерны, то видно, что паттерны, выделенные в группах 250-300, в основном, имеют частоту 1. Более того, чаще всего это авторская эксплуатация нормы, окказиональные употребления. 6.2. Дополнительная разметка Для части глаголов мы дополнительно разметили по 200 контекстов. Для этого мы взяли все глаголы с частотой выше, чем у глагола подниматься. Подниматься был выбран как глагол с наибольшим количеством паттернов (28). У глагола бросать такое же количество паттернов, но их большую часть составляют устойчивые выражения. Более того, подниматься встречается намного чаще, чем глагол бросать (28,3 и 17 ipm соответственно). Таким образом, были отобраны 7 глаголов (табл. 3.4). !43

Табл. 3.4. Глаголы, выбранные для дополнительной разметки Относительная частота Реальный объем (ipm) в Araneum дополнительной выборки говорить 557,3 198 расти 120,3 192 следить 64,7 195 зарабатывать 37,0 186 владеть 34,7 190 доверять 30,5 199 подниматься 28,3 189 Процесс разметки происходил аналогично основной разметке: выделение непосредственных контекстов, разметка семантическими типами. В табл. 3.5 представлена количественная оценка полученных результатов. Табл. 3.5. Результаты дополнительной разметки Количество Количество Полные Полные Расширение паттернов по паттернов по новые новые с старых первой разметке дополнительной паттерны частото паттернов разметке й>1 подниматься 28 30 7 1 3 следить 21 20 3 1 0 говорить 21 20 2 0 4 зарабатывать 10 10 3 1 2 расти 15 16 4 0 0 владеть 17 19 5 0 0 доверять 17 12 1 1 1 Как можно увидеть из таблицы, существенного увеличения количества паттернов не произошло. Мы отделили случаи, когда выделялся полностью новый паттерн, от случаев, когда в уже имеющийся паттерн добавлялся новый элемент. Почти все новые !44

паттерны оказались эксплуатацией нормы. Следует упомянуть, что мы не учитывали эллиптические конструкции при подсчете новых паттернов. По полученным данным можно сделать вывод о том, что размер выборки в 300 контекстов относительно адекватен. Выборки подобного размера достаточно для низкочастотных глаголов с небольшим разнообразием семантической сочетаемости. Для глаголов с большей частотой встречаемости и с большим количеством возможных паттернов можно увеличить размер выборки, как минимум, до 500 контекстов. Следует отметить, что независимо от размера выборки всегда будут встречаться неохваченные ранее паттерны. Однако они, скорее всего, будут являться авторской эксплуатацией нормы, которая все равно не рассматривается при составлении словаря. 7. Проверка независимости от корпуса Поскольку весь материал для разметки мы брали из одного корпуса, мы решили посмотреть, насколько выделенные паттерны характерны для языка в целом, а не для языка, представленного в корпусе Araneum Russicum Minus. Мы выбрали Национальный корпус русского языка для проверки имеющихся паттернов. Для каждого глагола были составлены выборки по 50 контекстов. При запросе мы искали глаголы по лемме, дополнительных ограничений поиска не задавалось. Формат выдачи – не больше 1 примера из одного документа. Далее полученный материал обрабатывался также как и при разметке корпуса Araneum: выделение непосредственного контекста, разметка семантическими типами. Данные о выборках представлены в таблице 3.6. Табл. 3.6. Характеристики глаголов по НКРЯ ipm в Araneum ipm в НКРЯ Реальный размер выборки говорить 557,3 2098,6 50 расти 120,3 118,8 50 следить 64,7 78,1 49 зарабатывать 37,0 19,6 50 владеть 34,7 44,2 49 доверять 30,5 25,1 50 !45

подниматься 28,3 83,7 50 дышать 22,6 68,6 50 кричать 19,0 181,7 47 бросать 17,0 61,6 49 заменять 16,0 19,4 50 выживать 5,9 4,5 50 рожать 5,4 9,5 50 драться 4,7 29,9 50 накрывать 3,4 5,6 50 пилить 1,9 35,4 29 Можно заметить, что в некоторых случаях относительная частота глагола в НКРЯ и в корпусе Araneum Russicum Minus сильно различаются. В каждом случае это можно объяснить по-разному. Для глагола пилить в выдачу из НКРЯ вошло множество контекстов, где форма пили относится не к глаголу пилить, а к глаголу пить. Как следствие, глаголу пилить была приписана большая частота, чем есть на самом деле. Другие различия можно объяснить характером корпусов. НКРЯ включает больше художественных текстов, чем Araneum Russicum Minus, поэтому естественно, что глаголы говорить и кричать, которые могут вводить прямую речь, обладают большей частотой. Число контекстов, не относящихся к выделенным паттерном, не превысило 5 для одного глагола, меньше всего (0) – у глагола заменять, больше всего (5) – у глагола дышать. В среднем, их количество составило 4% от общего размера выборки (рис. 3.6). Как и в предыдущих случаях, почти все они были авторскими эксплуатациями уже имеющихся паттернов. Например, для глагола выживать был изначально выделен паттерн [[Human]] выживает [[Human]] из [[Location]]. В новой выборке встретился контекст Книги практически выживают нас из дома ([[Inanimate]] выживает [[Human]] из [[Location]]), в котором автор эксплуатирует нормативное употребление глагола выживать. Много метафорических контекстов встретилось и для глагола дышать, например, жизнь дышит со страниц этой удивительной книги. Очень редко встречались контексты, которые можно было бы посчитать нормативным. Так, для глагола накрывать встретился контекст они накрывали вражеские сходки. Подобное употребление глагола !46

накрывать описано во всех толковых словарях русского языка (см. раздел 3.8). Тем не менее, за всю разметку оно встретилось только 1 раз, в выборке из НКРЯ. Количество контекстов, не охваченных име Количество контекстов, охваченных имеющ ! Рис. 3.6. Соотношение контекстов в выборке из НКРЯ В целом, в НКРЯ частотность эксплуатаций оказалась несколько выше, чем в Araneum Russicum. По-видимому, это связано с тем, что в НКРЯ вошло больше публицистических текстов и текстов художественной литературы, для которых характерна большая метафоричность. С этой точки зрения, Araneum Russicum представляет более «приземленный», разговорный язык. 8. Соотношение полученных паттернов и значений в толковых словарях русского языка Чтобы еще раз проверить эффективность используемого метода описания значений, мы решили посмотреть, как полученные паттерны соотносятся со значениями и оттенками значений, выделенными в толковых словарях русского языка. С этой целью мы выбрали 4 словаря: толковый словарь русского языка под ред. Д.Н. Ушакова [15], словарь русского языка С.И. Ожегова [9], толковый словарь русского языка под ред. А.П. Евгеньевой [11] и Большой толковый словарь русского языка под ред. С.А. Кузнецова. Мы составили сводную таблицу значений, в которой объединили все значения, выделенные хотя бы в одном из словарей, и отметили, в каких других словарях они встречались. В этой же таблице перечислены и выделенные в словарях устойчивые сочетания. В некоторых случаях значение могло описываться как одно значение в одном словаре, но разделяться на два отдельных значения или оттенка значения в другом. Фрагмент полученной таблицы для глагола накрывать представлен в табл. 3.7. Полную таблицу можно увидеть в приложении Б. !47

Табл. 3.7. Пример сравнения значений по словарям накрывать Ушаков Ожегов Евгеньев Кузнецов паттерны а что. Закрыть чем-н. положенным сверху + + + + перен. кого-что. Поймать + + + + Накрыть стол или накрыть на стол + + + + + + + + + Поразить огнем + Мы посчитали, сколько значений встречается хотя бы в одном из словарей, сколько выделено в каждом словаре по отдельности и какие значения являются общими для всех четырех словарей. Затем мы сопоставили словарные значения с полученными ранее паттернами, и определили, сколько словарных значений охвачено паттернами (табл. 3.8). Табл. 3.8. Результаты сопоставления значений Суммарное Ушаков Ожегов Евгеньева Кузнецов количество Общее паттерны для 4 словарей говорить 15 14 9 8 9 7 8 расти 9 8 8 9 9 8 9 следить 8 7 5 6 6 4 4 зарабатывать 3 2 2 2 2 1 3 владеть 9 5 4 6 7 4 7 доверять 3 3 2 2 3 2 2 23 10 10 18 14 3 15 дышать 8 4 5 5 7 2 5 кричать 7 4 4 5 6 3 5 бросать 19 14 7 13 13 4 11 заменять 3 3 3 3 3 3 3 выживать 6 3 3 6 5 2 2 подниматься !48

рожать 4 3 3 4 4 2 3 драться 5 4 3 5 5 2 5 накрывать 4 3 4 4 4 3 3 пилить 5 3 2 4 4 1 5 На рис. 3.7 наглядно представлены те же данные: общее количество значений, количество для трех словарей и число значений, совпадающих с паттернами. Для нас важно то, что для всех глаголов количество паттернов равно или превышает количество значений, общих для всех словарей. Тем не менее, именно значения, общие для всех словарей, представляют глагол с объективной точки зрения. Различия между словарями – субъективны, зависят от их авторов. Суммарное количество В 4 словарях: паттерны ! Рис. 3.7. Соотношение выделенных значений для трех словарей и паттернов. Однако количество паттернов, выделенных нами, превышает число общих словарных значений почти в 2 раза во многих случаях. Мы предполагаем, что это связано с тем, что по корпусным данным выделяются более тонкие различия между значениями и оттенками значений, опирающиеся на их валентностные характеристики. Также в список паттернов вошли частотные авторские эксплуатации и некоторые устойчивые выражения, которые, по всей видимости, не были включены в толковые словари. 9. Классификация паттернов Паттерны, выделенные нами по корпусному материалу, не все подходят для словарной статьи. В список паттернов кроме нормативных употреблений вошли эксплуатации, авторские и устоявшиеся, эллиптические конструкции, упоминания, и даже встретились очевидные случаи неосознанного ошибочного употребления. Поэтому !49

возникло необходимость классифицировать полученные паттерны, отделив при этом кандидатов для словарной статьи. Мы распределили полученные паттерны на 7 категорий: первичные и вторичные нормативные употребления, эксплуатации, эллиптические конструкции, устойчивые выражения, упоминания и ошибки. Результаты представлены в табл. 3. 9.m В словарь войдут только 3 категории: первичные и вторичные нормы, устойчивые выражения. Табл. 3.9. Количественные характеристики классификации Первичн Вторичн ые нормы ые нормы Эксплуатац Эллипси ии с Устойчив Упоминан Ошибк ые ия и выражени я 10 5 - 2 3 - 1 расти 3 7 2 1 2 - - следить 5 11 - 2 3 1 2 зарабатывать 5 4 - - 1 - - владеть 3 4 3 1 6 - - доверять 4 6 5 2 - - - 11 12 8 - 3 - - дышать 3 3 7 4 3 1 - кричать 8 6 6 - - - 1 бросать 1 11 7 1 9 - - заменять 11 2 3 3 - 1 - выживать 4 1 4 - 1 - - рожать 3 2 3 - - - - драться 7 3 3 - - - - накрывать 5 5 1 2 1 - - пилить 5 5 1 1 1 - - говорить подниматься В целом, процесс классификации является самой субъективной частью метода КАП и, по-видимому, не подлежит автоматизации. Тем не менее, мы выделили несколько !50

закономерностей, которые облегчают процесс принятия решения о включении паттерна в определённую категорию. 1) Частотность Паттерны с частотой, равной 1, с большой вероятностью являются авторскими эксплуатациями. Это правило работает эффективнее всего при определении того, является ли паттерн вторичной нормой или авторской эксплуатацией. 2) Семантический тип субъекта Если субъект действия не имеет семантического типа из класса [[Physical_Object]], то, скорее всего, данный паттерн не является первичной нормой. Эта закономерность важна при выборе между первичной и вторичной нормой. 3) Элементы паттерна Если паттерн не полностью состоит из семантических типов, а включает в себя языковые единицы (помимо предлогов и союзов), то он, вероятно, входит в категорию устойчивых выражений. Для наглядности разберём классификацию на примере глагола пилить (рис. 3.8). ! Рис. 3.8. Паттерны глагола пилить. Для краткости мы не повторяем каждый раз в паттерне сам глагол, а только отмечаем его место в конструкции обозначением VERB (по примеру словаря Verbalex). Паттерны глагола пилить распределяются только по первым 5 категориям, для него не встретилось ошибок или упоминаний. Зеленым цветом выделен эллипсис, для этого !51

паттерна было невозможно определить семантический тип объекта действия. Фиолетовым цветом мы выделяли устойчивые выражения, идиомы. В данном случае это один фразеологизм: пилить сук, на котором сидишь. Красным цветом обозначены авторские эксплуатации, которые представлены для глагола пилить одним контекстом Борис Натанович продолжил < пилить > толстое бревно литературы двуручной пилой. Автор эксплуатирует нормативный паттерн [[Human]] пилит [[Wood]] ([[Artifact]]). Подобные первичные нормы выделены черным цветом. Их можно обобщить следующим образом: человек или созданный им инструмент пилит какой-то неодушевленный объект, чаще всего древесину. Поскольку объект с семантическим типом [[Wood]] встречался очень часто, мы выделили его в отдельный паттерн. Остальные частотные контексты, обозначенные синим цветом, − это вторичные нормы. Как можно увидеть, в них глагол пилить используется метафорически, но с устойчивым значением, общим для всех носителей языка. Паттерн [[Human]] пилит на [[Musical_Instrument]] встретился в нашей выборке только один раз, но мы классифицировали его как вторичную норму, поскольку это употребление описано в толковом словаре русского языка под ред. А.П. Евгеньевой [11]. Что касается категорий, не представленных для глагола пилить, то ошибки выделялись оранжевым цветом, а упоминания – желтым. Дополнительно мы посчитали абсолютную и относительную частоту встречаемости для каждого паттерна. В случае глагола пилить первые 6 паттернов покрывают практически 90% всех встретившихся контекстов. При этом отсутствуют резкие «перепады» частот между паттернами, разница не превышает 10 %. Такое распределение частот встречается не всегда, есть и глаголы, для которых характерны 1-2 паттерна с очень большой встречаемостью. Например, у глагола рожать первые два паттерна имеют относительную частоту 62,63% и 31,32% соответственно, охватывая тем самым более 90% всей выборки. 10. Выводы По результатам проведенного эксперимента можно говорить о том, что метод КАП может с успехом применяться на материале русского языка. Тем не менее, следует сделать несколько замечаний о его возможной модификации. Во-первых, для русского языка необходимо указывать в паттерне морфосинтаксическую информацию. Иначе, например, паттерн [[Human]] заменяет !52

[[Inanimate]] можно понимать и как «человек заменяет некий предмет», и как «человек заменяет собой некий предмет». Сложным остается вопрос о том, как предоставлять подобные комментарии. Возможно несколько вариантов: указать падеж, задать вопрос или написать пояснение ко всему паттерну. По-видимому, выбор варианта зависит от цели описания. Для понимания человеком удобнее всего будет третий вариант, поскольку даже указание падежа или вопроса не всегда сделает значение паттерна очевидным. Однако не обязательно указывать морфосинтаксические характеристики для каждого элемента паттерна. Во многих случаях они будут излишними, поскольку необходимая информация уже содержится в предлогах. Во-вторых, нам встретилось несколько паттернов, где слот может занять языковая единица практически любого семантического типа. Самые яркие примеры можно привести для глаголов говорить и кричать: говорить и кричать можно обо всем. Мы решили, что для таких случаев было бы удобно ввести некое обозначение. В выделенных нами паттернах мы использовали символ #. В-третьих, как мы уже упоминали выше, во многих случаях возникла необходимость сузить семантический тип. Если в некоторых паттернах его можно просто заменить языковой единицей, например, бросать взгляд, бросать жребий, то в других случаях так просто не получалось. Так, в разделе 3.3 уже был приведен пример про семантический тип [[Food]], который в сочетании с глаголом подниматься реализуется только определённым кругом слов: тесто, опара, дрожжи. В подобных случаях мы писали [[Food]](тесто!).  !53

Заключение В ходе данной работы мы провели анализ существующих на данный момент словарей валентности для трёх языков. Как один из возможных способов описания, нами был выбран метод анализа корпусного материала, используемый в «Словаре паттернов английских глаголов». Данный метод, корпусный анализ паттернов, основывается на теории норм и эксплуатаций, основные положения и понятия которой представлены во второй части работы. Основной целью практической части нашего исследования была адаптация метода корпусного анализа паттернов для русского языка. Для этого мы создали пробную версию словаря для 16 глаголов с применением исследуемого метода. В ходе создания нашего словаря мы решили несколько практических проблем, в т.ч. выбрали корпус и способ разметки, определили оптимальный размер выборки. Полученные паттерны мы проанализировали в 2 аспектах: сравнение с размеченной выборкой из другого корпуса и с существующими словарями русского языка. В первом случае мы определили, что в среднем выделенные паттерны охватывают более 90-95% случайной корпусной выборки. Для второй задачи мы провели сопоставительный анализ 4 толковых словарей русского языка: толковый словарь русского языка под ред. Д.Н. Ушакова, словарь русского языка С.И. Ожегова, толковый словарь русского языка под ред. А.П. Евгеньевой и Большой толковый словарь русского языка под ред. С.А. Кузнецова. В результате оказалось, что для всех глаголов полученные паттерны покрывают значения, общие для всех словарей, а в половине случаев – и все словарные значения. С нашей точки зрения, данные результаты доказывают как и эффективность использованного метода применительно к материалу русского языка, так и то, что выбранного размера корпуса достаточно для выделения паттернов. Более того, мы сделали несколько выводов относительно изменения метода корпусного анализа паттернов для русского языка, основываясь на проведенной работе. Наши замечания касаются как и способа описания, так и самого метода. Мы добавили несколько дополнительных обозначений для представления паттернов в более понятном и компактном виде. Также, с нашей точки зрения, определённые паттерны для русского языка не могут описываться без упоминания морфосинтаксических характеристик. Все предложенные изменения учитывались нами при описании полученных паттернов. !54

В дальнейшем мы видим несколько путей развития данного исследования. Естественно, можно продолжать работу над созданием словаря. Однако мы считаем, что это трудоемкий процесс, который займет слишком много времени, если продолжать работу вручную. Полезнее всего будет разработка способов автоматизации корпусного анализа паттернов. Во второй главе мы упомянули несколько работ, посвященных этой теме, но на материале английского языка. Мы предполагаем, что автоматизировать можно этап выделения паттернов, но в этом направлении возникает проблема нехватки семантически размеченного корпуса. Поэтому, по-видимому, перед проведением какихлибо экспериментов по автоматическому выделению паттернов необходимо разметить корпус семантическими типами, желательно, также не вручную.  !55

Список литературы 1. Азарова, И.В. RussNet как база представления лексического блока в системах автоматизированного анализа текстов. СПб, 2015. 2. Апресян, Ю.Д. Избранные Труды. Том 1. Лексическая семантика. Синонимические средства языка. М., 1995. 3. Большой толковый словарь русского языка. / Гл. ред. С.А. Кузнецов. СПб, 1998. [Электронный ресурс] URL: http://www.gramota.ru/slovari/info/bts/ (дата обращения: 17.04.2017). 4. Гак, В.Г. Валентность // Лингвистический энциклопедический словарь. [Электронный ресурс] URL: http://tapemark.narod.ru/les/079c.html (дата обращения: 17.04.2017). 5. Ляшевская, О.Н. Русский фреймнет: к задаче создания корпусного словаря конструкций / О.Н. Ляшевская, Ю.Л. Кузнецова // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009». Вып. 8 (15). М., 2009. сс. 306-312. 6. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл-Текст». М., 1999. 7. Мельчук, И.А. Толково-комбинаторный словарь современного русского языка / И.А. Мельчук, А.К. Жолковский. Вена, 1984. 8. Национальный корпус русского языка. Семантика. [Электронный ресурс] URL: http:// www.ruscorpora.ru/corpora-sem.html (дата доступа: 17.04.2017). 9. О словаре В.А. Тузова. [Электронный ресурс] URL: http://emi.nw.ru/INDEX.html?0/ Voc.html (дата доступа: 17.04.2017). 10. Ожегов Сергей Иванович. Словарь русского языка / Гл. ред. С. П. Обнорский. М., 1949. [Электронный ресурс] URL: http://slovarozhegova.ru (дата обращения: 17.04.2017). 11. Русский семантический словарь. IV. Толковый словарь, систематизированный по классам слов и значений / Отв. Ред. Н.Ю. Шведова. М., 2007. 12. Словарь русского языка: В 4-х т. / Под ред. А. П. Евгеньевой. М., 1999. [Электронный ресурс] URL: http://feb-web.ru/feb/mas/mas-abc/default.asp (дата обращения: 17.04.2017). 13. Теньер, Л. Основы структурного синтаксиса. / Пер. с франц. Вступ. ст. и общ. ред. В. Г. Гака. М., 1988. 14. Тестелец, Я. Г. Введение в общий синтаксис. М., 2001. 15. Толковый словарь русских глаголов: Идеографичекое описание. Английские эквиваленты. Синонимы. Антонимы / Под ред. проф. Л.Г. Бабенко. М., 1999. !56

16. Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова. М., 1935—1940. [Электронный ресурс] URL: http://ushakovdictionary.ru (дата обращения: 17.04.2017). 17. Тузов, В.А. Компьютерная семантика русского языка. СПб, 2003. 18. Филлмор, Ч. Дело о падеже // Новое в зарубежной лингвистике. Вып. 10. М., 1981. сс. 369495. 19. Baisa, V. Software and Data for Corpus Pattern Analysis / Vit Baisa, Ismaile El Maarouf, Pavel Rychlý, Adam Rambousek // In Proceedings of the Ninth Workshop on Recent Advances in Slavonic Natural Language Processing. Brno, 2015. pp. 75-86. 20. Benko, V. Aranea: Yet Another Family of (Comparable) Web Corpora. In Petr Sojka, Aleš Horák, Ivan Kopeček and Karel Pala (Eds.): Text, Speech and Dialogue. 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. LNCS 8655.Springer International Publishing Switzerland, 2014. pp. 257-264. 21. Benko, V. Compatible Sketch Grammars for Comparable Corpora. In Andrea Abel, Chiara Vettori, Natascia Ralli (Eds.): Proceedings of the XVI EURALEX International Congress: The User In Focus. 15–19 July 2014. Bolzano/Bozen: Eurac Research, 2014. pp. 417-430. 22. Hanks, P. A Pattern Dictionary for Natural Language Processing / Patrick Hanks, James Pustejovsky // In: Revue Française de linguistique appliquée 2005/2 (Vol. X). pp. 6382. 23. Hanks, P. Corpus Pattern Analysis // In Proceedings of Euralex 2004. Lorient, 2004. pp. 8797. 24. Hanks, P. Corpus Pattern for Semantic Processing / Patrick Hanks, Elisabetta Jezek, Daisuke Kawahara, Octavian Popescu. Beijing, 2015. pp. 12-15. 25. Hanks, P. Lexical analysis. Norms and Exploitations. London, 2013. 26. Hanks, P. The Linguistic Double Helix: Norms and Exploitations // In After Half a Century of Slavonic Natural Language Processing (Festschrift for Karel Pala). Brno, 2009. pp. 63-80. 27. Herbst, T. Detailed Introduction to Patternbank. [Электронный ресурс] URL: http:// www.patternbank.uni-erlangen.de/cgi-bin/patternbank.cgi?do=introtxt (дата доступа: 17.04.2017). 28. Herbst, T. A Valency Dictionary of English: A Corpus-Based Analysis of the Complementation Patterns of English Verbs, Nouns and Adjectives. / Thomas Herbst, David Heath, Ian F. Roe, Dieter Götz (eds.). Berlin, 2004. !57

29. Hlaváčková, D. VerbaLex - New Comprehensive Lexicon of Verb Valencies for Czech / Dana Hlaváčková, Aleš Horák // In Computer Treatment of Slavic and East European Languages. Bratislava, 2006. pp. 107-115. 30. Horák, A. Preparing VerbaLex Printed Edition. / Aleš Horák, Dana Hlaváčková, Karel Pala // In Seventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013. Brno, 2013. pp. 3-11. 31. Pustejovsky, J. Automated induction of sense in context / James Pustejovsky, Anna Rumshisky, Patrick Hanks // In COLING 2004 Proceedings. Geneva, 2004. pp. 924-931. 32. Rumshisky, A. Constructing a Corpus-based Ontology using Model Bias / Anna Rumshisky, Patrick Hanks, Catherine Havasi, James Pustejovsky // In Proceedings of FLAIRS 2006. Menlo, 2006. pp. 327-332. 33. Rumshisky, A. Inducing Sense-Discriminating Context Patterns from Sense-Tagged Corpora / Anna Rumshisky, James Pustejovsky // In Proceedings of LREC 2006. Genoa, 2006. pp. 837-840. 34. Ruppenhofer, J. FrameNet II: Extended Theory and Practice / Josef Ruppenhofer. Michael Ellsworth. Miriam R. L. Petruck. Christopher R. Johnson. Jan Scheffczyk. Berkeley, 2006. 35. WordNet. Verb Frames. [Электронный ресурс] URL: http://wordnet.princeton.edu/man/ wninput.5WN.html (дата доступа: 17.04.2017). 36. Žabokrtský Z. Valency Information in VALLEX 2.0: Logical Structure of the Lexicon. / Zdeněk Žabokrtský, Markéta Lopatková. The Prague Bulletin of Mathematical Linguistics, No. 87, 2007. pp. 41-60. !58

Приложение А. Полученные паттерны Список сокращений: АЧ – абсолютная частота; НАЧ – накопленная абсолютная частота; ОЧ – относительная частота; НОЧ – накопленная относительная частота. 1. Подниматься № 1 АЧ 80 НАЧ ОЧ НОЧ 80 17,54 % 17,54 % Animate 34,87 % Inanimat e VERB (DIRECTION) VERB (DIRECTION) 2 79 159 17,32 % 3 47 206 10,31 % 45,18 % Concept VERB Human/ Institution 4 30 236 6,58% 51,75 % Vapour/ Dust VERB (DIRECTION) (выше Inanim ate) (на/до/выше Numeri cal_Val ue) (над Physical_ Object ) Physical_Object (лестница/ эскалатор!) 5 24 260 5,26% 57,02 % Animate VERB по/на 6 22 282 4,82% 61,84 % Temperat ure VERB (выше/до Numeric al_Value VERB (Institution) (DIREC TION) Numerical_Value) (выше/до Numeri cal_Val ue) по Natural_Landscap e_Feature/Route (DIREC TION) VERB у/в Human Water VERB (DIRECTION) 81,80 % Food(тес то!) VERB Eventuali ty(давле ние!) VERB (у Body_Pa rt VERB inf/на Human 7 19 301 4,17% 66,01 % 8 16 317 3,51% 69,52 % Body_Pa rt VERB DIRECTION 9 15 332 3,29% 72,81 % Human VERB 10 14 346 3,07% 75,88 % Emotion 11 14 360 3,07% 78,95 % 12 13 373 2,85% 13 11 384 2,41% 84,21 % 14 8 392 1,75% 85,96 % Human) (до (на Numerica l_Value) Numerica l_Value) !59

15 8 400 1,75% 87,72 % Eventuali ty Light_So urce VERB DIRECTION на Numeri cal_Val ue с VERB 16 7 407 1,54% 89,25 % 17 7 414 1,54% 90,79 % Human VERB в/- Time_Point 18 6 420 1,32% 92,11 % Human VERB выше/до Eventuality 19 5 425 1,10% 93,20 % Vehicle VERB DIRECTION 20 5 430 1,10% 94,30 % Institutio n VERB (с колен) 21 4 434 0,88% 95,18 % Human 22 4 438 0,88% 96,05 % Abstract _Entity VERB 23 3 441 0,66% 96,71 % Wind/ Heat VERB 24 2 443 0,44% 97,15 % Route VERB 25 2 445 0,44% 97,59 % Abstract _Entity 26 2 447 0,44% 98,03 % 27 2 449 0,44% 28 1 450 29 1 451 кровать (карьерная) лестни ца в Natural_Landscap e_Feature на Quantity VERB до Human Human VERB из-за 98,46 % Human VERB на Activity 0,22% 98,68 % Time_Pe riod VERB 0,22% 98,90 % Sound VERB из Location Eventuali ty(взгля д!) VERB на Body_Part к Abstract_ Entity по (с колен) стол 30 1 452 0,22% 99,12 % 31 1 453 0,22% 99,34 % Human VERB с колен 32 1 454 0,22% 99,56 % Human VERB от Abstract_Entity 33 1 455 0,22% 99,78 % Human VERB в Abstract_Entity 34 1 456 0,22% 100,00 % Abstract _Entity VERB в Abstract_Entity 2. Рожать № АЧ НАЧ ОЧ НОЧ 1 176 176 62,63% 62,63% Animate VERB 2 88 264 31,32% 93,95% Animate VERB Animate (в State_of_Affairs) 3 8 272 2,85% 96,80% Human VERB Human для/от/-/ с Human !60

4 3 275 1,07% 97,86% Human(мужчина!) VERB Human 5 3 278 1,07% 98,93% Human(мужчина!) VERB с 6 1 279 0,36% 99,29% Body VERB 7 1 280 0,36% 99,64% Human VERB 8 1 281 0,36% 100,00% Soil VERB Human Artifact 3. Пилить № АЧ НАЧ ОЧ НОЧ 1 52 52 25,37% 25,37% Human VERB Wood (Artifact) 2 45 97 21,95% 47,32% Human VERB Inanimate (Artifact) 3 30 127 14,63% 61,95% Human VERB 4 26 153 12,68% 74,63% Human VERB Human 5 16 169 7,80% 82,44% Human/Institution VERB Money/Asset/Power 6 10 179 4,88% 87,32% Human VERB DIRECTION на 7 10 189 4,88% 92,20% Human VERB ? (Artifact) 8 6 195 2,93% 95,12% Human VERB Artifact создавать 9 4 199 1,95% 97,07% Human VERB Branch 10 3 202 1,46% 98,54% Artifact VERB 11 1 203 0,49% 99,02% Artifact VERB Tree 12 1 204 0,49% 99,51% Human VERB на Musical_Instrument 13 1 205 0,49% 100,00% Human VERB Abstract_Entity Artifact Vehicle 4. Накрывать № АЧ НАЧ ОЧ НОЧ 1 143 143 51,44 % 51,44 % Human VERB Physical_O bject Physical_O bject 2 52 195 18,71 % 70,14 % Human VERB на/- стол/Food 3 18 213 6,47% 76,62 % (Psych) VERB Human 4 14 227 5,04% 81,65 % Inanimate VERB Physical_O bject 5 12 239 4,32% 85,97 % Wave/Water/Vapour/ Weather_Event VERB Physical_O bject 6 8 247 2,88% 88,85 % Human VERB Physical_O bject 7 8 255 2,88% 91,73 % Firearm VERB Location Flame 8 8 263 2,88% 94,60 % Animate VERB ? (?) 9 4 267 1,44% 96,04 % ? VERB (Cloth/ Food) для /- (Hum an) !61

10 4 271 1,44% 97,48 % 11 3 274 1,08% 98,56 % 12 2 276 0,72% 99,28 % 13 1 277 0,36% 14 1 278 0,36% VERB Physical_O bject VERB Human Wave Physical_Object VERB Physical_O bject Vapour 99,64 % Human VERB Location Firearm 100,00 % Vehicle VERB Numerical_ Value Abstract_Entity 5. Бросать № АЧ НАЧ ОЧ 1 86 86 29,97 % 2 73 159 25,44 % 3 33 192 11,50 % НОЧ 29,97 % Human 55,40 % Human VERB Activity/ Institution ради VERB Physical_O bject DIRECTION 66,90 % Human/ Animal/ Instituti on VERB Physical_O bject (на произвол судьбы/на растерзание) VERB вызов # Activity (на полпу ти) как оставл ять 4 20 212 6,97% 73,87 % Human/ Instituti on/ Eventu ality 5 17 229 5,92% 79,79 % Human VERB ? 6 9 238 3,14% 82,93 % Human VERB взгляд 7 6 244 2,09% 85,02 % Human VERB трубка 8 6 250 2,09% 87,11 % Human VERB Phrase Human в лицо 9 4 254 1,39% 88,50 % VERB Human в Emotion от 10 4 258 1,39% 89,90 % Human VERB жизнь (к ногам Human) (на кон) Human/ Instituti on/ Eventu ality VERB Eventuality( силы/ ресурсы!) на Activity DIRECTION 11 4 262 1,39% 91,29 % 12 3 265 1,05% 92,33 % Human VERB по Location(ворота!) VERB Human в Emotion VERB Money (на Institution) 13 2 267 0,70% 93,03 % Artwor k/ Eventu ality(вз гляд!) 14 2 269 0,70% 93,73 % Human Eventu ality на ветер !62

15 2 271 0,70% 94,43 % Human VERB Word на ветер 16 2 273 0,70% 95,12 % Eventu ality? VERB тень на 17 2 275 0,70% 95,82 % Human VERB Concept (на полдороге) 18 1 276 0,35% 96,17 % Light_ Source VERB Light на Physical_O bject Physic al_Obje ct VERB тень на Physical_O bject на Body_Part Eventuality/ Institution 19 1 277 0,35% 96,52 % 20 1 278 0,35% 96,86 % Abstrac t_Entity VERB Plant 21 1 279 0,35% 97,21 % Human VERB якорь 22 1 280 0,35% 97,56 % Human VERB Body_Part 23 1 281 0,35% 97,91 % Human VERB Artifact(ору жие!) 24 1 282 0,35% 98,26 % Human VERB Artwork direction 25 1 283 0,35% 98,61 % Human VERB Light_Sourc e в 26 1 284 0,35% 98,95 % Human VERB жребий 27 1 285 0,35% 99,30 % Human VERB из-под Human(защитник! ) 28 1 286 0,35% 99,65 % VERB Human в Wave 29 1 287 0,35% 100,0 0% VERB Human к Location как activity Location Wave 6. Драться № АЧ НАЧ ОЧ НОЧ 1 164 164 58,16% 58,16% Animate VERB 2 48 212 17,02% 75,18% Animate VERB с/ против Animate 3 17 229 6,03% 81,21% Animate VERB за # (с Animate 4 12 241 4,26% 85,46% Human VERB в/на Eventuality (с Animate 5 10 251 3,55% 89,01% Animate VERB между Self 6 9 260 3,19% 92,20% Human VERB (на/-) Inanimate/Body_Part 7 8 268 2,84% 95,04% Animate VERB до Event 8 4 272 1,42% 96,45% Institution VERB 9 4 276 1,42% 97,87% Institution VERB против/ c Human/Institution 10 3 279 1,06% 98,94% Institution VERB за # 11 1 280 0,35% 99,29% Human VERB с Eventuality !63

12 1 281 0,35% 99,65% 13 1 282 0,35% 100,00% Human_Group VERB на State_of_Affairs VERB в ответ Human 7. Следить № АЧ НАЧ ОЧ НОЧ 1 66 66 22,60% 22,60% Human/Institution VERB за Eventuality 2 53 119 18,15% 40,75% Human/Institution VERB за Activity 3 33 152 11,30% 52,05% Human/Institution VERB за тем чтобы/ чтобы придаточное 4 24 176 8,22% 60,27% Human/Institution VERB за State_of_Affairs 5 19 195 6,51% 66,78% Animate/ Institution VERB за Animate/Institution 6 18 213 6,16% 72,95% Human/Institution VERB за Information_Source 7 13 226 4,45% 77,40% Human VERB за Inanimate 8 11 237 3,77% 81,16% Human VERB за Numerical_Value/Temperature/ Time/Weight 9 9 246 3,08% 84,25% Human VERB за Self придаточное 10 6 252 2,05% 86,30% Human VERB как/за тем как/ какие/как бы не 11 6 258 2,05% 88,36% Human VERB за Body/Body_Part 12 5 263 1,71% 90,07% Human VERB за ? 13 6 269 2,05% 92,12% Human VERB за Abstract_Entity 14 5 274 1,71% 93,84% Human/Institution VERB за Artwork 15 4 278 1,37% 95,21% Human VERB что/за тем что придаточное 16 4 282 1,37% 96,58% Artifact VERB за Eventuality 17 2 284 0,68% 97,26% Human VERB 18 2 286 0,68% 97,95% Artifact VERB за Numerical_Value/Weight 19 1 287 0,34% 98,29% Body_Part(мозг!) VERB за Activity 20 1 288 0,34% 98,63% Human VERB Eventuality 21 1 289 0,34% 98,97% Human VERB за Route 22 1 290 0,34% 99,32% Human VERB за Speech 23 1 291 0,34% 99,66% Human VERB придаточное 24 1 292 0,34% 100,00 % VERB 8. Расти № АЧ НАЧ ОЧ НОЧ 1 65 65 22,03% 22,03% Plant/Plant_Part VERB (в виде/- Shape) 2 51 116 17,29% 39,32% Numerical_Value VERB (в/- Property) 3 47 163 15,93% 55,25% Eventuality VERB (Property) !64

4 32 195 10,85% 66,10% Money_Value/Asset VERB 5 26 221 8,81% 74,92% Animate VERB 6 18 239 6,10% 81,02% Light_Source VERB 7 15 254 5,08% 86,10% Body_Part/Body VERB 8 12 266 4,07% 90,17% Inanimate VERB 9 8 274 2,71% 92,88% ? VERB 10 9 283 3,05% 95,93% Abstract_Entity VERB 11 5 288 1,69% 97,63% Institution VERB 12 3 291 1,02% 98,64% руки VERB из «того» места/откуда/откуда надо 13 2 293 0,68% 99,32% Physical_Object VERB как грибы после дождика/словно грибы 14 1 294 0,34% 99,66% Illness VERB с Human 15 1 295 0,34% 100,00% Human VERB до Eventuality (в/- Property) как снежный ком 9. Кричать № АЧ НАЧ ОЧ НОЧ 1 118 118 40,27% 40,27% Human/ Human_Group VERB что/о том что/- придаточное (Huma n) (о/ про #) 2 80 198 27,30% 67,58% Animate VERB (Sound) 3 26 224 8,87% 76,45% Human VERB (придаточно е/Word) на Anima te (по Langua ge) 4 20 244 6,83% 83,28% Human VERB Word 5 10 254 3,41% 86,69% Human VERB о/про # 6 9 263 3,07% 89,76% Visible_Feature VERB 7 5 268 1,71% 91,47% Human VERB от Emotion/ Eventuality 8 3 271 1,02% 92,49% Abstract_Entity VERB что/о том что/- придаточное 9 3 274 1,02% 93,52% Body/ Body_Part VERB придаточное 10 3 277 1,02% 94,54% Information_So urce VERB Phrase 11 3 280 1,02% 95,56% Inanimate VERB о Eventuality 12 2 282 0,68% 96,25% Human VERB Human кому 13 2 284 0,68% 96,93% Information_So urce VERB о Eventuality 14 2 286 0,68% 97,61% Phrase VERB 15 1 287 0,34% 97,95% Eventuality VERB 16 1 288 0,34% 98,29% Human VERB чтобы придаточное 17 1 289 0,34% 98,63% Device VERB предложени е 18 1 290 0,34% 98,98% Emotion VERB о Eventuality 19 1 291 0,34% 99,32% Human VERB за Eventuality 20 1 292 0,34% 99,66% Liquid VERB !65

21 1 293 0,34% 100,00 % Property(голос !) VERB придаточное Human 10. Владеть № АЧ НАЧ ОЧ НОЧ 1 91 91 31,93% 31,93% Human/Institution VERB Eventuality 2 49 140 17,19% 49,12% Human VERB Language 3 42 182 14,74% 63,86% Human/Institution VERB Physical_Object 4 30 212 10,53% 74,39% Human/Institution VERB Information 5 25 237 8,77% 83,16% Human/Institution VERB Asset/Money_Value 6 18 255 6,32% 89,47% Human/Institution VERB Resource 7 7 262 2,46% 91,93% Human VERB Artifact 8 6 268 2,11% 94,04% Human/Institution VERB Institution 9 4 272 1,40% 95,44% Human VERB Self 10 3 275 1,05% 96,49% Abstract_Entity VERB Human_Group/Human 11 2 277 0,70% 97,19% Human VERB Psych 12 2 279 0,70% 97,89% Human VERB ? 13 2 281 0,70% 98,60% Artifact VERB Property 14 1 282 0,35% 98,95% Body_Part VERB Eventuality 15 1 283 0,35% 99,30% Concept VERB Property 16 1 284 0,35% 99,65% Human VERB Body 17 1 285 0,35% 100,00% Human VERB Property(голос!) 11. Дышать № АЧ НАЧ ОЧ НОЧ 1 116 116 41,73% 41,73% Animate VERB 2 51 167 18,35% 60,07% Inanimate VERB 3 34 201 12,23% 72,30% Human VERB 4 23 224 8,27% 80,58% Body/Body_Part VERB 5 10 234 3,60% 84,17% Animate VERB ? 6 8 242 2,88% 87,05% Human VERB (через) 7 6 248 2,16% 89,21% Inanimate VERB Abstract_Entity 8 9 257 3,24% 92,45% Human VERB Abstract_Entity 9 3 260 1,08% 93,53% ? VERB 10 3 263 1,08% 94,60% Plant/Plant_Part VERB 11 3 266 1,08% 95,68% Human VERB Human 12 3 269 1,08% 96,76% Machine VERB на ладан 13 1 270 0,36% 97,12% ? VERB Eventuality Vapour/Dust Body_Part в ухо/ затылок !66

14 1 271 0,36% 97,48% Abstract_Entity VERB 15 1 272 0,36% 97,84% Human VERB Artwork 16 1 273 0,36% 98,20% Human VERB Fire 17 1 274 0,36% 98,56% Human VERB Human 18 1 275 0,36% 98,92% Human VERB Plant 19 1 276 0,36% 99,28% Human VERB на 20 1 277 0,36% 99,64% Time_Period VERB Time_Period 21 1 278 0,36% 100,00% кем ? VERB 12. Зарабатывать № АЧ НАЧ ОЧ НОЧ 1 106 106 35,93% 35,93% Human/ Institution VERB Money 2 83 189 28,14% 64,07% Human/ Institution VERB (Human _Role) 3 71 260 24,07% 88,14% Human/ Institution VERB (Money) на/от/-/ c 4 15 275 5,08% 93,22% Human VERB Abstract _Entity (Eventu ality) (Eventu ality) кем 5 9 284 3,05% 96,27% Human VERB на жизнь/ хлеб 6 3 287 1,02% 97,29% Artifact VERB (Money) (Human ) (на VERB (Eventu ality/ Money) (на ?) Inanima te/? 7 3 290 1,02% 98,31% Abstract_E ntity 8 3 293 1,02% 99,32% Human VERB на 9 1 294 0,34% 99,66% Human VERB Illness Human VERB в что на чем Eventuality/ Physical_Object/? Eventu ality) на что 100,00 10 1 295 0,34% % Money 13. Заменять № АЧ НАЧ ОЧ НОЧ 1 68 68 24,03% 24,03% Inanimate VERB Inanimate (собой) (Human) 2 53 121 18,73% 42,76% Human/Institution VERB Inanimate (на) Inanimate 3 39 160 13,78% 56,54% Eventuality VERB Eventuality (собой) (Human) 4 35 195 12,37% 68,90% Human/Institution VERB Inanimate 5 15 210 5,30% 74,20% Human/Institution VERB Human/ Institution (Human) 6 13 223 4,59% 78,80% Human VERB Abstract_Ent ity (на) 7 13 236 4,59% 83,39% Abstract_Entity VERB Abstract_Ent ity (собой) 8 11 247 3,89% 87,28% Human VERB Eventuality (на) кто что Abstract_Enti ty Eventuality !67

9 8 255 2,83% 90,11% Human VERB ? Eventuality/ Inanimate/? 10 7 262 2,47% 92,58% Document VERB Document (Human) 11 5 267 1,77% 94,35% Inanimate VERB Animate (Human) 12 4 271 1,41% 95,76% Abstract_Entity VERB Eventuality 13 4 275 1,41% 97,17% Eventuality/ Inanimate VERB ? 14 2 277 0,71% 97,88% Eventuality VERB Physical_Obj ect 15 1 278 0,35% 98,23% ? VERB Abstract_Ent ity Abstract_Entity 16 1 279 0,35% 98,59% Inanimate VERB Eventuality Eventuality 17 1 280 0,35% 98,94% Human VERB Abstract_Ent ity 18 1 281 0,35% 99,29% Human VERB Eventuality Inanimate 19 1 282 0,35% 99,65% Eventuality VERB Abstract_Ent ity на 20 1 283 0,35% 100,00 % Abstract_Enti ty VERB 14. Говорить № АЧ НАЧ ОЧ НОЧ 1 71 71 23,99% 23,99% Human VERB о/про/- # (Human) 2 61 132 20,61% 44,59% Human VERB придаточн ое (Human) (о/про #) что / о том, что/ о том, как придаточное что придато чное что/в пользу того, что придато чное 3 51 183 17,23% 61,82% Human VERB 4 30 213 10,14% 71,96% Human VERB 5 17 230 5,74% 77,70% 6 9 239 3,04% (Property) VERB 80,74% ?/ Eventuali ty VERB о/ в пользу ?/Eventuality/ Property VERB о том, что придаточное 7 8 247 2,70% 83,45% ?/ Eventuali ty 8 7 254 2,36% 85,81% Human VERB Word/ Phrase (Human) 9 7 261 2,36% 88,18% neg VERB о # 10 6 267 2,03% 90,20% Human VERB по/на Language VERB о Eventuality/ 11 6 273 2,03% 92,23% Informati on_Sour ce 12 5 278 1,69% 93,92% Human VERB с Human 13 4 282 1,35% 95,27% Numerica l_Value VERB о Eventuality/ VERB чтобы/ для того, чтобы придаточное 14 3 285 1,01% 96,28% Human (Hum an) !68

15 2 287 0,68% 96,96% Human VERB Concept 16 2 289 0,68% 97,64% Human VERB от Name/Self 17 2 291 0,68% 98,31% VERB о том, что/ чтобы придаточное 18 2 293 0,68% 98,99% Artifact VERB о Eventuality/ 19 1 294 0,34% 99,32% Abstract _Entity VERB ? Human 20 1 295 0,34% 99,66% Body_Pa rt VERB ? о 21 1 296 0,34% 100,00 % Human VERB за Eventuality придато чное что (Hum an) Human 15. Выживать № АЧ НАЧ ОЧ НОЧ 1 213 213 71,72% 71,72% Animate VERB 2 37 250 12,46% 84,18% Institution/Human_Group VERB 3 20 270 6,73% 90,91% Human(сильнейший!) VERB 4 11 281 3,70% 94,61% Human VERB 5 5 286 1,68% 96,30% Body VERB 6 5 291 1,68% 97,98% Human VERB 7 3 294 1,01% 98,99% Abstract_Entity VERB 8 1 295 0,34% 99,33% Artifact VERB 9 1 296 0,34% 99,66% Plant VERB 10 1 297 0,34% 100,00% Eventuality VERB ОЧ НОЧ Human (из на Money_Value Location) Human 16. Доверять № АЧ НАЧ Animate/ Animate/Institution/ 1 164 164 54,85% 54,85% Institution VERB Human_Group 2 23 187 7,69% 62,54% Human VERB Language_Part/Concept 3 18 205 6,02% 68,56% Human VERB Abstract_Entity 4 16 221 5,35% 73,91% Human/Institution VERB Activity Human_Group 5 15 236 5,02% 78,93% Human/Institution VERB # Human/Institution 6 14 250 4,68% 83,61% Human/Institution VERB 7 14 264 4,68% 88,29% Human_Group VERB Eventuality/Decision 8 12 276 4,01% 92,31% Human VERB Inanimate 9 7 283 2,34% 94,65% Animate VERB Psych 10 6 289 2,01% 96,66% Human VERB Self 11 3 292 1,00% 97,66% Human VERB Money_Value H u m a n / Human/ !69

12 2 294 0,67% 98,33% Human VERB Abstract_Entity(Бог!) 13 1 295 0,33% 98,66% Human VERB Concept Artifact 14 1 296 0,33% 99,00% Human VERB Activity System 15 1 297 0,33% 99,33% Human VERB State_of_Affairs 16 1 298 0,33% 99,67% Human VERB что Psych VERB Human предложение 100,00 17 1 299 0,33% %   !70

Приложение Б. Анализ словарных значений !71

Ушаков Ожегов МАС Кузнецов паттерны подниматься Взойти, взлететь наверх + + + + Переместиться на вышенаходящееся место + + + + + встать + + + + + Проплыть вверх по реке, против течения + + + Появиться над горизонтом, взойти + + + + + + + Взбудоражиться + Тронуться, двинуться с места + восстать + Выйти из норы, логова (охот.). + Перейти в какой-н. аллюр (воен., спорт.) + Стать более высоким по тону (муз.). + + Подняться с постели + + + + + + + + + + + + (1 и 2 л. неупотр.). Увеличиться, повыситься + + + + (1 и 2 л. не употр.). Налаживаясь, улучшиться, развиться + Возвыситься, укрепиться (в общественном положении) + (1 и 2 л. не употр.). О тесте, тестообразной массе + (1 и 2 л: не употр.).Возникнуть, начаться + Приступить к активным действиям (1 и 2 л. не употр.).Стать более высоким, повыситься в уровне + + + + + + + + Располагаться, простираться в направлении снизу вверх + + + возвышаться над чем-л + + + Стать более бодрым, улучшиться (о настроении) + + Рука не поднимается + + бросать кого-что. Выпустив из руки сильным размахом, заставлять лететь и падать вдалеке + + + + + + + + + + + + + + + + Направлять, пускать + Нацеливаясь чем-н., пускать + Небрежно класть + Выбрасывать Быстро передвигать, перебрасывать на какое-н. место, сосредоточивая в каком-н. месте Покидать, оставлять + Прекращать чем-л. заниматься + Говорить + кого-что во что, безл. Внезапно охватывать + Расточать, проматывать + + + + + + + + + + + + + + !72

Бросать якорь + Бросать оружие + + Бросать тень, свет(+ перен.) + + + + Бросать взгляд + + + + Бросать жребий + + + брось(те), также с неопр. Употр. в знач. перестань(те) + + безл. Сильно качать + + + + накрывать что. Закрыть чем-н. положенным сверху + + + + перен. кого-что. Поймать + + + + Накрыть стол или накрыть на стол + + + + + + + + + + + + + Поразить огнем + драться с кем-чем или без доп. бить друг друга + Сражаться (воен.) + + + + без доп. бить, наносить побои + + + + перен., за что. Бороться за что-н. + + + + + + + + + Сражаться (на поединке, в бою) пилить что. Разрезать твердое вещество + + Пилить дрова + + кого-что. Мучить + Резать пилой, а также снимать слой металла напильником + + Играть на смычковом музыкальном инструменте + + + + + + + + + + + следить за кем-чем (кого-что устар.) и без доп. Наблюдать движущееся+ Вообще Наблюдать п е р е н . , з а ке м - ч е м . В н и м ат е л ь н о в с л у ш и ват ь с я , всматриваться + + + + + + + + + перен., за чем. Интересоваться ходом, развитием чего-н + + + + + за кем-чем и без доп. Наблюдая, заботиться + + + + + + + + + + + за кем-чем. Наблюдать чьи-н. движения, действия с целью выяснения чего-н кого-что. Отыскивать по следу (охот.) + Охранять, оберегать + + говорить пользоваться, владеть устной речью + Уметь пользоваться устной речью на каком-н. языке + + + + + + + + !73

что и о чем. устно сообщать что-н + что и без доп. Выступать публично + о ком-чем. Делать из кого-чего-н. предмет толков + о ком-чем. Высказывать, Выражать какое-н. мнение, суждение о ком-чем-н с кем-чем. Разговаривать перен., что и без доп. Выражать что-н., быть содержательным (о словах) перен., что и о чем. Выражать какую-н. мысль, сообщать чтон. своим внешним видом (без помощи слов) + + + + + + + + + + + + + + + + + быть выразительным (разг.) + перен., о чем и в пользу чего. Свидетельствовать о чем-н. + + + + Проявляться в чьих-н. поступках, словах + + + + Нечего говорить + Как-то говоря вводное + на кого. Называть кого-н. как виновника чего-н + + + + + + + + + + зарабатывать что и без доп. Добыть, приобрести работой + Заработать себе на жизнь + Получить в результате чего-н. (прост, ирон.) + + + + + + + + + + + + + + + + + + дышать Делать вдохи и выдохи + Поглощать кислород Дуть, веять (поэт. устар.) + чем. Быть проникнутым чем-н + + перен. Пропускать воздух + На ладан дышит + + + + + Существовать, жить + Обнаруживаться, проявляться + + кричать без доп. Издавать громкие крики, вопли. + + + + + Громким голосом сообщать + + + + + на кого-что. Бранить кого-н + + + + + о чем. Привлекать общественное внимание + о ком-чем. Много и подробно обсуждать что-н. злободневное (разг.) Звать кого-л. громким голосом Быть ярким свидетельством чего-л + + + + + + + + рожать !74

О женщине: путем родов произвести (производить) на свет (младенца) + Дать жизнь кому-н + перен. Дать (давать) начало чему-н + О почве: принести(-носить) плоды, урожай + + + + + + + + + + + + + + расти О живых существах, организмах + + + + + О детях, подростках: жить, проводить время + + + + + Умножаться + + + + + Увеличиваться в размерах + + + + + Усиливаться + + + + + Совершенствоваться + + + + + О растениях: водиться + + + + + О растениях: находиться + + + + + + + + Становиться взрослым заменять кем-чем. Заместить, взять, поставить взамен другого + + + + + Заступить место кого-чего-н + + + + + Прийти, появиться на смену кому-чему-н + + + + + чем. иметь что-н. своей собственностью + + + + + кем-чем. Держать в своей власти, управлять + + + + + владеть Обладать способностью подчинять своему влиянию + перен. Подчинять себе, охватывать (о мыслях, чувствах + + + + + + + + + Быть в состоянии действовать чем-н + уметь обращаться с каким-н. предметом + Владеть собой + + + + Владеть ситуацией + Владеть голосом + + + + + + + выживать Остаться в живых, уцелеть + Пробыть, прожить где-н. нек-рое время (разг.) + + Перенести, пережить Принудить оставить помещение, место, выгнать откуда-н. (разг.). + + + Выжить из памяти + + Выжить из ума + + + + + + доверять кому-чему в чем. Иметь доверие + + кого-что. Поручить, оставить на сохранение по доверию + + + + + + + !75

Дать поручение, выдать доверенность + + !76

Рецензии:

Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Отзывы:

Авторизуйтесь, чтобы оставить отзыв