Исследовательский потенциал систем Big Data (на материале анализа предикатов seem, appear)

Гулиянц С.Б.

Исследовательский потенциал систем Big Data (на материале анализа предикатов seem, appear)

В представленной работе анализируется возможность применения системы Big Data для исследования предикатов, на примере to seem и to appear. Изучая применение больших данных в лингвистике, стоит отметить, что потенциал этой системы в данном поле на сегодняшний день изучен слабо, что определяет актуальность выбранной темы. Материалом диссертационного исследования послужили системы Big Data, а также словосочетания, предложения, тексты разнообразных тематик и дискурсов с глаголами to seem и to appear, отобранные с их помощью. Исследование показало, что развитие систем Big Data, включающих корпусные данные и данные разнообразных поисковых систем, открывает новые возможности и позволяет ставить и решать различные исследовательские задачи оптимальным образом.

Языкознание

Дипломы

Вуз: Московский городской педагогический университет (МГПУ)

ID: 60e57175e4dde5000173e67d

UUID: 40e58f80-c132-0139-3ab2-0242ac180005

Язык: Русский

Опубликовано: почти 3 года назад

Просмотры: 6

31.28

Гулиянц С.Б.

Московский городской педагогический университет (МГПУ)

Комментировать 1

Рецензировать 0

Скачать - 1,4 МБ

Поделиться работой

Департамент образования и науки города Москвы Государственное автономное образовательное учреждение высшего образования города Москвы «Московский городской педагогический университет» Институт иностранных языков Кафедры языкознания и переводоведения Басанин Кирилл Олегович Исследовательский потенциал систем Big Data (на материале анализа предикатов seem, appear) ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА Направление подготовки – 45.03.02 «Лингвистика» Профиль подготовки – Перевод и переводоведение – английский язык (очная форма обучения) Руководитель ВКР: кандидат педагогических наук, доцент Гулиянц Светлана Борисовна Рецензент: кандидат филологических наук, доцент Трухановская Наталья Сергеевна Зав. выпускающей кафедрой: доктор филологических наук, профессор Сулейманова Ольга Аркадьевна

Аннотация. В Москва 2020 представленной работе анализируется возможность применения системы Big Data для исследования предикатов, на примере to seem и to appear. Изучая применение больших данных в лингвистике, стоит отметить, что потенциал этой системы в данном поле на сегодняшний день изучен слабо, что определяет актуальность выбранной темы. Материалом диссертационного исследования послужили системы Big Data, а также словосочетания, предложения, тексты разнообразных тематик и дискурсов с глаголами to seem и to appear, отобранные с их помощью. Исследование показало, что развитие систем Big Data, включающих корпусные данные и данные разнообразных поисковых систем, открывает новые возможности и позволяет ставить и решать различные исследовательские задачи оптимальным образом. Ключевые слова: Big Data; предикаты to seem и to appear; лингвистика, потенциал систем. Abstract. The aim of the research is to analyze the possibility of Big Data systems usage for predicate research, for example, such as: to seem, to appear. Considering Big Data usage in linguistics, it is worth mentioning that the potential of the systems in this field is currently underexplored, which determines the relevance of the research topic. Phrases, sentences, texts on various topics and discourses with to seem and to appear, selected with the help of Big Data systems, are used as study material. 2

The research suggests that the development of Big Data systems, including corpus data and data from various searching systems, provides new opportunities and allows us to set and solve different research goals in optimal way. Keywords: Big Data; predicates to seem and to appear; linguistics; systems potential. СОДЕРЖАНИЕ Введение………………………………………………………………. …………4 Глава I. Исследовательский потенциал систем Big Data………………….9 1.1 Системы Big Data – понимание и Data в применение………………………...……9 1.2 Потенциал систем Big научных исследованиях……………………16 1.3 Применение систем Big Data в лингвистике……………………………….21 Выводы по главе I……………………………………………………. ………….35 Глава II. Возможности систем Big Data для анализа предикатов to seem и to appear………………………………………………….……………….……36 2.1 Понимание предикативности в лингвистике…………………………...….36 2.2 Семантика предикатов to seem и to appear …………………... ……………41 3

2.3 Исследование возможностей систем Big Data с помощью предикатов to seem и to appear …………………………………………………….………...49 Выводы по главе II………………………………………………………….. …..70 Заключение………………………………………………………………….. …72 Библиография………………………………………………………………. ….74 Приложения……………………………………………………………………. ..83 Введение В настоящей потенциала систем работе Big представлено Data на исследование материале анализа предикатов (seem, appear). Актуальность исследования. 4 Многие эксперты

разделяют мнение о том, что ускорение роста данных стало объективной реальностью. Цифровые технологии проникли в жизнь современного человека. Источники, генерирующие огромные объемы информации, сегодня встречаются повсеместно: от смартфонов и социальных сетей до данных с многочисленных устройств измерения. Объем данных по различным аспектам жизни растет, и в то же время растут возможности хранения информации. Уже в начале века отмечалось, что на устройствах хранения информации данные накапливаются слишком быстро, и скорость их накопления превышает скорость обработки [Gray 2004]. Сегодня доступной емкости на носителях уже не хватает для хранения объемов данных из многочисленных источников информации. Одновременно с этим разница между количеством данных, которое может быть обработано, и возможностями хранения также быстро растет [Tauheed 2013]. Системы Big Data или большие данные это не только хранение больших объемов информации. Они также предоставляют инструменты для решения такой сложной задачи, как анализ огромного объема разрозненных и слабоструктурированных данных. Большой интерес к теме вызван широким технологий в распространением общем, и систем Big информационных Data в частности. Исследование и применение больших данных в различных областях научного знания показывает возможность использования этих систем и в науке о языке. В.П. Захаровым анализируются поисковые системы Интернета как инструменты лингвистических исследований, 5

описываются экспериментальные исследования устойчивости словосочетаний и способы их количественной оценки в синхронии и диахронии. Он считает, что количественная оценка лингвистических данных и математические методы их обработки представляют большой интерес для лингвистов [Захаров 2003,2015]. В работе О.В. Нагель анализируется языковой материал корпуса с точки зрения потенциала обучения, также прикладной рассматривается лингвистики иностранного языка. в применение методике Корпусные методов преподавании методы изучения иностранного языка сочетают в себе целый ряд преимуществ: аутентичность, междисциплинарность, адаптацию к конкретным целевым группам и задачам. По мнению О.В. Нагель, это делает их эффективным дополнением к традиционным образовательным технологиям [Нагель 2008]. Однако потенциал систем Big Data в области лингвистики на данный момент раскрыт не полностью, что и определяет актуальность выбранной темы. Новизна исследования заключается в: использовании традиционных для лингвистики методов компонентного анализа в сочетании с интерпретацией данных, полученных из национальных корпусов текстов; уточнении языковых существующих единиц; описаний анализе получении новых и семантики возможностей данных применения различных систем Big Data для исследований в области предикатов. Теоретической положения, области: базой представленные предикатов (Е.В. послужили в трудах Ильчук, 6 Ю.Д. отдельные специалистов Апресян, в О.Н.

Селиверстова, Л.В. Щерба, З. Вендлера и др.); систем Big Data (В.П. Захаров, О.В. Нагель, А.С. Большаков, О.В. Журенков, Д. Бойд, К. Кроуфорд, О.А. Сулейманова, В.В. Демченко и др.). Объект исследования: исследовательский потенциал систем Big Data. Предмет исследования: потенциал систем Big Data для исследования предикатов to seem и to appear. Цель исследования: выявить потенциал систем Big Data для исследования предикатов. Задачи исследования: 1) описать, что такое большие данные (Big Data); 2) провести анализ лингвистических исследований, в которых использовались системы Big Data, выявить их специфику и особенности; 3) описать семантические особенности предикатов to seem и to appear; 4) применить системы Big Data для исследования предикатов to seem, to appear; 5) проанализировать полученные в ходе исследования данные и сделать выводы. Материалом исследования стали 420 примеров употребления английских предикатов to seem и to appear из Корпуса современного американского английского языка, Британского национального корпуса текстов, а также результаты десяти анкетирований носителей английского языка. В работе использовались сервисы Google Books Ngram Viewer, Google Trends, Google docs – для сбора анкет информантов, SentiStrength, электронный тезаурус WordNet 7

и электронные словари: Большой Оксфордский Словарь, Словарь Вебстера, Кембриджский словарь, Этимологический онлайн словарь и другие. Методы исследования: на первом этапе была изучена история возникновения систем Big Data, описано их использование в различных областях. На втором этапе исследования проанализированы работы, в которых представлено, что такое предикативность, описана разница в семантике предикатов to seem и to appear. На третьем на примере предикатов возможности to систем seem больших и to appear данных для изучались проведения лингвистических исследований (уточнения семантического значения предикатов, употребления, поиска опровержения определения коллокаций, частотности их подтверждения или высказанных исследователями предположений, определение эмоциональной окраски). Для уточнения семантики предикатов применяется триангуляционный подход, включающий в себя составление запросов в поисковых системах, корпусный и семантический эксперименты. На четвертом этапе полученные данные были обобщены и описаны. Теоретическая заключается в систем Data Big значимость описании на исследования исследовательского материале анализа потенциала предикатов. Полученные в ходе исследования результаты, могут стать основой для дальнейших научных работ в сфере предикатов, а также использования информационных лингвистических исследованиях. 8 технологий в

Практическая значимость исследования состоит в том, что полученные результаты могут быть использованы в преподавании практических и теоретических дисциплин, например, «Практический курс первого иностранного языка», «Теория перевода», «Языкознание», «Теоретическая грамматика»). Они будут полезны при составлении учебных и справочных пособий по теории и практике перевода, при написании дипломных и курсовых работ, статей по сходной тематике. Структура исследования. Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы и приложений. Во введении обосновывается актуальность исследования, определяются его объект, цели и задачи, раскрываются практическая и теоретическая значимость, перечисляются используемые методы исследования. В первой главе «Исследовательский потенциал систем Big Data» анализируется, что такое Big Data, а также описывается потенциал и опыт применения этих систем в научных, лингвистических и лингвокогнитивных исследованиях. Во второй главе «Использование систем Big Data для анализа предикатов to seem и to appear» рассматривается понимание предикативности в лингвистике, описываются и анализируются результаты применения систем Big Data для исследования предикатов to seem, to appear. 9

В заключении сформулированы основные выводы по результатам исследования. Библиография представляет собой полный перечень используемой литературы и состоит из 86 наименований, из них 22 на иностранном языке. Приложения включают дополнительный материал к тексту выпускной квалификационной работы. В них представлены методики анализа массива данных, список и описание наиболее популярных лингвистических корпусов, результаты поиска в корпусных менеджерах и др. Апробация исследования. Основные теоретические и практические положения данной работы нашли свое отражение в статьях:  Басанин К.О. Исследовательский потенциал систем Big Data // Электронный сборник статей по материалам LXXXI студенческой международной научно-практической конференции. – Новосибирск: Изд. ООО «СибАК». – 2019. – № 9 (81). – С. 12-19.  Басанин К.О. Исследовательский потенциал систем Big Data в лингвистике и методике преподавания иностранного языка // Сборник статей по материалам конференции «Иностранный язык. Методические вопросы подготовки конкурентоспособного выпускника» (в печати). Исследование Международном также было лингвистическом постерного доклада. 10 представлено коллоквиуме на в 54 форме

Глава I. Исследовательский потенциал систем Big Data В первой главе рассматриваются системы Big Data, даются их характеристики, описываются особенности и сфера применения. На сегодняшний день Big Data – это работающий набор технологий, которые используются в тех сферах деятельности человека, где требуется собирать и анализировать огромные массивы информации. Описывается использование и потенциал Big Data в физике, климатологии, генетике и т.д. Более глубоко рассматриваются предпосылки возникновения корпусной лингвистики, существующие подходы к изучению этой области научного знания, а также приводятся типология лингвистических корпусов и возможности конкорданса (анализ частотности слов в языке, определение значения лингвистическом корпусе слова по в его национальном контексту, изучение словоупотребления и грамматических сторон языка). 1.1 Системы Big Data – понимание и применение В современном мире цифровых технологий постоянно увеличивающиеся решений для объемы информации организации ее требуют анализа и новых хранения. Источником данных может служить непрерывный поток 11

информации от сообщений из соцсетей до информации со всевозможных устройств измерения, например, датчиков находящихся в океане. Так, даже с ограничением количества символов в сообщении, социальной сетью Твиттер ежедневно генерируется восемь терабайт данных. Сбор всех подобных данных для последующей обработки означает, что возникнет потребность хранения тысяч петабайт информации. При изменении состава такого рода данных, к примеру, при запуске новых сервисов, установке улучшенных датчиков или создании новых маркетинговых дополнительные трудности. распространение кампаний, возникают Повсеместное вышеперечисленных технологий и абсолютно новых способов применения разнообразных вебсервисов и устройств стало началом проникновения больших данных почти во все сферы человеческой деятельности. Согласно информация, Кэмбриджскому особенно факты словарю: данные – это и собранные для числа, последующего использования при принятии решений (часто в электронной форме), пригодная для хранения и использования компьютером [Cambridge dictionary]. Впервые термин Big Data или большие данные был употреблен в 2008 году Клиффордом Линчем, редактором журнала «Nature». В статье он рассказывал о многообразии данных и феномене бурного роста их количества. Большими данными обычно называют громадные массивы информации, неопределенные Большие и данные неоднородные это не просто по своей структуре. неструктурированная информация, они имеют определенную структуру. Поскольку данные поступают из разнообразных 12 источников и

представляют собой отличные друг от друга или вовсе неизвестные сведения, их структура довольно сложная [Кравченко, Крюкова 2016]. Согласно сервису Google Trends активный рост употребления словосочетания Big Data начался с 2011 года (см. Рис. 1). Рис.1.Частотность употребления словосочетания Big Data Обычно большие данные описываются при помощи следующих характеристик:  Volume – объем. Эта характеристика является самым важным и наиболее заметным параметром аналитических процессов на основе больших данных. Слово большой показывает, что 90% всех мировых данных было получено в течение последних десяти лет, благодаря взрывному росту компьютерных технологий.  Velocity – быстрота реакции. Скорость принятия решения – это время между моментом получения определенных данных и моментом принятия решения, исходя из полученной информации. Это основной фактор, больших определяющий данных. эффективность Новые технологии структуры способны обрабатывать огромные объемы данных в реальном или 13

почти реальном времени. Благодаря этому компании могут адекватно и быстро реагировать на любые изменения.  Variety – разнообразие форм. Структуры Big Data, содержащие разнородные и неупорядоченные данные, могут быть представлены в виде текста, информации, полученной от датчиков, по запросам видео- и аудиоданных, маршрутов навигации. Они также могут содержать данные, которые требуют времени и соответствующих технологий для преобразования в форму, доступную для обработки и анализа [Новиков 2013]. Помимо вышеперечисленных характеристик, в некоторых источниках выделяются еще две:  Veracity данных – достоверность является надежности, (аутентичность). инструментом наиболее важной для Анализ оценки их характеристикой, которая может служить основанием для принятия важных решений. Однако большие объемы данных могут между быть ненадежными из-за информационными неполноценности или отсутствия связи элементами, их скрытого состояния. Современные информационные системы должны иметь возможность различать, оценивать и классифицировать различные массивы данных, чтобы поддерживать определенный уровень надежности.  Variability – изменчивость. Противоречивость наборов данных может препятствовать управлению ими [Харин 2017]. 14 их обработке и

Однако, по мнению некоторых исследователей, система имеет свои слабые стороны. Д. Бойд и К. Кроуф выделили следующие несовершенства систем Big Data: 1) ошибочное ощущение объективности, поскольку в центре обработки находится субъективная по своей природе интерпретация найденных закономерностей; 2) большое количество данных может быть минусом, поскольку не все они касаются изучаемой проблемы. Также огромное количество информации может быть лишено корреляций; 3) данные могут потерять смысл, если будут рассматриваться вне контекста; 4) нерелевантная информация искажает смысл данных; 5) ошибки репрезентативности и измерения – в таком случае программа задает неправильный алгоритм, вследствие чего данные будут невалидными [Boyd, Crawford 2012]. Помимо технических проблем существует ряд этических. Их решение является более проблематичным. Этические проблемы можно объединить в следующие группы: 1) закрытость данных для некоторых слоев населения; 2) отслеживание информации о пользователе в сети, как в реальном времени, так и его истории; 3) нарушение приватности [Одинцов 2017]. Принимая существует во точка общедоступность внимание зрения, больших эти этические которая данных, что проблемы, подразумевает в свою очередь благоприятно влияет на увеличение осведомленности в сфере 15

информационных технологий, среди обычных пользователей и работников научной сферы. Взаимодействие систем Big Data с методами исследования общественного наиболее эффективным на данный качественными мнения момент. является Поскольку анализируя только статистические данные нельзя точно выявить, какая переменная является зависимой, а какая нет. Также возможно наличие третьего фактора, который может оказывать влияние на два остальных параметра. Поэтому к тем данным, которые можно получить через анализ Big Data необходимо качественное дополнение [Радченко, Николаев 2018]. Технологии на основе больших данных на сегодняшний день используются сферы деятельности повсеместно. человека, Перечислим в которых некоторые они нашли применение. Big Data в торговой сфере – это сбор данных о предпочтениях потребителей: анализ опросов, совершенных покупок, обзоров товаров в Интернет-магазинах, телефонных разговоров с центрами обработки вызовов клиентов. Собранная информация помогает компаниям понять, почему одни продукты пользуются спросом, а другие нет. В сфере коммунальных услуг большие данные обеспечивают анализ информации, поступающей от приборов учета, например, от различных счетчиков. Этот метод сбора информации может уменьшить человеческий фактор и, как следствие, количество ошибок. Это также облегчает анализ большого количества поступающей информации. В телекоммуникациях – это вся внутренняя информация с подключенных к сети устройств. Данные геолокации, 16

история поиска и посещения различных сайтов сети Интернет. В случае необходимости, весь трафик может быть проанализирован, как при запросе от самого пользователя, так и при запросе пользователей от правоохранительных смартфонов IPhone и органов. Android У есть приложения, которые используют технологию распознавания лиц для различных задач. При использовании такой системы на большом предприятии, можно оптимизировать контроль сотрудников. Большие данные нашли применение в автомобильной индустрии. Автомобильные бренды активно используют системы Big Data. С помощью данных, полученных с тестовых прототипов, они помогают выявить проблемные области конструкции еще на стадии проекта. В течение дальнейшей эксплуатации, благодаря информации о неисправностях от владельцев и СТО по всему миру, можно быстро исправить проявившиеся дефекты конструкции. Применение технологий больших данных в финансовой сфере дает банкам возможность проводить собственный анализ кредитных рейтингов для существующих клиентов, используя широкий спектр данных, в том числе данных о чеках, сбережениях, кредитных картах, ипотеках и инвестициях. Реализация технологий Big Data в медицинской сфере дает медикам возможность собирать данные для более тщательного лечение получить изучения более болезни, эффективно, другую важную чтобы выявить 17 какое закономерности информацию, помочь пациентам. увидеть, которая и может

Системы Big Data также применяются полицией. Департамент полиции Лос-Анджелеса использует систему собственной разработки. Она анализирует отчеты о преступлениях за конкретный период времени и с помощью определенных алгоритмов вычисляет места с наибольшей вероятностью совершения правонарушений. Большие данные используются Интернет-корпорациями, например, Яндекс. Компания разработала алгоритмы для определения целевой аудитории для трансляции рекламы, мониторинга ситуации с трафиком, оптимизации выдачи результатов поиска и музыкальных рекомендаций. Несмотря на сравнительно небольшой период функционирования систем Big Data, уже существуют оценки их эффективности на основе реальных примеров. Эксперты в области энергетики утверждают, что технологии Big Data могут повысить эффективность генераторов на 95-98%, благодаря более правильному распределению мощностей. Структура здравоохранения США может экономить до 300 миллиардов долларов. В России доступны программы от ведущих производителей: Cisco, HP, IBM, Microsoft, Oracle, Apache. Однако на данный момент проектов по реализации немного. Российский преимущества рынок данной только начинает технологии, но использовать большинство аналитиков прогнозируют взрывной рост технологий Big Data. Корпорация EMC в 2013 году провела опрос среди российских компаний. В ходе исследования было установлено, что применение систем Big Data существенно 18

улучшает процессы принятия решений, упрощает управление рисками и повышает конкурентоспособность компании:  по мнению компании 70% респондентов, поможет принимать анализ более данных их обоснованные решения;  45% опрошенных уверены, что руководство использует результаты анализа Big Data для принятия важных бизнес решений;  55% респондентов согласны, что технологии анализа Big Data помогут в выявлении и предотвращении кибератак [Иванов, Вампилова 2014]. Существует много различных методов анализа массивов данных, основанных на инструментах, заимствованных из статистики и информатики. Постоянно ведется работа над созданием методов. новых и совершенствованием Некоторые из них могут существующих быть успешно использованы не только для больших данных, но и для небольших массивов информации. Однако точность полученных данных напрямую зависит от анализируемого массива – чем он разнообразнее и объемнее, тем точнее будут полученные перечислены на наиболее выходе данные. популярные В списке методы из ниже разных отраслей. Association Rule Learning – методики для выявления взаимосвязей между переменными величинами в больших массивах данных. Data Fusion and Data Integration – набор методик, с помощью которого комментарии пользователей социальных сетей сопоставляются с результатами продаж в режиме 19

реального времени. Machine создание Learning или искусственный интеллект – алгоритмов самообучения на основе анализа эмпирических данных. Natural Language Processing (NLP) – набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека. Полный список и описание всех методик можно найти в приложении (см. Приложение 1). Человек сталкивается с большими данными каждый день. На современном этапе развития системы Big Data представляет собой набор технологий, которые могут быть полезны во многих областях человеческой жизни. Большие данные объемы помогают собирать информации, представителями и анализировать которая активно автомобильной огромные используется промышленности, Интернет-корпорациями, полицией, работниками системы здравоохранения и др. 1.2 Потенциал систем Big Data в научных исследованиях Технологии ускоряют анализа исследования информационных в различных массивов областях: от астрофизики и генетики до социологии и лингвистики. Физика как наука имела дело с огромными объемами данных еще до того как само понятие Big Data было сформулировано. В 1960-х годах представители субъядерной физики, стремясь исследовать частицы, из которых состоит 20

вселенная, впервые стали использовать компьютеры для сбора, моделирования и анализа данных. Усилия по обмену и обработке количества данных, сгенерированных в CERN – крупнейшей лаборатории физики элементарных частиц в мире – в конечном итоге привели к созданию Всемирной паутины (в 1989 году). Сегодня Большой Адронный Коллайдер (LHC) – главный ускоритель частиц CERN – производит 1 миллиард столкновений частиц в секунду. Такие испытания дают представление о фундаментальных составляющих вселенной, генерируя более 30 петабайт данных в год. Эти данные доступны сообществу тысяч физиков по всему миру практически в режиме реального времени через крупнейшую в мире распределенную вычислительную инфраструктуру, известную как Worldwide LHC Computing Grid. Хотя эта система в настоящее время хорошо работает с CERN, будущие обновления и потенциальные преемники LHC будут производить на несколько порядков больше данных. Перед учеными стоит задача справиться с таким потоком данных. Эта проблема генерирующих и касается и анализирующих других устройств, большие данные. Например, новый телескоп Square Kilometre Array, цель которого – ответить на фундаментальные вопросы о происхождении и эволюции Вселенной. Ожидается, что он будет производить около 15 терабайт информации за одну ночь. Одной из задач наблюдения неба является поиск гравитационных линз. До недавнего времени большая часть линз была открыта случайно. Астроном Карло Энрико Петрильо и его коллеги обучили искусственный интеллекту 21

искать те самые гравитационные линзы, и результаты превзошли ожидания. Очень внимательный и эффективный исследователь может просматривать около тысячи снимков в час, нужный объект обнаруживается с частотой приблизительно один раз в 30 000 галактик. То есть человек, работающий неделю без сна и отдыха, может найти около 5 или 6 линз за всю свою жизнь. Нейронная сеть команды Petrillo всего за 20 минут анализирует 21 789 снимков, используя только один старый компьютер. Пока точность компьютерного интеллекта потенциальных не абсолютна. гравитационных компьютером, людьми были Но линз, отмечены из 761 выбранных 56 наиболее вероятных. Считается, что до трети из них могут оказаться гравитационными линзами, то есть при работе в безостановочном режиме нейронная сеть позволит находить одну линзу в минуту, несмотря на то, что в прошлом за 40 лет ученые обнаружили всего чуть более сотни таких объектов [Keating 2015]. Ожидается, что благодаря тесному сотрудничеству с промышленностью и открытому обмену знаниями эти и многие другие развитию крупные научные компьютерных проекты технологий. приведут к Результатами сотрудничества станут более совершенные суперкомпьютеры и методы анализа больших данных, более энергоэффективные вычислительные методы. Большие данные не являются чем-то новым для аэрокосмической индустрии. Датчики для сбора телеметрии самолетов использовались уже в эпоху двоичных данных и собирали такую информацию как скорость, высота, тангаж и 22

т.д. С помощью современных датчиков, на основе существующих повреждений, можно предсказать их развитие и соответствующим образом менять интервалы технического обслуживания. Авиационные власти проделали большую работу по использованию такого рода данных и информации о катастрофах для повсеместного повышения стандартов безопасности. Высокопроизводительные вычисления используются для достижения более высокой степени точности при создании аэродинамических и гидродинамических моделей. Marussia, успешная гоночная суперкомпьютер команда для Формулы дополнительной 1, использует точности в проектировании своих автомобилей. Так команда может работать с бюджетом в тридцать миллионов фунтов, а не с бюджетом в 150 миллионов фунтов, как большинство команд F1 [Scott J 2012]. Прогностическая аналитика может быть полезна в качестве инструмента для расчета физики мягких тел. Исследовательская группа по информатике в Университете Брауна использовала компьютерное моделирование физики мягких тел и прогностической аналитики для определения поведения диартродиальных суставов (суставов, которые имеют широкий диапазон движения) в теле человека [Marai 2007]. В области генетики работа ученых с системами Big Data связана с расшифровкой человеческих генов, предсказанием болезней или склонности к спорту, созданием виртуальных (и после этого реальных) моделей растений. Технологические достижения позволили ученым быстро создавать, хранить и 23

анализировать собирались данные, годами. которые до недавнего времени Например, Национальные институты здравоохранения запустили проект «Big Data to Knowledge» и «Precision Medicine генетически Initiative» с ориентированного индивидуализированной профилактики, разработки лечения медицины раннего целью в для выявления рамках улучшенной и лечения распространенных сложных заболеваний. Планируется, что это будет реализовано путем сбора и объединения электронных медицинских карт и данных около миллиона американцев. Редактирование генов – это набор технологий, которые позволяют ученым добавления, материала изменять удаления в или определенных ДНК организма изменения местах путем генетического генома. Существует несколько подходов к редактированию генов, один из них – CRISPR. Используя системы и современные воспроизвел Big CRISPR, Data, Ричард технологии принцип большие с реакции вычислительные Кандасами более объединил традиционным иммунной системы и на присутствие вируса в клетке [Midling 2017]. В настоящее являются одной время из климатические приоритетных исследования областей, поскольку изменение климата влияет на общество в целом. Существует потребность в изучении изменчивости погоды и климата с очень высокой точностью. Сегодня используются сложные модели для климата, цифровых прогнозирования генерируя данных. огромное изменчивости количество Поэтому 24 погоды и многомерных потребность в

высокопроизводительных и облачных вычислениях для проведения исследований климата возрастает. Объединение климатологии и прогностической аналитики привело к появлению совершенно новой области, которую некоторые называют погодной аналитикой. Эта сфера характеризуется сбором больших данных, связанных с погодой и климатом, а затем использованием прогнозной аналитики для прогнозирования будущих погодных условий или урожая. Хотя область находится только в начале своего развития, предприятия уже показывают свою заинтересованность. Большие данные также играют важную роль в гуманитарных науках. Например, команда психологов из Центра позитивной психологии при Университете Пенсильвании во главе с Мартином Селигманом провела несколько экспериментов по анализу контента в сервисах Facebook и Twitter. В исследовании ученые проанализировали 148 миллионов твитов, чтобы предсказать смертность от сердечных заболеваний в округе США. Слова, связанные с гневом и негативным отношением, оказались факторами риска. Более того, этот прогноз оказался более точным, чем тот, который был сделан на основе 10 обычных факторов риска, таких как курение или диабет. Позднее, с использованием этой технологии, была составлена карта рисков, где по округам были отмечены уровни благосостояния, депрессии, доверия и других состояний. Анализ текстовых сообщений в Интернете требует тесной работы с лингвистами, предоставляя им много данных для 25

анализа: изменение языка и стиля общения, использование сленга и отмирание понятий. А.С. Большаков и О.В. Журенков разработали методику сбора и анализа данных из открытых источников World Wide Web. Инструментом поиска стал веб-сервис Яндекс: поиск по блогам. В работе неструктурированных исследовалось текстовых использование данных Big Data для разработки новых подходов к оценке внутриполитической и экономической ситуации в государствах. Поиск по ключевым словам осуществлялся сразу на двух языках: русском и английском. Следующим полученных результатов. исследования, авторы этапом По делают стала визуализация результатам вывод, что проведенного возможность извлечения данных из информационного пространства WWW позволяет проводить исследования на новом уровне, а полученные в работе результаты могут быть применены для поиска альтернативных подходов в гуманитарных исследованиях [Большаков, Журенков 2017]. Большие данные оказывают влияние на все области науки: от физики и генетики до социальных и гуманитарных. Системы Big Data предлагают широкие возможности для исследований и в смежных с ними науках. Чтобы использовать большие данные в полном объеме, ученым необходимо придерживаться гибкого подхода к Big Data и быть в курсе последних достижений в инструментах их анализа. 26

1.3 Применение систем Big Data в лингвистике Использование систем Big Data в лингвистике – это прежде всего сфера корпусной лингвистики. Она возникла в 60-х годах двадцатого века и основывалась главным образом на материалах английского языка. Через некоторое время корпуса стали появляться и на основе других языков. Первый электронный корпус был разработан в 1963 году учеными Г. Кучерой и В.Н. Фрэнсисом из Университета Брауна [Иванов 2014]. Он насчитывал около миллиона слов и состоял из текстов популярных жанров англоязычной литературы. Корпус был дополнен приложением, которое содержало некоторые статистические распределения, частотный и алфавитно-частотный указатели [Козлова 2013]. В широком смысле корпус это комбинация текстов одного и / или нескольких языков, которые связаны параметрами. К началу одновременно с формированием корпусная лингвистика 90-х годов определенными двадцатого века понятийного аппарата отдельной областью стала лингвистического знания. Под корпусной лингвистикой понимается раздел языкознания, который занимается поиском закономерностей функционирования корпуса и языка анализа при помощи [Сысоев лингвистического 2011]. Ее основной характеристикой (в сравнении с традиционной) является изучение языка, а не речи. Целью – описание языка в том виде, в котором он проявляет себя в речи, представленной в виде специально предпочтительны методы), в то подобранного квантативные время как 27 корпуса (т.е. текстов. В ней количественные традиционная лингвистика

предпочитает квалитивные (т.е. качественные методы). Квалитативный анализ выявляет общие закономерностей, но не предоставляет Особенностью их точное количественное квантитативного описание. анализа является интерпретация статистических закономерностей и большой объем выборки. Квантификация данных создает условия для использования средств математического анализа и для работы над ними. Она включает в себя анализ частотного распределения, ассоциаций, корреляций между сопряженности и переменными, кластерный анализ. А.Н. Баранов считает, что при определении частей контентанализа и их распознавании в тексте не всегда можно добиться полной объективности. В то время как при экспликации и обработке данных обеспечить следование строгим стандартам возможно почти всегда [Баранов 2001]. В корпусной лингвистике работа с лингвистическими данными проводится в том виде, в каком они встречались в контексте; традиционная искусственные примеры лингвистика из предпочитает изолированных от текста словоупотреблений. В первой предпочтительнее применение индуктивных методов обработки словесного материала, вторая опирается на дедуктивные методы обработки. Текст в корпусной лингвистике рассматривается как некая физическая сущность, в традиционной – как абстракция. Основное внимание уделяется форме, а не содержанию. Тексты рассматриваются в глобальной основе, а не локальной лингвистика перспективе. предпочитает 28 При этом традиционная логические рассуждения,

корпусная использует вероятностные методы и статистику для первичной обработки материала. Д. Синклар называет корпус совокупностью неотредактированных естественных текстов, отобранных по определенному критерию для наиболее полного представления языка или его вариаций [Sinclair 1991]. Отдельно им выделяется основной принцип отбора текстов для корпуса – естественность. Важно, чтобы язык в тексте был близок повседневной к тому виду, речи. В в котором он существует в дальнейшем понятие корпуса конкретизируется: «Корпус – это не просто речь носителя языка, а нечто, созданное исследователем. Это характеристики речи, как правило, разных пользователей, предназначенные дальнейших для выводов изучения о типичном и формулирования использовании языка» [Stubbs 2001]. Сегодня корпус – большой, представленный в электронном виде, структурированный и размеченный массив языковых данных, предназначенных для решения определенных лингвистических задач [Захаров 2011]. Н.В. Владимов определяет лингвистический корпус следующим образом: массив, отобранных по определенным характеристикам и собранных в единую систему текстов. Они могут быть письменными или являться транскриптами телепередач и радиопередач. Корпус может состоять из текстов на определенном языке, одного или нескольких авторов, разных жанров, относящихся к особому промежутку времени. Таким образом, цель создания корпуса влияет на его состав [Владимов 2005]. 29

Нельсон Фрэнсис выделяет 4 основных признака лингвистического корпуса, среди которых: machine readable form – обязательное расположение на машинном носителе; sampling – словесного определенный материала стандарт на для размещения электронном носителе, позволяющий применять программы для его обработки, отбора и поиска; representativeness – набор требований, по которым создавался корпус; design criteria – окончательный размер [Francis 1991]. Во делается всех представленных акцент на таких определениях особенностях авторами как: тексты представлены в электронном виде, языковые данные имеют особую разметку, и есть возможность распределения языкового материала по принадлежности к жанру, тематике, году создания и т.д. Существующие корпуса могут быть разделены на три категории: со свободным доступом, частично свободным доступом и закрытые, коммерческие. Первый тип включает в себя достаточно малое количество существующих корпусов. Примером является Национальный корпус русского языка. Ко второму типу относится большая часть существующих на данный момент американского национальный корпусов. английского корпус Корпус языка позволяют современного и Британский незарегистрированным пользователям совершать только 50 поисковых запросов. К третьему типу относится Банк английского языка, предоставляющий возможность бесплатного пользования в течение первого месяца. В приложении представлен полный 30

список и описание наиболее популярных лингвистических корпусов (см. Приложение 2). Следующей отличительной особенностью лингвистического корпуса является наличие разметки. Под ней понимается приписывание текстам и их компонентам специальных меток. Они могут быть: лингвистическими, то есть описывающими лексические, грамматические и прочие характеристики; структурными экстралингвистическими, [Захаров 2015]. Разметка внешними также и бывает морфологической (осуществляется с помощью специальных программ автоматического морфологического анализа) и синтаксической (подразумевает указание синтаксической структуры для каждого предложения). Создание целиком размеченного корпуса – это сложный и трудоемкий процесс, который требует усилий большого количества лингвистов. По этой причине создание большого текстового корпуса исследовательскими обычно группами в осуществляется специализированных институтах для дальнейшего использования при решении различных прикладных и научных задач [McEnery, Gabrielatos 2006]. Еще одним признаком лингвистического корпуса является его репрезентативность. Данная характеристика оценивается по изменению относительной частоты рассматриваемого явления при увеличении выборки. Если относительная частота явления от прибавления каждого последующего фрагмента текста будет изменяться все меньше и меньше, то корпус репрезентативен [Кибрик 2006]. С помощью репрезентативности неструктурированный набор 31

разных текстов превращается в корпус текстов, пригодный для проведения лингвистического исследования. Стоит отметить важность такой особенности корпуса как простота использования. Корпус должен упрощать процесс исследования проведение, и а сокращать не временные путать затраты пользователей на его сложными алгоритмами поиска. Процесс создания текстового корпуса состоит из двух последовательных этапов. Это сбор текстов и последующая их разметка (см. Рис. 2). Рис. 2. Пример основных этапов создания текстового корпуса [Рыков 2002] Современная корпусная лингвистика располагает большим количеством всевозможных вариантов корпусов. Существующее многообразие корпусов объясняется многообразием исследовательских и прикладных задач, для которых эти корпуса разрабатываются, и спецификой языкового материала, на котором они основаны. Важным аспектом будущего исследования является выбор соответствующего целям и задачам корпуса. В научном сообществе на данный момент не существует общепринятой типологии корпусов. Представим некоторые из типологий. В.В. Рыков выделяет следующие корпуса: 32

1) по степени организации и структурированности: электронный хранения архив (система электронных библиотека структурированного документов); (упорядоченная электронная коллекция разнородных электронных документов, имеющая средства поиска и навигации); корпус (собрание текстов, по определённому принципу); подкорпус ограниченное признаками: (подмножество определенными автором, текстов, метатекстовыми произведением, временем создания или жанром и типом текста); 2) по хронологическому признаку: синхронический (пример использования языка в момент определенного отрезка времени); мониторинговый (позволяет пользователю в любое время обратиться к коллекции текстов или к их части); диахронический (динамика развития языка в течение некоторого периода); 3) по типу разметки: простой (неаннотированный); аннотированный (содержит данные, не являющиеся частью текста, но несущие какую-то информацию о нём); 4) по языковому признаку: одноязычный (в состав входят тексты одного языка, например его варианты и инварианты); двуязычный (содержит тексты двух языков); многоязычный (предоставляет доступ к текстам двух языков и более); 5) по способу исследовательский всевозможных применения и (предназначены аспектов использования: для функционирования изучения системы языка); иллюстративный (создаются после проведения научного исследования 33 для подтверждения и

обоснования уже параллельный полученных (например, результатов); английский текст и его переводы на другие языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов) [Рыков 2002]. В.П. Захаров предлагает свою типологию корпусов. Он также подразделяет корпуса на несколько видов: по типу языковых данных, хронологическому признаку, разметки и доступности (см. Рис.3). Рис.3. Типология корпусов по В.П. Захарову 34 типу

По типу языковых данных корпуса бывают: устными, письменными и смешанными. Первый устный корпус разрабатывался на материале американского английского языка и появился в начале 80-х гг. (the Brown University Standard Corpus of Present Day American English). Корпусы устной речи отобранных – это специальные текстовых коллекции тщательно «произнесенных отрывков, многочисленными говорящими при различных акустических условиях» [Гвишиани 2008]. Процесс сбора устных данных более трудоемкий и напряженный. К ним относятся the London Lund Corpus (LLC), the Cambridge and Nottingham Corpus of Discourse in English (CANCO DE), the Santa Barbara Corpus of Spoken American English (SBCSAE) и др. Большую часть составляют Мангеймский письменные корпус немецкого корпуса, языка, например, и смешанные, содержащие и письменные, и устные тексты. Чаще всего это национальные корпуса. Одноязычные корпуса могут охватывать весь язык или только его часть. Примером является корпус медицинских текстов на английском языке, насчитывающий 1.5 млн. слов – CEEM (Corpus of Early English Medical Writing). Двуязычные и многоязычные корпуса предоставляют тексты параллельно. Примером многоязычного корпуса может служить European Corpus Initiative (ECI) общим объемом более 100 млн. слов, состоит из текстов европейских языков, но содержит и японский, турецкий, русский и др. С помощью диахронного корпуса можно проследить развитие языкового протяжении феномена какого-либо или временного 35 языка в отрезка. целом на Примером

может служить Thesaurus Indogermanischer Text und Sprachmaterialien, в котором представлены индоевропейские тексты разных эпох. Синхронные корпуса предоставляют текстовый материал для анализа состояния языка как системы в определенный момент времени [Козлова 2013]. Неразмеченным корпусом называют массив текстов с определенным количеством упоминаний нужной единицы. Данные, полученные из анализа материала такого вида корпусов, полезны статистической предлагают только точки для зрения. гораздо изучения Корпуса больше языка с со разметкой возможностей для лингвистического анализа [Там же]. В национальном корпусе объединяются тексты разных типов и жанров. Некоторые из них могут содержать аудио и видео материалы. Объем влияет на разнообразие и точность разметки. От эффективность этих факторов программного напрямую обеспечения корпуса как лингвистического ресурса. и зависит ценность Национальный корпус дает справки, относящиеся к таким областям как: словарный запас, грамматика, история языка, акцентология. Новейшие компьютеры лингвистическую обработку ускоряют и упрощают массивов текстов, позволяя выявить закономерности в структуре и развитии языка, о существовании которых ученые раньше не догадывались или не могли обосновать. Самыми популярными национальными корпусами являются the British National Corpus (более 100 млн. словоупотреблений), the American National Corpus (23 млн.) и Национальный корпус русского языка (600 млн.). 36

Основными потребителями национальных корпусов являются исследователи-лингвисты. Но корпус используют не только профессиональные исследователи языка. Точная статистика о языке конкретной эпохи или определенного автора может представлять интерес для историков, филологов и других представителей области гуманитарного знания. Национальный корпус играет важную роль в преподавании языка. В наше время все больше учебников и учебных планов ориентируются на корпус. С его помощью школьник, учитель, редактор, писатель или журналист могут быстро и эффективно выяснить особенности использования незнакомого слова или грамматической формы. Противоположностью национальным корпусам выступают специальные, созданные для решения конкретных лингвистических задач. Несмотря на широкую применимость универсальных необходимость коллекций для текстовых в корпусов, использовании решения часто возникает узкоспециализированных частных задач [Svartvik 2007, Tognini-Bonelli 2001]. Специализированный корпус – это специфический определенного корпус, подъязыка. созданный Например, для отображения the Corpus of Professional Spoken American English (CPSA) состоит из транскриптов коммуникативных ситуаций из политической и академической профессиональных областей. Среди такого типа корпусов можно отметить и корпусы одного автора, например, The Shakespeare Corpus, Корпус словаря языка Достоевского.Еще одним видом специальных корпусов являются ученические корпуса (Learner Corpora). В них входят тексты или аудио-записи лиц, изучающих язык как 37

иностранный [Захаров 2005]. Они создавались на стыке 80-х и 90-х годов прошлого века. Среди ученических корпусов выделяют следующие типы: коммерческие, академические, ученические. Подводя итог обзору существующих корпусов, отметим, что приведенные выше примеры и данные не описывают в полной мере их многообразие. Раздел корпусной лингвистики находится в постоянном развитии и пополняется более совершенными разработками с учетом поставленных лингвистических задач. Для нужд корпусной лингвистики, которая в своих исследованиях сталкивается с объемными выборками текстов естественного языка, были разработаны особые виды программного обеспечения – коммерческие компьютерные программы конкордансеры (WordCruncher, LEXA, MicroConcord, CorpusWorkbench (CQP), TACT), а также компьютерные программы, разработанные для специфических процедур анализа. Конкорданс – программа для поиска заданных языковых единиц в больших массивах текста и анализа закономерностей в языке. Результатом поиска являются несколько отрывков присутствует искомая из различных единица. С текстов, их в помощью которых можно определить значение слова или выражения в контексте или проанализировать употребление в языке. Например, употребление глаголов to look и to watch в Британском национальном корпусе (BNC) можно проследить на рисунке 4 [Aarts, Meijs 1984]. 38

Рис.4. Употребление слов look и watch в БНК Поиск можно использовать для уточнения словоупотребления и формулировки правил использования данного слова в языке, а также для изучения грамматики. Некоторые исследователи интерпретируют конкорданс как вертикальный список случаев использования слова в алфавитном порядке в электронном корпусе текстов. Слово находится вместе с его правым и левым окружением [Шаров 2003]. Работа с корпусом осуществляется с помощью других программных средств – корпус-менеджеров – систем поиска, включающих в себя программные средства для получения статистики и поиска данных в корпусе. Результаты поиска выдаются в удобном формате Key Word in Context (KWIC) – ключевое слово в контексте. Эта процедура позволяет представлять результаты в виде горизонтальных строк с поисковым словом посередине (см. Рис. 5). Существуют форматы Keyword alongside Context (KWAC) – ключевое слово вместе с контекстом и Keyword out of Context (KWOC) – ключевое слово вне контекста (см. Приложение 3). 39

Рис.5. Формат Key Word in Context Корпусные менеджеры предоставляют следующие возможности поиска: поиск словоформ по леммам, поиск словоформ по набору морфологических признаков, поиск конкретных словоформ, поиск группы словоформ в виде разрывной или неразрывной синтагмы, вывод результатов поиска с указанием заданного контекста и последующее сохранение нужных материалов. По результатам поиска искомая единица представляется в ее контекстном окружении и сопровождается статистической информацией. Корпусные менеджеры должны соответствовать ряду общих требований: производить поиск отдельных слов и словосочетаний, строить полные конкордансные списки, сохранять и распечатывать результаты, осуществлять поиск по шаблонам, сортировать списки по нескольким критериям, отображать найденные словоформы в широком контексте, работать с отдельными файлами и неограниченными по размеру корпусами, быстро обрабатывать запросы и выдавать результаты, поддерживать различные форматы текстовых данных (txt, doc, rtf, html, xml) и быть интуитивно понятными в использовании [Захаров 2011]. 40

С развитием систем корпусный метод начал предоставлять новые возможности в области исследования лексических и грамматических моделей. Благодаря корпусному анализу у лингвистов появилась возможность более глубоко исследовать метафоры. Предполагается, что образное значение слова, согласно данным словарей, может выступать в качестве маркера метафоры, необходимого для корпусного анализа исследования А. [Deignan Дейнан стала 2005]. Результатом разработка тематически организованного словаря на материале Английского Банка [Захаров 2005]. Таким образом, одним из преимуществ корпусных данных является то, что аутентичные примеры употребления слова (буквальные и небуквальные) могут быть изучены в контексте. Они дают исчерпывающую информацию о контекстных возможность связях. понять, в Конкретный каком контекст значении (образном дает или буквальном) употреблено слово или фраза. Благодаря данным корпуса, можно увидеть отличие метафорических выражений от буквальных по их форме. Сегодня корпуса находят свое применение и в качестве экспериментальной базы для проверки гипотез и теорий лингвистами-теоретиками. компьютерные корпуса иностранному характера. языку и В применяются решения Компьютерные закономерности, прикладной для задач лингвисты полученные с лингвистике помощью обучения прикладного анализируют материалов корпуса, для создания компьютерных моделей языка. В социолингвистических исследованиях они используются для изучения разнообразия языков, к примеру, регистров и 41

социолектов. Корпуса также используются в таких сферах, как литературоведение, переводоведение, судебная лингвистика и др. Еще одна область, находящаяся в прямом контакте с корпусной лингвистикой – создание и анализ ученических корпусов (Learner Corpora). Они предоставляют важную для учителя информацию употреблении о распространенных лексических, ошибках грамматических в и синтаксических единиц. Проанализировав данные, учитель может оптимизировать процесс обучения, сделав упор на пробелы учеников в конкретных областях знания. Важным аспектом для использование методики преподавания параллельных корпусов. языка Они является позволяют получить доступ к переводным эквивалентам слова, фразы или синтаксической конструкции. Такой инструмент способствует изучению иностранного языка в соответствии со стратегией коммуникативного обучения. С увеличением компьютерных мощностей создатели программного обеспечения разработали новый тип словарей – электронный словарь. Электронный словарь, с технической точки зрения, это определенная база данных на каком-либо информационном закодированный носителе, список предоставляющая словарных статей, позволяющая осуществлять быстрый поиск нужных слов. Большой объем, удобство и скорость пользования стали возможными благодаря машинному механизму поиска, основанному на технологии Big обновлять базу Data. Это данных дает возможность словаря тематические варианты словарей. 42 и постоянно создавать новые

На сегодняшний день самым большим корпусом может считаться сам Интернет (Web as Corpus), так как в нем представлено огромное количество текстов в электронной форме, находящихся в открытом доступе. Средствами доступа к этому корпусу считаются поисковые системы, например, Google или Yandex [Чернякова 2011]. Однако тексты в Интернете расположены исследователю сложно не структурированно, сформулировать поэтому лингвистически правильный запрос. Национальные лингвистические корпуса в плане использования удобнее и по этой причине нашли свое применение. Вышеуказанные возможности использования корпусов не являются исчерпывающими. Параллельно с совершенствованием технологий Big Data развиваются и лингвистические корпуса, растет их исследовательский потенциал. Благодаря этому сегодня корпус стал бесценным лингвистическим ресурсом. 43

Выводы по главе I В первой главе было описано, что такое Big Data, перечислены появления сферы и применения, становления представлена лингвистических история корпусов, корпусной лингвистики и программ конкорданс. Появление и развитие систем больших данных оказало влияние на многие сферы научной деятельности. Как в технических, так и в гуманитарных науках системы Big Data предоставляют возможность анализа огромных массивов информации и открывают новые перспективы для проведения исследований. Методы корпусной лингвистики становятся наиболее популярными в современных лингвистических исследованиях. Полученные после анализа корпуса данные, открывают исследователям сведения о закономерностях языка и отдельных типах текста. Корпусная лингвистика предоставляет национальных широкий корпусов выбор с корпусов: разметкой, от крупных таких как Национальный Корпус Русского Языка, до корпусов одного автора, например The Shakespeare Corpus. 44

Для анализа требуется Работа с данных лингвистического соответствующее корпусом специальных программное может программных обеспечение. осуществляться средств – корпуса с помощью конкордансеров и корпус-менеджеров. Конкордансеры используются в анализе больших массивов текста (например, корпуса), для поиска слов и последующего выявления закономерностей. Под корпусным менеджером понимается специальная систему поиска, включающая программные средства для получения статистики и поиска данных в корпусе. Глава II. Возможности систем Big Data для анализа предикатов to seem и to appear Обращение к корпусам текстов при анализе предикатов способствует более быстрой и объективной обработке языковых данных, что в свою очередь позволяет получить достоверные статистические использования, информацию значений особенностях и представлено описана понимание семантика данные о частотности нюансах to и их семантических употребления. предиката глаголов о В главе предикативности, seem и to appear, проанализирован потенциал систем Big Data для проведения лингвистических исследований. 45

2.1 Понимание предикативности в лингвистике К началу XX-го века многие лингвисты, философы и психологи задавались вопросом о конкретизации понятия предикативность. Считалось, что весь окружающий мир состоит из фактов и событий, а не из предметов или вещей. В языке для выражения факта используется предложение, а его центром является предикат [Рассел 1959]. В первобытном обществе людей весь язык состоял из «предложений сказуемым» с выраженным [Потебня 2003]. в слове одним Современные только лингвисты поддерживают эту точку зрения и предполагают, что в эпоху первобытного человека единицей общения выступало словопредложение. Под ним понимается неделимое синкретичное образование, совмещающее психологическую слабо выраженную и сочетающее двучленность предикативную и номинативную функции [Гречко 2003]. В работах по изучению внутренней речи подчеркивается преобладание в ней абсолютной и постоянной предикативности. Считается, что внутренняя речь опирается на семантику, в то время как синтаксис и фонетика сведены к минимуму, максимально упрощены [Выготский 2003]. В.А. Дорошевский отмечал, что одной из основных функций человеческого мозга предикации. Она выступает информации, поступающей от является способность своеобразным внешних к фильтром раздражителей. После такой фильтрации окружающий мир предстает перед человеком как движение взаимосвязанных 46 элементов,

подчиняющихся порядку в категориях предметов и отношений, а не как беспорядочный хаос. [Дорошевский 1973]. Лингвистический энциклопедический словарь дает следующее определение предикативности – это ключевой признак предложения, действительности предназначенную относящий и для информацию формирующий сообщения; такая к единицу, синтаксическая категория, которая определяет функциональную специфику предложения [Ярцева 1990]. Значение заключается общей категории в соотнесении предикативности содержания предложения с действительностью. К этой категории в первую очередь относятся модальные отношения [Виноградов 2001]. В вышеперечисленных определениях понятие предикативность в основном относится к синтаксической теории предложения. Однако оно может рассматриваться и с лексической точки рассматривается зрения. как В таком семантическое случае понятие. предикат При этом подходе предикатные значения реализуются при помощи морфем, лексем и словосочетаний, а основное внимание уделяется глаголу и другим формам, которые могут выступать в функции сказуемого, что не всегда отражает полную картину их функционирования. Отмечается, что предикаты – это особые семантические сущности языка, они типизируются языком не в форме словарных единиц, глаголов, а в форме пропозициональных функций и соответствующих предложений [Степанов 2010]. 47 им структурных схем

В современном языкознании представлено несколько семантических классификаций предикатов. Рассмотрим некоторые из них. В рамках русского языка Л.В. Щербой выделяются три типа предикатов: 1) со значением действия – передается полнозначными глаголами: бегать, играть, работать; 2) со значением состояния – связка + жаль, в состоянии, печален, надо: был в состоянии, стал печален, было жаль; 3) со значением качества – связка + прилагательное: является непреодолимым, оставаться нетронутым, казаться большим [Потапова 2017]. Широко используется классификация, предложенная З. Вендлером для английских предикатов. Им были выделены четыре основных класса. Общепринятых русских названий не сформировалось, поэтому предложены английские названия: 1) activities – слова со значением деятельности: The soup was boiling; 2) achievements – со значением достижения: I was finding it hard to finish; 3) accomplishments – со значением исполнения: I finished my book in two weeks; 4) states – состояния: It lasted for three hours [Там же]. В работе О.Н. Селиверстовой была представлена более широкая классификация предикативных типов, предложены некоторые изменения в интерпретации предикатов, выделен класс предикатов предикативных «состояния». типов с Автор признаком 48 отмечает связь соотнесенности с

непосредственным протеканием во времени. В классификации перечислены предикаты со значением: 1) действия: читать, бежать; 2) состояния: входить в список; 3) процесса: тонуть, расти; 4) потенциальности: может справиться, должен приехать; 5) нахождения в пространстве: лежать, стоять; 6) качества и набора качеств: раньше она была красива; 7) класса и связи: курить (как ежедневное действие); 8) результата и факта: встретить, найти [Селиверстова 1982]. Будучи обозначает понятием логики характеристики и языкознания, субъекта. Это предикат не всякая информация о субъекте, а указание на признак предмета, его состояние и отношение к другим предметам. В языкознании для этого понятия используется термин сказуемое. Это позволяет избежать терминологического смешения логических и грамматических категорий [Пащенко 2006]. Сказуемое является одним из главных членов предложения и дает информацию о том, что происходит с предметом или о том, что делает какое-либо одушевленное существо. Со сказуемым ассоциируется формальный аспект этого члена предложения, а с предикатом – содержательный [Арутюнова 1980]. В предложении предикат может представляться только признаковым значением, в то время как сказуемое допускает любой вид информации. В языкознании понятие сказуемое используется при обозначении ядерного компонента состава предложения, 49

соответствующего сообщаемому predicado predicat, франц. находится в (англ. итал. предикативном predicate, predicato). отношении к исп. Предикат субъекту. Отношения, связывающие субъект и предикат (подлежащее и сказуемое), называются предикативными или предикативной связью. Состав этих предикативность. Это формирующая понятий включает синтаксическая предложение и в себя категория, соотносящая содержание предложения с действительностью, что делает его единицей сообщения. Любому предложению свойственна предикативность, и она делает предложение предложением [Пащенко 2006]. Можно сделать вывод что, понятие предикативность одновременно затрагивает области философии, психологии и лингвистики. В плане значения оно объемнее, чем понятие предикат, поскольку предикативность является экстралингвистическим термином. В английском языке предикат выражается личной формой глагола, которая согласуется с подлежащим в числе и лице. Исходя из значения его компонентов, предикат может обозначать отношение к действие, какому-либо состояние, действию качество или или состоянию, приписанному субъекту. Эти различные значения находят свое выражение в структуре предиката и лексическом значении его составляющих [Там же]. Со структурной точки зрения предикаты делятся на два основных типа: простой предикат и составной. Н.А. Кобрина предлагает свою классификацию (см. Рис. 6). 50

Рис.6. Типы предикатов Простой и составной предикаты подразделяются на подгруппы – глагольные и именные. Составное глагольное сказуемое бывает: фазовым, Составное именное сказуемое модальным делится и на двойным. двойное и собственное. С точки зрения смысла наиболее важной частью составного предиката является смысловая часть, поскольку она содержит информацию, выраженную подлежащим. С точки зрения структуры, наиболее важной частью предиката является первая, поскольку она выражается личной формой глагола и несет грамматическую информацию о субъекте, числе, времени, модальности и т.д. всего предиката. Выделяют предикативные конструкции с инфинитивом и причастием. Первые подразделяются на три подгруппы: трехчленная глагольная конструкция инфинитивный оборот с предлогом инфинитивный оборот. Предикативные с инфинитивом, for, субъектный конструкции с причастием подразделяются на: трехчленные глагольные конструкции с причастием I и причастием II, субъектные, 51

независимые и предложные причастные обороты [Берман 1993]. В параграфе было представлено понимание предикативности, приведены существующие классификации предикативных типов, указаны их синтаксические функции и перечислены предикативные конструкции. 2.2 Семантика предикатов to seem и to appear Глаголы to семантической предикатов сообщают seem to структурой. можно об и appear обладают Обобщенное выразить отображении сложной значение следующим образом: действительности, этих они которая сформировалась в сознании субъекта при ее восприятии [Ильчук 2004]. Опишем каждый из глаголов. С словаря помощью электронной английского языка версия мы этимологического можем проследить этимологию глагола. В XII веке в английском языке он имел следующие годным. значения: В быть подходящим, древнескандинавском языке уместным, слово soema означало: уважать, примеряться, приспосабливаться. Этот глагол образовался от прилагательного soemr – подходящий в Прото-Германском языке или глаголов somiz , söme – быть правильным, благопристойным в старом Датском языке [Этимологический онлайн словарь]. Онлайн версия программы морофлогического анализа слов, реализованная на основе словаря Мюллера, дает следующие определения: 52

1) Seem – казаться, представляться: I seem to hear somebody crying – Мне послышалось / показалось, что кто-то плачет. 2) Seem – употребляется как глагол-связка: She seems happy – Она выглядит счастливой [Англо-русский словарь Мюллера]. Представим информацию из исследований, в которых анализируется семантика этого предиката. To seem указывает на известную предположительность оценки, на отсутствие у субъекта восприятия уверенности в том, что создавшееся у него впечатление правильно: He seemed surprised at the news [Апресян 2000]. To seem приписывает возможное отклонение оценки от истины каким-то особенностям субъекта восприятия [Там же]. To seem (в ситуациях, когда речь идет о впечатлениях, относящихся к какой-либо воспринимаемой характеристике объекта) употребляется для обозначения иллюзий, связанных с ощущениями субъекта, а также создаваемых туманом, воздухом, звуком: A coin seems larger when it is placed on the tongue than when it is held in the palm of the hand [Ильчук 2004]. To seem несет информацию о таких цветовых впечатлениях, которые не образуют четкого зрительного образа: The more distant it is the hazier and bluerer it seems [Там же]. 53

To seem сообщает о таких впечатлениях относительно размера, формы, удаленности объекта, которые не формируют четкий зрительный образ, а устанавливаются в результате сравнения: The moon would seem to be several times farther away than when it is midnight [Там же]. Глагол to seem (в значении вторичного восприятия) передает информацию какой-либо об: отображении, внутренней относящимся характеристике к объекта, формирующейся при восприятии субъектом таких данных, которые можно считать признаками устанавливаемой характеристики, а не внешними проявлениями; признаках во внешнем виде, не связанных очевидным образом с устанавливаемой характеристикой; субъекте, если тот не уверен, что подобное впечатление будет получено любым другим наблюдателем и допускает сомнение в его правильности; впечатление зависит от субъекта. Глагол to seem (в ситуациях, когда отображение определяется особенностями субъекта) сообщает о том, что эмоциональное состояние субъекта меняет восприятие ситуации / объекта на более глубоком уровне, а не на уровне внешних проявлений: If you go to three places, the holiday seems to last at least three times as long [Там же]. Опишем семантику второго предиката. Электронная версия этимологического словаря английского языка дает следующую информацию: современный английский глагол to appear связан со старым французским глаголом aparoir, aperer (XIII век) – появиться, открыться взгляду и с 54

латинским глаголом apparere – появиться в поле зрения, показаться [Этимологический онлайн словарь]. Обратимся к словарю Мюллера, в котором указаны следующие значения глагола appear: 1) показываться, появляться: Sure enough, the ghost appeared on the balcony; 2) выступать на сцене: To appear in the character of Othello; 3) выступать (официально, публично): To appear for the defendant; 4) предстать (перед судом): More than 1000 witnesses from all over the world have been called to appear before the Tribunal; 5) выходить, издаваться, появляться (в печати): Some press organs had ceased to appear for purely commercial reasons, generally bankruptcy; 6) производить впечатление, казаться: Strange as it may appear; you appear to forget; 7) явствовать: It appears from this [Англо-русский словарь Мюллера]. Представим информацию из исследований, в которых анализируется семантика предиката to appear. To appear показывает сложность оценки, вероятность того, что она не отражает существующую на самом деле ситуацию. Глагол приписывает возможное отклонение оценки от истины особенностям воспринимаемого объекта, его внешности, которая может быть обманчива, или, если этот объект является человеком – он может заинтересован в том, чтобы создать ложное впечатление: 55 быть

He appeared as helpless as achild [Апресян 2000]. To appear (сообщающий о впечатлениях, относящихся к какой либо воспринимаемой характеристике объекта) употребляется по отношению к такой группе денотатов, которые имеют зрительную форму воплощения: The sky appeared to be darker than [Ильчук 2004]. Сообщает о ярких, контрастных цветовых иллюзиях, которые имеют выраженную принадлежность к данному цветовому спектру, что согласуется с признаком качества отображения: Illuminated from the front and seen against a dark background the water appears bluish [Там же]. Глагол выбирается в тех случаях, когда впечатление об объекте представляет собой хорошо структурированный зрительный образ: Stars do not appear to us as perfect spots, but as small irregularly shaped figures [Там же]. Глагол to appear (в значении вторичного восприятия) сообщает о том, что: отображение, относящееся к внутренней характеристике, формируется при восприятии субъектом таких данных, проявлениями которые можно указанной считать внешними характеристики; внешние проявления связаны с внутренней характеристикой; субъект уверен в правильности своего впечатления; впечатление не зависит от субъекта. Глагол to appear (в случаях, когда отображение особенностями субъекта) показывает, что эмоциональное состояние субъекта определенным образом восприятие внешнего облика проявлений: 56 изменяет

He was in love and therefore she appeared to him so perfect in every respect [Там же]. В большинстве случаев предикаты to seem и to appear являются взаимозаменяемыми и переводятся на русский язык глаголами несовершенного вида – казаться, оказываться. It seemed to go down very well – Кажется все закончилось благополучно [COCA]. Jane appears to have heard some terrible news – Кажется Джейн узнала ужасные новости [COCA]. Исключением являются случаи, когда глагол to appear обозначает появление кого-либо или чего-либо: He appeared out of nowhere [COCA]. Согласно словарю MW Dictionary of Synonyms, эти предикаты взаимозаменяемы и не имеют видимой разницы в значении [Словарь Вебстера]. Вместе с тем отмечается, что даже в таких фразах to seem обозначает мнение, основанное на субъективных впечатлениях и личном отношении, а не на объективных признаках. Глагол to appear может означать, что мнение основано на общем визуальном впечатлении (например, как в случаях с глаголом to look), но иногда to appear предполагает искаженное восприятие, которое может быть создано оптическим обманом или ограниченным углом зрения [Там же]. О наличии различий в значении предикатов свидетельствуют исследования Ю.Д. Апресян, Е.В. Ильчук и Т.И. Семеновой. У глаголов to seem и to appear выделяются несколько вариантов значения, а именно: случаи, когда to 57

seem и to appear сообщают о формировании отображения с помощью синтезирующего восприятия (seem1 / appear1), и случаи, в которых отображение формируется частично с помощью восприятия и с помощью логической обработки данных (seem2 / appear2). По мнению Е.В. Ильчук, понятие синтезирующее восприятие характеризует способ построения отображения или действительности, восприятия, некоторой и в мысленной отличие относящихся к от картины других глаголам глаголов проецируемого отображения, глаголы to seem и to appear указывают на конструирование образа, а не на построении в сознании проекции объекта. В варианте синтезирующего восприятия различаются несколько подвариантов:  to seem / to appear впечатлениях, 1/1 которые непосредственно – сообщают относятся о к воспринимаемой различных какой либо характеристике объекта (цвет, форма, размер);  to seem / to appear – несут информацию о вторичном 1/2 восприятии;  to seem / to appear не только 1/3 – отображение предопределяется свойствами самого объекта, но и особенностями субъекта [Ильчук 2004]. Перейдем к рассмотрению характеристик, разграничивающих глаголы to seem и to appear и описанию их значения. Выделяются следующие признаки: 1) признак учитывающий качество отображения или характер данных, на основании отображение; 58 которых формируется

2) признак глубины обработки данных; 3) признак субъективности / объективности; 4) признак произвольности / непроизвольности [Ильчук 2006]. Рассмотрим первый признак, поскольку он является ведущим и обуславливает остальные. В зависимости от варианта значения данных глаголов, он может несколько менять интерпретацию. В соответствии с ним, глагол to seem1 показывает, что отображение не имеет четкого образа, либо неочевидно. В свою очередь глагол to appear1 свидетельствует о наличии четкого, как правило, зрительного образа: The blurred hands seemed to indicate nearly half past six [COCA]. Данный пример подтверждает сделанное выше утверждение, поскольку в нем, наличие помех затрудняет восприятие объекта. В отличие от глагола to seem, глагол to appear выбирается в тех случаях, когда в контексте подчеркивается явность, определенность фиксируемой характеристики: When the sun is low, the water on the north and south sides should appear noticeably darker than on the east and west sides [BNC]. Согласно исследованию, проведенному Е.В. Ильчук, в то время как to seem2 несет информацию об отображении, сформированном на основании нечетких исходных данных или данных, устанавливаемой не связанных очевидным характеристикой, глагол образом to с appear2, показывает то, что отображение формируется на основании четких, но поверхностных исходных 59 данных, связанных

очевидным образом с приписываемой объекту характеристикой [Ильчук 2006]. Так глагол to seem2 может использоваться в тех случаях, когда отображение формируется на основании смутно осознаваемых данных, всплывающих в сознании, например, воспоминаний и в ситуациях, предполагающих осмысление собственных чувств. Глагол to appear2 , наоборот, в таких случаях не употребляется: I seem to have changed my mind, he thought gloomily [BNC]. Когда речь идет не столько о нечетком, сколько о неочевидном характере данных, употребляется глагол to seem. To appear, в свою очередь, подчеркивает, что между исходными Такие данными и отображением существует различия употребления проиллюстрировать на глаголов примере их связь. можно использования с пропозициями, содержащими чужое сознание [Ильчук 2004]. Larry had been watching John’s mood and he seemed to make a sudden decision [COCA]. Поскольку предикаты to seem и to appear относятся к средствам вербализации понятия кажимости, в их семантике присутствуют все признаки, характерные для данного феномена [Семенова 2007]. Когнитивную основу кажимости определяют три признака: 1) двуплановость – совмещение реального и кажущегося миров; 2) наличие наблюдателя / самонаблюдения; наблюдающим 3) восприятие [Арутюнова 1999]. (чувственное) Кроме ситуации вышеназванных признаков, некоторые исследователи выделяют еще два: условие восприятия (чувственно-эмоциональное 60 и

физическое состояние воспринимающего) и объект восприятия [Семенова 2007]. Согласно Большому Оксфордскому Словарю, глагол to seem (казаться), имеет следующие основные лексико- семантические варианты: 1) to have a semblance or appearance; to appear to be, to be apparently (what is expressed by the complement) – иметь сходство или видимость, казаться, быть явным (что выражается посредством дополнения): It seems clear that there has been a mistake. 2) with infinitive: to appear to be or to do something – употребляется с инфинитивом: казаться чем-то или делать что-то: She seems to be a smart woman [Большой Оксфордский Словарь]. Согласно определениям, в первом случае глагол to seem выражает предположение с низкой степенью достоверности; во втором лексико-семантическом варианте, напротив, значение глагола to seem казаться является выражением предположения с высокой степенью достоверности. Словарь Вебстера (Webster's new international dictionary (2nd edition) предлагает следующие лексико-семантические варианты глагола to seem: представлять внешние признаки таким образом, чтобы они заставили говорящего или других воспринимающих предположить один из них (быть, действовать, идти, и так далее): представить все знаки, указания, относящиеся к делу; быть очевидной правдой или чьими-то впечатлениями, либо мнением; казаться, притворяться; представить похожие или какие-то явные признаки; сообщаться официально или услышать слухи, стать 61

известным [Словарь Вебстера]. Вышеупомянутые значения глагола to seem позволяют выделить значений от оттенков варьирование неуверенности, колебания его до предположения, основанного на явных очевидных признаках [Абдусаламова 2011]. Для глагола to appear предлагаются следующие лексикосемантические варианты значений: появиться в поле зрения, стать заметным; начать свое существование, проявить свои признаки впервые; cоздавать впечатление о ком-либо или о каком-либо действии (синоним seem) [Большой Оксфордский Словарь]. Как видно из дефиниций, глагол to appear употребляется, когда речь идет о более четком, физически ощутимом восприятии, которое часто происходит впервые. Ю.Д. Апресян также уверен, что в тех случаях, когда речь идет об объекте или ситуации (не о человеке), и когда впечатление об этом объекте или ситуации основано на их внутренних характеристиках (то есть не на их физических свойствах, чувствами), которые могут быть вышеописанное восприняты семантическое нашими различие исчезает: The news seemed / appeared to be very important [Апресян 2000]. Таким образом, в параграфе были проанализированы семантические особенности глаголов восприятия to seem и to appear. Исследование источников показало, что их значения разграничены четырьмя признаками. Считается, что данные глаголы относятся к глаголам синтезирующего восприятия. Была рассмотрена точка зрения, согласно которой предикаты 62

to seem и to appear относятся к средствам вербализации понятия кажимости. 2.3 Исследование возможностей систем Big Data с помощью предикатов to seem и to appear Системы больших данных дают исследователю большой набор возможностей, которые могут существенно помочь в работе. Опишем некоторые из них. Практически во всех словарях и исследованиях утверждается, что предикат to appear встречается реже, чем to seem, и является немного более формальным. С помощью сервиса Google Books Ngram Viewer, который дает возможность строить графики частотности языковых единиц на основе большого количества печатных источников в период времени с XVI века и до сегодняшнего дня, проанализируем употребление глаголов to seem и to appear в диахронии, за период с 1800 до 2008 года. Результат представлен на рисунке 7. Рисунок 7. Частотность употребления глагола seem и appear с 1800г. до 2008г. 63

Судя по полученным данным, можно утверждать, что два века назад более частотным глаголом был to appear, но в начале XX века он уступил первое место глаголу to seem. Следовательно, подтверждается мнение о том, что to seem встречается чаще, чем to appear, хотя разница в частотности употребления данных языковых единиц на сегодняшний день незначительна. С помощью системы GoogleTrends проанализируем, насколько часто предикаты to seem и to appear используются в разных странах. Для этого введем поисковые запросы формата to seem и to appear в поисковую строку. Рассматриваемый период времени – с 2004 г. по 2020 г. Результатом будет график динамики популярности для конкретной страны и таблица популярности для всех стран. Значения для каждой страны представлены в виде баллов. 100 баллов означают местоположение с наибольшей долей популярности запроса, 50 баллов – местоположение, уровень популярности запроса в котором вдвое ниже, чем в первом. 0 баллов означает местоположение, по которому недостаточно данных о рассматриваемом запросе. Данные представлены в таблице (см. Таблица 1). Таблица 1 Популярность глаголов to seem и to appear по странам Глагол To seem To appear Google Trends популярность по регионам Соединенные Штаты - 100 Великобритания - 76 Австралия - 71 Россия - 10 Соединенные Штаты - 80 Австралия - 62 Великобритания - 54 Россия - 4 64

Основываясь на полученных данных, можно утверждать, что наибольшее количество запросов относится к Соединенным Штатам, а наименьшее к России. Во всех рассматриваемых регионах запросы с глаголом to seem являются более популярными, чем с глаголом to appear. Ранее при анализе семантики предикатов было найдено утверждениие, что разница между to appear и to seem заключается в том, откуда возникает неопределенность. При употреблении глагола to seem эта неопределенность исходит от наблюдателя / субъекта как носителя опыта. При использовании глагола to appear неопределенность вызвана характеристиками / чертами наблюдаемого человека или предмета и может подразумевать попытку обмана [Апресян 2000]. Маркером речевой ситуации, подразумевающей попытку обмана, может быть конструкция tried to appear / to seem с прилагательным. Рассмотрим частотность с помощью корпусов BNC и COCA. С помощью поисковых запросов формата tried to appear _j* и tried to seem _j*, найдем нужные нам конструкции. Результатом поиска будет список предложений с искомыми единицами и их общее число (см. Таблица 2 и Приложение 4). Из результатов видно, что конструкция tried to appear + adj встречается чаще, чем tried to seem + adj – 39 и 16 употреблений соответственно. Таким Таблица 2 Частотность использования конструкций tried to appear + adj / tried to seem + adj BNC COCA Tried to appear + adj 7 32 Tried to seem + adj 0 16 65

образом, можно предположить, что to appear подразумевает попытку обмана чаще, чем to seem. Программа SentiStrength помогает проанализировать предложения с глаголами to seem и to appear с точки зрения положительной / отрицательный окраски речи. Всего было проанализировано 25 предложений с глаголом to seem и 25 предложений с глаголом to appear. Результат представлен в таблице 3, полный список примеров в приложении (см. Приложение 15 и Приложение 16). Таблица 3 Эмоциональная окраска предложений с глаголами to seem и to appear Положительные 6 2 To seem To appear Отрицательные 7 8 Нейтральные 12 15 Согласно полученным данным, оба глагола чаще всего нейтральны. Однако глагол to appear в четыре раза чаще встречается в предложениях с отрицательной эмоциональной окраской в сравнении с предложениями с положительной эмоциональной окраской. Электронный возможные тезаурус толкования WordNet слов и предоставляет показывает все взаимосвязи между ними. С его помощью можно получить ссылки на производные или более общие понятия, найти синонимы, автоматически объединенные в смысловые группы. Проанализировав глаголы с помощью данного ресурса, убеждаемся, что семантическую определенное to связь. seem, to Seem, впечатление или внешний вид: 66 appear, имеют appear – иметь тесную произвести определенный

She seems to be sleeping; This appears to be a very difficult problem; This project looks fishy [словарь WordNet] Стоит отметить, что ввиду своего ограниченного функционала, данный ресурс не подходит для серьезных лингвистических исследований. Остальные материалы, полученные с помощью ресурса, представлены в приложении (см. Приложение 7). Частотность употребления предикатов to seem и to appear можно также уточнить средствами систем национальных корпусов. Для проведения исследования BNC и COCA были выбраны как самые репрезентативные, объемные и удобные в использовании корпуса английского языка. Отличия в полученных результатах обусловлены как разницей в семантике глаголов, так и неодинаковой наполненностью корпусов (примерно 560 млн. слов в COCA и 100 млн. слов в BNC). Для определения частотности употребления в каждый из корпусов текстов вводится искомый глагол. В целях получения более точного результата для каждой формы глагола вводился отдельный поисковый запрос формата seem, seems, seemed и так далее. В результате были получены данные о количестве употребления одной конкретной формы (см. Рис. 8). Рисунок 8. Результат поискового запроса seem в COCA. По результатам последовательного исследования всех форм предиката to seem в обоих корпусах были получены 67

следующие данные о частотности их употребления (см. Таблица 4). Таблица 4 Частотность употребления глагола to seem и его форм в корпусах COCA/BNC Seem Seem Seem Seemin Will To Woul Oбщее s ed g seem seem d кол-во seem COCA 16101 21465 14463 4906 881 2641 8522 537247 BNC 11629 42054 22191 378 106 255 1616 59636 0 1 7 Из полученных результатов видно, что как в COCA, так и в BNC, наиболее частотными являются формы seems и seemed. Наименее частотной в обоих корпусах является форма будущего времени will seem. Используя системы больших данных можно уточнить нюансы употребления любых языковых единиц. Для определения коллокаций предиката to seem в корпусах текстов BNC и COCA вводился поисковый запрос формата seem*, что позволило включить в поиск формы seems, seemed, seeming. Далее с помощью функции Collocates был получен список коллокатов, упорядоченный по частотности их употребления (см. Рис. 9 и 10). 68

Рис.9. Коллокация предиката seem в Британском национальном корпусе текстов Проанализируем коллокацию предиката to seem с помощью национальных корпусов. Представим несколько примеров с глаголом to seem и самими часто употребляемыми коллокациями в корпусе BNC. Остальные примеры можно найти в приложении (см. Приложение 5). Countries now seem to think that monetary-policy measures are their only option [BNC]. And something appeared to them which seemed like tongues of fire [BNC]. It seems likely that, in many cases, they are correct, but that these symptoms are not due to what doctors would normally regard as allergy [BNC]. Далее представлены несколько примеров с глаголом to seem и самими часто употребляемыми коллокациями в корпусе COCA (см. Рис. 10). Остальные представлены в приложении (см. Приложение 5). примеры . Your truck seemed to be running just fine yesterday, but you got in today and you're going nowhere [COCA]. 69

It seems like CNN, NBC, CBS, and ABC are ignoring this [COCA]. Рис. 10. Коллокация предиката seem в Корпусе современного американского английского языка Из полученных данных видно, что наиболее частотным словосочетанием является seem(s/ed)+to: If they seemed to be alright then… [COCA]. Actually the enterprise seems to have fizzled out [COCA]. It doesn't seem to me that it would be reasonable [BNC]. Чаще всего после конструкции seem(s/ed) + to следует глагол в той или иной форме. С помощью запроса формата seem* _to _v* узнаем количество употреблений таких конструкций, и какие именно глаголы употребляются чаще всего (см. Рис. 11 и 12). 70

Рис. 11. Частотность seem(s/ed)+V в Британском национальном корпусе текстов Видно, что в корпусе BNC самыми распространенными глаголами оказались to be, to have. Рис. 12. Частотность seem(s/ed)+V в Корпусе современного американского английского языка По результатам видно, что самыми распространенными глаголами в корпусе COCA стали to be, to have. Суммируя данные обоих корпусов, можно утверждать, что наиболее распространенными глаголами являются to be и to have. Приведем несколько примеров. Scotland seem to have got moment [BNC]. 71 away with it at the

But it is a task with which John seems to be coping remarkably well [BNC]. The details of the decision seem to be misrepresented here [COCA]. The problem is they don't seem to have to report to anyone [COCA]. В этой конструкции to seem, как правило, указывает на отсутствие уверенности говорящего в том, что создавшееся впечатление правильное (см. Приложение 13). Проанализируем коллокацию предиката to appear с помощью национальных корпусов. По результатам последовательного исследования всех форм предикатов в обоих корпусах, были получены определенные данные, которые после обработки и обобщения представлены в таблице (см. Таблица 5). Таблица 5 Частотность употребления глагола appear и его форм в корпусах COCA/BNC COCA BNC Appea r Appea rs Appear ed Appeari ng 73937 10597 71161 7480 65539 10032 10746 1394 Will appea r 4137 520 To appea r 10658 1665 Would appea r 4283 1064 Общее кол-во 24046 1 32752 Согласно полученным данным, можно утверждать, что наиболее частотными являются формы appear, appears и appeared. Однако в сравнении с аналогичными формами глагола to seem, формы глагола to appear уступают в количественном соотношении в два и более раза. Наименее частотной в обоих корпусах времени will appear. 72 является форма будущего

Сравним данные по обоим глаголам. Суммарное количество употреблений глагола to seem в корпусах COCA и BNC – 596 883, а глагола to appear – 273 213. Таким образом, еще раз подтверждаются использования сервиса данные Google полученные Books Ngram в ходе Viewer и предположение о более высокой частотности употребления глагола to seem. Рассмотрим коллокацию слова to appear в национальных корпусах. Последовательность работы была такая же, как с предыдущим предикатом. С помощью функции Collocates был получен список коллокатов, упорядоченный по частотности их употребления (см. Рис. 13 и 14). Рис. 13. Коллокация предиката to appear в Британском национальном корпусе текстов Далее представлены несколько примеров с глаголом to appear и самими часто употребляемыми коллокациями в корпусе BNC. Остальные примеры приложении (см. Приложение 6). 73 . можно найти в

Now they appear to be trying to take the people of Norris Green down the same road and we refuse to go [BNC]. She must be told to appear before the Committee or be forced to take the [BNC]. Since the mid-1970s clocks appeared regularly at auction these and been valued consistently at around $4,000-6,000 [BNC]. Рис. 14. Коллокация предиката appear в Корпусе современного американского английского языка Далее представлены несколько примеров с глаголом to appear и самими часто употребляемыми коллокациями в корпусе COCA. Остальные примеры представлены приложении (см. Приложение 5). Especially since there didn't appear to be any damage to the photo or frame [COCA]. The same information about Miller appears on a variety of other websites, including at the American Legion and Project Vote Smart, where it specifies that he served in the U.S. Army [COCA]. 74 в

The fisherman repeated the words, and the fish appeared before him [COCA]. Можно увидеть, что самым частотным словосочетанием является appear(s/ed)+to: The pace of job growth appears to be slowing down in San Francisco [COCA]. Yet the stock returns for Abbott don't appear to be as impressive [BNC]. После конструкции appear(s/ed) + to чаще всего следует глагол в той или иной форме. С помощью запроса формата appear* _to _v* узнаем количество употреблений конструкций c глаголами, а также выясним, какие именно глаголы употребляются чаще всего (см. Рис. 15). Рис. 15. Частотность appear(s/ed)+V в Британском национальном корпусе текстов Видно, что в корпусе BNC самыми распространенными глаголами оказались to be, to have (см. Рис. 16). 75

Рис. 16. Частотность appear(s/ed)+V в Корпусе современного американского английского языка По результатам видно, что самыми распространенными глаголами в корпусе COCA стали to be, to have. Согласно полученным данным можно утверждать, что самыми распространенными глаголами являются to be, to have. Meanwhile waxwings certainly appear to be making their way back north after the big flocks recorded here in early December generally dispersed southwards [BNC]. The public's political knowledge appears to have increased [BNC]. The most common cause appears to be heat stress arising from climate change [COCA]. It's a strategy that appears to have worked in the past [COCA]. Анализ примеров позволяет утверждать, что в данной конструкции глагол to appear 76 показывает, что мнение

основано на общем впечатлении об объекте / ситуации (см. Приложение 14). Отметим сходство в сочетаемости предикатов to seem и to appear, поскольку у обоих глаголов наиболее частотной конструкцией является seem / appear(s/ed) + to. Более того, схожей является сочетаемость полученной конструкции со стоящими далее глаголами, которыми стали to be и to have. В следующих по частотности употреблений конструкциях, проявляются различия. В то время как глагол seem(s/ed) часто используется с наречиями, например: likely, unlikely, almost, после глагола apeear(s/ed) чаще следуют предлоги: on, before, within. Определим стилевую стратификацию изучаемых предикатов to seem и to appear. Проведем анализ частотности употребления глаголов в различных стилях и уточним, могут ли они являться стилистическими маркерами для какоголибо типа дискурса. Для этого в корпусах BNC и COCA в разделе Chart задается поисковый запрос формата seem* и appear*. Результатом поиска является гистограмма, отображающая количество употреблений искомого глагола по разделам и подразделам (см. Рис. 17-20). Рис. 17. Определение стратификации глагола to seem в COCA 77

Рис. 18. Определение стратификации глагола to seem в BNC Рис. 19. Определение стратификации глагола to appear в COCA Рис. 20. Определение стратификации глагола to appear в BNC Анализ глагола seem(s/ed) в Корпусе современного американского английского показал, что частотность слова составляет 532076 единиц. Согласно графику частотности, можно сделать вывод, что глагол to seem чаще всего употреблялся в 1990-1994 годах. В последующие годы разница в количестве употреблений составляет около 1000 в год. Глагол to seem чаще используется в Интернете, в блогах и на веб-сайтах. Наибольшие значения показывают категории Дискуссия 93662 и Разное 34388. Второй категорией по частотности является Художественная литература. Наименьшее число употреблений зафиксировано в сфере телевидения – 44752 употреблений. Количество употреблений в разговорном дискурсе составляет 60728. 78

Больше примеров представлено в приложении (см. Приложение 8). It seems like it may be a really good starter book for reporters or photographers who are just getting started (Blog). It seems only those films are in that universe (Web). So it seems that even Buster believes the story that happened in 1982 (TV). Well it seemed to be the motif (Spoken). The boy, blond and pale, seemed no older than nine, though in Europe Richard had found it difficult to judge (Fiction). Either way, it seems trade talks are back on (Magazine). Do not be afraid to call this what it seems to be (Newspaper). We also found that spatial memory seemed to be more affected at older ages (Academic). Анализ текстов данных показал, составляет 59122 Британского что национального частотность единицы, глагола информация о корпуса seem(s/ed) частотности употребления по годам отсутствует. Раздел Интернет также не представлен в данном корпусе. Глагол to seem чаще всего используется в художественной литературе – с частотностью 17250 единиц. Самое большое количество употреблений в данном подкорпусе приходится на прозу – 17110. Вторым по количеству употреблений является академический дискурс с количеством употребляется использований в области 10958. Чаще гуманитарных 79 всего наук глагол 3491 и

социологии 3446. Количество употреблений в разговорном дискурсе составляет 4076. Больше примеров представлено в приложении (см. Приложение 9). Though we do seem to be doing quite well in numbers (Spoken). He looks round, seems doubtful, then the explanation (Fiction). He seems to have a natural ability which encourages plants to grow well (Magazine). Something seemed to fall off the cockpit (Newspaper). He seemed a very pleasant person but he spoke no Bengali (Nonacademic). These are radical suggestions which may seem impractical; but the status quo may be indefensible (Academic). These two opposite conditions of temperature seemed impossible to reconcile (Misc). Глагол to seem часто употребляется в британской прозе и научном дискурсе, реже телевидения. Также to американской художественной всего seem используется часто сфере употребляется литературе и в Интернете. Глагол to seem часто встречается в разговорном стиле в обоих корпусах. Далее английского Исследование слова в Корпусе современного проанализируем показало, составляет что 221371 американского глагол appear(s/ed). частотность использования единицу. Согласно графику частотности, можно сделать вывод, что глагол to appear чаще всего употреблялся в 1990-1994 годах и в последние годы – 80

2015-2019. В промежутке между ними разница в количестве употреблений составляет около 2000 в год. Глагол to appear чаще используется встречается в в Интернете (74604). академическом Он часто – 41390 дискурсе употреблений. Здесь больше всего употреблений приходится на гуманитарные технические науки науки (7859), (5238). социологию Третьей по (7499) и частотности категорией являются журналы – 34779. Так, глагол to appear чаще всего встречается в колонках о науке и технологиях (9158), новостях (8119) и здоровье (4676). Самое маленькое количество употреблений зафиксировано в сфере телевидения – 8382 примера. Количество употреблений в разговорном дискурсе составляет 17038. Примеры представлены в приложении (см. Приложение 10). This is not as straightforward as it might at first appear (Blog). The full name of the victim has still not been released, but it appears her last name was Romero (Web). It appears your sister lied to me (TV). As we mentioned earlier, we asked the mayor to appear, but like her predecessor, Rahm Emmanuel, she declined (Spoken). Before she has to answer, Mallory appears in the kitchen doorway (Fiction). Note that to appear in eczema in children the bends (Magazine). 81 of is elbows more likely and knees

Apparently I am mistaken as it appears it is the president who writes the laws, then Congress approves them (Newspaper). The idea is clear, but it appears that it is not well presented by the figure (Academic). Анализ текстов данных показал, составляет Британского что 29507 национального частотность единиц, глагола информация о корпуса appear(s/ed) частотности употребления по годам отсутствует. Раздел Интернет не представлен. Глагол to appear чаще всего используется в академическом дискурсе – 7089 единиц. Самое большое количество употреблений в данном подкорпусе приходится на гуманитарные науки (1888), юриспруденцию (2025) и социологию (1917). Вторым является неакадемический дискурс с количеством использований 5943. В этом разделе лидером является группа художественных дисциплин (1772). Количество употреблений в разговорном дискурсе составляет 775. Больше примеров представлено в приложении (см. Приложение 11). Also, the roof is leaking in several places, there are cracks appearing on the parapet (Spoken). But Sven Hjerson appeared not to have heard (Fiction). At about 1.40pm cars started to appear and people were seen walking up the road (Magazine). The problem is that when a new trick appears, everyone is trying to see what advantages they can get from it (Newspaper). 82

At first the social worker appeared willing and helpful (Non-academic). Subsequently a little girl appeared in the doorway with the little boy (Academic). The safer the loan appears to be, the lower, in general, the interest rate (Misc). Глагол to appear часто употребляется в американском и британском академическом гуманитарных науках. дискурсе, Также этот а именно глагол в часто употребляется в американских журналах. To appear чаще встречается в американском разговорном дискурсе, чем в британском. Представим все полученные данные в таблицах (см. Таблицы 6 и 7). Таблица 6 Стилевая стратификация глаголов to seem/to appear в корпусе COCA Блог Веб ТВ/ Устн. Худ.ли Журн Газета Академ COCA To 8815 7445 seem To 0 2609 6 3317 appear 4 4 фильм 44360 6072 8382 8 1703 т. 94056 . 6328 49236 . 48806 29657 4 3477 29857 41390 8 9 Таблица 7 Стилевая стратификация глаголов to seem/to appear в корпусе BNC Устн Худ.ли Журна Газета Не Академ. Разное BNC To . 4053 т. 17250 л 4205 4277 академ. 8361 10958 10018 seem To 775 3962 2089 3358 5943 7089 6291 appear Сравнивая полученные данные, можно отметить, что оба глагола часто встречаются в сети Интернет. Глагол to seem 83

часто используется в художественной литературе, в отличие от глагола to appear, который является более частотным в академическом дискурсе. В устной речи более распространенным является to seem. Для того чтобы выявить взаимозаменяемости глаголов, анкетирование носителей предлагалась среди анкета, содержащая возможность было проведено языка. 20 Участникам предложений с глаголами to seem / to appear. Примеры были отобраны с помощью поискового запроса seem* и appear* в корпусах COCA и BNC. Каждый пункт анкеты содержит оригинальное предложение и то же самое предложение, но с другим глаголом. Респонденту необходимо было отметить каждое из них как верное / неверное / возможное. Пример из анкеты представлен в таблице 8, полные результаты анкетирования размещены в приложении (см. Приложение 17). Таблица 8 Пример анкетирования с целью выяснить взаимозаменяемость глаголов Correct Wrong Possible I seem plagued by convoluted sentences today -sorry! I appear plagued by convoluted sentences today -sorry! Всего в анкетировании приняли участие 5 носителей языка из США, Великобритании, Австралии и Канады. Два респондента являются преподавателями английского языка. Результаты представлены в таблице 9. 84

Таблица 9 Результаты анкетирования с целью выяснить взаимозаменяемость глаголов Согласилс Согласилс Выбрал Отметил Отметил я с я с оба оригинал не оригинало неоригина варианта как оригинал м лом возможно как е возможно е Респонден 9 5 6 1 0 т1 Респонден 7 10 3 0 0 т2 Респонден 5 1 14 1 2 т3 Респонден 6 6 8 4 2 т4 Респонден 4 5 11 1 1 т5 Согласно полученным данным, можно сделать вывод, что многие респонденты затруднились с определением оригинального предложения, часто выбирая оба варианта как правильные. Кроме того, некоторые опрашиваемые испытывали затруднения при выборе и отмечали, что данные глаголы чаще всего взаимозаменяемы. Случаи, когда респондент выбирал оба варианта, часто обусловлены тем, что вариант предложения с глаголом to appear, является более формальным. носителей Таким образом, английского взаимозаменяемость проведенный языка глаголов и более опрос подтверждает высокую степень формальности глагола to appear. Для того, чтобы доказать или опровергнуть утверждение о том, что to seem указывает на неопределенность исходящую от наблюдателя / субъекта, в то время как to appear указывает на неопределенность, вызванную особенностями 85

объекта, был проведен опрос носителей языка. Для этого с помощью поискового запроса seem* и appear*, были отобраны примеры употребления глаголов to seem, to appear в корпусах COCA и BNC. предложению в Анкета состоит каждом. из 20 Респонденту пунктов, был по 1 предложено предложение и три варианта ответа неопределенность от субъекта / неопределенность от объекта / затрудняюсь ответить. Пример представлен в таблице 10, полная анкета представлена в приложении (см. Приложение 18). Таблица 10 Пример анкетирования с целью выяснить откуда исходит неопределенность Uncertainty comes from: Subject/person Object/ Not sure situation I kept in touch with Joe -there were no other friends. But they appeared to me as if seen through the wrong end of a telescope, muted and unreal В анкетировании поучаствовали те же самые 5 информантов. Результаты представлены в таблице 11. Таблица 11 Результаты анализа значений возникновения неопределенности Респондент 1 Неопределенность исходит от субъекта Неопределенность исходит от объекта Затрудняюсь ответить To seem 6 To appear 2 1 6 Респондент 2 Неопределенность исходит от субъекта Неопределенность исходит от объекта Затрудняюсь ответить To seem 4 To appear 5 5 5 5 1 86

Респондент 3 Неопределенность исходит от субъекта Неопределенность исходит от объекта Затрудняюсь ответить To seem 6 To appear 3 1 2 Респондент 4 Неопределенность исходит от субъекта Неопределенность исходит от объекта Затрудняюсь ответить To seem 7 To appear 3 3 7 Респондент 5 Неопределенность исходит от субъекта Неопределенность исходит от объекта Затрудняюсь ответить To seem 9 To appear 3 1 7 8 0 0 Таким образом, только анкеты респондентов 3 и 5 обладают выше показателями, утверждению (неопределенность соответствующими об источнике исходит от выдвинутому неопределенности субъекта to seem > неопределенность исходит от объекта to appear). В анкетах 1 и 4 эти показатели равны. показатели противоположны Учитывая результаты В анкете респондента исходному проведенного 2 утверждению. анкетирования носителей языка, нельзя с уверенностью утверждать, что фактор неопределенности влияет на выбор глагола. Проведенное доказывает с помощью наличие большого Big Data потенциала исследование этих систем, который еще не в полной мере используется в лингвистике. При этом стоит отметить, что не все возможности больших данных для изучения предикатов были описаны и проанализированы в работе. Например, не представлена информация о возможности 87 использования данных из

двуязычных корпусов для анализа особенностей перевода предикатов и выявления закономерностей. Также еще не анализировалась возможность использования диахронических корпусов для изучения развития значения предикатов to перспективой seem для и to appear. дальнейшего Это изучения может стать возможностей систем Big Data для лингвистических исследований. Выводы по главе II Во второй главе описано, как менялось понимание предикативности, приведены существующие классификации предикатов, перечислены предикативные конструкции и указаны их синтаксические функции; подробно представлена 88

семантика предикатов to seem и to appear, рассмотрена частотность их употребления в диахронии, этимология и др. Также проведен анализ потенциала некоторых систем Big Data для проведения лингвистических исследований, обозначены перспективы работы. На основании анализа глаголов семантические результатов to seem свойства. и В проведенного to appear корпусного выделены большинстве случаев их они взаимозаменяемы и переводятся на русский язык глаголами несовершенного вида – казаться, оказываться. Однако существуют тонкости в их употреблении. To appear является более формальным и имеет более низкую частотность употребления. To seem обозначает мнение, основанное на субъективных приписывает впечатлениях погрешность и личном оценки отношении, неким и особенностям субъекта восприятия. Глагол to appear может означать, что мнение основано приписывает на общем погрешность визуальном оценки впечатлении, особенностям воспринимаемого объекта. В то время как глагол to appear выражает только идею появления как перцептивного события, глагол to seem передает все виды восприятия. Оба глагола могут свидетельствовать о том, что говорящий высказывает предположение или не уверен в ситуации. Многие различия в значениях глаголов лежат в области синтезирующего восприятия, то есть в случаях, когда речь идет о цвете, форме, размер, четкости / нечеткости, эмоциональном состоянии. При этом to seem часто указывает на неуверенность говорящего в том, что создавшееся у него впечатление 89 правильно; to appear

указывает на то, что мнение основано на общем впечатлении об объекте или ситуации. Предположение о том, что при использовании глагола to seem неопределенность исходит от наблюдателя, а при использовании глагола to appear неопределенность вызвана характеристиками человека или объекта, в ходе исследования подтверждено не было. Анализ сочетаемости показал сходство в сочетаемости слов to seem и to appear. У обоих глаголов, наиболее частотной конструкцией является seem / appear(s/ed) + to. Схожей является сочетаемость полученной конструкции со стоящими далее глаголами, которыми чаще всего были to be и to have. В следующих по частотности употреблений конструкциях выявлены различия: глагол seem(s/ed) часто используется с наречиями, например: likely, unlikely, almost, а после глагола apeear(s/ed) чаще следуют предлоги: on, before, within. В результате определения стилевой стратификация предикатов to seem и to appear, а также анализа частотности их употребления в различных стилях и дискурсах, можно сделать вывод, что в устной речи предпочтение отдается глаголу to seem, формальным. Интернет. Оба Глагол художественной а глагол глагола to to appear часто seem литературе, встречаются часто а является также в более сети употребляется в в исследованиях (гуманитарные науки и социология). Глагол to appear чаще употребляется в американском и британском академическом дискурсе (социология, гуманитарные и технические науки). Глагол часто встречается в журналах, в колонках о науке и 90

технологиях, новостях и здоровье. Реже всего оба глагола используются в сфере телевидения. Анализ предложений с глаголами to seem и to appear в программе SentiStrength показал, что чаще всего данные глаголы встречаются в предложениях, имеющих нейтральную окраску. Заключение В представленной работе уточнен потенциал систем Big Data для лингвистических рассмотрено понимание семантика предикатов исследований. Для предикативности, этого описана to seem и to appear, проведено исследование их семантических свойств и значений, указана частотность и сочетаемость, обозначены перспективы исследования. Проведенный анализ научных исследований показал, что предоставляемые системами Big Data возможности находят свое применение во всех областях научного знания. В современных лингвистических исследованиях наиболее популярными становятся методы корпусной лингвистики. В работе представлены несколько классификаций корпусов с их подробным описанием. Сделан вывод, что с помощью информации, полученной после анализа корпусных данных, исследователям открываются прежде недоступные сведения о закономерностях языка и отдельных типах текста. Работа с 91

корпусом осуществляется программных средств с – помощью специальных конкордансеров и корпус- менеджеров. Применение систем Big Data для исследования предикатов позволило получить данные о частотности их употребления, этимологии, коллокации, семантике и особенностях использования, как в разных станах, так и в различных жанрах, дискурсах и стилях. При этом с помощью корпусного анализа глаголов были получены новые данные о частотности употребления схожих по семантике глаголов в различных функциональных стилях. Проведенный анализ теоретических источников и корпусных данных позволил прийти к выводу, что предикаты to seem и to appear часто являются взаимозаменяемыми и переводятся на русский язык глаголами казаться, оказываться. При этом to seem является более частотным и менее формальным. Некоторые исследователи указывают на различия в семантических значениях данных предикатов, однако при проведении анализа корпусных данных, не все они нашли подтверждение. Так предположение о том, что при использовании глагола to seem неопределенность исходит от наблюдателя, а при использовании глагола to appear неопределенность вызвана характеристиками человека или объекта, в ходе исследования не подтвердилось. Исследование также показало сходную сочетаемость глаголов to seem и to appear. Наиболее частой конструкцией стало seem / appear(s/ed) + to. Схожей является сочетаемость полученной конструкции со стоящими далее глаголами, 92

которыми чаще всего были to be и to have. В следующих по частотности употреблений конструкциях выявлены различия: глагол seem(s/ed) часто используется с наречиями, например: likely, unlikely, almost, а после глагола appear(s/ed) чаще следуют предлоги: on, before, within. Описывая перспективы исследования, была отмечена возможность использования данных из двуязычных корпусов для анализа особенностей перевода предикатов и выявления закономерностей. Видится возможным использование диахронических корпусов для изучения развития семантики предикатов to seem дальнейшего и to appear. исследования возможностей других Также перспективой являются: изучение программных средств, предоставляемых системами Big Data; уточнение специфики лингвистических исследований с применением Big Data. Подводя итог, можно сделать вывод, что системы Big Data открывают широкие перспективы для проведения различных лингвистических исследований. Полученные в ходе этой работы данные, могут стать основой для дальнейшего исследования предикатов, а также применения в лингвистических исследованиях разнообразных технологий систем Big Data (например, различных типов текстовых корпусов, Google Trends, Google Books Ngram Viewer и др.). Библиография I. ЛИТЕРАТУРА 93

1.Апресян Ю.Д. Синонимический ряд выглядеть, казаться. II Ю.Д. Апресян, О.Ю.Богуславская, Т.В.Крылова, И.Б.Левонтина, Е.В. Урысон и др. Новый объяснительный словарь синонимов русского языка. Под общим рук.акад. Ю.Д.Апресяна. Вып. 2. М., 2000. – С.61-88. 2.Англо-русский синонимический словарь / Апресян Ю.Д ., Ботякова В.В., Латышева Т.Э. и др.: под рук. Розенмана А.И. и Апресяна Ю.Д. М.: рус. яз., 2000. – 544 с. 3.Арутюнова Н.Д. Язык и мир человека. М.: Языки русской культуры, 1999. – 896 с. 4.Арутюнова Н.Д. Сокровенная связка (к проблеме предикативного отношения) // Известия АН СССР / Серия литературы и языка. – Т. 39. – 1980. – №4. – С. 392-393. 5.Афанасьева О.В. Адъективный класс лексики в современном английском языке и формы его языковой репрезентации: диссертация доктора филологических наук: 10.02.04. – Москва, 1994. – 395 с. 6.Баранов А.Н. Корпусная лингвистика / Баранов А.Н. // Введение в прикладную лингвистику. – М.: Едиториал УРСС, 2001. – C. 51-52. 7.Берман И.М. Грамматика английского языка. Курс для самообразования. – М., «Высшая школа», 1993. – С. 162-165. 8.Виноградов В.В. Основные вопросы синтаксиса предложения (на материале русского языка) // Введение в языкознание. Хрестоматия. – М.: Аспект Пресс, 2001. – С. 204-222. 9.Владимов переводческих Н.В. Корпусный проблем: На 94 подход материале к решению письменных

переводов с русского языка на английский: дис. ... кан. филол. наук. – М., 2005. – 198 с. 10. Выготский Л.С. Мышление и речь (Извлечения) / Психолингвистика в очерках и извлечениях: Хрестоматия: – М.: Академия, 2003. – С. 280-285. 11. Гвишиани лингвистике: Н.Б. Учеб.пособие Практикум по по английскому корпусной языку/ Н.Б. Гвишиани. – М.: Высшая школа, 2008. – 191 с. 12. Горина О.Г. Использование технологий корпусной лингвистики для развития лексических навыков студентоврегионоведов в профессионально-ориентированном общении на английском языке: Дис. … кан. пед. наук. – Спб., 2014. – 308 с. 13. Гречко В.А. Теория языкознания. – М.: Высшая школа, 2003. – 375 с. 14. Дорошевский В. Элементы лексикологии и семиотики. – М.: Прогресс, 1973. – С. 182-183. 15. Захаров В.П. Лингвистика больших корпусов / В.П. Захаров // Компьютерная лингвистика и вычислительные онтологии: сборник научных статей. – Спб.: НИУ ИТМО, 2015. – С. 82-93. 16. Захаров В.П. Поисковые системы Интернета как инструмент лингвистических исследований / В.П. Захаров // Русский язык в Интернете: Сб. статей. – Казань: Отечество, 2003. – C. 48-59. 17. Захаров В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов / В.П. Захаров, С.Ю. Богданова – Иркутск: ИГЛУ, 2011. – 161 с. 95

18. Ильчук Е.В. Мышление и восприятие сквозь призму языка (на материале английского языка). М.: Прометей, 2004. – 263 с. 19. Ильчук модальности кандидата в Е.В. Некоторые английском типы языке: филологических наук: эпистемической автореферат 10.02.04 / дис. Ин-т языкознания. – Москва, 1990. – 24 с. 20. Ильчук Е.В. Основные направления когнитивизма // Лингвистика на рубеже эпох: доминанты и маргиналии. Сборник статей. Вып. 2. / Сост. – О.А.Сулейманова и Н.Л. Огуречникова. – М.: МГПУ, 2004. – С.18-29. 21. Ильчук Е.В. Сравнительный анализ показателей эпистемической выраженных модальности глаголами в восприятия английском (seem и языке, appear) и модальными словами (probably) // Семантико-прагматические и социолингвистические аспекты изучения языка. Конференция молодых научных сотрудников и аспирантов. Тезисы докладов. – М.: Институт языкознания РАН, 1990. – С. 30-34. 22. Ильчук Е.В Представление когнитивных процессов в семантике английских глаголов: автореф. дис. на соиск. учен.степ. докт. филол. наук (10.02.04) / Ильчук Елена Вячеславовна; МПГУ. – Москва, 2006. – 46 с. 23. Кибрик А.Е., Брыкина М.М., Леоньев А.П., Хитров А.Н. Русские посессивные конструкции в свете корпусностатистического исследования // Вопросы языкознания. 2006. – Вып. 1 – С. 16-45. 24. Козлова Н.В. Лингвистические корпуса: определение основных понятий и типология / Н.В. Козлова // 96

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. – 2013. – Т. 11, Вып. 1. – С. 79-88. 25. Кравченко В.О., Крюкова А.А. «Большие данные» – практические аспекты и особенности // Academy. – 2016. – №6(9). – С. 65-67. 26. Лакофф Дж. Метафоры, которыми мы живем / Дж. Лакофф, М. Джонсон. – М.: Едиториал УРСС, 2004. – 256 с. 27. Лингвистический энциклопедический словарь / под ред. В.Н. Ярцева. – М.: Советская энциклопедия, 1990. – 685 с. 28. Новиков Д.А. Большие данные: отБраге к Ньютону // Проблемы управления. – 2013. – № 6. – С. 15-23. 29. Одинцов А.В. Социология общественного мнения и вызов BigData // Мониторинг общественного мнения: Экономические и социальные перемены. – 2017. – № 3. – С. 30-43. 30. Пащенко Ю.А. Предикативность и предикат в лингвистике и логике / Ю.А. Пащенко //вестник ТГПИ. – Таганрог: ТГПИ им. Чехова, 2006. – С. 70-72. 31. Потапова Т.В. Понятие предикативности в языкознании // Вестник Таганрогского института имени А.П. Чехова. – 2017. – № 6. – С. 30-35. 32. Потебня А.А. Мысль и язык (извлечения) / Психолингвистика в очерках и извлечениях: Хрестоматия. – М.: Академия, 2003. – С.100-101. 33. Плунгян идеология: о В.А. Корпус некоторых уроках как инструмент современной и как корпусной лингвистики / В.А. Плунгян // Русский язык в научном 97

освещении №2 (16). – М.: РАН ИРЯ им. Виноградова, 2008. – С. 7-20. 34. Радченко И.А, Николаев И.Н. Технологии и инфраструктура BigData. – СПб: Университет ИТМО, 2018. – 52 с. 35. Рассел Б. Здравый смысл и ядерная война / Пер. с англ. В.М. Карзинкина. М.: Изд-во иностранной литературы, 1959. – 77 c. 36. Рыков В.В. Корпус объектно-ориентированной текстов как парадигмы реализация // Труды Международного семинара «Диалог 2002». – М.: Наука, 2002. – С. 59-61. 37. Семантические типы предикатов / под ред. О.Н. Селиверстовой. – М.: Наука, 1982. – С. 88-91. 38. Семенова Т.И. Лингвистический феномен кажимости. Иркутск, 2007. – 237 с. 39. Смирницкий А.И. Синтаксис английского языка. – М., Издательство литературы на иностранных языках, 1957. – 285 с. 40. Степанов Ю.С. В трехмерном пространстве языка: Семиотические проблемы лингвистики, философии, искусства. – М.: Книжный дом «Либроком», 2010. – 133 с. 41. Сулейманова экспериментальных О.А. Использование лингвокогнитивных BIG DATA в исследованиях: анализ семантической структуры глагола shudder / О.А. Сулейманова, В.В. Демченко // Когнитивные исследования языка. – Тамбов: Общероссийская общественная организация "Российская ассоциация лингвистов-когнитологов", 2018. – С. 466-472. 98

42. Сулейманова О.А. Экспланаторный потенциал теории классов для лингвистического исследования, порядок следования определений / О.А. Сулейманова, И.М. Петрова // Филология: научные исследования. – Москва: ООО "НБМедиа", 2018. – С. 52-64. 43. Сысоев П.В. Компетенция учителя иностранного языка в области коммуникационных использования технологий: информационно- определение понятий и компонентный состав/П.В. Сысоев // Иностранные языки в школе. – 2011. – № 6. – С. 16-20. 44. Харин А.В. Экосистема анализа больших данных hadoop: магистерская диссертация / А.В. Харин; Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Институт „Высшая школа экономики и менеджмента“, Кафедра анализа систем и принятия решений. – Екатеринбург, 2017. – 110 с. 45. Чернякова Т.А. Использование лингвистического корпуса в обучении иностранному языку // Язык и культура. 2011, №4. – С. 119-125. 46. Шаров С.А. Представительный корпус русского языка в контексте мирового опыта / С.А. Шаров // НТИ. Сер.2. – 2003. – №6. – С. 9-17. 47. Шевчук В.Н. Электронные ресурсы переводчика: Справочные материалы для начинающего переводчика. – М., 2010. – 44 с. 48. Aarts J., Meijs. W. Corpus Linguistics: Recent developments in the Use of Computer Corpora in English Language Research / J. Aarts, W. Meijs // Amsterdam: Rodopi. – 1984. – 425 p. 99

49. Boyd D., Crawford K. Critical Questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon. //Information, Communication & Society. – 2012. – Vol. 15. – № 6. – pp. 662-679. 50. Deignan A.A. corpus-linguistic perspective on the relationship between metonymy and metaphor // Style. – 2005. – Vol. 39(1) – pp. 72-91. 51. Francis N.W. Language Corpora B.C. Directions in Corpus Linguistics// Proceedings of Nobel Symposium 82. Stockholm, 1991. – pp. 17-35. 52. Gray J. The Next Database Revolution // SIGMOD Conference. – 2004. – pp. 1-4. 53. McEnery T., Gabrielatos C. English Corpus Linguistics / T. McEnery, C. Gabrielatos // The Handbook of English Linguistics: McMahon-Blackwell Publishing, 2006 – pp. 33-72. 54. Meyer Ch.P. English Corpus Linguistics. An introduction / Ch.P. Meyer// Cambridge University Press, 2004. – 168 p. 55. Sinclair J.M. Linear Unit Grammar: Integrating Speech and Writing: Studies in Corpus Linguistics / J.M. Sinclair // Amsterdam/Philadelphia: John Benjamins, 2006. – 185 p. 56. Sinclair J. Corpus, Concordance, Collocation// Oxford: Oxford University Press, 1991. – 179 p. 57. Stubbs M. Words and phrases: corpus studies of lexical semantics// Oxford: Oxford University Press, 2001. – pp. 239-240. 58. Svartvik J. Corpus linguistics J.Svartvik// Amsterdam, NY 2007. – pp. 11-27. 100 25+ years on /

59. Tauheed F., Nobari S., Biveinis L., Heinis T., Ailamaki A. Computational Neuroscience Breakthroughs through Innovative Data Management. // ADBIS. – 2013. – pp. 14-27. 60. Tognini-Bonelli E. Corpus Linguistics at Work / E. TogniniBonelli// Amsterdam: John Benjamins Publishing Company, 2001. – 224 p. II.ЭЛЕКТРОННЫЕ РЕСУРЫ 61. АбдусаламоваМ.М. Модальность предположения (на примере глаголов английского языка) // Известия ДГПУ. Общественные и [Электронный гуманитарные ресурс]. науки. – 2011. Режим – №4. доступа: https://cyberleninka.ru/article/n/modalnost-predpolozheniya-naprimere-glagolov-angliyskogo-yazyka (дата обращения: 07.10.2019). 62. Большаков технологий А.С., BigData Актуальные в проблемы Журенков О.В. Применение гуманитарных исследованиях // прикладной информатики в образовании, экономике, государственном и муниципальном управлении: сборник трудов международной научной конференции. – Барнаул, 2017. [Электронный ресурс]. – Режим доступа: https://elibrary.ru/item.asp?id=32406751 (дата обращения: 22.02.2020). 63. Захаров В.П. Лингвистические средства информационного поиска в Интернете – Библиосфера, 2015. [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/v/lingvisticheskie-sredstvainformatsionnogo-poiska-v-internete 27.12.2018). 101 (дата обращения:

64. Иванов П.Д. Технологии BigData и их применение на современном промышленном предприятии / П.Д. Иванов, В.Ж. Вампилова // Инженерный журнал: наука и инновации. Вып.8. – М.: МГТУ им. Баумана, 2014. [Электронный ресурс]. – Режим доступа:http://engjournal.ru/catalog/it/asu/1228.html (дата обращения: 26.04.2020). 65. Нагель использование обучении // О.В., в лингвистика компьютеризированном Язык [Электронный Корпусная и культура. ресурс]. 2008. – – и ее языковом №4. – Режим С.53-59. доступа: http://cyberleninka.ru/article/n/korpusnaya-lingvistika-i-eeispolzovanie-v-kompyuterizirovannom-yazykovom-obuchenii (дата обращения: 25.11.2019). 66. Феномен bigdata // Век качества. 2014. – №4. – С.5459. [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/fenomen-big-data (дата обращения: 10.12.2019). 67. Тиндал С. Большие данные: все, что вам необходимо знать. PCWeek/RE, [Электронный 2012. – №25. ресурс]. – – С. 18-22. Режим (810). доступа: https://www.itweek.ru/upload/iblock/803/PCWeekRE_2012_N25_ web.pdf (дата обращения 03.06.2019). 68. Banerjee A., Monteleoni C. (2014). Climate change: challenges for machine learning. [Электронный ресурс]. – URL: http://www-users.cs.umn.edu/~banerjee/talks/BanerjeeMon teleoniNIPSTutorial2014.pdf (дата обращения: 13.02.2020) 69. Farias performance T., et massively al. (2008, parallel October approach 29). for A high real time deformable body physics simulation. [Электронный ресурс]. – 102

URL: https://www.researchgate.net/publication/221306607_A_Hi gh_Performance_Massively_Parallel_Approach_for_Real_Time_De formable_Body_Physics_Simulation (дата обращения: 07.03.2020) 70. Gantz J., Reinsel D., Rydning J. The Digitization of the World. FromEdgetoCore. 2018. [Электронный ресурс]. – URL: https://www.seagate.com/files/www-content/our-story/trends/files /idc-seagate-dataage-whitepaper.pdf (дата обращения 16.02.2020). 71. Keating A. (2015, November 11). Machine learning could solve riddles of galaxy formation. [Электронный ресурс]. – URL: http://phys.org/news/2015-11-machine-riddles-galaxyformation.html (дата обращения 16.02.2020). 72. Marai G. (2007 May). Thesis. [Электронный ресурс]. – URL: http://cs.brown.edu/research/pubs/theses/phd/2007/marai.p df (дата обращения 16.02.2020). 73. Midling, A. (Jan, 2017). Using big data to understand immune system responses. [Электронный ресурс]. – URL:https://phys.org/news/2017-01-big-immune-responses.html (дата обращения 22.02.2020). 74. Scott J. (2012, July). High-performance computing drives high-performance F1 cars to success. [Электронный ресурс]. – URL: http://www.computerweekly.com/feature/Highperformance-computing-drives-high-performance-F1-cars-tosuccess (дата обращения 22.02.2020). 75. Sterling, J. (Oct, 2017). Fully enabling genome-editing system for crop improvement launched. [Электронный ресурс]. – URL: https://www.genengnews.com/insights/fully-enabling- 103

genome-editing-system-for-crop-improvement-launched/ (дата обращения 22.02.2020). 76. NOAA (2015, January 5). NOAA announces significant investment in next generation of supercomputers. [Электронный ресурс]. – URL: http://www.noaanews.noaa.gov/stories2015/20150105_sup ercomputer.html. (дата обращения 15.03.2020). III.ИНФОРМАЦИОННО–СПРАВОЧНЫЕ РЕСУРСЫ 77. Американский корпус английского языка [Электронный ресурс]. – URL:https://corpus.byu.edu/coca/ 78. Британский корпус английского языка [Электронный ресурс]. –URL:https://corpus.byu.edu/bnc/ 79. Брауновский корпус [Электронный ресурс]. – URL: http://corpus.leeds.ac.uk/ 80. Большой Оксфордский Словарь [Электронный ресурс]. – URL: https://www.oxfordlearnersdictionaries.com/ 81. Словарь Вебстера [Электронный ресурс]. – URL: https://www.merriam-webster.com/ 82. Словарь современного Лонгмана[Электронный английского ресурс]. – языка URL: https://www.ldoceonline.com/ 83. Кембриджский словарь [Электронный ресурс]. – URL: https://dictionary.cambridge.org/dictionary/english/data 84. Электронный тезаурус WordNet [Электронный ресурс]. – URL: http://wordnetweb.princeton.edu/perl/webwn 85. Англо-русский словарь Мюллера [Электронный ресурс]. – URL: https://starling.rinet.ru/morph.htm 104

86. Этимологический онлайн словарь [Электронный ресурс]. – URL: https://www.etymonline.com/ Приложение 1 Список и описание всех методик анализа массивов данных Network Analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п. Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч. Pattern Recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей. Predictive Modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера. Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining. Sentiment Analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч. Signal Processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа. Spatial Analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших 105

данных в этом случае часто выступают геоинформационные системы (ГИС). Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями. Supervised Learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных. Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании. Time Series Analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов. Unsupervised Learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis. Visualization. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов. Приложение 2 Список и описание наиболее популярных лингвистических корпусов 106

107

Рецензии:

Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Отзывы:

Авторизуйтесь, чтобы оставить отзыв

31.28

Гулиянц С.Б.

Ссылка на Яндекс диск с полным текстом работы: https://disk.yandex.ru/d/rmayYU0-bfMwJg На сайт загружен вариант ВКР без приложений. Иначе работа не загружалась