ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
(СПбГУ)
Выпускная квалификационная работа аспиранта на тему:
СТАТИСТИЧЕСКАЯ ДИНАМИКА ЛЕКСИЧЕСКИХ ЕДИНИЦ
В ПОВСЕДНЕВНОЙ РЕЧИ
(НА МАТЕРИАЛЕ КОРПУСА "ОДИН РЕЧЕВОЙ ДЕНЬ")
Образовательная программа «Прикладная и математическая лингвистика»
(специальность научных работников
10.02.21 «Прикладная и математическая лингвистика»)
Автор:
Косарева Екатерина Олеговна
Научный
руководитель:
д.ф.н., профессор
Мартыненко Григорий Яковлевич
Рецензент:
к.ф.н., доцент
Блинова Ольга Владимировна
Санкт-Петербург
2016
Содержание
Введение
3
Глава I. Предпосылки создания частотного списка
6
русской повседневной речи
1.1. Статистическая лексикография как раздел лингвистики
6
1.1.1. Основные принципы и понятия статистической лексикографии 6
1.1.2. Типология, структура и функции частотных словарей
7
1.1.3. Частотные словари русского языка
9
1.2. Особенности повседневной разговорной речи
16
1.2.1. Разговорная речь в системе функциональных стилей
16
1.2.2. Инвентарь языковых средств повседневной речи
21
1.3. Звуковой корпус «Один речевой день»
24
1.3.1. История создания корпуса «Один речевой день»
24
1.3.2. Основные принципы сбора и обработки речевого материала
25
1.3.3.Сбалансированность материала в Корпусе «Один речевой день»29
1.3.4. Области применения корпуса повседневного общения
32
Выводы к Главе I
35
Глава II. Разработка и анализ Частотника ОРД
36
2.1. Особенности процесса построения Частотника ОРД
36
2.2. Статистические характеристики Частотника ОРД
44
2.2.1. Выбор статистических параметров оценки
44
2.2.2. Расчет статистических рядов
46
2.3. Динамика статистических рядов в Частотнике ОРД
54
Выводы к Главе II
68
Заключение
69
Список использованной литературы
71
Приложение 1 Частотный список неоднословных единиц
81
Приложение 2 Верхушка Частотника ОРД
86
2
Введение
Настоящее исследование посвящено изучению статистической
динамики лексических единиц в повседневной речи.
Математико-ст атистиче ские методы ст ановят ся вс е более
востребованными, в том числе в областях гуманитарного знания. В
лингвистике до недавнего времени им была отведена преимущественно
область статистической лексикографии, а именно разработка частотных
словарей. Качественно новый уровень развития компьютерных технологий
повлек за собой изменения в методах создания и использования частотных
словарей.
Сегодня наиболее востребованы словари, составленные на основе
лингвистических корпусов, так как большие объемы материала позволяют
сделать словарь максимально репрезентативным и по возможности полным.
Разговорная речь в лингвистических корпусах традиционно была
представлена записями радио- и телепрограмм, публичных выступлений,
постановочных диалогов и монологов, субтитров к кинофильмам и
т е л е с е р и а л а м . Те кс т ы д р а мату р г ич е с к их пр о из вед е ний т а к же
рассматриваются в качестве зафиксированной устной речи. В таком виде
представлена в «Частотный словарь живой устной речи» под редакцией
О, Н. Ляшевской и С. А. Шарова. Этот словарь был создан по материалам
Устного подкорпуса Национального корпуса русского языка (далее ‒ НКРЯ),
крупнейшего корпуса русского языка на сегодняшний день.
Также разговорная речь представлена в «Частотном словаре словоформ
русского языка» в виде подкорпуса драмы. Однако устная спонтанная речь
по-прежнему остается сложным материалом для лексикографии.
Звуковой корпус «Один речевой день» (далее ‒ Корпус ОРД) дал
лингвистам уникальная возможность анализа спонтанной речи, в том числе и
с количественной точки зрения.
3
Актуальность исследования определяется слабой изученностью живой
повседневной речи, в особенности с точки зрения количественных данных.
Цель работы ‒ описание динамики статистических показателей в
лексике современной повседневной речи. Мы ставим перед собой следующие
задачи:
1. Определить роль и место статистики в современной русской
лексикографии;
2. Проанализировать особенности повседневной речи;
3. Охарактеризовать звуковой корпус «Один речевой день»;
4. Определить параметры для составления и статистического
анализа частотного списка (далее - Частотник ОРД) повседневной
речи.
5. Описать изменение статистических характеристик Частотника
при изменении его объема.
Для решения поставленных задач применяются описательные и
статистические методы (методы оценивания неизвестных параметров
распределения и моделирования).
В качестве материала исследования были выбраны текстовые
расшифровки звукозапис ей 35 информантов в объеме 200 000
словоупотреблений из корпуса «Один речевой день». Текстовые примеры,
приводимые в работе, также взяты из Корпуса ОРД.
Объект настоящего исследования ‒ повседневная устная речь. Его
предметом стало изменение количественных показателей лексических единиц
в частотном словнике.
Научная новизна работы обусловлена тем, что устная спонтанная речь
впервые становится материалом подобного статистического исследования.
Теоретическая и практическая значимость полученных результатов
заключается в том, что они позволили выявить наиболее устойчивые
статистические параметры для частотного словаря устной спонтанной речи,
4
что дает возможность провести в дальнейшем сравнение с другими
частотными словарями, а также сделать прогноз изменения показателей при
увеличении объема словаря.
А п р о б а ц и я р е з ул ьт ат о в р а б о т ы : д о к л а д ы п о в о п р о с а м ,
рассматриваемым в выпускной квалификационной работе, были
представлены на Международной научной конференции «Голоса города:
языковая вариативность и коммуникативное разнообразие» и на 45
Международной филологической научной конференции.
Работа состоит из введения, двух глав, заключения и двух приложений.
Первая глава посвящена теоретическим проблемам, связанным с
определением места повседневной речи в современной лингвистике,
возможностей и инструментов ее статистического описания. Во второй главе
проводится анализ количественных изменений в повседневной лексике при
изменении объема выборки. В заключении подводятся итоги исследования.
5
Глава 1. Предпосылки создания частотного списка русской
повседневной речи
1.1. Статистическая лексикография как раздел лингвистики
1.1.1. О сновные принципы и поня т ия ст ат ист иче ской
лексикографии
Современной науке свойственны развитие тесных взаимосвязей между
различными отраслями знания и междисциплинарный подход. Эта тенденция
отразилась и в лингвистике. Она все чаще обращается к методам математикостатистических расчетов. Одним из наиболее тесно связанных со статистикой
направлений стала лексикография.
Статистическая лексикография, занимающаяся теоретической
разработкой и практической реализацией частотных словарей, оперирует
набором специфических понятий. Среди базовых понятий можно назвать
частоту и вероятность.
Частота ˗ это то количество раз, сколько слово встретилось в тексте.
Вероятностью называется «идеальная, «истинная» частота, например слова,
которая была бы получена, если бы удалось просчитать все тексты,
порожденные на сегодняшний день, и все другие, которые могут быть
созданы на данном языке»1. Таким образом, вероятность невозможно
вычислить, но можно оценить. Увеличение числа наблюдений приближает
частоту к вероятности. Различают нескольких видов частот. Так, абсолютная
частота отображает общее количество данных единиц в рассматриваемой
выборке, в то время как относительная частота более объективно указывает
на соотношение частоты слова и объема выборки. Относительная частота
получается при делении абсолютной частоты на длину текста. Сложение
относительных частот по порядку списка дает накопленные относительные
частоты для каждого из слов. Такие частоты дают представление о том, какую
долю текста занимает любое количество самых частых слов.
1 П. М. Алексеев. Частотные словари: Учебное пособие. СПб.: Изд-во С.-Петерб. ун-та, 2001. С. 22.
6
Еще одно базовое понятие ‒ распределение (или ряд распределения) ‒
это ряд значений признака изучаемого явления, в случае со словарем, ряд
частот. Каждое значение в этом ряду имеет свой порядковый номер ‒ ранг.
Общий объем корпуса текстов, рассматриваемых для составления
частотного словаря, называется генеральной совокупностью. Она
определяется в соответствии с задачами будущего словаря. По словам
П. М. Алексеева, при составлении частотного словаря «вариант членения
генеральной совокупности на равные части будет обладать ... несравненным
преимуществом. Во-первых, он менее произволен, субъективизм составителя
здесь проявляется только в перечислении областей генеральной
совокупности, но не в приписывании им априорно заданных весов. Вовторых, благодаря равноправному представительству областей генеральной
совокупности обеспечивается статистическая надежность их сопоставления
друг с другом»2 .
Современная лексикография развивается в нескольких направлениях.
Создаются как масштабные словари, охватывающие большие объемы
лексического материала языка, так и узкоспециализированные словари
отдельных уровней языка, функциональных стилей, подъязыков.
1.1.2. Типология, структура и функции частотных словарей
Частотный словарь представляет собой упорядоченный список слов с
данными о частоте их встречаемости в тексте или группе текстов.
Единицей частотного словаря может быть как лексема, так и
словоформа, морфема, словосочетание и т. д.. Материал, в зависимости от
целей, преследуемых составителем, может представлять собой целые тексты,
2 Алексеев П. М. Статистическая лексикография (типология, составление и применение частотных словарей)
[Текст]: Учеб. пособие. Л.: ЛГПИ, 1975 С. 32.
7
фрагменты или группы текстов. При этом, чем больше объем выборки, тем
отраженная в словаре информация достовернее.
Слова в частотном словаре могут быть расположены по алфавиту
(алфавитно-частотные словари) или в порядке убывания частоты (частотные
словари). Кроме основного частотного списка словарь может содержать
дополнительные списки, например, по частям речи или разделам корпуса
текстов.
Частотный словарь может быть опубликован в полном или неполном
виде (в этом случае публикуется зона наиболее употребительных единиц) так
как ценность представляет верхушка словника.
Частотные словари классифицируются по таким параметрам, как:
язык вхождений
- словарь русского языка
- словарь английского языка
- словарь немецкого языка и т. д.
форма текстов
- словари письменной речи
- словари устной речи
содержание
- общие словари
- специальные словари (словари терминов, газетных текстов, автора,
произведения и т.п.)
способ составления
- ручной
- машинный
- комбинированный
вид частотной характеристики
- абсолютная частота
- ipm (instances per million words) ‒ частота на миллион словоформ
8
- количество источников, в котором данные единицы встречаются
метод анализа материала
- сплошное описание
- выборочное описание (чаще всего применяется именно этот метод)
Первоначально большинство словарей создавалось с целью улучшения
методики преподавания языка как иностранного. Затем стали появляться
словари, предназначенные для лингвистических исследований.
1.1.3. Частотные словари русского языка
История статистической лексикографии русского языка начинается со
словаря Г. Йоссельсона, изданного в 1953 году в Детройте преимущественно
на материале языка дореволюционной России.
Позднее появились три наиболее известных в отечественной
лексикографии прошлого века словаря: Э. А. Штейнфельдт3 (1963 г.),
Л. Н. Засориной4 (1977 г.) и Л. Леннгрена5 (1993 г.).
«Частотный словарь современного русского литературного языка»
Э. А. Штейнфельдт был составлен на материале литературы, прессы и
радиопередач 50-60-х годов, общим объемом 400 000 словоупотреблений.
Помимо частот слов, он содержит статистических характеристики отдельных
морфологических категорий. Основным
назначением словаря было
применение в преподавании русского языка как иностранного.
«Частотный словарь русского языка» под редакцией Л. Н. Засориной,
объемом 1 млн словоупотреблений, составлен на текстах четырех групп:
3 Штейнфельдт Э. А. Частотный словарь современного русского литературного языка: справочник для
преподавателей русского языка / под ред. В. А. Ицковича. М.: Прогресс, 1973. 228 с. [1-е изд. в 1963 г.].
4 Частотный словарь русского языка [Электронный ресурс] / под ред. Л. Н. Засориной. М.: Изд-во «Русский
язык», 1977. URL: http://project.phil.spbu.ru/lib/data/slovari/zasorina/zasorina.html (дата доступа: 20.05.2016).
5 Леннгрен Л. Частотный словарь современного русского языка (Lönngren, Lennart. The Frequency Dictionary
of Modern Russian). Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32. Uppsala, 1993.
9
художественной прозе, научных и публицистических текстах, газетных и
журнальных текстах, драматургии. В ходе разработки словаря были
использованы ЭВМ, что и позволило обработать такое количество материала.
В дополнение к алфавитно-частотному словнику со статистическими
характеристиками лексем, присутствует список омографов и грамматических
омонимов. Словарь изначально предназначался для получения сведений о
лексике с учетом ее жанровой принадлежности.
Указанные словари в большой степени отражают специфику русского
языка советского периода. Так, например, частоты таких характерных для
этой исторической эпохи слов как партия или товарищ в них сопоставимы с
частотами служебных слов.
Отдельное внимание следует обратить на деятельность группы
«Статистика речи» под руководством Р. Г. Пиотровского, объединившей
коллективы ученых из нескольких республик СССР. Группа занималась
статистическим описанием разных аспектов языка и разрабатывала
частотные словари подъязыков, в том числе на иностранных текстах
(например, частотные словари русского, английского, французского и
румынского подъязыка электроники6). При со ставлении словарей
использовалась следующая методика, описанная П. М. Алексеевым7:
- специализация на анализе так называемых подъязыков, для чего
выбирались тексты определенной жанрово-тематической направленности;
- минима льный размер ана лизируемого текст а - 1000
словоупотреблений
- за словоупотребление принимается любая последовательность букв,
ограниченная двумя пробелами, за исключением цифр и формул;
- за лексическую единицу основного частотного списка принимается
одна из словоформ
- исходные формы слов входят в дополнительный частотный список
6 Статистика речи. Сб. / Отв. ред. Р. Г. Пиотровский. Л.: Наука, 1968. 260 с.
7 Алексеев П. М. Частотные словари и приемы их составления // Статистика речи. Л.: Наука, 1968. С. 62-63.
10
- учитывается лексическая, грамматическая, лексико-грамматическая
омонимия
- для каждого подъязыка разрабатывается схема балансировки
материала
- объем частотного словаря - 200 000 словоупотреблений
- для описания словаря, материал анализируется в виде выборок по
50 000, 100 000, 150 000 и 200 000 словоупотреблений
- частотный словарь представляется в виде частотного и алфавитного
списков
- присутствуют различные списки с дополнительной информацией о
словаре
С развитием компьютерных технологий труд лексикографов стал
значительно легче с технической точки зрения, и количество словарей, в том
числе и частотных, стремительно возросло.
Сегодня самым большим является «Частотный словарь современного
русского языка» под ред. О. Н. Ляшевской и С. А. Шарова8. Этот словарь
о снован на материале корпуса НКРЯ объемом более 600 млн
словоупотреблений9 и представляет собой систему из нескольких словарей.
Кроме общего частотного и алфавитно-частотного списка лемм, в нем
представлены частотные списки частей речи, алфавитно-частотный список
имен собственных и аббревиатур, а также частотные словари отдельных
функциональных стилей (художественной литературы, публицистики, другой
нехудожественной литературы и живой устной речи). Форма представления
лексических единиц ‒ лемма. Каждая лемма сопровождается информацией о
ранге, общей частоте (в единицах ipm), коэффициенте вариации,
распределении употребления в разные исторические периоды, о количестве
текстов, в которых она встретилась. Также можно узнать сравнительную
8 Ляшевская О. Н., Шаров С. А. Новый частотный словарь русской [Электронный ресурс]. URL:
http://dict.ruslang.ru/freq.php (дата доступа: 20.05.2016)
9 Национальный корпус русского языка [сайт]. URL: http://www.ruscorpora.ru/.
11
частоту слова в общем корпусе и подкорпусе. Кроме лемм, существует
некоторое количество словоформ, собранных в алфавитно-частотный список.
Другой крупный частотный словарь ‒ «Частотный словарь словоформ
русского языка»10. Он составлен на основе Корпуса русского литературного
языка объемом 1 млн словоупотреблений. Корпус создан в период 20022007 гг. в Лаборатории моделирования речевой деятельности кафедры общего
языкознания Санкт-Петербургского государственного университета, под
руководством В.Б. Касевича. В состав корпуса входит четыре относительно
самостоятельных подкорпуса:
1)
подкорпус художественной литературы (30% от общего
объема);
2)
подкорпус публицистики (30 %);
3)
подкорпус научно-популярной литературы (20%);
4)
подкорпус драмы (20%)
Последний рассматривается в качестве письменно зафиксированной
разговорной речи. Главная особенность этого корпуса состоит в наличии
акцентной разметки: каждая словоформа имеет символ ударения. Также
восстановлена буква «ё» и неоднословные единицы (называемые
«составными словами») размечены как единые словоформы.
Частотный словарь, как следует из названия, представлен
словоформами. Создатели словаря считают это преимуществом,
повышающим надежность и объективность полученных на его основе
количественных данных, так как, по словам Л. Лённгрена, «лемма (исходная
форма) для каждой словоформы должна указываться вручную. Это означает,
что, прежде чем приступить к лемматизации, нужно установить принципы,
по которым она будет проводиться. Эти последние могут отличаться от
применявшихся в других работах принципов и дать результаты, которые
невозможно будет полностью сравнить с уже существующими»11.
10Ч а с т о т н ы й с л о в а р ь с л о в о ф о р м р у с с к о г о я з ы к а [ Э л е к т р о н н ы й р е с у р с ] . URL:
http://www.narusco.ru/STAT004/ (дата обращения: 11.04.2016).
11 Леннгрен Л. Частотный словарь современного русского языка.
12
Полная версия словаря включает 19 частотных и алфавитно-частотных
списков, среди которых: общий список, списки по жанровым подкорпусам,
списки составных слов, словари имен собственных, омографов, омонимов,
словарь ритмических структур. Каждая словоформа снабжена информацией о
ее ранге, абсолютной частоте в общем словаре и подкорпусе и данными о
количестве текстов, в которых она встретилась.
В не меньшей степени, чем общие частотные словари, востребованы
словари специализированные. Этот тип словарей может охватывать самые
разные области знания, приведем здесь некоторые из них:
- «Частотный тематический словарь “Городской общественный
транспорт”» Г. А. Мартиновича12;
- «Частотный словарь семантических множителей русского
языка» Ю. Н. Караулова13;
- «Частотный словарь языка массовой коммуникации»
Б. В. Кривенко14;
- «Статистический словарь русской газеты» А. Я. Шайкевича15.
Отдельного упоминания заслуживают частотные словари языка
писателей и литературных произведений, среди которых стоит отметить
серию словарей, изданных на кафедре математической лингвистики СанктПетербургского государственного университета: частотные словари рассказов
Чехов16, Андреева17, Бунина18 и Куприна19. Их особенность заключается в том,
что при их составлении фиксировалось увеличение количества лексем при
12 Мартинович Г.А. Частотный тематический словарь «Городской общественный транспорт». СПб,
Филологический факультет СПбГУ, 2005. 521.
13 Караулов Ю.Н. Частотный словарь семантических множителей русского языка. М.: Наука, 1980. 207 с.
14 Кривенко Б. В. Частотный словарь языка массовой коммуникации. Воронеж : Изд-во Воронеж. ун-та,
1992. 218 с.
15 Шайкевич А. Я., Андрющенко В. М., Ребецкая Н. А. Статистический словарь языка русской газеты (1990-е
годы). Т. 1. М.: Языки славянской культуры, 2008. 580 с.
16 Частотный словарь рассказов А.П.Чехова / Автор-сост. А.О. Гребенников; под ред. Г. Я. Мартыненко.
СПб.: Изд-во С.-Петерб. ун-та, 1999. 172 с.
17 Частотный словарь рассказов Л. Н. Андреева / Автор-сост. А.О. Гребенников; под ред. Г. Я. Мартыненко.
СПб.: Изд-во С.-Петерб. ун-та, 2003. 398 с.
18 Частотный словарь рассказов И. А. Бунина / Автор-сост. А.О. Гребенников; под ред. Г. Я. Мартыненко.
СПб.: Изд-во С.-Петерб. ун-та, 2012. 296 с.
19 Частотный словарь рассказов А. И. Куприна / Автор-сост. А.О. Гребенников; под ред. Г. Я. Мартыненко.
СПб.: Изд-во С.-Петерб. ун-та, 2012. 552 с.
13
определенном равномерном увеличении объема выборки, а на основании
полученных эмпирических данных был сделан прогноз теоретической
возможности дальнейшего роста словаря.
Среди писателей (поэтов), чей язык полностью описан
частотными словарями ‒ Пушкин, Достоевский, Грибоедов, Цветаева.
Для отдельных произведений русской литературы составлены
такие словари, как:
- «Частотный словарь
романа Л. Н. Толстого “Война и мир”»
З. Н. Великодворской;
- « Ч а с т о т н ы й с л о в а р ь р о м а н а Д . Н. Мамина-Сибиряка
“Приваловские миллионы”» М. А. Генкель;
- «Частотный словарь автобиографиче ской т рилогии
М. Горького» П. М. Алексеева;
- «Частотный грамматико-семантический словарь языка
художественных произведений А. П. Чехова» под общей редакцией
А. А. Поликарпова20 (созданный на базе электронного корпуса текстов 599
произведений А. П. Чехова, общим объемом 1 256 560 словоупотреблений);
- ч а с т о т н ы е с л о в а р и л и р и к и А . Б л о к а З . Г. М и н ц и
О. А. Шишкиной и др21.
А. Я. Шайкевич предлагает использовать дифференциальный подход к
частотному словарю, утверждая, что «частотные словари будут тем более
полезны для анализа авторской речи, чем более дифференцированную
информацию они будут содержать»22.
Так как наше исследование касается разговорной речи, необходимо
сказать несколько слов и об этой группе частотных словарей. Их значительно
меньше словарей письменной речи. Вот некоторые из них:
20 Частотный грамматико-семантический словарь языка художественных произведений А. П. Чехова
[Электронный ресурс]. URL: http://www.philol.msu.ru/~lex/chehov.html (дата доступа: 20.05.2016).
21 Русская авторская лексикография XIX-XX веков. Антология [Элекстронный ресурс]. URL:
http://www.slovari.ru/default.aspx?p=5309 (дата доступа: 5.04.2016).
22 Шайкевич А. Я. Дифференциальные частотные словари и изучение языка Достоевского (на примере
романа «Идиот» // Слово Достоевского. Сб. ст. М.: ИРЯ РАН, 1996. С. 195-253.
14
- Словарь значимой лексики живой устной речи (часть частотного
словаря на базе НКРЯ);
- часть «Частотного словаря словоформ русского языка»,
посвященныя драме;
- «Частотно-семантический словарь русской разговорной речи»
Ю. Г. Овсиенко23 (содержит 400 000 словоупотреблений из живой русской
речи; в качестве единицы выступает семантико-структурное целое;
представлены лексико-семантические варианты слов)
Более полный список частотных словарей представлен в монографии
В. А. Козырева, В. Д. Черняк24.
Частотные словари имеют большую практическую ценность. Они дают
материал для решения как теоретических, так и прикладных задач. С их
помощью разрабатываются учебные словари и учебные пособия, словариминимумы. Использование в автоматических информационно-поисковых
системах и программах автоматической обработки текстов.
1.2. Особенности повседневной разговорной речи
1.2.1. Разговорная речь в системе функциональных стилей
Под разговорной речью традиционно понимается «разновидность
устной литературной речи, обслуживающая повседневное обиходно-бытовое
общение и выполняющая функции общения и воздействия» 25. Однако в
23 Овсиенко Ю. Г. Частотно – семантический словарь русской разговорной речи [Электронный ресурс] . URL:
http://www.euralex.org/elx_proceedings/Euralex1992_1/017_J.%20G.%20Ovsienko%20-Castotno-semanticeskij
%20slovar%20russkoj%20razgovornoj%20reci.pdf (дата доступа: 13.03.2016)
24 Козырев В. А., Черняк В. Д. Лексикография русского языка: век нынешний и век минувший:
монография. 2-е изд., испр. и доп. СПб.: Изд-во РГПУ им. А. И. Герцена, 2015. С. 367-369.
25 Лаптева О. А. Разговорная речь [Электронный ресурс] // Лингвистический энциклопедический
словарь / Гл. ред. В. Н. Ярцева. М.: Большая рос. энцикл., 2002. 707, [2] с. URL:
http://tapemark.narod.ru/les/407c.html (дата обращения: 11.05.2016 .)
15
русистике существуют различные подходы к определению места разговорной
речи по отношению к литературному языку. Наиболее разработаны
следующие их них:
1. разговорная речь как разновидно сть литературного языка
(Ю. М. Скребнев26);
2. разговорная речь как самостоятельное явление, противопоставляемое
код и ф и ц и р о в а н н о м у л и т е р а т у р н о м у я з ы к у ( Е . А. Земская,
М. В. Китайгородская, Е. Н. Ширяев27);
3. р а з г о в о р н а я р е ч ь к а к о с о б ы й с т и л ь ( Г. Г. Инфантова28,
О. Б. Сиротинина29).
Важным аргументом в определении сущности разговорной речи может
стать характерная ее черта ‒ стилистическая неоднородность. Присутствие
большого количества стилистически разных единиц, с одной стороны, в
некоторой степени сближает разговорную речь с художественной
литературой, допускающей использование широкого круга лингвистических
средств. С другой, делает фактически невозможным определение ее как
особого стиля из-за отсутствия набора маркеров.
А. Н. Байкулова рассматривает разговорную речь в контексте
неофициального общения. Неофициальное общение определяется как
«социально-ст атусное речевое взаимодействие коммуникантов,
реализующееся прежде всего в сфере повседневного (бытового, домашнего,
дружеского, иногда делового) общения, не регламентированного жесткими
рамками коммуникативных, этических и речевых норм, в наибольшей
степени соответствующее волеизъявлению человека и отражающее
особенности его языковой личности» 30. Автор предлагает классифицировать
26 Скребнев Ю. М. Введение в коллоквиалистику / под ред.Сиротининой О. Б. Саратов: Изд-во Сарат.ун-та,
1985. 210 с.
27 Земская Е. А., Китайгородская М. В., Ширяев Е. Н. Русская разговорная речь. Общие вопросы.
Словообразование. Синтаксис. М.: Наука, 1981
28 Инфантова Г. Г. Очерки по синтаксису современной русской разговорной речи. Ростов н/Д: Изд-во Рост.
гос. пед. ин-та, 1973. 135 с.
29 Сиротинина О.Б. Современная разговорная речь и ее особенности. М.: Знание, 1974. 260 с.
30 Байкулова А. Н. Неофициальное общение и его разновидности: критерии выделения и реальное
функционирование. Саратов: Изд. центр «Наука», 2012. С. 26.
16
следующим образом социальное окружение человека (по убыванию степени
близости отношений)31:
1) Семья
2) Родственники
3) Друзья
4) Знакомые
5) Незнакомые
Все виды общения классифицируются в соответствии с таким
распределением отношений. Преимущественная неофициальность и
разговорная речь характерны для ближнего круга коммуникантов: они
реализуются при общении родственников, семейном и дружеском общении. В
общении знакомых, и тем более незнакомых возможно как официальное, так
и неофициальное общение, а также смешение регистров.
Таким образом, разговорную речь можно считать особой системой,
своего рода инструментом бытовой повседневной коммуникации.
Проблема фиксирования повседневной речи породила свою
методологию сбора такого речевого материала, учитывая, что его ценность
зависит от точности передачи не только содержания, но и формы.
Существует несколько приемов фиксирования речи32:
1) Запись на материальном носителе (вручную, при помощи печатной
машинки, компьютера и т. п.). Такой прием требует особой подготовки
и специальных навыков.
2) Запись на диктофон. Позволяет получить объективные данные при
условии, что исследователь минимизирует свое влияние при
расшифровке звукозаписи.
3) Извлечение из письменных текстов фрагментов, наиболее близких к
живой разговорной речи (дневниковые записи, частная переписка и
31 Байкулова А. Н. Устное неофициальное общение и его разновидности: повседневная речь
горожан. Саратов: Изд. центр «Наука», 2014. С. 7.
32 Харченко В. К. Современная повседневная речь. Изд-е 3-е. М.: Книжный дом «ЛИБРОКОМ»,
2012. С. 15-23.
17
т. п.). В этом приеме особенно перспективной нам видится работа с так
называемыми текстами электронной коммуникации, такими как смссообщения и чат-диалоги. Общение этого вида максимально точно
имитирует живое общение, вплоть до передачи эмоций знакамисмайлами и сведения текста до отдельных коротких предложений.
Несмотря на возможность имитации разговорной речи в письменном
виде, изначально она устная и существует в следующих формах, каждая из
которых имеет свои особенности:
- диалог ‒ это основная форма существования разговорной речи;
- полилог ‒ встречается в повседневной речи чаще, чем в каком-либо другом
виде коммуникации;
- монолог ‒ в отличие от монолога в других типах речи, он сочетает
заготовленность с большой долей импровизации (к примеру, при пересказе
одного и того же события несколько раз, возникает, соответственно,
несколько вариантов рассказа). Значимость факта озвучивания в нем
превалирует над содержанием. Стремление передать информацию о
событиях как можно точнее, особенно с эмоциональной точки зрения,
обуславливает наличие сюжета.
Одна форма реализации разговорной речи может быть встроена в
другую. Так, диалоговая реплика может превратиться в монолог (например,
при желании собеседника услышать развернутый рассказ в ходе беседы), а в
монологе может возникнуть диалог (например, при прерывании рассказа
собеседником).
Одной из главных отличительных черт повседневной устной речи
является спонтанность, то есть неподготовленность. В. К. Харченко
предлагает также категорию сиюминутности как «отражения в речи
непосредственно происходящих событий»33.
33 Харченко В. К. Современная повседневная речь. С. 25.
18
Помимо спонтанности, разговорная речь характеризуется такими
чертами, как:
- линейность (линейное развертывание высказывания во времени);
- неподготовленность (порождение речи возникает одновременно с ситуацией
коммуникации);
- непринужденность (разговорную речь используют в ситуациях общения, не
ограниченный строгими формальными правилами);
- непосредственное участие коммуникантов (говорящие объединены одной
речевой ситуацией и меняются ролями говорящего и слушающего в ходе
общения);
- сопровождение ярко выраженными невербальными средствами
коммуникации (мимика, жесты, положение тела, голосовые модуляции и т.п.
заменяют в разговорной речи часть выраженного в словесной форме смысла);
- сильная связь с внеязыковой ситуацией (для понимания смысла
высказывания крайне важен контекст ситуации в целом).
Экстралингвистические признаки имеют большое влияние не только на
успех устной коммуникации, но и на ее вид. Лингвисты выделяют
следующие решающие факторы34:
1) число говорящих (один или более);
2) отнесенность коммуникативного акта ко времени;
3) спаянность коммуникативного акта с ситуацией;
4) равноправие партнеров в акте коммуникации;
5) степень подготовленности речи;
6) мена говорящих (нулевая, относительно малая или относительно
большая);
7) фиксированность темы (тема задана заранее или не задана заранее);
8) степень публичности речи (публичная, полупубличная, не публичная
или частная речь).
34 Земская Е. А., Китайгородская М. В., Ширяев Е. Н. Русская разговорная речь. С. 12.
19
В зависимости от соотношения совокупности этих признаков общение
может принимать вид интервью, дискуссии, разговора, доклада, репортажа,
рассказа и т. д..
Тесная связь с внеязыковыми факторами и важная роль всех
обстоятельств, сопровождающих момент общения, заставляют обращать
особое внимание на так называемую коммуникативную ситуацию.
Коммуникативная ситуация включает в себя некоторый необходимый
для ее возникновения набор компонентов, а именно: говорящего и
слушающего, отношения между ними (степень близости, наличие
субординации, хорошие или плохое взаимоотношения и т. д.), место, где
происходит общение (общественное место, домашняя обстановка, рабочее
ме сто и т. п.), тональность общения (нейтральная, дружеская или
формальная), способ и средства общения.
Изменение одного из компонентов обычно приводит к изменению всей
коммуникативной ситуации, при этом именно коммуникативная ситуация
определяет правила, по которым осуществляется общение, и его форму.
Речевые ситуации могут быть каноническими и неканоническими. В
первых место и время говорящего и слушающего совпадают. Во вторых
какая-либо из составляющих не совпадает (не совпадает времени говорящего
и слушающего, их местонахождения, отсутствие конкретного адресата).
О. А. Лаптева выделяет три типа ситуаций общения35:
1) стереотипные городские диалоги незнакомых лиц;
2) общение знакомых лиц в бытовой обстановке;
3) общение знакомых и незнакомых лиц в производственной и социальнокультурной сфере (ситуации непубличного общения и ситуации публичного
общения).
В этой классификации учитываются три основные сферы, где
среднестатистический горожанин проводит большую часть своей жизни: дом,
работа, улицы города.
35 Лаптева О. А. Разговорная речь.
20
1.2.2. Инвентарь языковых средств повседневной речи
Повседневная разговорная речь обладает обширным набором языковых
средств на всех языковых уровнях.
Так, в фонетике наблюдается вариативность реализации фонем,
изобилие редуцированных форм. Отдельно стоит отметить важную роль
интонации.
На морфологическом уровне присутствует бóльшая подвижность
морфем. Характерна специфическая парадигма имени (есть звательная
форма, нет кратких прилагательных) и глагола (нет причастий и
деепричастий).
На синтаксическом уровне превалирует аналитизм (преимущественно
семантические средства связи, а не формально-грамматические,
распространенность полипредикативных предложений). Наблюдается особое
членение высказывание на порции, удобные для восприятия. В отличие от
письменной речи, в устной разговорной возможно свободное соединение,
наложение, и использование специфических союзов.
На семантическом уровне за одним означающим закрепляется большое
количество означаемых. Это объясняется сильной связью с контекстом, а
также постоянным приобретением новых значений.
В словообразовании наблюдаются специфические суффиксы и способы
словообразования, такие как усечение, универбация.
На всех уровнях наблюдается редукция (так как чаще всего ситуация
очевидна всем собеседникам), и в то же время избыточность, которую можно
объяснить желанием воспроизвести картину событий как можно точнее.
Наибольшее количество особенностей можно заметить на лексическом
уровне, для которого характерна тематическая и стилевая неограниченность
21
средств.
В системе разговорной речи меньше так называемых «пустых
клеток», чем в кодифицированном литературном языке. Это объясняется
большим количеством неузуальных слов, либо созданных по законам
словообразования русского языка на пустующих местах потенциальных слов
и словоформ, либо с нарушением этих законов. Также возможна компенсация
отсутствующих единиц не свойственными литературному языку
употреблениями присутствующих. Словотворчество в этом типе речи развито
более, чем в каком-либо другом.
В повседневной речи очень часто встречаются ошибки сочетаемости и
формообразования обусловленные спонтанно стью, причем они
воспринимаются как более допустимые, чем в письменном языке. Как
следствие, именно в разговорной речи появляются отклонения от нормы.
Как замечает В. К. Харченко, «неподготовленностью, спонтанностью
речи легко объяснить не только ошибки и повторы, но также свободу
нецензурного слова, и разговорный дискурс как раз та стихия, где
недозволенное экспериментирует и процветает, особенно в эпоху отмены
цензуры»36.
Важное для нашего исследования наблюдение Е. А. Земской касается
таких особенностей разговорной речи, как стремление говорящего к
воспроизведению готовых формул и одновременно с этим к порождению
новых единиц. С одной стороны, «разговорная речь - это система, в которой
говорящий легче, свободнее и чаще, чем в КЛЯ, производит новые единицы
(а не воспроизводит уже готовые), причем это касается единиц разных
уровней: не только словосочетаний, высказываний, словоформ, но и слов» 37.
С другой стороны, «разговорная речь - это система, для которой в высшей
степени характерно стремление к использованию готовых единиц, всякого
рода готовых конструкций, что объясняется автоматизмом протекания
речевого акта»38.
36 Харченко В. К. Современная повседневная речь. С. 56.
37 Земская Е. А., Китайгородская М. В., Ширяев Е. Н. Русская разговорная речь. С. 6.
38 Там же.
22
По словам М. В. Панова, в разговорной речи наблюдается тенденция
«инкрустировать литературную речь диалектными, жаргонными
ха р а кт е р и с т и ка м и , о с т р о и н д и в и д уа л ь н ы м и от к л о н е н и я м и от
литературности,
но на строгом фоне общелитературной, точно
нормированной речи»39. Это наблюдение относилось к речи 60-х годов
прошлого века, однако оно остается справедливым и по сей день. Вероятно,
мы можем даже говорить о значительном усилении описанной тенденции.
Современная повседневная речь редко обходится без иностранных
з а и м с т в о в а н и й ( п о б о л ь ш е й ч а с т и и з а н гл и й с ко г о я з ы к а ) ,
профессионализмов, жаргонизмов и других «инородных вкраплений».
1.3. Корпус «Один речевой день»
1.3.1. История создания корпуса «Один речевой день»
Корпусы спонтанной речи начали создаваться с 1990-х гг. Однако и
сегодня их число все еще относительно невелико. Это объясняется высокой
технической сложностью сбора материала и трудоемкостью его обработки.
Иными словами, для создания подобного корпуса требуется привлечение
большого научного коллектива, в состав которого должны входить
специалисты различного профиля (технические специалисты, языковеды,
прикладные лингвисты, социолингвисты, юристы и др.).
39 Панов М. В. О развитии русского языка в советском обществе // Вопр. языкознания. 1962, № 3.
23
Первый опыт звукового корпуса был получен в рамках работы над
Британским национальным корпусом. Для русской же речи Корпус ОРД стал
первым в своем роде.
Проект Корпуса ОРД был начат в 2007 г. группой лингвистов на базе
Филологического факультета Санкт-Петербургского государственного
университета и первоначально был одним из блоков Звукового корпуса
русского языка. На начальном этапе он характеризовался таким образом:
«приоритетная задача данного исследования заключается в том, чтобы
получить записи русской спонтанной речи в естественных условиях. Это
значит, что, во-первых, ничто не должно влиять на особенности речевого
поведения говорящего в конкретных речевых ситуациях. ˂...˃ Во-вторых,
информант реализует свое речевое поведение в стандартных для него
ситуациях, не меняя ради записи их репертуар и продолжительность» 40.
Выполнение поставленных задач стало возможным благодаря методике
записи, впервые примененной британскими41 и японскими42 исследователями.
Корпус ОРД в настоящее время находится в стадии активной
разработки и постоянно пополняется. На сегодняшний день его общий объем
составляет около 500 000 словоупотреблений. Произведена запись более 1000
часов звукового материала, полученного от 110 информантов и нескольких
сотен их коммуникантов. Возраст участников ‒ от 18 до 77 лет, средний
возраст при этом ‒ 37 лет43.
40 Асиновский А. С., Богданова Н. В., Русакова М. В. и др. Звуковой корпус русского языка
повседневного общения «Один речевой день»: концепция и состояние формирования //
Компьютерная лингвистика и интеллектуальные технологии. Вып. 7 (14): По матер. межд. конф.
«Диалог-2008». М., 2008. С. 489.
41 Burnard L. (ed.). Reference guide for the British National Corpus (XML edition). Published for the
British National Corpus Consortium by Oxford University Computing Services. URL:
http://www.natcorp.ox.ac.uk/docs/URG/ (дата обращения 15.06.2016).
42 Campbell N. Speech & Expression; the Value of a Longitudinal Corpus, LREC-04. Lisbon, 2004. pp.
183-186.
43 Bogdanova-Beglarian N., Sherstinova T., Martynenko G. The “One Day of Speech” Corpus: Phonetic and
Syntactic Studies of Everyday Spoken Russian, Proc. 18th Int. Conf “Speech and Computer” (SPECOM-2015),
LNAI, vol. 9319, Springer, Switzerland, 2015. pp. 429-437.
24
1.3.2. Основные принципы сбора и обработки речевого материала
В основе сбора материала для Корпуса ОРД лежит так
называемый «принцип невода»44, который позволяет получить весь речевой
материал, произнесенный информантом и его коммуникантами. При этом
используется методика 24-часовой записи. Она «обеспечивает почти полную
свободу говорящего от диктофона или от тех или иных коммуникативных
заданий (чтение, пересказ, описание, рассказ на заданную тему), которые
неизбежно усложняют его задачу и обеспечивают на «выходе» хоть и вполне
спонтанную, но все же экспериментальную речь»45.
Суть методики состоит в том, что на теле информанта закрепляется
диктофон, записывающий все речевые взаимодействия человека с
окружающим миром в течение дня. Таким образом, появляется возможность
наблюдать за изменением речевого поведения говорящего в зависимости от
изменения ситуации и места коммуникации, социальной роли, количества
собеседников и т. п..
Немаловажную роль в качестве полученного речевого материала играет
подготовка информанта, выбор насыщенного общением, но при этом
типичного дня записи. Широко распространено мнение, что осознание факта
записи влияет на наше поведение, в том числе и речевое. Однако при таком
длительном использовании диктофона, как правило, достаточно скоро
происходит адаптация и говорящий забывает о происходящей в это время
записи и ведет себя естественно. Это позволяет нам считать влияние данного
фактора на речь минимальным.
44 Богданова Н. В., Степанова С. Б., Шерстинова Т. Ю. Звуковой корпус русского языка: новый
подход к исследованию речи // Корпусная лингвистика - 2011: Тр. Междунар. конф. СПб., 2011.
С. 99.
45 Звуковой корпус как материал для анализа русской речи. Часть 2. Теоретические и практические
аспекты анализа (Том 2. Звуковой корпус как материал для новых лексикографических проектов).
Коллективная монография / Отв. ред. Н. В. Богданова-Бегларян. СПб.: Филологический факультет
СПбГУ, 2015 С. 11.
25
По завершению записи достаточного количества материала, он
проверяется на наличие дефектов записи, описывается и фрагментируется на
отдельные эпизоды. Для расшифровки выбираются фрагменты надлежащего
качества, отвечающие по коммуникативному сценарию и социологическим
параметрам информанта требованиям сбалансированности материала в
Корпусе.
Для описания фрагментов, или макроэпизодов, существует набор
помет. Под макроэпизодами здесь понимаются крупные эпизоды событий
речевого дня, в которых прослеживается единство места, действия и
участников коммуникации. Согласно исследованиям Т. Ю. Шерстиновой46, в
среднем за сутки в жизни человека сменяется от 20 до 50 таких эпизодов. Их
описание в аннотации происходит по следующим параметрам47:
тип коммуникации (бытовой разговор, деловое общение, публичное
выступление и т.д.)
условия коммуникации (телефонный разговор, «кухонный» разговор и
т.п.)
социальная роль говорящего (родственники, друзья, коллеги и т. д.)
место коммуникации (дом, офис, улица, магазин и т. д.)
Для дальнейшей расшифровки и аннотирования полученных файлов
используется программа ELAN.
ELAN п р е д с т а в л я е т с о б о й п р о г р а м м у м н о г оу р о в н е в о г о
лингвистического аннотирования, разработанную в НИИ Психолингвистики
им. Макса Планка в Неймегене (Голландия) «специально для архивирования
записей языков, находящихся под угрозой исчезновения, в рамках проектов
Фонда Фольксвагена»48. Программа позволяет создавать файлы с
расширением .eaf, с о д е р ж а щ и е а уд и о р я д ( и л и в и д е о р я д ) и
46 Шерстинова Т. Ю. Коммуникативные макроэпизоды в корпусе повседневной русской речи
«Один речевой день»: принципы аннотирования и результаты статистической обработки //
Корпусная лингвистика - 2013: Тр. Междунар. конф. СПб., 2013. С. 449-456.
47 Там же.
48 Работа с программой ELAN [Электронный ресурс]. URL: http://www.mpi.nl/tools/elan/tp/howto/ELAN_handout_Russian.pdf (дата доступа: 26.04.2016).
26
синхронизированную с ним текстовую расшифровку. Среди преимуществ
программы стоит отметить такие возможности:
возможность задавать неограниченное количество уровней аннотации
со сложными связями;
импорт и экспорт файлов между ELAN и другими популярными
лингвистическими программами;
экспорт в виде текстовых файлов;
возможность поиска по различным параметрам, а также получения
статистической информации.
На следующем этапе происходит заполнение уровней, специально
разработанных для Корпуса ОРД в соответствии с его целями и задачами 49:
Frase (членение записи на «боксы» с репликами говорящих и паузами);
Speaker (информация о говорящих)
Voice (информация о качестве голоса)
Events (неречевые звуковые события)
FonetComment (фонетические отклонения от нормы)
FraseComment (дополнительная информация о реплике)
Notes (общие наблюдения, которые могут быть полезны в дальнейшем)
Episode (обозначение мелких эпизодов)
При заполнении уровней происходит членение речевого потока на
фрагменты, которые записываются в отдельные боксы. При этом
используется особая система правил сегментации и знаков. Например, при
заполнении уровня Frase разработчики отказались от запятых и точек. Вместо
них используются показатели пауз, такие как /, //, *П, (), (…). Учитывается
различная длительность и природа пауз (интонационно-логическая,
интонационно-синтаксиче ская, пустая, пауза хезитации и т. д.).
Необходимость фиксировать большое количество паралингвистических
явлений в потоке речи привела к появлению системы специальных помет. С
ее помощью в расшифровках могут быть обозначены, например, смех (*С),
кашель (*К), цыканье (*Ц), вздох (*О), зевок (*З), отрицание с закрытым
ртом (*N), шмыганье носом (*S) и т. п.
49 Шерстинова Т. Ю., Степанова С. Б., Рыко А. И. Система аннотирования в звуковом корпусе
русского языка «Один речевой день» // Мат-лы XXXVIII международной конференции. Секция:
«Формальные методы анализа русской речи». Март 2009. СПбГУ: СПб. С. 66-75.
27
В ходе аннотирования также происходит анонимизация текста
звукозаписи: изменяются имена, фамилии, адреса и любая другая
информация, указывающая на личность говорящего.
Еще одним необходимым этапом является экспертное редактирование
полученных в результате описанного выше процесса транскриптов. В ходе
редактирования проверяется правильно сть расшифровки, как с
содержательной точки зрения (соответствие текста расшифровки звуковому
ряду), так и с формальной (точность и правильность границ боксов,
отсутствие промежутков между ними, корректность использованных
обозначений, правильность орфографии). При необходимости вносятся
исправления.
Таким образом, основная работа сконцентрирована в настоящее время
на уровне Frase. В дальнейшем планируется более детальное аннотирование,
охватывающее все уровни языковой системы: фонетическую, лексическую,
морфологическую, синтаксическую.
1.3.3. Сбалансированность материала Корпуса ОРД
Одно из главных требований, обуславливающих репрезентативность
лингвистического корпуса, – сбалансированность материала. Для корпусов
письменной речи она определяется соотношением текстов по жанрам,
временным периодам и источникам. В случае с корпусом такого типа, как
Корпус ОРД, добиться пропорционального соотношения материала можно
обратившись к социологическим данным.
Корпус ОРД был сбалансирован в соответствии с данными
Федеральной службы городской статистики50.
50 Социально-демографический портрет России: По итогам Всероссийской переписи населения
2010 года / Федер. служба гос. статистики. М.: ИИЦ «Статистика России», 2012. 183 с.
28
Для отбора информантов была разработана социологическая анкета,
которая содержит данные о поле, возрасте, месте рождения, родном языке,
знании других языков, национальности и социальном происхождении
родителей, уровне образования, квалификации/специальности по диплому,
прошлых и настоящей профессиях, а также основных местах проживания
(основным считается место с проживанием больше года)51.
Таким образом, Корпус ОРД содержит примерно равное количество
записей мужчин и женщин. По возрасту информанты были разделены на
следующие группы: 18-24 года, 25-34 года, 35-44 года, 45-59 лет, 60 лет и
старше «Такая классификация отражает определенные социальные этапы
жизни горожанина: до 24 лет - молодость, это время студенчества и первые
годы работы, когда человек отрывается от родительского дома и находит свое
место в социальной структуре общества; 25-34 и 35-44 - десятилетия, когда
человек активно работает, а также заводит семью и из категории «ребенка»
окончательно переходит в категорию «родителя»; 45-59 лет - время от
социальной зрелости до пенсионного возраста; выше 60 лет - старшее
поколение, менее активно принимающее участие в социальной жизни»52.
Наличие такой информации позволяет учитывать возможное региональное
влияние, межъязыковую и внутриязыковую интерференцию.
Балансировка по социальным группам может дать информацию для
изучения социолектов. В Корпусе представлены следующие группы 53:
работники, занятые на производстве, строительстве, транспорте, а
также представители профессий, связанных с физическим трудом
служащие силовых структур
работники сферы услуг
специалисты по экономической деятельности
51 Баева Е. М. О способах социолингвистической балансировки устного корпуса (на примере
«Одного речевого дня») // Вестник Пермского университета. Российская и зарубежная филология,
Вып. 4 (28), 2014. С. 50-51.
52 Баева Е. М. О способах социолингвистической балансировки устного корпуса (на примере
«Одного речевого дня»). С. 51.
53 Там же. С. 52.
29
специалисты по информационным технологиям
специалисты по связям с общественностью
специалисты, занятые в спорте
представители творческих профессий
представители гуманитарных наук
представители естественных наук
работники образования
учащиеся
неработающие пенсионеры
Важным аспектом представляется степень владения языком. Следует
различать, например, владение языком как средством коммуникации и
изучение языка филологами. Кроме того, уровень речевой компетенции
говорящих также влияет на конечное качество материала в корпусе.
В с о о т в е т с т в и и с р а з р а б о т а н н о й Н . В. Богдановой-Бегларян
классификацией, информантов можно разделить на 4 группы по принципу
«профессионального или непрофессионального отношения говорящего к
речи»54:
1. язык - только средство коммуникации (все нефилологи, а также
люди, профессионально не работающие с языком)
2. язык - средство коммуникации и объект изучения (все филологи не преподаватели, в том числе студенты)
3. язык - средство коммуникации и орудие труда (нефилологи, чья
профессия связана с речью - преподаватели, актеры, дикторы,
лекторы и т.п.)
4. язык - средство коммуникации, объект изучения и орудие труда
(преподаватели-филологи)
54 Богданова Н. В. Живые фонетические процессы русской речи: Учеб.-метод. пособ. по
современному русскому литературному языку. СПб.: Филологический факультет СПбГУ, 2001.
С. 58.
30
Уровень речевой компетенции – это «степень свободы говорящего в
выборе речевых средств, уровень владения этими возможностями, его
способность решать те или иные коммуникативные задачи»55. Выделяют три
уровня речевой компетенции:
высокий (высшее образование и профессиональное отношение к
речи);
средний (высшее образование и непрофессиональное отношение
к речи);
низкий (отсутствие высшего образования и профессионального
отношения к речи).
Подробный анализ факторов, влияющих на состав Корпуса, позволяет
регулировать степень их присутствия в и поддерживать пропорциональное их
соотношение в речевом материале.
1.3.4. Области применения корпуса повседневного общения
Лингвистические корпуса дают большое количество возможностей для
исследований в самых разных областях.
1. Составление словарей
Разговорная речь как отдельный объект лексикографического описания
сравнительно недавно заинтересовала разработчиков словарей. Во многом
это стало возможным благодаря появлению корпусов разговорной речи.
Именно поэтому Корпус ОРД становится важным источником материала для
подобных работ.
С использованием Корпуса ОРД были разработаны следующие
словари:
55 Звуковой корпус как материал для анализа русской речи. Часть 2. С. 86.
31
Словарь русской повседневной разговорной речи (в том числе
частотный словарь словоформ, словарь антрополексем);
Словарь редуцированных форм русской речи;
Словарь дискурсивных единиц (вербальных хезитативов)
(подробнее о словарях в монографии Звуковой корпус как материал для
анализа русской речи56).
В настоящее время планируется разработка частотного словаря
повседневной речи.
2. База для исследований.
Корпус может быть использован в качестве базы для исследований в
различных областях лингвистики и смежных дисциплин:
прагматические иследования (исследование
Ермоловой О. Б. прагматики повседневной речи на примере изменений в
течение речевого дня одного из информантов57)
статистические исследования (исследование Шерстиновой Т. Ю.
наиболее употребительных слов в мужской и женской речи в самых частых
типах повседневной коммуникации: бытовое, деловое, учебное общение,
общение вида «клиент-сервис»58).
социолингвистические исследования (см. Н. В. Богданова-Бегларян,
Т.Ю. Шерстинова и др.59)
3. Использование в преподавании русского языка (например, работа
Е. А. Зобниной60)
Звукозаписи Корпуса ОРД обеспечивают возможность тренировать
навыки восприятия живой устной речи и порождения речи в повседневной
коммуникации. Это дает неоспоримое преимущество по сравнению с
56 Звуковой корпус как материал для анализа русской речи. Часть 2.
57 Ермолова О. Б. «Один речевой день» говорящего с точки зрения прагматики // Вестник
Пермского университета. Российская и зарубежная филология, Вып. 3 (27), 2014. С. 21-30.
58 Шерстинова Т. Ю. Наиболее употребительные слова повседневной русской речи (в гендерном
аспекте и в зависимости от условий коммуникации) // Компьютерная лингвистика и
интеллектуальные технологии: По матер. ежегодн. межд. конф. «Диалог» (Москва, 1-4 июня 2016).
Вып. 15 (22). М.: Изд-во РГГУ, 2016. С. 616-632.
59 Богданова-Бегларян Н. В., Шерстинова Т. Ю., Блинова О. В. и др. Звуковой корпус русского
языка как база для социолингвистических исследований // Компьютерная лингвистика и
интеллектуальные технологии. Материалы конференции, 2015 [Электронный ресурс]. URL:
http://www.dialog-21.ru/digests/dialog2015/materials/pdf/Bogdanova-BeglarianNVetal.pdf (дата
доступа: 26.04.2016).
60 Зобнина Е. А. Перспективы использования звукового корпуса «один речевой день» в
преподавании русского языка как иностранного [Текст] / Е. А. Зобнина // Мир русского слова.
2009, № 4. С. 99-109.
32
другими корпусами при обучении русскому языку как иностранному.
Многообразие диалогов и монологов различной бытовой тематики,
возможность выбора среди информантов с разным темпа речи позволяет
разрабатывать задания любой сложности для работы с учащимися разных
уровней подготовки. Среди возможных форм заданий могут быть
аудирование, ролевые игры по максимально приближенным к жизни
ситуациям, диалоги в виде телефонных разговоров, упражнения на
тренировку лексических и грамматических навыков.
4. Разработка программного обеспечения
Материал Корпуса ОРД может быть использован при разработке
программ сегментации, распознавания и синтеза речи, для автоматического
снятия омонимии, а также в программах автоматического перевода.
33
Выводы к Главе I
Проанализировав предпосылки для создания частотника повседневной
разговорной речи, мы пришли к следующим выводам:
1.
Современная статистическая лексикография выходит за
рамки создания частотных словарей и предлагает новые методы
решения теоретических и практических задач. В настоящее время
появляется большое количество частотных словарей самой разной
направленности.
2.
Повседневная речь изучается сравнительно недавно и не
имеет единой системы взглядов на свои проблемы и особенности. Ряд
характеристик отличает повседневную речь от других типов речи и
литературного языка. Среди важнейших ‒ спонт анно сть,
индивидуальность и отсутствие стилистического однообразия.
3.
Звуковой корпус «Один речевой день» наилучшим образом
подходит для статистического анализа повседневной речи, так как
является на сегодняшний день единственным звуковым корпусом с
уникальной методикой спонтанной речи.
34
Глава 2. Разработка и анализ Частотника ОРД
2.1. Особенности процесса построения Частотника ОРД
Наше исследование основано на применении статистических методов.
«Статистический метод (или просто статистика) ‒ это комплекс приемов и
принципов, согласно которым производятся сбор, систематизация, обработка
и интерпретация статистических данных с целью получения научных и
практических выводов. Статистическими данными называют при этом
сведения о некоем числе объектов в какой-либо совокупности, единицы
которой обладают теми или иными общими признаками, способны изменять
свое качественное и количественное состояние»61.
Для получения данных об изменении статистических показателей
лексики при увеличении объема выборки, нами был составлен частотный
список из 200 000 словоупотреблений. Материал для него был взят из
расшифровок звукозаписей Корпуса ОРД, представленных в виде списка
словоформ. В выборку вошли записи 35 информантов и их коммуникантов.
Для наблюдения за динамикой в Частотнике ОРД, список был разбит на 20
«порций» по 10 000 словоупотреблений каждая, так как методика
исследования предполагает подсчет статистических параметров при
постоянном приросте на 10 000 единиц объема выборки.
Чтобы по возможности исключить предопределенность и обеспечить
бóльшую объективность результатов, границы фрагментов не соотносились с
началом и концом расшифровок, записями конкретных информантов или
конкретных речевых ситуаций. Выборка производилась из общего списка
словоформ текстов расшифровок.
61 Мартыненко Г. Я. Основы стилеметрии. Л.: Изд-во Ленингр. ун-та, 1988. С. 19
35
Понятие словоупотребления в данной работе включает в себя помимо
графических слов (последовательности букв, ограниченной пробелами с двух
сторон), неодносложные лексические единицы и имена собственные,
состоящие из более чем одного слова. Последнее обусловлено правилами
записи, принятыми для расшифровок Корпуса «Один речевой день»,
предполагающими соединение слов нижним подчеркиванием в названиях.
Что касается неоднословных единиц, под ними мы понимаем
устойчивые сочетания, эквивалентные слову, обладающие семантической,
грамматической и фонетической неделимостью, которые выполняют
следующие функции:
- предлог
- союз / союзное слово
- частица
- вводный оборот
- наречие / предикатив
- формула вежливости
- междометие
При определении списка неоднословных единиц мы опирались на
следующие источники:
1)
2)
3)
4)
Словарь Р. П. Рогожниковой62
Словарь Т. Ф. Ефремовой63
Малый академический словарь64
Корпусной словарь неоднословных лексических
единиц (оборотов) НКРЯ65
5) Частотный словарь словоформ русского языка на
основе Корпуса русского литературного языка66
62 Рогожникова Р. П. Толковый словарь сочетаний, эквивалентных слову: Ок. 1500 устойчивых сочетаний
рус. яз. / Р. П. Рогожникова. М.: Астрель: АСТ, 2003. 416 с.
63 Ефремова Т. Ф. Толковый словарь служебных частей речи русского языка [Текст] : ок. 15000 слов. статей.
Ок. 22000 семантических единиц / Т. Ф. Ефремова. 2-е изд., испр.. М. : АСТ : Астрель, 2004. 815 с.
64 Корпусной словарь неоднословных лексических единиц (оборотов) [сайт]. URL:
http://ruscorpora.ru/obgrams.html.
65 Словарь русского языка: В 4-х т. / РАН, Ин-т лингвистич. исследований; Под ред. А. П. Евгеньевой; 4-е
изд., стер. М.: Рус. яз.; Полиграфресурсы, 1999.
66 Частотный словарь словоформ русского языка [Электронный ресурс]. URL:
http://www.narusco.ru/STAT004/ (дата обращения: 11.04.2016).
36
Список наиболее употребительных неоднословных оборотов и их
частот представлен в Таблице 1.
Таблица 1. Наиболее употребительные неоднословные единицы.
Словосочетание
как бы Part
потому что
то есть Conj
в общем
может быть
что ли
вот тАк
а вот
в принципе
ну ладно
на самом деле
на хуй
то есть Part
и всё
ну и
да нет
вот так вот
всё равно Adv
тАк вот
всё время
если … то
всё равно Part
так и
как раз
так что
и так далее
а то Conj
мне кажется
хотя бы Part
что за
и вот
ну что
ну вот
в смысле
а что
ну всё
Абсолютная частота
476
403
360
157
146
140
135
123
115
111
101
100
98
96
90
82
77
75
72
61
59
56
55
50
47
43
41
40
38
36
34
то ли
если бы Conj
один раз
до свидания
ещё раз
33
32
37
да и
ну и что
ну как
в течение
просто так
30
28
25
Спонтанная речь имеет ряд особенностей, которые безусловно должны
быть отражены в частотном словаре и, соответственно, в нашем частотном
списке. Одна из важнейших задач – зафиксировать разнообразие устной
повседневной речи, поэтому наряду с общей нарицательной лексикой решено
было включить в частотник следующие единицы:
1)
Имена собственные и их разговорные варианты
топонимы
Так как проект ОРД территориально охватывает город Санкт-Петербург
и Ленинградскую область, наибольшее разнообразие разговорных
образований наблюдается именно в топонимике города: Санкт-Петербург –
Питер, Васильевский остров – Васька, Технологический институт –
Техноложка и т. п.. Также присутствуют характерные названия граждан
сопредельных государств, например, финик (вместо финн). Географические
названия, состоящие из нескольких слов, приводятся в виде одной единицы.
имена людей, художественных персонажей и клички
животных
Разговорные варианты записываются с сохранением особенностей
произношения (Дмитрий – Дима – Димочка – Димон – Димчик – Димуха;
Константин – Костя – Костян – Костянка – Костёныч;
Дыма – Дымка –
Дымочка – Дымуля – Дымулька – Дымулечка – Дымуленька)
названия литературных произведений
коммерческие названия (название компании,
лекарства и т.д.)
2)
Аббревиатуры и сокращения
3)
Иностранные слова
Сохраняется написание латиницей в случае, когда слова произносятся на
иностранном языке либо если это общеизвестное иностранное наименование:
good bye / my love / good bye !
Windows, DSL, TDK и т. п.
38
В случае если иностранное слово произносится явно по-русски,
произношение искажено, а тем более слово изменяется говорящим в
соответствии с правилами русского языка, оно записывается кириллицей (Три
минуты и афидерзейн; сидиэрка; ресетом и т. п.)
4) Окказионализмы
В эту группу входят слова, которые не представлены в словарях, не
являются нормой языка, появились сравнительно недавно и главным образом
в контексте неформального общения в сети Интернет (пока - пукасики,
нырять - ныркать; магичить)
что ты там магичишь* ? · *П · что делаю ? · *П · магичишь* // ·
*П · что такое магичишь* ? · *П · знаешь что такое магия ? · *П ·
знаю // · *П · ну вот // · *П · но такого глагола / магичишь* / нету // ·
*П · ну хорошо / замени чтобы / *В (...) с корнем (...) магия была // ну как ? ·
*П · давай замени ! · *П · *Н // · *П · я жду // · *В · есть в русском
языке / нормальное слово / колдовство // · *П · а мне нравиться / магия // ·
*П · тогда бы ты еще сказала волшебство //
5)
Бранная лексика
Вошла в словарь как показатель особой эмоциональности спонтанной
речи, а также многообразия словотворчества на её основе.
6)
Звукоподражание (тыт тыр-ры-ры ры-ры ры)
7)
Ошибки и оговорки
Эта группа иллюстрирует типичные, часто повторяющиеся ошибки в
словах (например, еёный, евошний, ихний). Возможно позволит изучить
наиболее часто встречающиеся оговорки и объяснить их причины:
между прочим у французов тоже простая кухня / просто () это
нам теперь здесь её () подают как это самое / как будто пре-парте какоето //
а не надо дорешивать / я говорю прорешивать учебник
8)
Звуки-заполнители пауз хезитации (э, а, м и т. п.)
После отбора словарный материал прошел несколько этапов обработки
для составления частотного списка.
39
Прежде всего было определено, что слова в Частотнике ОРД
представляются в начальной форме (в виде лексемы), с пометами в случае
снятой частеречной омонимии.
Форма представления во многом обусловлена стандартом расшифровки
звукозаписей, принятым составителями Корпуса ОРД. В неоднозначных
случаях были приняты следующие правила:
Неоднословные единицы, такие как названия, состоящие из
нескольких слов (за исключением топонимов), составные предлоги и союзы
представлены в виде единых неоднословных единиц.
Слова с дефисом в большинстве случаев записываются через
дефис в соответствии с правилами орфографии. Исключение составляют
слова, компоненты которых обладают достаточно большой автономностью
(так называемые «дублеты», частицы «то», «таки», «ка», «де»).
Междометия (а-а-а, о-о-о и т.д.) записываются черед дефис, с
разным количеством гласных, в зависимости от длительности. Длительность
определяется расшифровщиком в ходе работы со звуковым файлом.
Предлоги и частицы, имеющие фонетические варианты,
представлены в виде отдельных лемм.
С л о в а с о б р ы в о м ко н ц а с л о в а п о в о з м о ж н о с т и
восстанавливаются до первоначального, исходя из контекста
(спрашива... – спрашивать, зарегистриро... – зарегистрировать,
представля... – представлять, сейча... – сейчас, мануальна... –
мануальный, дореволюцион... – дореволюционный, пародонто... –
пародонтоз, копей... – копейка).
В потоке спонтанной речи довольно часто встречаются слова с
оборван н ой кон ечн ой частью . Такие единицы бывает т рудно
идентифицировать по частеречному признаку и привести к начальной лемме,
в таком случае приходится отказаться от занесения их в частотник..
Подобные случаи иллюстрируют ситуации перебивания собеседниками друг
друга, прерывания на полуслове, внезапной смены хода мыслей,
свойственные потоку живой речи.
40
Противоположное явление – отсутствие начала слова – также не вошло
в частотник. Как и предыдущее, оно может быть связано с наложением друг
на друга реплик говорящих. Однако возможны и случаи умышленного
«приглушения» говорящим начала слова или его артикуляция без голоса, как
своего рода цензура табуированных выражений и тем разговора. Это явление
еще предстоит изучить более детально.
Редуцированные формы слов, такие как щас, чё и т.д.,
заменяются полными формами и записываются в стандартной
орфогрфии.
Омографы различаются выделением ударного гласного.
Омонимы сопровождаются частеречной пометой (лексическая
омонимия не снята).
Далее, в соответствии с описанными принципами, была осуществлена
лемматизация. Процедура производилась вручную. При этом необходимо
было собрать в цельные единицы неоднословные сочетания, так как в
Корпусе ОРД они представлены отдельными словами.
После этого была снята частеречная омонимия и проставлены
соответствующие пометы. Омонимия снималась вручную, так как
специфический синтаксис спонтанной речи создает определенные трудности
при обработке текстов Корпуса ОРД.
После обработки материала и уточнения частот лексем возникла
необходимость дополнить первоначальные частотные списки новыми
единицами, с тем чтобы количество словоупотреблений составляло 10 000 в
каждом, как было задумано изначально.
На следующем этапе работы необходимо произвести расчеты
статистических рядов для каждого объема выборки с нарастанием в 10 000
слов в каждом из частотных списков. Другими словами, отдельно для
частотного списка в 10 000 словоупотреблений, затем для списка в 20 000
словоупотреблений (первые 10 000 плюс последующие 10 000) и т. д..
Таблица 2 дает представление о наиболее частотных словах в общем
Частотнике ОРД.
41
Таблица 2. Верхушка частотного списка.
Ранг
1
2
3
4
5
6
7
8
9
10
Лексема
я
не
вот
да Part
ну Part
и Conj
а Conj
быть
в
это Spro
Частота
7975
4863
4344
4259
4256
3343
3275
2991
2968
2879
2.2. Статистические характеристики Частотника ОРД
2.2.1. Выбор статистических параметров оценки
Для описания какого-либо явления в терминах статистики, необходимо
прежде всего определить систему параметров, которую целесообразно
применить к данному явлению.
В статистике для измерения традиционно применяют три шкалы:
номинальную, количественную и порядковую. Измерение с помощью
номинальной шкалы, строго говоря, измерением не является. Это скорее
классификация. Самая популярная характеристика этой шкалы ‒ мода. Также
часто используются объем словаря и максимальная частота.
Самой разработанной методикой вычислений обладает количественная
шкала: «здесь на основании теории моментов была сформирована развитая
система средних, показателей вариации, характеристик формы распределения
и т.п.»67.
67 Мартыненко Г. Я., Мартинович Г. А. Многопараметрический статистический анализ результатов
ассоциативного эксперимента. СПб.: Изд-во С.-Петербургского ун-та, 2003. С. 6.
42
Порядковая, называемая также ординальной, шкала предполагает
измерение разной степени интенсивности признака и используется для
ранжировки данных. Чаще других исследователями используется такой
показатель этой шкалы как медиана.
Наиболее полный перечень параметров описывается в работе
Г. Я. Мартыненко и Г. А. Мартиновича68.
Для статистического описания динамики лексики повседневного
общения были выбраны следующие девять параметров:
1. Номинальные:
Объем словаря (n) ;
Частота самого частотного слова (Fmax);
2. Количественные:
Средняя частота (Fср);
Коэффициент разнообразия (K);
3. Порядковые:
Медианный ранг (Meᵣ);
Ранговое среднее (Rср);
Индекс концентрации (γ);
Индекс Хирша (h);
Золотое сечение (Gᵣ).
Выбранные параметры позволят описать основные статистические
характеристики нашей выборки.
2.2.2. Расчёт статистических рядов
Рассмотрим такой параметр как объем словаря (n). Он показывает
количество разноименных единиц (в данном исследовании лексем) в
частотном словаре.
Общий объем Частотника ОРД составил 13 200 лемм. Для сравнения,
объем словаря рассказов А. П. Чехова составляет 13 736 слов (при объеме
68 Мартыненко Г. Я., Мартинович Г. А. Многопараметрический статистический анализ результатов
ассоциативного эксперимента. С. 7.
43
выборки 198 066 словоупотреблений), Л. Н. Андреева ‒ 14 132 (при выборке
198 592 словоупотребления), а А. И. Куприна ‒ 20 075 (при выборке 288 260
словоуптреблений). Объем словаря в словаре устной непубличной речи НКРЯ
‒ 4927 лемм при объеме выборки 1 017 568 словоупотреблений.
П. М. Алексеев говорит о том, что «первая тысяча самых
упот ребительных слов может обе спечить покрытие 80% вс ех
словоупотреблений текста, а первые две тысячи слов - до 90%»69. Это
актуально и для нашего Частотника, в котором первая тысяча лемм покрывает
около 82% всего объема.
Интересен также тот факт, что первое имя собственное ‒ Настя ‒
появляется только с рангом 267 и частотой 87. Также только 12
неоднословных единиц имеют частоту 100 и выше.
Перейдем к частоте самого частотного слова (Fmax). Как мы уже видели
в Таблице 2, таковым является местоимение я. Здесь стоит отметить, что по
данным большинства частотных словарей наиболее употребительным
является лексема и. В Частотном словаре живой устной речи НКРЯ это место
занимает лексема ну. Полученные нами результаты, подтвержденные также
исследованиями Т. Ю. Шерстиновой на материале того же корпуса70,
позволяют предположить, что такая частность лексемы я характерна именно
для повседневной речи.
Также стоит обратить внимание на тот факт, что статус самого
частотного слова сохраняется на протяжении всего наращивания объема
словаря. То же верно и для второго по частотности слова - не (Таблица 3).
При этом остальные слова ведут себя по-разному: одни постепенно переходят
преимущественно на более высокие уровни; другие, напротив, на более
низкие; у третьих наблюдаются неустойчивые колебания в разных
направлениях. В целом, слова в первой десятке демонстрируют большую
долю случайности в перемещении между уровенями.
69 Алексеев П. М. Частотные словари: Учебное пособие. СПб.: Изд-во С.-Петерб. ун-та, 2001. С. 10.
70 Шерстинова Т. Ю. Наиболее употребительные слова повседневной русской речи (в гендерном аспекте и в
зависимости от условий коммуникации)
44
Таблица 3. Изменение позиций слов в верхушке частотного списка.
1
2
3
4
5
6
7
8
9
1
0
1
я
0000
н
а
е
2
я
0000
у
н
а
е
3
я
0000
н
я
0000
я
0000
а
н
е
6
я
0000
я
0000
н
я
0000
я
0000
я
00000
а
е
1
я
10000
н
я
20000
н
1
я
30000
а
н
е
1
я
40000
н
я
50000
н
я
60000
а
н
е
1
я
70000
н
я
80000
а
н
е
1
я
д
а
н
а
и
б
в
в
б
ыть
б
и
а
э
у
э
у
у
э
то
б
и
и
то
б
а
и
то
б
а
и
а
и
а
а
и
у
э
то
б
у
в
б
у
в
б
у
т
ы
б
в
у
б
в
т
ыть
в
и
а
от
н
в
ыть
в
н
и
э
и
от
у
в
а
от
у
б
ыть
в
н
д
и
у
у
у
ыть
н
н
и
ыть
н
в
д
а
у
от
а
е
1
д
б
ыть
у
от
у
ыть
н
в
и
ыть
н
в
д
э
у
от
а
е
1
д
б
ыть
н
в
у
ыть
у
от
а
е
1
д
то
у
от
и
то
н
в
б
то
н
в
д
э
а
ы
ыть
у
от
а
е
в
д
от
н
э
в
т
ыть
то
у
от
а
е
1
от
д
н
н
в
э
н
и
ыть
то
у
у
а
е
1
а
д
н
в
о
н
б
э
н
в
ыть
то
у
от
а
е
9
а
д
н
в
от
а
е
8
а
э
э
н
и
то
то
у
а
е
7
от
д
ыть
у
в
от
б
н
а
в
ыть
а
а
б
д
д
в
д
н
в
в
д
д
а
от
от
е
5
н
а
н
о
н
у
е
4
н
ыть
д
45
и
а
ы
б
в
э
90000
е
2
я
00000
от
н
е
у
в
от
а
н
у
ыть
д
и
а
а
то
б
ыть
в
э
то
Следующий параметр ‒ средняя частота (Fср), или средняя
арифметическая, которая вычисляется по формуле:
n
F ср. =
∑ f i × ni
i =1
n
где n - объем словаря. Полученный статистический ряд представлен в
Таблице 3.
Далее обратимся к коэффициенту разнообразия (K). Он определяет
долю слов с однократным употреблением в словаре и вычисляется по
формуле:
K=
t
n
где t - число однократных слов.
Коэффициент разнообразия показывает богатство частотного словаря.
Г. Я. Мартыненко71 связывает его с эстетической теорией Айзенка72 в
контексте статистического анализа художественной литературы. По его
наблюдениям, коэффициент К в рассказах А. П. Чехова (0,383),
Л. Н. Андреева (0,413) и А. И. Куприна (0,389) стремится к гармонии
золотого сечения (0,382). В нашем Частотнике этот коэффициент несколько
выше.
Стоит отметить, что в словаре «Частотном словаре словоформ русского
языка», к примеру, число однократных единиц по сравнению с остальными
составляет больше 50%73, в то время как в Частотнике ОРД ‒ 45%.
Следующий параметр ‒ медианный ранг (Meᵣ), то есть «величина ранга,
соответствующая накопленной половине объема выборки (числа
71 Мартыненко Г. Я. Математика гармонии и статистика [Электронный ресурс]. URL:
http://www.trinitas.ru/rus/doc/0232/009a/02321149.htm (дата доступа: 30.05.2016).
72 Eysenck H. J. An Experimental Study of the Good Gestalt. In: Psychological Rewiew. 1942. № 49. Pp. 344-364.
73 Введение // Частотный словарь словоформ русского языка [Электронный ресурс]. URL:
http://www.narusco.ru/STAT004/ (дата обращения: 11.04.2016).
46
словоупотреблений) в кумулятивном убывающем ранговом распределении»74.
В случае с Частотником ОРД мы принимаем за медиану конец интервала,
включающего в себя ранг накопленной половины, так как имеем дело с
большими величинами. Данные о медиане в каждом из исследуемых
частотных списков содержатся в Таблице 3.
Отдельно следует рассмотреть ранговое среднее (Rср). Этот параметр
был впервые предложен и теоретически обоснован лингвистом
Г. Я. Мартыненко7576. Он рассчитывается по следующей формуле:
n
R ср =
∑ ri× f i
i=1
n
fi
∑
i=1
где ri ‒ это ранг единицы в ранговом распределении.
Показатель Rср изменяется в диапазоне
1 ≤ R ср ≤
n+1
2
достигая максимум при равномерном распределении.
Еще одним значимым параметром является индекс концентрации (γ),
для расчета которого применяется формула:
γ=1−
Rу
Rв
Rу в этой формуле представляет собой ранговое среднее убывающего
ранжированного ряда, то есть описанный выше показатель Rср. Rв,
соответственно, ранговое среднее возрастающего ранжированного ряда,
вычисляемое по формуле:
R в=n−R у
74 Мартыненко Г. Я., Мартинович Г. А. Многопараметрический статистический анализ результатов
ассоциативного эксперимента.
75 Мартыненко Г. Я. Основы стилеметрии.
76 Мартыненко Г. Я., Фомин С. В. Ранговые моменты // Научно-техническая информация. Сер. 2 1989. № 5.
С. 23-29.
47
«Чем больше перепад между «головой» и «хвостом» рангового
распределения, тем больше уровень концентрации в этом распределении» 77.
Рассмотрим индекс Хирша (h). Этот показатель был предложен в 2005 г.
физиком Х. Хиршем78 и предназначался изначально для оценки научного
вклада физиков, а затем и ученых в целом (например, по нему оценивается
вклад в науку российских учёных79). В контексте лингвистического
исследования этот индекс отображает активность слова в словаре и находится
в частотном списке по соответствию показателей ранга и частоты.
Еще один параметр в нашем исследовании золотое сечение (Gᵣ) ‒
числовая гармония, достигаемая при накоплении объема выборки в 38,2 %.
Оно рассматривается в качестве статистического распределения в работах
Г. Я. Мартыненко. В одной из них он выводит из классических уравнений
золотого сечения
{
a+b=c ;
a b
= ,
c a
где c ˗ целое, a ˗ большая часть, а b ˗ меньшая,
квадратное уравнение, после решения которого «устанавливается
константное долевое участие “меньшего” и “большего” в “ целом”»80. Эти
доли равны 0,618 и 0,382 соответственно.
Идея числовой гармонии применялся в исследованиях поэтических
текстов (например, в работах О. Н. Гринбаума81, Н. А. Васютинский82), однако
интересно увидеть, как ведет себя этот показатель в повседневной речи.
По наблюдениям Г. Я. Мартыненко, «самобытность поведения
ранговых статистик определяется тем, что они реагируют не столько на
77 Мартыненко Г. Я., Мартинович Г. А. Многопараметрический статистический анализ результатов
ассоциативного эксперимента.
78 Hirsch J. E. An index to quantify an individual's scientific research output [Элекстронный ресурс]. URL:
ttp://www.pnas.org/content/102/46/16569.full (дата доступа: 15.06.2016).
79 Список CItot ≥ 1000 [сайт]. URL: http://www.expertcorps.ru/science/whoiswho/ci86?sortby=h.
80 Мартыненко Г. Я. Золотое сечение формулы изобретения [Текст]: [Автоматизация] // Научнотехническая информация. Сер. 2. Информационные процессы и системы. 2002. N10. С. 23.
81 Гринбаум О.Н. Гармония строфического ритма в эстетико-формальном измерении (на материале
«Онегинской строфы» и русского сонета). СПб.: Изд-во СПбГУ, 2000.160 с.
82 Васютинский Н.А. Золотая гармония. М.: Молодая гвардия, 1990. 238 с.
48
распределение частот в совокупности, сколько на концентрацию частот в
верхней части частотного словаря, указывая на критическую точку,
разделяющую словарь на две качественно однородные зоны»83.
Все статистические данные, полученные в результате подсчетов,
представлены в Таблице 3. Также так указано число однократных слов (t) для
каждой «порции».
83 Мартыненко Г. Я. Основы стилеметрии. С. 80.
49
Таблица 3. Статистические параметры Частотника ОРД.
50
О
О
бъем
бъем
выборки словаря
N
n
1
0 000
2
ота
2
го
частотного
слова
F
max
6
7
2841
7
9
3377
7
1
10 000
4069
9
4450
9
4882
30 000
1
5321
40 000
1
5720
1
6133
50 000
1
6624
60 000
1
6934
1909
1
0,466
1
0,457
1
0,454
1
0,453
1
0,455
1
0,453
4,009
4,275
1
5
195
395
1
68
0,917
71
0,919
30
7
31
8
31
9
30
1
30
1
30
1
30
1
31
1
31
1
31
74
0,920
1
31
76
0,922
1
32
78
0,923
1
31
79
0,925
1
31
81
0,926
1
32
22
29
35
38
43
6
7
2
6
16
2
7
5
0,915
6
7
51 1
976
31
12
4
7
4
0,912
6
1
783
0,910
9
7
4
5
05
67
7
0
577
33
01
63
6
4
0,905
4
9
455
0,900
4
7
4
4
2
60
6
4
0,893
0
0
211
3,666
1421
1
0,468
3,294
0976
1
1
Gᵣ
3
58
6
4
0,885
7
7
018
2,970
0531
1
0,470
2,550
0023
1
1
h
5
56
6
3
0,875
0
7
657
2,213
562
1
0,465
1,690
007
20 000
1
лотое
сечение
6
53
6
3
0,858
7
9
395
1,445
8
1
0,469
ндекс
Хирша
Зо
4
50
6
3
И
1
1
7
198
1
3683
554
1
0,473
1,044
864
00 000
1
0,823
45
7
2
32
3
9
929
0,363
244
0 000
0,476
γ
40
6
2
Rс
4
1
671
9,
6
2
0,481
755
6
8
0,490
кс
концентрации
3
8
384
8,
2416
755
0 000
8,
7
2
Инде
р
9
059
999
6
M
1
0,504
Ра
нговое
среднее
0
735
7,
1953
151
0 000
0,533
219
5
едиана
по R
1
228
6,
1538
556
0 000
0,572
344
4
5
0 000
4,
1186
867
оличество
однократных
слов
t
М
eᵣ
146
4
4
K
К
р
844
085
0 000
Коэфф
ициент
разнообразия
660
3
3
Fс
391
254
0 000
С
редняя
само частота
146
0 000
70 000
Част
9
47
51
2.3. Динамика статистических рядов в Частотнике ОРД
Статистические, или динамические ряды ‒ это «ряды показателей,
характеризующую величину явления по состоянию на определенные
моменты (моментные ряды) или за определенные периоды (интервальные
ряды)»84.
В результате вычислений мы получили 9 статистических рядов. В
числовом выражении эти данные сложны для восприятия и тем более анализа
закономерностей, поэтому представим их в виде графиков. «Статистический
график представляет собой чертеж, на котором с помощью условных
геометрических образов или знаков описываются в различных разрезах те
или иные статистические совокупности» 85. Графические методы, как
неотъемлемый инструмент статистики, позволяют визуально представить
массив данных таблицы.
Полученные эмпирические ряды распределений «выражают
количественные отношения частей качественно определенной совокупности,
сложившиеся в силу действия объективных законов развития данного
общественного явления, характеризуемого изучаемой совокупностью» 86. Для
уменьшения влияния на график данных с большей степенью случайности,
необходимо произвести выравнивание (или сглаживание) динамических
рядов.
Выравнивание позволяет найти плавную теоретическую кривую,
которая наилучшим образом описывала бы статистическое распределение.
Оно может преследовать две цели: для изучения общей тенденции ряда, так
называемого тренда («очищенную» от случайных колебаний, не имеющих
принципиального значения) или, напротив, для выявления резких колебаний
(которые могут оказаться периодическими (циклическими) отклонениями) на
84 Венецкий И. Г., Венецкая В. И. Основные математико-статистические понятия и формулы в
экономическом анализе. Справочник. 2-е изд., перераб. и доп. М.: Статистика, 1979. С.77.
85 Герчук Я. П. Графические методы в статистике. М.: Статистика, 1968. С. 20
86 Ежов А. И. Выравнивание и вычисление рядов распределений. М.: Госстатиздат, 1961. С. 15.
52
фоне общей динамики ряда. Цель исследователя обуславливает выбор
метода, применяемого для процедуры выравнивания.
Для выравнивания возможно использование следующих методов:
1. Механическое выравнивание
основано на нахождении усредненных значений элементов ряда с
учетом значений соседних уровней:
метод усреднения по двум половинам ряда (деление
ряда на две половины и вычисление среднего значения для
каждой из них, используется для определения тренда
динамического ряда)
м е тод у к ру пне ния инт е р ва ло в ( у ве лич е ние
временных интервалов первоначального динамического ряда до
размеров, при которых тенденции его развития приобретают
более ярко выраженные черты, и последующий расчёт новых
значений)
метод скользящей средней (построение второго
динамического ряда на основе средних арифметических
показателей первого, эмпирического, ряда)
метод экспоненциального сглаживания (схож с
предыдущим, однако «здесь более старым наблюдениям
приписываются экспоненциально убывающие веса, при этом, в
отл и ч и е от скользящего среднего, уч итывают ся вс е
предшествующие наблюдения ряда, а не те, что попали в
определенное окно»87)
2.
Аналитическое выравнивание
«заключается в том, что, ориентируясь на общую конфигурацию
эмпирического («натурального») ряда, нанесенного на диаграмму, выбирают
желаемую форму плавной кривой, удовлетворяющей одной из аналитических
функций (прямой линии, параболы 2-го или 3-го порядка), и подбирают такие
параметры избранной функции, при которой плавная кривая пройдет ближе
87 Анализ временных рядов // StatSoft, Inc. (2012). Электронный учебник по статистике. Москва, StatSoft
[Электронный ресурс]. URL: http://www.statsoft.ru/home/textbook/default.htm (дата обращения: 16.06.2016).
53
всего ко всем точкам выравниваемой кривой» 88. То есть предполагает
использование аналитических формул:
линейная зависимость
параболическая зависимость
экспоненциальная зависимость
Целям нашего исследования удовлетворяет метод скользящей средней.
Далее рассмотрим его более подробно.
Суть метода скользящей средней заключается в том, что
«первоначальные значения элементов ряда заменяются средней
арифметической величиной внутри выбранного интервала» 89. Иными
словами, определенное количество значений эмпирического ряда, начиная с
первого, выбирается в качестве интервала. В нашем случае это 3 значения.
Для выбранных элементов рассчитывается среднее арифметическое. Далее
интервал сдвигается на одно значение и действие повторяется. Так как
данный интервал содержит нечетное количество элементов, полученные
значения соответствуют среднему из них.
После применения метода скользящей средней мы получили ряды,
отличающиеся количеством значений от первоначального. Для заполнения
недостающих значений на концах последовательностей используются
различные методы. Так, «Н. С. Четвериков выравнивал скользящие средние
по параболе второго порядка и экстраполировал ее на недостающие уровни;
Я. П. Герчук заполнял пропущенные концы динамического ряда путем
вычитания сезонной волны из фактических уровней и сглаживания
результатов с уменьшающимся периодом сглаживания» 90. Мы, в свою
очередь, применяем метод взвешенных скользящих средних 91. Он позволит
добавить по уровню с обоих концов ряда. Необходимое значение для начала
ряда получаем по следующей формуле:
88 Герчук Я. П. Графические методы в статистике. М.: Статистика, 1968. 140
89 Грешилов А. А., Стакун В. А., Стакун А. А. Математические методы построения прогнозов. М.: Радио и
связь, 1997. С. 74.
90 Венецкий И. Г., Венецкая В. И. Основные математико-статистические понятия и формулы в
экономическом анализе. Справочник. 2-е изд., перераб. и доп. М.: Статистика, 1979. С.86.
91 Венецкий И. Г., Венецкая В. И. Основные математико-статистические понятия и формулы в
экономическом анализе. Справочник. 2-е изд., перераб. и доп. М.: Статистика, 1979. С.86.
54
y +1 =
2 y1 + y 2− y 4
2
Значение конца ряда, учитывая тот факт, что уровней в нашем
распределении 20, рассчитываем по формуле:
y −1 =
2 y 20 + y 19− y 17
2
Некоторые исследователи называют одним из главных недостатков
метода скользящей средней такую «условность определения сглаженных
уровней для точек в начале и конце ряда» 92.
Нанесем обе кривые, как эмпирическую, так и сглаженную, на графики.
«Первое нужно для того, чтобы наметить тип и порядок интерполируемой
кривой, второе – для того, чтобы глазомерно оценить, в какой мере
достигнуты цели выравнивания»93.
Опираясь на данные графиков, можно проследить характер изменений
в Частотнике ОРД в зависимости от увеличения объема выборки.
92 Статистика: Курс лекций / Харченко Л. П., Долженкова В. Г., Ионин В. Г. и др.; под ред. канд. экон. наук
В. Г. Ионина. Новосибирск: Изд-во НГАЭиУ; М.: ИНФРА-М, 2000. С. 102.
93 Четвериков Н. С. Статистические и стохастические исследования. М.: Госстатиздат, 1963. С. 201.
55
Объем словаря
14000
12000
10000
8000
Объем словаря
6000
4000
2000
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 1. График зависимости объема словаря от объема выборки.
16000
14000
12000
10000
8000
Эмпирический ряд
Сглаженный ряд
6000
4000
2000
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 1а. График зависимости объема словаря от объема выборки при
сглаживании ряда.
На Рисунках 1 и 1а видно, что объем словаря Частотника ОРД
постоянно и достаточно равномерно растет с увеличением объема выборки и
не демонстрирует тенденции к постепенному замедлению на данном этапе.
56
Частота самого частотного слова
9000
8000
7000
6000
5000
Частота самого частотного
слова
4000
3000
2000
1000
0
,
10
0
00
,
30
0
00
,
50
0
00
,
70
0
00
,
90
0
00
0,
11
0
00
0,
13
0
00
0,
15
0
00
0,
17
0
00
0,
19
0
00
Рисунок 2. График зависимости частоты самого частотного слова от объема
выборки.
9000
8000
7000
6000
5000
4000
Эмпирический ряд
Сглаженный ряд
3000
2000
1000
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 2а. График зависимости частоты самого частотного слова от объема
выборки при сглаживании ряда.
Частота самого частотного слова является одной из самых
устойчивых характеристик Частотника ОРД, так как ее кривая постоянна и
растет линейно, что подтверждают Рисунки 2 и 2а.
57
Средняя частота
16
14
12
10
8
Средняя частота
6
4
2
0
Рисунок 4. График зависимости средней частоты от объема выборки.
18
16
14
12
10
8
Эмпирический ряд
Сглаженный ряд
6
4
2
0
Рисунок 4а. График зависимости средней частоты от объема выборки при
сглаживании ряда.
Рисунки 4 и 4а указывают на то, что средняя частота имеет
тенденцию к медленному росту с постепенным затуханием при
увеличении объема выборки.
58
Коэффициент разнообразия
0.7
0.6
0.5
0.4
Коэффициент разнообразия
0.3
0.2
0.1
0
,
10
0
00
,
30
0
00
,
50
0
00
,
70
0
00
,
90
0
00
0,
11
0
00
0,
13
0
00
0,
15
0
00
0,
17
0
00
0,
19
0
00
Рисунок 5. График зависимости коэффициента разнообразия от объема выборки.
0.7
0.6
0.5
0.4
Эмпирический ряд
Сглаженный ряд
0.3
0.2
0.1
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 5а. График зависимости коэффициента разнообразия от объема выборки
при сглаживании ряда.
Коэффициент разнообразия, в отличие от всех остальных статистик,
имеет тенденцию к очень плавному и постепенно замедляющемуся
убыванию, что видно по Рисункам 5 и 5а.
59
Медиана по R
73
72
71
70
69
Медиана по R
68
67
66
65
64
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 3. График зависимости медианы от объема выборки.
100
90
80
70
60
50
Эмпирический ряд
Сглаженный ряд
40
30
20
10
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 3а. График зависимости медианы от объема выборки при сглаживании
ряда.
Как видно на Рисунках 3 и 3а, значение медианы Частотника ОРД
колеблется в небольшом диапазоне и остается практически на одном уровне,
независимо он объема выборки.
60
Ранговое среднее
1000
900
800
700
600
500
Ранговое среднее
400
300
200
100
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 6. График зависимости рангового среднего от объема выборки.
1000
900
800
700
600
500
Эмпирический ряд
Сглаженный ряд
400
300
200
100
0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00
,
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200
Рисунок 6а. График зависимости рангового среднего от объема выборки при
сглаживании ряда.
61
По Рисункам 6 и 6а можно сделать вывод о том, что ранговое среднее
возрастает с увеличением объема выборки, однако характеризуется некоторой
нестабильностью.
Индекс концентрации
0.94
0.92
0.9
0.88
0.86
Индекс концентрации
0.84
0.82
0.8
0.78
0.76
,
10
0
00
,
30
0
00
,
50
0
00
,
70
0
00
,
90
0
00
0,
11
0
00
0,
13
0
00
0,
15
0
00
0,
17
0
00
0,
19
0
00
Рисунок 7. График зависимости индекса концентрации от объема выборки.
0.95
0.9
0.85
Эмпирический ряд
Сглаженный ряд
0.8
0.75
0.7
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 7а. График зависимости индекса концентрации от объема выборки при
сглаживании ряда.
62
Индекс концентрации, как показывают Рисунки 7 и 7а, резко
возрастает на начальных этапах, но при накоплении определенного объема
выборки быстро затухает.
Индекс Хирша
180
160
140
120
100
Индекс Хирша
80
60
40
20
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 8. График зависимости индекса Хирша от объема выборки.
180
160
140
120
100
80
Эмпирический ряд
Сглаженный ряд
60
40
20
0
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 8а. График зависимости индекса Хирша от объема выборки при
сглаживании ряда.
63
На Рисунках8 и 8а видно, что индекс Хирша увеличивается по мере
прироста объема выборки, однако не сохраняет при этом постоянства.
Золотое сечение
33.5
33
32.5
32
31.5
31
Золотое сечение
30.5
30
29.5
29
28.5
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0 0, 0
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 9. График зависимости золотого сечения от объема выборки.
60
50
40
30
Эмпирический
ряд
Сглаженный ряд
20
10
,
10
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00 ,00
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Рисунок 9а. График зависимости золотого сечения от объема выборки при
сглаживании ряда.
Золотое сечение представляет собой еще один из постоянных
показателей Частотника ОРД. Согласно Рисункам 9 и 9а, он варьируется в
64
пределах четырех единиц, что в масштабах всей выборки можно считать
минимальным изменением. При этом колебания не зависят от объема
выборки.
Таким образом, мы получили три показателя, обладающих
устойчивостью и не чувствительных к изменениям объема выборки: частота
самого частотного слова, медианный ранг и золотое сечение.
65
Выводы к Главе II
В ходе подготовки и анализа Частотника ОРД, мы пришли
к
следующим выводам:
1. При построении частотника повседневной речи важно учитывать
специфику лексического материала и исходную форму его представления в
корпусе.
2. Для описания частотника могут быть использованы параметры: 1.
Номинальные (Объем словаря (n) ; Частота самого частотного слова (Fmax));
количественные(Средняя частота (Fср); Коэффициент разнообразия (K)) и
порядковые (Медианный ранг (Meᵣ); Ранговое среднее (Rср); Индекс
концентрации (γ); Индекс Хирша (h); Золотое сечение (Gᵣ)). Оправданность
их использования подтверждается результатами статистического анализа.
3. Анализ динамики статистических рядов показывает, что для
частотного списка повседневной речи существует три параметра (Частота
самого частотного слова (Fmax), Медианный ранг (Meᵣ) и Золотое сечение
(Gᵣ)) , которые не зависят от объема выборки.
66
Заключение
В первой главе мы проанализировали связь статистики с современной
лексикографией. Отметили ее возрастающую роль в лингвистических
исследованиях. Рассмотрели типы частотных словарей и оценили
преимущества современных частотных словарей на примере крупнейших
корпусных.
Говоря о повседневной речи, мы отметили растущий интерес к ее
изучению. Проанализировали особенности, потенциально влияющие на
состав частотных списков. Также отметили отсутствие четкого определения
для этого лингвистического явления и неоднозначность подходов.
Рассмотрев возможности и преимущества Корпуса ОРД, мы выделили
такие его особенности, определяющие выбор его в качестве материала:
методика 24-часовой записи информантов; сбалансированность Корпуса по
нескольким параметрам; развитая система аннотирования расшифровок
звукозаписей.
Во второй главе мы описали процесс составления Частотника ОРД,
особенности методики и вошедших в него единиц. Также отобрали девять
статистических характеристик, по которым можно описать его динамику.
Произвели расчеты, построение статистических рядов, как эмирических, так
и сглаженных, и соответствующих им графиков. Мы отметили, что все
параметры, кроме индекса разнообразия, имеют тенденцию к росту по мере
увеличения объема выборки. Наибольшую нестабильность проявили
коэффициент разнообразия, ранговое среднее и индекс Хирша. Также мы
выяснили, что повседневная речь отличается эгоцентричностью и несколько
беднее художественной.
Анализ выявил три устойчивых параметра, не зависящих от объемы
выборки: частота самого частотного слова, медиана и золотое сечение. На
67
основании этих параметров может быть проведено сравнение различных
частотных словарей и прогноз дальнейшего изменения словаря.
Проделанная работа в дальнейшем может лечь в основу построения
профилей частотных словарей на порядковых статистиках.
68
Список использованной литературы
Научная литература
1. Алексеев П. М. Статистическая лексикография (типология, составление
и применение частотных словарей) [Текст]: Учеб. пособие. Л.: ЛГПИ,
1975. 120 с.
2. Алексеев П. М. Частотные словари и приемы их составления //
Статистика речи. Л.: Наука, 1968. С. 61-63.
3. Алексеев П. М. Частотные словари: Учебное пособие. СПб.: Изд-во С.Петерб. ун-та, 2001. 156 с.
4. Анализ временных рядов // StatSoft, Inc. (2012). Электронный учебник
по статистике. Мо сква, StatSoft [Электронный ресурс]. URL:
http://www.statsoft.ru/home/textbook/default.htm ( д а т а о б р а щ е н и я :
16.06.2016).
5. Асиновский А. С., Богданова Н. В., Русакова М. В. и др. Звуковой корпус
русского языка повседневного общения «Один речевой день»:
концепция и состояние формирования // Компьютерная лингвистика и
интеллектуальные технологии. Вып. 7 (14): По матер. межд. конф.
«Диалог-2008». М., 2008. С. 488-494.
6. Баева Е. М. О способах социолингвистической балансировки устного
корпуса (на примере «Одного речевого дня») // Вестник Пермского
университета. Российская и зарубежная филология, Вып. 4 (28), 2014.
С. 48-57.
7. Байкулова А . Н . Неофициальное общение и его разновидности:
критерии выделения и реальное функционирование. Саратов: Изд.
центр «Наука», 2012. 196 с.
8. Байкулова А. Н. Устное неофициальное общение и его разновидности:
повседневная речь горожан. Саратов: Изд. центр «Наука», 2014. 216 с.
69
9. Богданова Н. В . Живые фонетические процессы русской речи: Учеб.метод. пособ. по современному русскому литературному языку. СПб.:
Филологический факультет СПбГУ, 2001. 186 с.
10.Богданова Н. В., Степанова С. Б., Шерстинова Т. Ю . Звуковой корпус
русского языка: новый подход к исследованию речи // Корпусная
лингвистика - 2011: Тр. Междунар. конф. СПб., 2011. С. 98-103.
11.Богданова-Бегларян Н. В., Шерстинова Т. Ю., Блинова О. В. и др.
Звуковой корпус русского языка как база для социолингвистических
исследований // Компьютерная лингвистика и интеллектуальные
технологии. Материалы конференции, 2015 [Электронный ресурс]. URL:
http://www.dialog-21.ru/digests/dialog2015/materials/pdf/BogdanovaBeglarianNVetal.pdf (дата доступа: 26.04.2016).
12.Васютинский Н.А. Золотая гармония. М.: Молодая гвардия, 1990. 238 с.
13.Введение // Частотный словарь словоформ русского языка
[Электронный ресурс]. URL: http://www.narusco.ru/STAT004/ (дата
обращения: 11.04.2016).
14.Герчук Я. П. Графики в математико-статистическом анализе. М.:
Статистика, 1972. 78 с.
15.Герчук Я. П. Графические методы в статистике. М.: Статистика, 1968.
212 с.
16.Грешилов А. А., Стакун В. А., Стакун А. А. Математические методы
построения прогнозов. М.: Радио и связь, 1997. 112 с.
17.Гринбаум О.Н. Гармония строфического ритма в эстетико-формальном
измерении (на материале «Онегинской строфы» и русского сонета).
СПб.: Изд-во СПбГУ, 2000.160 с.
18.Ежов А. И. Выравнивание и вычисление рядов распределений. М.:
Госстатиздат, 1961. 336 с.
70
19.Ермолова О. Б. «Один речевой день» говорящего с точки зрения
прагматики // Вестник Пермского университета. Российская и
зарубежная филология, Вып. 3 (27), 2014. С. 21-30.
20.Звуковой корпус как материал для анализа русской речи. Часть 2.
Теоретические и практические аспекты анализа (Том 2. Звуковой
корпус как материал для новых лексикографических проектов).
Коллективная монография / Отв. ред. Н. В. Богданова-Бегларян. СПб.:
Филологический факультет СПбГУ, 2015. 396 с.
21.Земская Е. А., Китайгородская М. В . , Ш и р я е в Е. Н. Р у с с к а я
разговорная речь. Общие вопросы. Словообразование. Синтаксис. М.:
Наука, 1981. 276 с.
22.Зобнина Е. А. Перспективы использования звукового корпуса «один
речевой день» в преподавании русского языка как иностранного [Текст]
/ Е. А. Зобнина // Мир русского слова. 2009, № 4. С. 99-109.
23.Инфантова Г. Г. Очерки по синтаксису современной русской
разговорной речи. Ростов н/Д: Изд-во Рост. гос. пед. ин-та, 1973. 135 с.
24.Козырев В. А., Черняк В. Д. Лексикография русского языка: век
нынешний и век минувший: монография. 2-е изд., испр. и доп. СПб.:
Изд-во РГПУ им. А. И. Герцена, 2015. 631 с.
25.Лингвистический энциклопедический словарь [Электронный ресурс] /
Гл. ред. В. Н. Ярцева. М.: Большая рос. энцикл., 2002. 707, [2] с. URL:
http://tapemark.narod.ru/les/index.html (дата обращения: 11.05.2016 .)
26.Мартыненко Г. Я. Золотое сечение формулы изобретения [Текст]:
[Автоматизация] // Научно-техническая информация. Сер. 2.
Информационные процессы и системы. 2002. N10. С. 22-25.
27.Мартыненко Г. Я. Математика гармонии и статистика [Электронный
р е с у р с ] . URL:
http://www.trinitas.ru/rus/doc/0232/009a/02321149.htm
(дата доступа: 30.05.2016).
71
28.Мартыненко Г. Я. Основы стилеметрии. Л.: Изд-во Ленингр. ун-та,
1988. 176 с.
29.Мартыненко Г. Я . , М а р т и н о в и ч Г. А. Многопарамет риче ский
статистический анализ результатов ассоциативного эксперимента.
СПб.: Изд-во С.-Петербургского ун-та, 2003. 28 с.
30.Мартыненко Г. Я., Фомин С. В. Ранговые моменты // Научнотехническая информация. Сер. 2 1989. № 5. С. 23-29.
31.Н а ц и о н а л ь н ы й к о р п у с р у с с к о г о я з ы к а [ с а й т ] . URL:
http://www.ruscorpora.ru/.
32.Овсиенко Ю. Г. Частотно – семантический словарь русской разговорной
речи
[ Э л е к т р о н н ы й ресурс] . URL:
http://www.euralex.org/elx_proceedings/Euralex1992_1/017_J.%2
33.Панов М. В. О развитии русского языка в советском обществе // Вопр.
языкознания. 1962, № 3.
34.Р а б о т а с п р о г р а м м о й ELAN [ Эл е кт р о н н ы й р е су р с ] . URL:
http://www.mpi.nl/tools/elan/tp/how-to/ELAN_handout_Russian.pdf (дата
доступа: 26.04.2016).
35.Русская авторская лексикография XIX-XX веков. Антология
[Элекстронный ресурс]. URL: http://www.slovari.ru/default.aspx?p=5309
(дата доступа: 5.04.2016).
36.Сиротинина О.Б. Современная разговорная речь и ее особенности. М.:
Знание, 1974. 260 с.
37.Скребнев Ю. М. Введение в коллоквиалистику / под ред.Сиротининой
О. Б. Саратов: Изд-во Сарат.ун-та, 1985. 210 с.
38.Соц и а л ь н о- дем ограф иче ский порт рет Ро ссии: По итогам
Всероссийской переписи населения 2010 года / Федер. служба гос.
статистики. М.: ИИЦ «Статистика России», 2012. 183 с.
39.С п и с о к CItot ≥
1000
[ с а й т ] . URL:
http://www.expertcorps.ru/science/whoiswho/ci86?sortby=h.
72
40.Статистика речи. Сб. / Отв. ред. Р. Г. Пиотровский. Л.: Наука, 1968.
260 с.
41.Статистика: Курс лекций / Харченко Л. П., Долженкова В. Г., Ионин В.
Г. и др.; под ред. канд. экон. наук В. Г. Ионина. Новосибирск: Изд-во
НГАЭиУ; М.: ИНФРА-М, 2000. 310 с.
42.Харченко В. К. Современная повседневная речь. Изд-е 3-е. М.:
Книжный дом «ЛИБРОКОМ», 2012.184 с.
43.Четвериков Н. С. Статистические и стохастические исследования. М.:
Госстатиздат, 1963. 300 с.
44.Шайкевич А. Я. Дифференциальные частотные словари и изучение
языка Достоевского (на примере романа «Идиот» // Слово
Достоевского. Сб. ст. М.: ИРЯ РАН, 1996. С. 195-253.
45.Шерстинова Т. Ю. Коммуникативные макроэпизоды в корпусе
повседневной русской речи «Один речевой день»: принципы
аннотирования и результаты статистической обработки // Корпусная
лингвистика - 2013: Тр. Междунар. конф. СПб., 2013. С. 449-456.
46.Шерстинова Т. Ю. Наиболее употребительные слова повседневной
русской речи (в гендерном аспекте и в зависимости от условий
коммуникации) // Компьютерная лингвистика и интеллектуальные
технологии: По матер. ежегодн. межд. конф. «Диалог» (Москва, 1-4
июня 2016). Вып. 15 (22). М.: Изд-во РГГУ, 2016. С. 616-632.
47.Шерстинова Т. Ю . , С т е п а н о в а С. Б . , Р ы к о А. И. С и с т е м а
аннотирования в звуковом корпусе русского языка «Один речевой день»
/ / М а т - л ы XXXVIII международной конференции. Секция:
«Формальные методы анализа русской речи». Март 2009. СПбГУ: СПб.
С. 66-75.
48.Bogdanova-Beglarian N., Sherstinova T., Martynenko G. The “One Day of
Speech” Corpus: Phonetic and Syntactic Studies of Everyday Spoken
73
Russian, Proc. 18th Int. Conf “Speech and Computer” (SPECOM-2015),
LNAI, vol. 9319, Springer, Switzerland, 2015. pp. 429-437.
49.Burnard L. (ed.). Reference guide for the British National Corpus (XML
edition). Published for the British National Corpus Consortium by Oxford
University
Computing
Services.
U R L:
http://www.natcorp.ox.ac.uk/docs/URG/ (дата обращения 15.06.2016).
50.Campbell N. Speech & Expression; the Value of a Longitudinal Corpus,
LREC-04. Lisbon, 2004. pp. 183-186.
51.Eysenck H. J. An Experimental Study of the Good Gestalt. In: Psychological
Rewiew. 1942. № 49. Pp. 344-364.
52.Hircsh J. E. An index to quantify an individual's scientific research output
[Элекстронный
ресурс] .
URL:
ttp://www.pnas.org/content/102/46/16569.full (дата доступа: 15.06.2016).
Словари и справочники
1. Венецкий И. Г., Венецкая В. И. Основные математико-статистические
понятия и формулы в экономическом анализе. Справочник. 2-е изд.,
перераб. и доп. М.: Статистика, 1979. 447 с.
2. Ефремова Т. Ф. Толковый словарь служебных частей речи русского
языка [Текст] : ок. 15000 слов. статей. Ок. 22000 семантических
единиц / Т. Ф. Ефремова. 2-е изд., испр.. М. : АСТ : Астрель, 2004. 815
с.
74
3. Караулов Ю.Н. Частотный словарь семантических множителей
русского языка. М.: Наука, 1980. 207 с.
4. Корпусной словарь неоднословных лексических единиц (оборотов)
[сайт]. URL: http://ruscorpora.ru/obgrams.html.
5. Кривенко Б. В . Частотный словарь языка массовой коммуникации.
Воронеж : Изд-во Воронеж. ун-та, 1992. 218 с.
6. Леннгрен Л. Частотный словарь современного русского языка
(Lönngren, Lennart. The Frequency Dictionary of Modern Russian). Acta
Univ. Ups., Studia Slavica Upsaliensia Uppsala 32. Uppsala, 1993.
7. Ляшевская О. Н., Шаров С. А . Новый частотный словарь русской
[Электронный ресурс]. URL: http://dict.ruslang.ru/freq.php (дата доступа:
20.05.2016).
8. Мартинович Г.А. Частотный тематический словарь «Городской
общественный транспорт». СПб, Филологический факультет СПбГУ,
2005. 521
9. Рогожникова Р. П. Толковый словарь сочетаний, эквивалентных слову:
Ок. 1500 устойчивых сочетаний рус. яз. / Р. П. Рогожникова. М.: ООО
«Издательство Астрель»: ООО «Издательство АСТ», 2003. 416 с.
10.Словарь русского языка: В 4-х т. / РАН, Ин-т лингвистич. исследований;
Под ред. А. П. Евгеньевой; 4-е изд., стер. М.: Рус. яз.;
Полиграфресурсы, 1999.
75
11.Частотный грамматико-семантический словарь языка художественных
произведений А. П. Ч е х о в а [ Э л е к т р о н н ы й р е с у р с ] . URL:
http://www.philol.msu.ru/~lex/chehov.html (дата доступа: 20.05.2016).
12.Частотный словарь рассказов А. И. Куприна / Автор-сост. А.О.
Гребенников; под ред. Г. Я. Мартыненко. СПб.: Изд-во С.-Петерб. ун-та,
2012. 552 с.
13.Ч а с тот н ы й с л о ва р ь р а с с ка з о в А . П. Ч ехо ва / А вто р - с о с т.
А.О. Гребенников; под ред. Г. Я. Мартыненко. СПб.: Изд-во С.-Петерб.
ун-та, 1999. 172 с.
14.Ч а с тот н ы й с л о ва р ь р а с с ка зо в И . А. Бу н и н а / А вто р - с о с т.
А.О. Гребенников; под ред. Г. Я. Мартыненко. СПб.: Изд-во С.-Петерб.
ун-та, 2012. 296 с.
15.Частотный словарь рассказов Л. Н. Андреева / Автор-сост. А.О.
Гребенников; под ред. Г. Я. Мартыненко. СПб.: Изд-во С.-Петерб. ун-та,
2003. 398 с.
16.Частотный словарь русского языка [Электронный ресурс] / под ред.
Л. Н. З а с о р и н о й . М . : И зд - в о « Р у с с к и й я з ы к » , 1 9 7 7 . URL:
http://project.phil.spbu.ru/lib/data/slovari/zasorina/zasorina.html (дата
доступа: 20.05.2016).
17.Частотный словарь словоформ русского языка [Электронный ресурс].
URL: http://www.narusco.ru/STAT004/ (дата обращения: 11.04.2016).
76
18.Шайкевич А. Я., Андрющенко В. М., Ребецкая Н. А. Статистический
словарь языка русской газеты (1990-е годы). Т. 1. М.: Языки славянской
культуры, 2008. 580 с.
19.Штейнфельдт Э. А. Частотный словарь современного русского
литературного языка: справочник для преподавателей русского языка /
под ред. В. А. Ицковича. М.: Прогресс, 1973. 228 с. [1-е изд. в 1963 г.].
Приложение 1
Частотный список неоднословных единиц
как бы Part
потому что
то есть Conj
в общем
может быть
что ли
476
403
360
157
146
140
вот тАк
а вот
в принципе
ну ладно
на самом деле
на хуй
77
135
123
115
111
101
100
то есть Part
и всё
ну и
да нет
вот так вот
всё равно Adv
98
96
90
82
77
77
тАк вот
всё время
если … то
всё равно Part
так и
как раз
так что
и так далее
а то Conj
мне кажется
хотя бы Part
что за
и вот
ну что
ну вот
в смысле
а что
ну всё
то ли
если бы Conj
один раз
до свидания
ещё раз
да и
ну и что
ну как
в течение
просто так
да ладно
ну как там
ну конечно
первый раз
по вечерам
вот и
до сих пор
если б Conj
слава богу
то же самое
да ну
в основном
скорее всего
если что
и так
к сожалению
как будто
Conj
по поводу
только что
Adv
75
72
72
61
59
56
55
50
47
43
41
41
40
40
38
36
34
34
34
33
33
32
32
30
28
28
25
25
24
24
24
23
22
21
21
21
21
21
20
19
19
18
18
18
18
17
17
тут же
а ещё
в итоге
не так
так сказать
вместе с
как и
по крайней
мере Part
шутка ли
вот и всё
вряд ли
ничего себе
Intj
при этом
так же
тем более
Conj
в общем-то
не то что
ну а
рядом с
сразу же
надо же
при чём здесь
в конце
концов
на месте
по одному
во время
для того
чтобы
до свиданья
между
прочим
не просто
по идее
по сути дела
с другой
стороны
в гости
в порядке Adv
вот именно
вроде как Part
друг друга
каждый раз
как говорится
не только
одну
секундочку
78
17
16
16
16
16
15
15
15
15
14
14
14
14
14
14
13
13
13
13
13
12
12
11
11
11
10
10
10
10
10
10
10
10
9
9
9
9
9
9
9
9
9
а вот и
во всяком
случае Part
да уж
для начала
доброе утро
как сказать
мало ли Part
на всякий
случай
не раз
от природы
так как
что угодно
а если
в конце Pr
в районе
да и всё
и то Conj
к примеру
короче говоря
не больше
Part
от того что
так же как
тем не менее
чем … тем
чуть ли не
в виде
в долг
в плане
в результате
Adv
в чём дело
вроде бы Part
к себе
к чему
как только
мало ли Adv
не больше
Adv
не то
не то чтобы
ни разу
ну что же
пока ещё
ради бога
с
удовольствие
м
8
8
8
8
8
8
8
8
8
8
8
8
7
7
7
7
7
7
7
7
7
7
7
7
7
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
со стороны Pr
судя по
у себя
а то Part
а тут
а что ж
больше всего
в курсе
в первую
очередь
всего лишь
ещё бы
и прочее
и тут
как … так и
как всегда
ну тебя
оттого что
пока не
пока что
после того
как
сам по себе
ух ты
честно говоря
что ль
что
называется
в качестве
в крайнем
случае
в начале Pr
за счёт
как его
как правило
кроме того
что
мало того что
можно
сказать
на фиг
на хер
ни при чём
ни фига
ни хуя
ну что ж
по имени
по крайней
мере Adv
по ночам
6
6
6
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
по очереди
сколько раз
так чтобы
хоть бы
чёрт-те что
что ж
чуть не
а там
будь здоров
в гостях
в дальнейшем
в пределах
в силу
в среднем
в том числе
вок тАк
всё же
да вОт
да ещё
дай бог
если только
ещё и
и то Part
к тому же
как бы Conj
как есть
как обычно
как положено
каким
образом
как-то раз
на виду
на грани
на мой взгляд
на ночь
на прощанье
на ходу
на хуя
начиная с
не до
не за что
не так уж
ни в коем
случае
ни фига себе
ну а если
ну так
один и тот же
одно и то же
79
4
4
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
под ногами
прежде всего
прежде чем
с детства
с помощью
сам
понимаешь
само собой
своим ходом
так же как и
так
называемый
тем более Part
только бы
Part
что вы
что же
а вон
а как же
а ну-ка
более чем
в
зависимости
от
в количестве
в любом
случае
в одиночку
в результате
Pr
в самом деле
в самый раз
в связи с
в связи с тем
что
в середине Pr
в сторону Adv
в том числе и
в честь
во всяком
случае Adv
вот это да
всего
хорошего
всякого рода
где угодно
дело не в
до конца
до тех пор
пока
3
3
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
если б … то
если бы … то
если не
за бесплатно
за границей
за границу
здравия
желаю
из-за того что
исходя из
как будто бы
Conj
как можно
кстати говоря
ладно бы
меньше всего
на глаз
на днях
на память
на самом деле
на свете
на хрен
насчёт того
что
не без
не более Part
не дай бог
не считая
не то чтобы
… но
не только …
но и
ни в какую
ни с того ни с
сего
ничего
подобного
но и
одним словом
ох ты
перед тем как
по блату
по
отдельности
по порядку
по сути
при чём тут
с радостью
с трудом
со временем
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
80
стало быть
судя по всему
так и быть
так и так
тем более что
тоже мне
тому назад
фу ты
хоть и
чаще всего
честное слово
что касается
а всё-таки
а именно
а ну
а также
благо что
более того
Adv
бог знает что
бога ради
более или
менее
будто бы Conj
в будущем
в долгу
в клеточку
в надежде
в надежде на
то что
в ногу
в обход Adv
в один
прекрасный
день
в один
присест
в
особенности
Part
в порядке Pr
в процессе
в результате
в своё время
в силах
в случае
в случае чего
в состоянии
в счёт
в то же время
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
в том числе
Conj
в упор
в целом
видишь ли
вместо того
чтобы
во главе Adv
во как Adv
вон как
вон какая
вот что
вплоть до
того что
всё ещё
всё ж
где бы ни
грубо говоря
да вон
да ещё и
да мало ли
дело в том
что
для того чтоб
до
свиданьячки
дО смерти
до того как
до хера
до хуя
ёшкин кот
за один
присест
за счёт того
что
затем чтобы
знаешь ли
и правда
к лицу
казалось бы
как будто б
Part
как же
как минимум
как нарочно
как ни
как таковой
как хочешь
каким-то
образом
81
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
конечно же
куда угодно
лишь бы
мало кто
между тем
менее всего
мне казалось
на вид
на время
на выбор
на здоровье
на основании
на основе
на почве
на равных
на радостях
на слух
на удивление
на фига
навряд ли
надо ж
надо сказать
насчёт того
не в
состоянии
не говоря о
не грех
не правда ли
не скажи
не скажите
не смотря на
то что
не спеша
не так уж и
не то что …
но
не то чтоб
не то чтоб …
но
не то чтобы
…а
не только …
но
независимо
от того
несмотря на
то что
нет чтоб
нечто вроде
ни к чему
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
ни хера
ни хуя себе
ничего себе
Adv
ну вот и всё
ну и всё
ну и как
ну и ну
ну и чего
ну и что ж
ну как же
ну что ты
одну
минуточку
от начала до
конца
ох как
ох уж этот
первым делом
по виду
по дешёвке
по мере того
как
по
отношению к
по памяти
по поводу
того что
по полной
по причине
по пути Adv
по слогам
по сравнению
с
по старой
памяти
по существу
под утро
понимаешь
ли
после чего
постольку
поскольку
при себе
при случае
при том что
про себя
ради того
чтоб
раз и навсегда
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
82
рано или
поздно
с
благодарност
ью
с интересом
с лишним
с небольшим
с
нетерпением
с тем чтобы
с тех пор
с точки
зрение
с целью
сколько
угодно
скорей всего
со вкусом
со стороны
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Adv
собственно
говоря
спокойной
ночи
так ведь
так и есть
так нет
так себе
так уж и
таким
образом
то бишь
только что
Part
хотя б Part
хотя и
честно
сказать
что ты
83
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Приложение 2
Верхушка Частотника ОРД
Ранг
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Лемма
я
не
вот
да Part
ну Part
и Conj
а Conj
быть
в
это Spro
ты
у Pr
он
на Pr
там Advpro
мы
она
с
они
этот
такой
что Conj
вы
что Spro
нет Part
знать V
говорить
угу
всё Spro
так Part
там Part
сейчас
э-э
это Part
но Conj
Частота
7975
4863
4344
4259
4256
3343
3275
2991
2968
2879
2763
2724
2484
2271
2096
1930
1825
1599
1586
1546
1533
1482
1408
1370
1321
1313
1284
1275
1153
1115
1079
1036
975
905
871
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57-58
57-58
59
60
61
62
63
64
65
66
67
68-69
68-69
70
71
72
73
74
75-77
75-77
75-77
78
надо Adv
ещё Adv
так Advpro
уже Adv
просто Part
же Part
вообще
как Advpro
по
-то
тоже Adv
сказать
а Intj
какой
весь Apro
здесь
мочь V
два
потом
хотеть
когда
если
как бы Part
к
очень
значит Adv
как Conj
тут Advpro
э Intj
блядь Intj
ой
давай
или Conj
пойти
делать
потому что
кто
где
который
бы
за Pr
можно
что-то Spro
867
835
817
799
766
762
704
689
677
662
594
589
565
563
546
532
523
520
514
501
480
476
476
470
465
463
459
454
433
432
417
410
409
409
408
403
401
400
399
394
394
394
378
79
80-81
80-81
82
83
84
85-86
85-86
87-88
87-88
89-90
89-90
91
92
93
94
95
96
97-98
97-98
99
100
самый
ага Part
какой-то
смотреть
то есть Conj
человек
думать
мой
понимать
то Spro
год
идти
сделать
работать
видеть
только Part
один Anum
чтоб Conj
три
чтобы Conj
дать
даже Part
368
367
367
363
360
359
352
352
351
351
342
342
337
335
317
315
302
301
297
297
286
285
Отзывы:
Авторизуйтесь, чтобы оставить отзыв