Зачем компьютеры читают книги и что они там находят

0   6   0

Информатика
5 июня 09:00


593496335f1be72e1d5b6203

Чтение — до сих пор один из главных способов получать информацию. Увы, наши возможности ограничены: даже самый рьяный читатель справится максимум с несколькими тысячами страниц в месяц и вряд ли осилит, например, все научные статьи о ВИЧ даже за целую жизнь. С компьютером — по-другому: архивы лондонского суда, полное собрание средневековых датских сказок, все тексты главных европейских СМИ за 10 лет — машина проанализирует эти огромные корпусы текстов за несколько дней. Что из этого получается — в нашем материале.

Пять миллионов книг, 500 миллиардов слов и триллионы букв. Шесть лет назад американские ученые взяли около трети всех изданий, оцифрованных проектом GoogleBooks, и посмотрели, что интересного можно найти в этом огромном массиве текста. Конечно, вручную справиться с этой задачей было бы нереально: по словам исследователей, их выборка — это почти 4% от всех книг в истории человечества, а чтение одних только англоязычных изданий, вышедших в XXI веке и попавших в эту библиотеку, заняло бы около 80 лет жизни. Без перерывов на обед, сон и осмысление прочитанного.

Поэтому исследователи заставили читать компьютер. Они запустили поиск всех слов и устойчивых словосочетаний (вроде «розничная торговля» или «Соединенные Штаты Америки»), встречающихся в этих текстах, и так поняли, о чем писали в книгах с начала XIX века (выборка начиналась с 1800 года) и до выхода их исследования, то есть 2011 года.

Выяснилось, что в этой глобальной, поистине циклопического размаха картине с общим планом мировой литературы и публицистики можно найти немало интересных сюжетов. Конечно, многие из них — просто забавные подтверждения общих истин: так, начиная с середины XIX века резко пошла на убыль популярность слова «Бог». Тогда оно встречалось в среднем один раз на тысячу слов, а теперь в три-четыре раза реже (для справки: слово «эволюция» пока все-таки далеко позади и встречается только один раз на 25 тысяч слов).

Некоторые другие сюжеты сложней. К примеру, выяснилось, что с каждым годом мы все быстрее забываем о прошлом. Численный показатель этого процесса — «период полураспада года», время, за которое дата года (1900-й, 1941-й, 2017-й и т.д.) начинает упоминаться в книгах в два раза реже, чем на пике своей популярности. Так, за 31 год частота использования даты «1880-й» упала в два раза по сравнению с уровнем собственно 1880 года, а частота использования «1973-й» сократились вдвое уже к 1983 году — еще одно подтверждение, что жизнь стала быстрей.

Городская библиотека Стокгольма. Фото: dilettantiquity / Flickr

Такой массовый анализ текстов — неплохой способ ввести четкие формулы туда, где раньше их не предполагалось, — в исследования человеческого общества и культуры. Чтение каждой книги становится отдельным экспериментом по изучению давно прошедших явлений, а распределение слов в книгах — результатом этого эксперимента. Достоверности этим исследованиям добавляет огромное количество данных, и в результате ученые на основе текстов могут делать косвенные выводы о самой реальности, породившей эти тексты.

Хороший пример — часть все той же статьи американцев, посвященная цензуре в нацистской Германии. Для начала исследователи проследили за упоминаниями в немецкоязычной литературе известного художника еврейского происхождения Марка Шагала. До 1936 года все было стандартно: сначала Шагал никому неизвестен и в книгах не появляется, потом идет рост популярности, но с приходом к власти нацистов в начале 30-х годов все неожиданно обрывается. Популярность резко идет на спад и обращается забвением: во всем просканированном корпусе немецкоязычных книг в период с 1936-го по 1944-й словосочетание «Марк Шагал» упоминается лишь единожды, хотя в англоязычных текстах того времени художник стал даже популярнее, чем до этого.

Впечатленные этим примером, ученые предложили простую метрику зацензурированности того или иного человека в нацистской Германии: берем среднюю частоту упоминания персоны в немецкоязычных книгах за период с 1933-го до 1945 года и делим ее на среднее арифметическое частот упоминания в 1925—1933 гг. и 1955—1965 гг. (вскоре после поражения нацистского режима Марк Шагал вернулся на свои прежние позиции популярности). «Рекордсменом» в этой метрике стал протестантский священник Герман Маас — он помог спастись из Германии сотням евреев. Его имя в нацистский период упоминали в 100 раз реже, чем это можно было бы ожидать. Иногда молчание говорит больше любых слов.

Невероятные твари и где они обитают

Американцы в своей статье взяли совсем общий план книжного ландшафта и показали только самые грубые возможности анализа больших наборов текстов. Другие исследователи после них часто работали с более мелкими задачами. И хоть их компьютеры, конечно, не могли сопереживать героям, как живые люди, но все-таки умели кое-что еще, кроме построения частотных статистик слов.

Например, фольклористы Тимоти Тангерлини (Timothy Tangherlini) и Питер Бродвелл (Peter Broadwell) из Университета Калифорнии оцифровали 30 тысяч датских сказок и построили интерактивную карту, на которую компьютер нанес места обитания персонажей: от священников, разбойников и прокаженных до эльфов и ведьм. Оказалось, что нечисть в этих сказках обычно живет где-то неподалеку от католических монастырей, что, по мнению исследователей, хорошо передает настроения протестантской Дании после Реформации XVI века. Впрочем, конкретной, формализуемой в цифрах гипотезы авторы исследования так и не выдвинули.

Изображение: Tom Lee / Flickr

Другое дело — исследование лингвистов из Колумбийского университета, решивших проверить гипотезу итальянского литературоведа Франко Моретти об «урбанизации литературных сюжетов». Согласно ей, в книгах, действие которых происходит в городах, с одной стороны — больше персонажей, а с другой — меньше диалогов, чем в книгах «деревенских».

Американские ученые взяли выборку из 60 романов XIX века за авторством Диккенса, Элиота, Джейн Остин и других писателей и с помощью компьютерных алгоритмов проанализировали синтаксис каждого предложения в этих источниках, чтобы найти в них диалоги. Гипотеза Моретти полностью провалилась: в данных не было обратной корреляции между числом персонажей и количеством диалогов. Вместо этого там была другая зависимость: отношение числа действующих лиц к количеству диалогов между ними достоверно менялось в зависимости от того, идет ли повествование от первого лица или от третьего.

Культурные скрепы

Совсем не обязательно анализировать исключительно книги. В исследовании 2010 года ученые из Италии и Великобритании взялись за СМИ. Они выбрали по 8−10 ведущих новостных изданий из 27 стран Европы и проанализировали их контент с 1 августа 2009 года по 31 января 2010 года — всего получилось почти полтора миллиона новостей.

Алгоритм определял новостную повестку каждого материала, а потом составлял портрет СМИ на основе набора тем, о которых они писали. Далее анализировалась близость изданий между собой: если два издания писали про одно и то же чаще, чем это ожидалось бы при случайном выборе тем, то такие издания признавались связанными между собой. В результате изначальная выборка разбилась на 147 изданий, объединенных в 31 не связанную между собой группу, а все остальные СМИ в рамках подхода исследователей оказались уникальными.

Потом ученые сфокусировались уже не на отдельных СМИ, а на целых странах, представленных усредненной картиной их ведущих изданий. Здесь исследователи снова стали искать сходства в новостных повестках и в конце концов построили карту связей между национальными СМИ Европы. В центре сетки расположились четыре страны Евросоюза: Франция, Германия, Австрия и Ирландия — их СМИ выбирали темы, перекликавшиеся почти со всеми остальными странами.

Структура связей между СМИ Европы. Если страны на изображении соединены отрезком, это означает, что новостная повестка их ведущих СМИ совпадает. Изображение: Ilias Flaounas et al., 2010

По результатам ученых, сила связей в этой схеме (то есть схожесть в новостных повестках национальных СМИ) хорошо коррелирует сразу с тремя факторами:

  • экономическим: чем больше объем торговли между странами, тем чаще их медиа публикуют новости об одном и том же;
  • культурным: чем чаще страны голосуют друг за друга на «Евровидении», тем больше похожи их СМИ;
  • географическим: чем больше протяженность границ двух стран, тем ближе тематики национальных СМИ.

Эволюция правового климата

Часто анализ больших объемов текста похож на исследования климата. Климатологи пытаются восстановить картину мировой погоды по записям с нескольких метеостанций, а те, кто изучает текст, восстанавливают картину исторических и культурных явлений.

Судебное заседание Лондонского уголовного суда. Иллюстрация из книги The Microcosm of London: or, London in Miniature

Метеостанцией ученых, исследовавших эволюцию британского правосудия, стал центральный уголовный суд Лондона Олд-Бейли. В их распоряжении оказались архивы со всеми материалами суда с 1760-го по 1913 год — всего около миллиона судебных записей адвокатов, прокуроров и судей.

На этом корпусе текстов с помощью компьютерных алгоритмов исследователи отследили, как менялось отношение людей к насилию: если в типичном приговоре XVIII века человека осуждали за кражу и только между делом, в качестве дополнительного фактора, упоминали нанесение жертве ножевых ранений, то к XX веку все перевернулось. Теперь, если преступник избивал или тем более ранил жертву, а потом ее обкрадывал, главным в приговоре становился именно факт физического насилия.

Анализ показал, что переход между сценариями произошел не резко, как если бы он был обусловлен новой редакций законов, а постепенно. С каждым годом общество все дальше отходило от средневековой культуры, в которой ценность частной собственности иногда была даже выше ценности жизни и здоровья человека. И зафиксировать эти изменения лучше самых талантливых историков получилось именно у компьютера, превратившего чтение текстовых источников в точные измерения.


Автор: Михаил Петров

Источник: chrdk.ru


0



Для лиц старше 18 лет