«Война и мир» в графах

0   64   0

Литература. Литературоведение. Устное народное творчество
20 сент. 13:00


5ba38f057966e104e812ccc1

Как и зачем методы точных наук внедряются в литературоведение.

Мечта о точных методах в гуманитарных науках появилась за много лет до первых компьютеров. Еще в XIX веке ученые пытались математически определять авторство текстов, высчитывать вероятности исторических событий. Сегодня миллионы текстов доступны в цифровой форме, и у исследователей появилась возможность внедрять методы точных наук в филологические исследования. Чем отличаются социальные сети комедий и трагедий? Как эволюционировала русская драма и что такое «зоны смерти» в произведениях Шекспира? Рассказывает Даниил Скоринкин, исследователь в Центре цифровых гуманитарных исследований НИУ ВШЭ.

Даниил СКОРИНКИН, исследователь в Центре цифровых гуманитарных исследований НИУ ВШЭ, главный редактор сообщества «Системный Блокъ»:

— Мы находимся в Центре цифровых гуманитарных исследований НИУ ВШЭ. То, чем мы здесь занимаемся, называется Digital Humanities. На русский это можно перевести как «цифровые гуманитарные исследования». Это такое довольно хайповое направление у западных гуманитариев. Под это выделяются гранты, пишутся отчеты, проводятся конференции. Но на самом деле считать в филологии придумали довольно давно.

Еще в начале ХХ века именно русские ученые оказались в авангарде движения за то, чтобы сделать филологию точной, формализуемой, научной. Тогда как раз появился «русский формализм», который известен именно своим научным пафосом и желанием как-то онаучить филологию. И тогда же работал, например, такой исследователь по имени Борис Исаакович Ярхо, который в докомпьютерную эпоху занимался, по сути, компьютерными исследованиями. Т. е. он брал карандаш и проводил настоящие статистические анализы сотен текстов с помощью подручных средств — ручки и бумажки.

Сегодня все эти вещи невероятно актуальны. На конференциях по Digital Humanities постоянно вспоминают русских формалистов, а также Ярхо и Юрия Михайловича Лотмана, который жил уже позже, но является в некотором роде наследником всего формализма. Лотман в 1967 году написал статью, которая называется «Литературоведение должно быть наукой». В этом манифесте он пишет, что литературовед нового типа, по его мнению, должен сочетать в себе филолога, математика и лингвиста.

Вот мы сейчас с вами находимся в Центре цифровых гуманитарных исследований, который создан на базе Школы лингвистики в ВШЭ, в первую очередь, компьютерными лингвистами. Это отчасти исполнение полувековой давности завещания Лотмана: соединение филологии, лингвистики и математики. В первую очередь мы внедряем точные методы в литературоведение и смежные с ним науки. Мы смотрим на методы, разработанные социологами, антропологами, аналитиками данных, сделанные программистами, математиками. Немного перепрограммировав их и поменяв что-то, мы применяем их к неким гуманитарным объектам исследований.

Одно из наших любимых направлений исследования — это сетевой анализ художественной литературы. Что это такое? Это когда мы берем какое-нибудь художественное произведение, например роман «Война и мир» Л.Н. Толстого, и превращаем его в социальную сеть персонажей (условно говоря, кто с кем разговаривает). Перед вами разворачивается такая социальная сеть, на ней изображено 566 персонажей «Войны и мира» — это на самом деле все, кто в хоть какой-то момент хоть с кем-то как-то разговаривает. Математики называют такую структуру «графом». Например, у каждого из нас есть свой социальный граф в соцсетях. Социологи начали исследовать отношения между людьми в таком виде еще в 1930-е годы, и только недавно к ним присоединились литературоведы. Они поняли, что такими же точно методами можно исследовать и взаимоотношения персонажей в художественном тексте. И сразу же выяснилось довольно много интересного.

Например, оказалось, что социальные сети произведений Уильяма Шекспира очень похожи на реальные, которые наблюдаются в каких-нибудь племенах в Африке. Кроме того, некоторые исследователи находят у Шекспира настоящие «зоны смерти». Оказывается, что в «Гамлете» умирают в первую очередь те, кто связан с самим Гамлетом, а также с его злодеем-дядей — королем Клавдием. Еще выяснилось, что сети супергероев отражают, например, маркетинговую стратегию компании Marvel, которой выгодно вывести нового супергероя на популярность, связав его с предыдущим (уже популярным) супергероем. Наконец, третий вывод, который сделали исследователи и который был бы, скорее всего, невозможен без сетевого анализа, это тот факт, что социальные сети комедий (взаимодействия в них и общение между людьми) гораздо плотнее, нежели социальные сети трагедий. Что, наверное, логично, потому что комическое требует какого-то словесного выражения. Там все собираются либо на свадьбу, либо на еще какие-то торжества, в крайнем случае — на «немую сцену», а в трагедиях люди страдают, умирают и погибают молча. Для этого не нужно какого-то общения, поэтому кажется, что это довольно резонный вывод.

Чем хороши графы? Это формальный математический объект, и в нем можно измерять разные вещи. Например, у персонажей есть центральность. Можно посчитать, кто с кем и сколько общается, какие группы общения у них образуются, кто, условно говоря, лидер мнений, через кого вообще идут контакты. Математическая теория графов все это измеряет с помощью оценки центральности. Вот, например, если мы возьмем сеть «Войны и мира» и измерим там центральности, то по всем основным параметрам набор главных персонажей будет совпадать с тем, кого мы действительно считаем главными персонажами. Вот если мы посмотрим на эту сеть, мы увидим, что самые большие здесь — Пьер Безухов, Андрей Болконский, Николай Ростов, Наташа Ростова и Марья Болконская. Это как раз визуализация этих центральностей в графе. Этот набор персонажей, в общем-то, является стандартным набором протагонистов «Войны и мира». Конечно, тот, кто помнит роман, может сказать, что это какой-то банальный вывод. Но на самом деле не все так однозначно. Еще до того, как компьютеры пришли в филологию, литературоведы прошлого писали, что сегодня мы просто привыкли к каноничной трактовке. А на самом деле для читателей первых выпусков «Войны и мира», когда Лев Толстой еще только писал, а они получали журналы, все было далеко не так прозрачно и очевидно. Известно, что некоторые первые читатели вообще не догадывались, кто в итоге окажется главным героем, и прочили на их роли людей совершенно эпизодических — например, Долохова или Анатоля Курагина. На этом фоне особенно ценным выглядит то, что сетевой анализ определяет главных героев безошибочно, причем не только в этом романе, но и во множестве других произведений — пьес, романов и повестей, которые анализировали мы или наши коллеги. Центральности почти всегда совпадают с тем, как мы сами ощущаем важность персонажей.

А еще у этой сети персонажей можно исследовать ее внутреннюю структуру. Например, семья Ростовых (важнейшее, возможно, семейное объединение во всем романе) стабильно выделяется с помощью стандартных алгоритмов выделения сообществ и образует такой плотный клубок на графе. Вот показано это объединение на графе целиком. А если мы исследуем по частям, то оно тоже все время просматривается — мы все время видим Ростовых, как они группируются вместе со всеми, кто связан с ними, вместе с их московским и отраднинским кругом. Они все вместе образуют всегда некое сообщество, которое формально выделимо. Т. е. мы можем взять роман и попытаться проанализировать его внутреннюю структуру с помощью сугубо формальных методов, формальными алгоритмами выделить в нем сообщества. И окажется, что эти сообщества вполне осмысленны. Естественно, про роман «Война и мир» мы понимаем, какие там будут сообщества. Но дальше мы можем масштабировать эти методы. Т. е. чем хороши формальные методы, что нового они нам дают? Они дают нам возможность брать их, тестировать на компьютере, на готовом и знакомом материале, и потом переносить на незнакомый.

Сейчас мы начали новый проект, в котором анализируем сразу сотни текстов. Это тексты русских драматических произведений за последние двести с лишним лет. От Ломоносова и Фонвизина примерно до Маяковского и Булгакова. Почему это интересно? Потому что это дает некий диахронический срез. Мы можем посмотреть на то, как эволюционировала русская драма, причем с точки зрения структуры. Оказывается, что эта эволюция довольно интересная. Мы можем увидеть, как сначала все авторы пишут в классицистской доктрине — и это видно в сетях и в их формальных параметрах. Мы видим, что каждая сеть представляет собой маленький шарик с одним (единым) плотным ядром. В нем не выделяются какие-то сообщества. В нем есть некий центр и некая периферия. Это связано с тем, что люди просто писали по классицистской доктрине, которая предполагает, как мы все помним со школы, единство места, времени и действия. Потом появляется, например, Пушкин с пьесой «Борис Годунов». Вы видите, что здесь уже хорошо даже чисто визуально видны как минимум два сообщества. И действительно, они отражают Польшу и Москву — то, что немыслимо было для классицистской драмы, когда у нас все должно было происходить в одном месте.

Сейчас в нашем корпусе уже больше сотни пьес, превращенных в социальные сети. И хотя корпус по-прежнему продолжает пополняться, некоторые открытия на нем уже сделаны. Например, мы выяснили, что русская драма повторяет общемировую тенденцию, и в ней комедии тоже плотнее, чем трагедии. Во-вторых, оказалось, что с помощью тех же методов, которые, например, социологи или спецслужбы используют для поиска лидеров, мнений или тех людей, через которых проходит информация, нам удалось выявить некоторый класс персонажей, который представляет определенный интерес для филолога. Это такие персонажи-посредники, посланники, иногда даже «серые кардиналы» (эдакие шпионы).

Первым персонажем, который нас вообще вывел на такую тему, был Гаврила Пушкин. Вот он в пьесе своего однофамильца, Александра Сергеевича Пушкина, «Борис Годунов». Если вы прочитаете «Бориса Годунова», то вы явно не отнесете этого персонажа к числу главных героев. По самым основным метрикам центральности, по числу связей с другими персонажами он явно проигрывает главным героям — Борису Годунову, Лжедмитрию и некоторым другим. Но есть такая специальная метрика в графе, которая называется between the centrality. На русский ее иногда переводят как «нагрузку», иногда — как «центральность по посредничеству», иногда — как «центральность по промежуточности». И вот по ней Гаврила Пушкин — настоящий чемпион! Вообще, такое бывает нечасто. Обычно персонаж бывает центральным сразу по всем метрикам. Например, в «Войне и мире» это зачастую происходит именно так. Но здесь оказалось, что есть некоторое несовпадение разных параметров в структуре сети, и мы к нему присмотрелись. После чего, когда перечитываешь «Бориса Годунова», уже имея это в виду, оказывается, что Гаврила Пушкин действительно персонаж особенный. Именно он стыкует эти разные сообщества в графе. Он ездит из Польши в Москву на своего рода дипломатические миссии. Он пытается договориться с Борисом Годуновым, связать его с Лжедмитрием. Когда договоренности не проходят и начинается настоящая война, он оказывается тем самым персонажем, который решает ее исход косвенно. Потому что именно он едет снова в Москву и уговаривает лучшего воеводу Бориса Годунова (Басманова) переметнуться на сторону Лжедмитрия — еще в тот момент, когда на самом деле ничего не понятно. И что интересно, в самом конце именно Гаврила Пушкин оказывается тем персонажем, которого посылают к народу для того, чтобы зачитывать царский указ. А народ здесь образует как бы такой третий кластер внутри Москвы. Речь идет об указах нового царя, Лжедмитрия I, который победил в этой войне. Таким образом, Гаврила Пушкин действительно оказывается связующим звеном в данной пьесе. Но кажется, никто об этом не думал до того, как это произведение проанализировали с помощью сетевого анализа.

Почему это кажется нам важным? Мы думаем, что здесь с помощью сетевого анализа мы вскрыли авторскую стратегию. Нам кажется, что Пушкин неслучайно поместил здесь своего однофамильца — в стратегически важное место на сети персонажей. Ведь в его творчестве действительно постоянно просматривается идея о том, что старинный род Пушкиных приложил руку к русской истории. Например, если вы помните хрестоматийное стихотворение «Моя родословная», которое входит в общешкольную программу, там ровно этот мотив и проговаривается. Поэтому можно предположить, что Пушкин не случайно, а именно осознанно вставил Гаврилу Пушкина, своего однофамильца и предполагаемого предка, «серым кардиналом» и скрытым посредником.

Что важно, все эти находки сделаны с помощью формальных точных воспроизводимых методов. Поэтому мы можем применять данные методы для поиска новых похожих персонажей в других пьесах, даже если мы их, например, не читали. И вот некоторые первые находки у нас тоже есть. Например, очень похожий персонаж, у которого не так много связей, однако через него проходит очень много информации, это Михайло Битяговский из пьесы Алексея Константиновича Толстого «Смерть Иоанна Грозного». И если вы прочитаете эту пьесу, то узнаете, что Битяговский действительно выступал в роли двойного агента. Он служит сначала противникам Годунова, а потом Годунов запугивает его и заставляет стать двойным агентом и работать уже на него. Таким образом, с помощью сетевого анализа можно находить таких вот неочевидных, второплановых, но довольно важных для структуры сюжета персонажей и как бы «выводить их на чистую воду». Кажется, что до нас, до прихода сетевого анализа в сетевую филологию, этого никто не делал.

Кроме сетевого анализа, у нас есть и другие проекты. Узнать о них можно на сайте Центра цифровых гуманитарных исследований Вышки. А популяризацией таких исследований мы занимаемся в паблике «Системный Блокъ».


Автор: Редакция «Чердака»

Источник: chrdk.ru


0



Для лиц старше 18 лет