Поймется все. Что данные сервисов «Яндекса» могут рассказать о мире?

Массовая коммуникация. Журналистика. Средства массовой информации
24 окт. 11:00

Каждый день мы оставляем за собой цифровые следы: заказываем такси, проверяем погоду, ищем книги, фильмы и даже толкования снов. Наталия Крупенина, руководитель отдела внешних исследований «Яндекса», рассказала, как и зачем делать красивые истории из этих разрозненных данных.

— Толкования снов, погодные приметы, карта мультфильмов. Зачем все это «Яндексу»?

— Во-первых, у «Яндекса» есть столько интересных данных, которые многое

говорят об окружающем мире, что не делиться ими просто нельзя.

Во-вторых, нам важно, чтобы в медиаполе присутствовала аналитика,

в качестве которой мы уверены, — корректная, использующая большие

массивы данных, описывающая реальные зависимости. Ну а в-третьих, это

еще один способ показать людям, что вообще можно искать и находить

в интернете.

— И вы не получаете никаких денег с этой аналитики?

— Нет, исследования «Яндекса» — некоммерческие, у нас нет цели

зарабатывать на этом проекте. Если бы мы делали коммерческий продукт,

что вполне возможно для подобных исследований, он бы выглядел несколько

по-другому. Больше цифр и графиков, меньше красивых картинок. Например,

в 2014 году на данных «Яндекс.Новости» мы сделали карту российских СМИ

по близости их аудиторий. Среди прочего выяснилось, что у деловых

изданий больше общей аудитории с городскими, а у сайтов крупных

телеканалов и информагентств — с популярными федеральными газетами.

Эта информация была очень интересна и издателям, и журналистам, и рекламным агентствам. Они понимали, что это не просто замеры или опросы, а прямой сигнал — неосознанный и поэтому более качественный и достоверный.

Некоторые издания тогда говорили, что хотят поменять стратегию, чтобы

стать ближе, например, к «Коммерсанту» и «Ведомостям» и уйти из ниши

общественных изданий. Хотя мы показывали только общую картину, без

подробностей для каждого конкретного издания. Многие до сих пор приходят

с вопросами, хотя все уже давно поменялось. Мы не просили деньги за это

исследование, не делали из этого никакого бизнеса и не планируем тут

ничего менять.

— А могут журналисты обращаться к «Яндексу» за помощью для своего материала?

— Да, если журналист пишет какую-нибудь историю и просит цифры для нее,

основанные на данных наших сервисов. С помощью данных мы можем доказать

какой-нибудь факт и гарантировать это доказательство своим именем.

Например, был период, когда зашкаливали вопросы про пробки: как

поменялся автомобильный трафик после постройки какого-нибудь моста или

ввода в строй новой развязки. «Яндекс.Пробки» — самый популярный

геосервис в Москве, у него накоплено огромное количество данных, так что

мы можем ответить на подобные запросы достоверно. Но мы никогда не даем

цифры, если не уверены в их достоверности или в том, что они отражают

реальность.

Изображение предоставлено пресс-службой «Яндекса»

Источники и методы

В 2013 году американские исследователи показали, что Twitter хорошо подходит для измерения уровня счастья

людей. Они собрали базу твитов на 80 миллионов слов и проанализировали

эмоциональную окраску каждого сообщения по шкале от 1 (очень грустно,

в твите много слов вроде «землетрясение», «депрессия» или «смерть») до 9

(счастливый твит: много «радуг», «любви» и «пляжей»). В результате

оказалось, что самый счастливый штат США — это Гавайи, а средний уровень

счастья в твитах того или иного города хорошо коррелирует с разными

социологическими показателями: например, чем больше единиц оружия

зарегистрировано на душу населения, тем более печальными в среднем будут

посты.

— С какими данными вы работаете?

— Основной источник — это данные наших сервисов. В первую очередь,

обезличенные поисковые логи, в которых записываются поисковые запросы

к «Яндексу» и все сопутствующие данные. Для каждого запроса делается

огромная запись. Кроме собственно текста запроса она содержит регион,

откуда он был задан, время, тип устройства, разнообразную техническую

информацию и так далее. На первый взгляд, поисковый лог может показаться

бессмысленным набором символов, но аналитики, которые умеют с ним

работать, могут вытащить оттуда все, что нужно. Кроме запросов мы часто

используем данные геотрэкинга — время, координаты, маршруты, данные

«Яндекс.Маркет» о товарах, архив «Яндекс.Погода».

В общем, данных хватает: в «Яндексе» все сервисы увешаны приборами, счетчиками и метриками, без которых компания просто не смогла бы развиваться.

— А как работать с поисковыми логами? Что оттуда можно вытащить?

— Самый простой способ — маркеры. Можно собрать слова или

словосочетания, которые характеризуют ту или иную тему, и посмотреть

на статистику запросов с этими словами. Так мы делали в исследовании про сны,

где смотрели, толкования каких сновидений россияне чаще ищут

в интернете. Сны — очень четкая тема, которая предполагает ограниченный

набор маркеров, так что мы смотрели запросы со словами «сонник»

и «к чему снится» (или «к чему сниться» и другие варианты написания

с ошибками). Когда тема более общая, нужен уже другой подход. К примеру,

если речь идет о туризме.

Есть «туристические» слова — «гостиницы», «путевки», «билеты», хотя

с «билетами» уже возникнут проблемы: нужно будет исключить запросы,

связанные с театрами или экзаменами. Но очень много туристических

запросов содержат просто названия курортов или гостиниц. Так что

в результате список маркеров будет либо неполный, либо очень большой,

из нескольких тысяч записей. Через поиск каждый день проходит около 280

миллионов запросов, так что проверять тысячи маркеров невозможно.

Мы использовали другой способ — взяли самые популярные и авторитетные

ресурсы о туризме и выбрали те поисковые запросы, по которым на первой

странице результатов поиска были ссылки на эти ресурсы.

— Насколько достоверны ваши исследования?

— Мы стараемся делать только те выводы, в которых уверены. Понятно, что

мы работаем только с данными пользователей интернета. Но для того, чтобы

показать общую картину или какую-то общую зависимость, проникновение

интернета в России уже вполне достаточное. При этом мы, конечно, меньше

знаем про небольшие города и сельскую местность — там меньше пользуются

интернетом.

Мы очень внимательно относимся к методологиям исследований, все

проверяем и в публичных материалах аккуратно описываем, как что

посчитано. Некоторые наши работы остаются неопубликованными, потому что

мы не хотим показывать недостоверные цифры. Так что у нас есть некоторая

борьба между интересами журналистики и требованиями аналитиков.

— Кто работает в отделе исследований?

— У нас пять аналитиков и два дизайнера-иллюстратора. Образование у всех

разное: я лингвист, кто-то закончил философский факультет, кто-то —

международную журналистику в МГИМО. Нам всегда очень сложно найти людей.

Во-первых, они должны уметь работать с данными и понимать, что при этом

необходимо придерживаться строгих правил, а во-вторых, у них должна

быть и гуманитарная составляющая. За данными нужно еще разглядеть

историю. Поэтому к нам, как правило, приходят люди с экзотическим

жизненным опытом.

От мультиварок до мельдония

Маркетологи «Яндекса» любят рассказывать одну историю.

По их данным, все пользователи рунета в своей поисковой активности

неплохо разбиваются на две группы: одни смотрят телевизор в среднем

больше часа в день и чаще среднего ищут в интернете «шарлотки»,

«лотереи», «Спартак» и «пиво», а другие, напротив, телевизор почти

не смотрят и ищут все сплошь «книги», wi-fi, «визы» и «авиабилеты».

Более четких выводов по этой истории «Яндекс» никогда в открытую

не представлял, но одно понятно точно: история поисковых запросов может

очень много рассказать про человека.

Далее на Чердаке.

Поймется все. Что данные сервисов «Яндекса» могут рассказать о мире?

Поделиться c друзьями:

Поделиться c друзьями:

Комментарии: