Данные или жизнь

0   14   0

Информатика
20 дек. 09:00


585880295f1be77312a421ad

Интервью с руководителем АНО «Инфокультура» Иваном Бегтиным о том, что такое открытые данные, почему они необходимы обществу и как на них заработать.

– Когда Вы начали заниматься открытыми данными и почему?

– Где-то с 2005 года. Много лет моим хобби был сбор и анализ данных. Я пытался разобраться в работе поисковых систем, и все это время меня не оставляли мысли о том, чтобы сделать что-то вроде структурированной поисковой системы для разного рода информации. В разные периоды своей жизни я разрабатывал кусочки этой системы. Например, писал алгоритмы исправления ошибок в печатных текстах, идентификации объектов и названий организаций.

Основной моей деятельностью сначала было системное администрирование, потом программное обеспечение, потом программирование, а потом – управление разного рода проектами. Я не могу назвать их скучными, но это были гос. проекты на определенной стадии, а там на 100% твоих усилий приходится 5% результата. Всегда есть ощущение, что все, что ты делаешь, не приносит должных плодов. Это было одной из причин, из-за которых я сменил сферу деятельности и занялся запуском своих стартапов, анализом данных, стал систематизировать все доступные базы. Это был очень длинный excel-файл из сотен записей с крайне подробной классификацией. Тогда же я занялся архивацией баз данных, потому что они то появлялись, то исчезали. Я начал их собирать.

– Когда стало понятно, что под это требуется какая-то организационная структура?

– Необходимость структуры была очевидна с самого начала, но у меня не было желания ее создавать. Я очень далек от бюрократии, от всех юридических вопросов, связанных с оформлением. Тем не менее перво-наперво пришлось создать маленькую компанию, от имени которой я делал какие-то общественные и коммерческие проекты, то есть находил заказчиков и продавал свои услуги. Все это было до 2009. Параллельно с этим я сделал свой портал. Это был такой сайтик, написанный на языке Python, в котором я зарегистрировал кучу наборов данных. Он был исключительно моим хобби и просуществовал года четыре, пока я не понял, что в том виде, в котором есть, он уже не годится.

– Когда появилась АНО «Информационная культура»?

– «Инфокультура» как концепт существовала с 2011 года. Как окончательно оформленная юридическая организация она появилась в начале 2012.

– Зачем она создавалась?

– Я понял, что никто не знает, что такое открытые данные. Для развития этой темы я решил провести конкурс, а для того, чтобы он как-то ожил, сделал призовой фонд. Я был готов положить на кон 30 тысяч рублей. Начал советоваться со своими друзьями: «Я на конкурс выложил 30 тысяч. Будете членами жюри?». А они говорят: «Что-то ты обнаглел, мальчик. Ты конкурс для себя хочешь сделать? Давай мы, члены жюри, скинемся еще по 30 тысяч и сделаем общеобразовательный конкурс». Так мы собрали шесть человек и сделали призовой фонд в 180 тысяч. После завершения конкурса часть организаторов стали учредителями «Инфокультуры», которая на данный момент существует уже 4 года.

– Это организация, отвечающая за развитие культуры открытых данных? Или это что-то другое?

– Нет, конечно, мы планировали двигаться по нескольким направлениям. Был и краудсорсинг, и развитие коммуникации в обществе потребления информации, и вопросы архивации, понятности языка. Там была некая совокупность тем, из которых открытые данные были самыми живыми. Но пока мы этим занимались, геополитическая ситуация в мире менялась, и цели, которые изначально преследовались в отношении государства, стали неактуальны. А вот открытые данные будут актуальны еще долго. К тому же, для меня эта тема всегда была наиболее близкой, так что фокусировку на ней можно считать в том числе искажением первичного направления компании под действием моей воли.

– Вы как-то развиваете эту тему? Люди начинают интересоваться открытыми данными?

– Да, конечно, тема развивается. С самого начала, когда только-только стартовали, мы пробудили какую-то активность сверху. Тогда появились первые международные соглашения, Хартия большой восьмерки, руководство страны на уровне некоторых чиновников стало хоть примерно понимать, что такое открытые данные.

Сейчас самое главное – чтобы интерес шел снизу, чтобы на открытые данные наконец-то возник спрос. Уже сейчас появляются организации, коммерческие и некоммерческие, которые об этом говорят, появляются потребители в виде конкретных пользователей. Мы договорились с «Хабрахабром», и сейчас туда пишут десятки людей. Появились аналогичные сообщества в соседних странах, например, в Казахстане и в Белоруссии.

– Интерес к открытым данным в России сосредоточен в Москве?

– Нет, это не только Москва, просто здесь наиболее активное сообщество. Часть моих друзей, сотрудников и партнеров находится в Петербурге, есть ребята-активисты в Казани, Ульяновске и в других городах.

– А какие государственные ведомства интересуются этой темой, понимают в ней что-то?

– Понимают многие, только «понимать» и «делать» – это разные вещи. Есть министерства, которые много понимают в этом, но мало делают, например, Федеральная служба государственной статистики. А есть министерства, с которыми нам удалось наладить диалог: Министерство финансов, Федеральное казначейство, по сути, весь финансовый блок. Минэкономразвития что-то делает, хотя они, будем честными, именно за это и отвечают. Некоторое количество ФОИВов, некоторое количество региональных властей, губернаторы, мэры.

Тут надо понимать, что открытыми данными интересуются с трех точек зрения. Есть три направления: PR, принуждение и выгода. Соответственно, все, кто работает с открытыми данными, – это люди, у которых есть какая-то своя мотивация. PR – это когда они слышат слова, которые произносят первые лица, и считают, что нужно примазаться к теме. Они открывают у себя соответствующий раздел, который на самом деле таким не является. Например, Сбербанк открыл раздел «Открытые данные», который к открытым данным имеет мало отношения. Или пример принуждения: принимается федеральный закон или какой-то нормативный акт, в соответствии с которым ведомства должны публиковать информацию. Они начинают заниматься этим не потому, что хотят это делать, а потому, что обязаны.

– А если обязаны, но не делают?

– Если что-то идет не так, пишите письма президенту, это работает. Открывайте сайт letters.kremlin.ru, пишите: «Дорогой Владимир Владимирович, я, как человек, голосовавший за вас три раза, не могу не обратить ваше внимание, что на сайте такого-то министерства, вопреки вашей воле в федеральном законодательстве…».

– Есть еще способы?

– Надзор над соблюдением федерального закона, в котором прописаны правила работы с открытыми данными, осуществляет генеральная прокуратура. Это значит, что если какие-то данные недоступны, то гражданин имеет право обратиться туда. Или написать в вышестоящие органы: если это касается открытых данных по Москве – писать мэру, если открытых данных на федеральном уровне – президенту.

– Осталось еще одно направление?

– Да, третья мотивация – это выгода, которую ведомства могут получить от открытых данных. Этот тип мотивации редкий, но, тем не менее, он существует. Например, Федеральное казначейство предоставляет открытые данные по всем госконтрактам. Доступность этих данных позволяет всем участникам государственной экосистемы контрактации оперативно их получать. Благодаря этому ведомство экономит на коммуникациях со своими контрагентами: не нужно держать штат из десятка человек, которые бы обслуживали постоянные запросы. Это экономия, причем экономия с соблюдением требований прозрачности. А в придачу – помощь людям, которые всем этим пользуются.

Другой пример: есть такой сайт, называется Kaggle.com. Это гигантский портал конкурсов для дата-ученых, на котором разные организации выкладывают какую-то информацию, на основе которой программисты придумывают новые алгоритмы. Пример: полиция Австралии выложила большие наборы данных по пробкам. Эти данные касаются средней скорости движения по определенным трассам на разных участках. Им были нужны алгоритмы управления светофорами на этих отрезках пути. Толпа программистов разработала алгоритмы, а лучший проект был продан австралийской полиции. Выгода в этом есть? Безусловно. Теряют ли они что-то из-за того, что выложили эти данные в открытый доступ? Ничего. Получили ли они практическую пользу? Да.

Есть такая коммерческая компания – Avito. Они работают с объявлениями пользователей, и у них есть проблема: им нужно выявлять фэйковые объявления. Они выложили большой набор данных, и сказали: «Мы делаем конкурс, у нас большой призовой фонд, нам нужен наиболее эффективный алгоритм, выявляющий фэйки». Куча команд дралась за то, кто лучше этот алгоритм сделает. Уже существуют аналогичные алгоритмы предсказания погоды, движения валют на фондовых рынках; их разрабатывают как государственные, так и частные компании, и каждая преследует какую-то вот такую выгоду.

Например, у вас есть какая-то идея или необходимость в каком-то продукте, на который нет бюджетных денег в принципе. Скажем, у большинства организаций, в том числе у различных государственных министерств и ведомств, нет мобильных приложений. Та же ситуация в сфере малого и среднего бизнеса: нет ни одного приложения, где можно с телефона подобрать что-нибудь для себя. Как поступили, например, в США: агентства для малого и среднего бизнеса выложили кучу наборов данных и объявили конкурс в 10 тысяч долларов на лучшее мобильное приложение. В итоге они получили качественный продукт за несколько тысяч, сэкономив бюджетные деньги.

Еще один вариант – организация хакатонов. Это тот случай, когда важно найти не столько дешевое решение, сколько специалистов в интересующей тебя области: программистов, аналитиков или даже дата-журналистов. По сути, ты занимаешься хэдхантингом. Хакатоны актуальны для НКО, мы заинтересованы в том, чтобы большое количество людей были погружены в тему и желательно получали от этого какую-то личную выгоду. Кому-то это интересно с точки зрения самореализации и славы, кто-то хочет получить небольшой гонорар, кто-то – сформировать портфолио, а кто-то – найти работу.

– В какой конфигурации система может быть эффективной?

– Оптимально совмещение все трех видов выгоды. С одной стороны, об этом говорят руководящие лица, с другой – есть законы, которые обязывают раскрывать данные, но делается все это не только из-под палки, но в том числе ради какой-то коммерческой выгоды. А как большинство воспринимает инициативы в области открытых данных? «Нас заставили это делать – вот мы и делаем».

Когда организации доходят до мысли о том, что это может быть полезно и для них, они могут организовать какой-нибудь хакатон, и мы, например, помогаем им собрать спонсоров, участников, тоже получаем какой-то интересный фидбек. Например, мы провели хакатон с генеральной прокуратурой. Они увидели, как на базе открытых данных появляются какие-то совершенно новые вещи, и никак не ожидали, что мы получим 15 проектов, некоторые из которых оказались очень крутыми. Для прокуратуры это тоже некоторое основание для развития работы с данными, их размещения в больших объемах.

– А есть какая-то коммерческая составляющая? Как на этом можно заработать?

– Есть, например, системы проверки контрагентов. Самые известные – «Коммерсантъ-Картотека», «СПАРК-Интерфакс», «Контур-Фокус». В них есть какая-то базовая информация, например, на основе ЕГРЮЛ. Вот уже много лет, как эти системы гораздо более полны, чем просто база ЕГРЮЛ. У них есть данные по госзакупкам, рецензиям, банковским проводкам, арбитражным делам, публичная отчетность и так далее. Любая новая информация, любой новый набор данных – это монетизация. И этот рынок приносит от 2 млрд рублей в год. У него есть одна особенность: очень высокий порог вхождения. Существует много компаний, инвестировавших в это миллиарды рублей в течение последних лет двадцати и не заработавших ни копейки.

Второй пример: кроме общественной деятельности я занимаюсь и коммерческими проектами. Я знаю, как устроены госзаказы и сфера госфинансов. Я занимаюсь аналитикой, предоставляю разного рода отчетность и зарабатываю на этом.

– Насколько востребованы открытые данные?

– У них очень много потребителей, и очень мало публичных лоббистов. Например, у нас есть проект «Госзатраты», в котором мы выкачиваем данные закупок и предоставляем удобный API для работы. У нас был случай, когда этот API не работал 3-4 дня: сначала были проблемы у хостера, потом мы поднимали наши сервисы. За это время мы получили чуть ли не двести писем с вопросами в стиле «Ребята, что у вас случилось, почему так? Когда будет работать?».

– Есть ли что-то общее между открытой наукой и открытыми данными?

– Если рассматривать этот вопрос глобально, то есть два способа объединить эти направления. Если мы рассматриваем открытые данные не как свободные базы данных, а как движение, то они входят в понятие Open movements. Кроме открытых данных туда попадает и открытый код, открытое оборудование, открытая наука, открытая экономика и так далее. Это некая продукция, не обложенная корпоративными интересами, корпоративными патентами. А если мы воспринимаем открытые данные как некую сущность, тогда объединяющим термином является «общественное достояние». И мы будем рассматривать открытые данные вместе с открытой наукой. Открытая наука – это движение, некоторая концепция, открытые научные данные – это уже некий объект. И под общественное достояние попадают, скорее, открытые научные данные и научные публикации.

– Можно ли что-то поменять в законодательстве, чтобы открытых данных было больше?

– Скорее всего, нужно вводить какой-то элемент принуждения. Например, мы говорим: все некоммерческие организации, получающие государственные деньги в любой форме, обязаны публиковать все результаты своих работ: а) в открытом доступе; б) под свободными лицензиями Creative Commons; в) в машиночитаемом виде в определенном формате. А если этого не будет, то последуют штрафы, отказ в финансировании и так далее.

– Кого нужно заставлять?

– Все бюджетные учреждения. Чтобы данные по госконтрактам были в общественном достоянии, чтобы все разработки публиковались в открытом доступе, а самое главное – чтобы были уволены все, кто этого не делает. Например, есть компания Amazon. В 2002 году она начала трансформироваться из магазина в сервисную компанию, которой сейчас и является. Этому во многом поспособствовало письмо Джеффа Безоса – текущего исполнительного директора Amazon. Если вкратце перевести содержание письма, то звучало оно примерно так: «Все команды должны предоставлять доступ к данным своих проектов через программный интерфейс. Все иные способы доступа между командами запрещены. Все API должны быть общедоступными, сотрудники должны быть готовы к тому, что их в любой момент могут сделать открытыми. Все, кто не будет соблюдать эти требования, будут уволены».

Сейчас у Amazon около десятка ключевых программных интерфейсов и около сотни вспомогательных. Это крупнейшая инфраструктура сервисов в интернете, просто неимоверная. Они выбрали своей аудиторией айтишников и сожрали эту аудиторию просто с потрохами, найдя то решение, которое ими управляет. В России с данными все еще проще: их нужно публиковать. И увольнять тех, кто не публикует.


Автор: Агент Ноосферы

Источник: chaskor.ru


0



Для лиц старше 18 лет