Как ученые пытаются защитить данные по экологии от Трампа

0   5   0

Охрана окружающей среды. Экология человека
26 янв. 19:00


588a1f105f1be7108267c665

В 10 утра в субботу за день до инаугурации президента на шестом этаже библиотеки Ван Пелт Университета Пенсильвании собралось около 60 хакеров, ученых, архивариусов и библиотекарей. Они сидели за своими компьютерами, громко обсуждая скрипты и рисуя блок-схемы на досках. У них были сотни правительственных веб-страниц и наборов данных, которые надо было изучить до конца дня. Все эти данные были получены из веб-страниц Агентства по охране окружающей среды и Национального управления океанических атмосферных исследований. По мнению ученых, любые из этих данных могли быть удалены, изменены или убраны из общественного достояния в связи с приходом к власти Трампа и его администрации.

До этого они наблюдали за тяжелым трудом канадских правительственных ученых, работавших под руководством Стивена Харпера, который запретил им говорить об изменениях климата. Ученые видели, как должностные лица Харпера выбрасывали тысячи книг с данными о водных ресурсах, как закрывались федеральные библиотеки экологических исследований.

Но три дня спустя эти домыслы стали реальностью. В новостях прозвучало, что администрация Трампа не только сместит местную команду EPA [1], но и может удалить некоторые климатические данные с веб-сайта агентства. Согласно анонимному источнику, эти данные могут включить в себя план Барака Обамы по работе с климатом за июнь 2013 и стратегии 2014 и 2015 годов по уменьшению выработки метана. «Это совсем неудивительно», – сказала Беттани Виггин, директор гуманитарной экологической программы в Университете Пенсильвании и одна из организаторов мероприятия по спасению данных.

Вернемся в библиотеку. Десятки чашек кофе находились слишком близко к электронике, а программисты проходили мимо 32-гигабайтных ZIP-дисков из университетского книжного магазина так, как будто это были драгоценные артефакты.

Группа была разделена на две части. Одни занимались настройкой поисковых роботов на веб-страницах NOAA [2], которые могут быть легко скопированы и отправлены в интернет-архивы. Другие работали над более сложными наборами данных, например, занимались подробной интерактивной картой выбросов парниковых газов EPA, способной показать самые опасные по выбросам фабрики и электростанции. «В таких случаях мы должны найти запасной выход», – сказала Мишель Мёрфи, изучающая технические науки в Университете Торонто.

За месяц до этого мероприятия Мёрфи ездила из Торонто в Филадельфию, где проходил хакатон [3], посвященный спасению данных. Мёрфи принесла с собой список всех наборов данных, которые оказались слишком сложными для взлома канадскими программистами. «Часть работы – поиск места, откуда загружены данные. Иногда бывает так, что эти наборы данных подключены и к другим массивам информации», – сказала она, разводя руками.

В Университете Пенсильвании группа программистов, называющих себя «упаковщиками», начали писать скрипты, чтобы собрать данные в специальные массивы, которые будут загружены на DataRefuge.org. Этот сайт размещается веб-сервисом Amazon, и может служить в качестве альтернативного хранилища для правительственных данных о климате и исследований окружающей среды при администрации Трампа. (Цифровая «упаковка» похожа на сейф, который будет уведомлять пользователя о каких-либо изменениях в этих файлах).

«Мы вытаскиваем данные со страниц», – рассказывает Лори Аллен, заместитель директора по цифровым наукам в библиотеке Университета Пенсильвании и технический руководитель мероприятия по спасению данных. «Некоторые из самых важных федеральных наборов данных не могут быть извлечены с помощью поисковых роботов: они или слишком большие, или чрезвычайно сложные, или вообще размещены на устаревшем программном обеспечении, а их URL-адреса больше не работают. «В таких случаях нам приходится писать для них кастомный код», – говорит Аллен. Именно здесь приходят на помощь импровизированные скрипты для сбора данных.

Однако независимо от того, насколько умело собраны данные, сами по себе они бесполезны. «У них больше нет красивой обертки в виде веб-сайта, где они размещались, это просто набор данных», – говорит Аллен.

Как раз здесь и помогают библиотекари. Для того, чтобы данные могли быть использованы другими пользователями, или же помещены в специальные хранилища, они должны быть защищены от всевозможных вмешательств. Данные должны тщательно охраняться, т. е. храниться под «защитой системы отслеживания источников создания данных». В углу комнаты сидят добровольцы, занимающиеся сопоставлением данных с дескрипторами, выясняя, откуда пришли данные, как они были получены и кто этим занимался. Они надеются, что позже ученые смогут правильно ввести описание того, что эти данные описывают в действительности.

Но на сегодняшний день важнее всего загрузить эти данные до того, как новая администрация получит ключи к серверам. Кроме того, у все этих ученых есть работа, планы на ужин и экзамены, к которым им предстоит вернуться. Другого раза уже не будет.

Давай, складывай!

К полудню команда, загружающая веб-страницы в интернет-архивы, установила поисковых роботов на 635 наборов данных NOAA. В этих данных есть буквально все: от образцов льда до «скорости течений в прибрежных районах океана, полученных с радаров». Тем временем, «упаковщики» искали способ для выгрузки данных с веб-сайта Департамента измерения атмосферной радиации и исследования климата.

В другом углу сидели программисты, думающие над тем, как загрузить базу данных по происществиям из Департамента по перевозке радиоактивных материалов. «Я не думаю, что могло быть более ста тысяч происшествий с радиоактивными материалами в год. Данные за четыре года по 50 штатам, т. е. 200 образцов информации, так что...».

«Получается, меньше 100 000 происшествий за последние четыре года в каждом штате. Это наш лимит».

«Здесь люди занимаются достаточно ужасными вещами – сидят и загружают несчастные случаи, связанные с радиоактивными материалами».

На другом конце стола сидит Нова Фоллен, магистрант компьютерных наук в Университете Пенсильвании, и ломает голову над интерактивной картой EPA, которая показывает объекты, нарушившие экологические правила.

«Там стоит 100000 ограничений на загрузку этих данных. Но это просто веб-формы, поэтому я пытаюсь найти способ, используя Python, заполнить эти формы с помощью программы», – говорит Фоллен. Около четырех миллионов нарушений заполнили систему. «Это может занять несколько часов», – замечает она.

Брендан О'Брайен, программист, который создает инструменты для данных с открытым кодом, занимается еще более непростой задачей: загрузкой целой библиотеки данных EPA о результатах наблюдения за воздухом за последние четыре года. «Не похоже, чтобы эта страница была общедоступной. Она уже забыта богом», – говорит он.

Каждая запись связана с другими наборами данных, и, если кликать на каждый линк, то можно потратить недели. Поэтому О'Брайен написал скрипт, который может найти все линки и открыть их. Другой скрипт открывает линк и копирует все, что там есть, в файл. Но внутри этих линков есть и другие ссылки, так что раз за разом процесс начинается заново.

В итоге О'Брайен следит за тем, как закачиваются необработанные данные. В основном это текстовые файлы. Сначала он представляет собой неразборчивый текст, длинную строку, состоящую из слов и чисел, разделенных запятыми. Но потом они начинают преобразовываться в слова. Одна строка содержит адрес в Фениксе, штат Аризона: дом 33, проспект Тамариск. Это качество воздуха, снятое датчиком в этом месте. Рядом с адресом говорится о нескольких типах летучих органических соединений: пропилен, метил метакрилата, ацетонитрил, хлорометан, хлороформ, четыреххлористый углерод. Тем не менее, нет никакой возможности узнать, были ли какие-либо из этих соединений в воздухе в Фениксе. В другой части файла располагаются цифры, предположительно, указывающие на уровни загрязнения воздуха.

О'Брайн считает, что эти данные подвержены риску в связи с приходом нового управления EPA в лице Скотта Прюитта. Он, как генеральный прокурор Оклахомы, ранее несколько раз обращался к EPA с требованием изменить правила оценки загрязненности воздуха. Поэтому О'Брайен пытается сохранить данные любой ценой, чтобы потом вернуться к ним и использовать программу, которую он назвал «qri.io». Эта программа помогает разобрать хаотичные подборки файлов и собирать их в более читабельные базы данных.

К концу дня ученым удалось загрузить 3.692 веб-страницы NOAA в интернет-архивы и найти возможность для загрузки особенно сложных для взлома 17 наборов данных из EPA, NOAA и Министерства энергетики. Организаторы

уже запланировали несколько встреч в ближайшие недели, во время которых они продолжат заниматься «спасением» данных.

В тот день, когда появилась информация о том, что происходит в EPA, мне пришло сообщение от О'Брайна, в теме которого говорилось: «Красная тревога».



[1] Environmental Protection Agency – Агентство по охране окружающей среды (Прим. пер.)

[2] National Oceanic and Atmospheric Administration – Национального управления океанических атмосферных исследований (Прим. Пер.)

[3] Hackathon – Хакатон – форум разработчиков, во время которого специалисты из разных областей разработки программного обеспечения сообща работают над решением какой-либо проблемы (Прим. пер.)

Перевод: Владислав Кириченко


Автор: ZOË SCHLANGER

Источник: wired.com


0



Для лиц старше 18 лет