Противоположные точки зрения: что делать с данными, которые мы создаем?

Данные стали новой нефтью, а мы, люди, – их источниками. Наше цифровое сырье – это насыщенное варево из обычных, ежедневных занятий – поисковые запросы, сообщения и твиты, вместе с GPS координатами телефонов, биометрической информацией, полученной из приложений для фитнеса, даже IP-адресами подключенных к сети холодильников. Для обычного человека этот материал – незаметные помехи. Однако обработка этого неограниченного запаса данных представляет необычайную ценность для организаций, умеющих распознавать определенные сигналы.

Понимание того, какие данные мы создаем и как они используются, стало необходимо для жизни. Скоро мощные алгоритмы машинного обучения и системы искусственного интеллекта будут анализировать наши данные, чтобы принять решения о нас и за нас: можно ли выдать нам кредит, с какой вероятностью мы совершим преступление, заслуживаем ли мы пересадки органа. И в отличие от нас, машины не заботятся о неприкосновенности частной жизни.

Популярное сравнение данных с нефтью открывает новую книгу Андреаса Вайгенда «Данные для людей» (Data for the People). Это исчерпывающий и глубокий анализ того, как собираются и используются данные, часто без нашего ведома и практически всегда без нашего вмешательства. Вайгенд, бывший главный научный сотрудник концерна Amazon, подробно описывает «социальные данные», которые приходят не только с миллионов камер, сенсоров и других устройств, но и из социальных сетей, онлайн-магазинов и сайтов знакомств. Обработчики данных – те компании и люди, которые превращают наши данные в прибыльную информацию – ищут закономерности, затем сортируют нас по поведению: что мы можем купить, что мы будем смотреть, в кого мы можем влюбиться. Как отмечает Вайгенд, этот обмен полезен всем. Если мы позволяем исследовать самих себя, то в ответ получаем персонализированные рекомендации, отношение и обращение. Тем не менее, равновесие сил нарушено. Компании много зарабатывают на наших данных, а у нас почти нет возможности повлиять на то, как они используются.

Вайгенд убедительно заявляет, что в этом мире, преодолевшем неприкосновенность частной жизни, мы должны свободно предоставлять свои данные, но и ожидать определённых гарантий в ответ. Он предлагает ввести набор правил, чтобы увеличить «прозрачность» обработчиков данных и усилить наше влияние на использование информации. Такие компании, как OkCupid, WeChat и Spotify, должны проверять безопасность данных, оценивать их связь с личной жизнью и подсчитывать коэффициент на основе полученной выгоды – что-то вроде кредитного рейтинга для компаний, использующих наши данные. В тоже время, у нас должно быть право исправлять свои данные, добавлять их или забирать из любой системы по своему желанию.

Не все считают, что наша информация должна находиться в свободном доступе, как только мы подписываем пользовательское соглашение. В книге «Искусство невидимости» эксперт по безопасности в интернете Кевин Митник защищает противоположную точку зрения. Митник описывает различные причины, почему мы можем захотеть скрыть свои данные: мы не доверяем правительству, мы не хотим, чтобы корпорации вторгались в нашу жизнь, у нас есть любовница или мы и есть любовница, мы являемся преступниками. Митник, отсидевший пять лет в тюрьме за взлом корпоративных сетей и кражу программного обеспечения, напоминает, что наши данные – с электронной почты, Wi-Fi-сетей и т.д. – делают нас уязвимыми. Он описывает как самые основные способы защитить свою личную жизнь (использовать надежный пароль, избегать общественных компьютеров), так и более сложные методы (зашифровывать файлы на жестком диске, использовать VPN или Bitcoin для покупок в интернете). Многие из них покажутся знакомыми и, возможно, примитивными для тех, кто разбирается в технике. Для остальных же это станет неприятным откровением, касающимся того, как могут использоваться данные.

Цель обеих книг – напугать нас. Общая тема – наша частная жизнь: продолжая не вмешиваться, мы рискуем впоследствии пожалеть о своем бездействии. Я согласна, но оба автора упустили самый страшный аспект, маячащий на горизонте. Основная инфраструктура будущего строится сейчас программистами, специалистами по данным, сетевыми инженерами и экспертами по безопасности – такими же, как Вайгенд и Митник, которые не видят собственной предвзятости. Из-за этого опасный недостаток возникает уже в самом начале. По мере возрастания проблемы, следующие слои будут только все больше и больше ухудшать положение.

На данный момент, для машин используется «обучение с учителем». Эксперты «учат» систему, размечая изначальный набор данных. Как только компьютер получает достаточный опыт, ему разрешают попытаться самостоятельно отсортировать данные. Если система совершает ошибку, эксперты её исправляют. Постепенно, в результате этого процесса, мы получаем алгоритмы высокой сложности, способные обрабатывать и использовать наши личные данные для разных целей: скажем, определение спама в электронной почте или рекомендации того, что посмотреть на Netflix. Затем на основе данных и алгоритмов происходит дальнейшее обучение.

Однако человеческие предрассудки вмешиваются в машинные алгоритмы, создавая смущающие человечество ситуации. В 2015 г. приложение для сортировки фотографий, разработанное компанией Google, по ошибке назвало гориллой чернокожего разработчика приложений. В 2016 г. чатбот Tayкомпании Microsoft начал выдавать гомофобные, антисемитские оскорбления, используя данные сети Twitter в течение только одного дня. Несколько месяцев спустя журналисты из ProPublica обнаружили, что алгоритмы, используемые в полиции, дискриминируют афроамериканцев, ошибочно приписывая белым преступникам более низкий уровень опасности. Недавно, когда я искала в Google Images картинки по записи «исполнительный директор», первой женщиной в списке оказалась исполнительный директор Барби.

Специалисты по данным не обязательно являются расистами, сексистами, антисемитами или гомофобами. Но они люди, и, как у нас всех, у них есть свои предрассудки. Это обнаруживается в обеих книгах. В книге Митника женщины упоминаются в основном в анекдотах и всегда описываются как глупые, ревнивые или злые. Ближе к концу Митник рассказывает, как он пытался въехать в Канаду из штата Мичиган, и предполагает, что его остановили, поскольку водителем был иммигрант с Ближнего Востока. Возможно, он и прав, но он даже не допускает возможности, что его собственный тюремный срок тоже мог стать для этого причиной.

Книга Вайгенда основывается на подробном анализе, но все эксперты, которых он цитирует, – мужчины. В начале книги он рассказывает историю Латаньи Суини, которая в 90х гг. опубликовала ставшее знаменитым исследование анонимных данных о здоровье жителей штата Массачусетс. Она доказала, что данные можно проследить до частных лиц, включая даже губернатора. Но Суини также знаменита благодаря тому, чего Вайгенд даже не упоминает. Она, будучи профессором Гарварда, обнаружила, что из-за афроамериканского имени она появляется в рекламе Google о тюремном сроке и проверке биографии. Вайгенд мог процитировать её, чтобы рассказать о предвзятости во втором из его шести правил, касающемся цельности экосистемы социальных данных. Тем не менее, он пренебрег обсуждением сексизма, расизма, ксенофобии и гомофобии в машинном обучении.

То, что женщины и люди с другим цветом кожи опускаются даже в книгах о данных и алгоритмах, показывает реальную проблему неосознанной предвзятости. Вайгенд и Митник опираются только на то, что им близко и знакомо – к сожалению, очень частая практика в этой сфере. На университетских факультетах программирования, математики и физики нет разнообразия ни среди преподавателей, ни в программе обучения. Наука о корпоративных данных гомогенна. Так же гомогенны профессиональные и научные конференции, где обсуждается будущее наших данных. Если те люди, которые обрабатывают наши данные, не похожи на нас, а машины обучаются только ими, то в результате получаются искаженные карикатуры, как зомби, которых показываются в телевизоре.

Как футурист, я пытаюсь разобраться в том, каким образом наши данные когда-нибудь станут основой автомобилей с искусственным интеллектом, врачей-компьютеров и роботов-охранников. Именно поэтому меня взволновали описанные книги. Подумайте обо всех характеристиках, которые делают вас теми, кто вы есть: сколько кофе пьете, с какой скоростью ездите, как часто открываете холодильник, каким сленгом пользуетесь; подумайте о случайных незнакомцах, которых вы добавили в друзья на Facebook. Возможно, вы выглядите как Вайгенд и Митник, и поэтому еще не почувствовали на себе алгоритмической дискриминации. Тем не менее, вы тоже должны испытывать страх, потому что мы только недавно открыли этот нефтяной источник.

Перевод: Мария Годгильдиева

Противоположные точки зрения: что делать с данными, которые мы создаем?

Поделиться c друзьями:

Поделиться c друзьями:

Комментарии: