Министерство образования и науки Российской Федерации
Федеральное государственное автономное
образовательное учреждение высшего образования
«Московский физико-технический институт (государственный университет)»
Факультет аэрофизики и космических исследований
Кафедра термогидромеханики океана
Построение траекторий тропических циклонов и полярных мезоциклонов с
применением методов глубокого обучения
Допущено к защите в ГЭК **.**.****
Зав.кафедрой
д.ф.-м.н., проф.
К.В.Гращенков
Обучающийся
Руководитель
В.В. Жмур
к.т.н.
Москва 2020
М.А. Криницкий
Содержание
1 Введение
3
2 Методология исследования
9
2.1
Исходные Данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2
Методология . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.3
Оценка качества моделей построения траекторий атмосферных явлений . . . . . . . . . .
17
2.4
Модель с произвольным правилом сопоставления . . . . . . . . . . . . . . . . . . . . . . .
19
2.5
Модель, базирующаяся на нейросетевом подходе . . . . . . . . . . . . . . . . . . . . . . . .
20
2.6
Предобработка данных мезоциклонов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.7
Предобработка данных тропических циклонов . . . . . . . . . . . . . . . . . . . . . . . . .
23
3 Реализация и оптимизация предложенных моделей
25
3.1
Нейронная сеть для работы с данными мезоциклонов . . . . . . . . . . . . . . . . . . . . .
26
3.2
Нейронная сеть для работы с данными тропических циклонов . . . . . . . . . . . . . . . .
29
4 Результаты
31
5 Заключение
40
2
1
Введение
Построение и исследование климатологии атмосферных явлений является ключевой задачей в ис-
следовании климата. Кроме того, циклоны и мезоциклоны играют важную роль в гидрологическом
цикле атмосферы над океаном, определяя перенос и интенсивность атмосферных осадков. Поэтому
исследование климатологии данных явлений является одной из важнейших задач океанологии и метеорологии. Над поверхностью океана ежегодно зарождается и существует большое количество циклонов и мезоциклонов, которые оказывают существенное влияние на гидрологический цикл атмосферы
над океаном. Для построения климатологии данных атмосферных явлений необходимо понимать не
только их физику зарождения и диссипации, но и обладать информацией о траекториях перемещения.
На данный момент существует множество методов для построения траекторий тропических циклонов
[1–3], для мезомасштабных явлений метод приемлимого качества еще не предложен, и все траектории
строятся специалистом вручную. Поэтому решение задачи построения траекторий полярных мезоциклонов необходимо для дальнейшего понимания климатологии данных явлений.
Цель настоящей работы: разработка метода построения траекторий атмосферных вихрей произвольного масштаба и произвольной природы в данных, позволяющих регистрировать эти явления и
различать их между собой.
Для достижения поставленной цели решались следующие задачи:
1. поиск и анализ существующих методов построения траекторий атмосферных явлений различного
масштаба: тропических и внетропических циклонов, мезомасштабных циклонов;
2. анализ существующих исследований в отношении типов исходных данных, в которых есть возможность регистрировать и различать тропические циклоны и полярные мезоциклоны;
3. поиск и анализ существующих баз данных траекторий тропических циклонов и полярных мезоциклонов;
4. формулировка метода построения траекторий атмосферных вихрей произвольного масштаба и
произвольной природы с применением моделей, основанных на данных (моделей машинного обучения);
5. формулировка мер качества моделей, применяемых в рамках предложенного подхода построения
траекторий атмосферных вихрей;
6. разведочный анализ и предварительная обработка исходных данных для построения признакового описания тропических циклонов и полярных мезоциклонов;
7. формулировка моделей машинного обучения, применяемых в рамках сформулированного подхода
построения траекторий атмосферных вихрей;
8. реализация и оптимизация сформулированных моделей машинного обучения, оценка их качества.
3
Полярные мезомасштабные циклоны представляют собои интенсивные атмосферные вихри, которые формируются над океаном в высоких широтах и характеризуются размерами 200 − 1000 км и
средним временем жизни 6 - 36 часов [4]. Полярные мезоциклоны характеризуются скоростью приземного ветра > 15м/с и оказывают огромное влияние на процессы на поверхности открытого океана в
регионах их наиболее частого возникновения в морях Северного и Южного полушарии.
При исследовании мезомасштабных циклонов, являющихся важным элементом циркуляции атмосферы в высоких широтах в системе взаимодействия океана и атмосферы, отсутствие досточного анализа природы движения мезомасштабных явлений является одной из проблем для понимания климотологии атмосферных объектов. В связи с этим для полноценного анализа природы и физических механизмов мезосштабных циклонических выхрей необходимо получение траекторий движения данных
объектов за продолжительный отрезок времени. Полученная база траекторий может быть полезна для
анализа динамики возникновения и эволюции мезомасштабных атмосферных вихрей. Поэтому данное
исследование ставит перед собой целью создание универсального метода для построения траекторий
тропических циклонов и полярных мезоциклонов, который в дальнейшем может быть расширен для
работы с другими атмосферными явлениями.
Исследование антарктических явлений [4] и, в частности, мезоциклонов является одной из важных
и перспективных задач в исследовании климата. Определение и аккуратное описание траекторий движения мезоциклонов принципиально необходимо для понимания климатологии данных явлений среди
множества антарктических атмосферных структур.
Полярными мезоциклонами называют интенсивные мезомасштабные вихри, которые образуются в
высоких широтах, как правило, в холодный период года. Образование полярных мезоциклонов часто
происходит в условиях вторжения холодной воздушной массы со льда на открытую относительно теплую морскую поверхность [5]. Их размеры относительно невелики и составляют от сотни до тысячи
километров (характерный масштаб 200–600 км), а время жизни изменяется от нескольких часов до
нескольких суток. Интерес к их исследованию объясняется тем, что МЦ имеют взрывной характер
формирования и вызывают экстремальные погодные явления (штормовые волнение и ветер, обледенение судов и сооружений, снежные заряды с ухудшением видимости). Полярные мезоциклоны являются
важным составляющим климатической системы полярных регионов. Но из-за относительно небольших
размеров и короткого времени жизни их идентификация, анализ и изучение на основе стандартной синоптической информации и продуктов глобального реанализа затруднены [4]
В настоящем исследовании в качестве задачи трекинга рассматривается задача построения траектории движения для каждого отдельно взятого мезоциклона со спутникого изображения. В существующих алгоритмах задача трекинга обычно состоит из трех этапов: фильтрация исходных данных, детектирование явлений и построение траекторий отдельных явлений. Существующие на данный
момент методы трекинга мезоциклонов основываются на моделях, показывающих хорошие результаты для атмосферных вихрей синоптического и субсиноптического масштабов, которые не могут быть
4
применимы для таких явлений как мезоциклоны вследствие их малых размеров, короткого периода и
высокой скорости перемещения [4].
Тропическими циклонами нызываются воздушные вихри, образующиеся в тропических широтах.
Тропические циклоны зарождаются и развиваются только над поверхностью крупных водоёмов, тогда
как над сушей они обычно быстро диссипируют. Они вызывают не только чрезвыйчайно сильные
ливни, но штормовые приливы и смерчи. Именно поэтому прибрежные районы и острова в наибольшей
степени страдают от вызванных ими разрушений, тогда как районы в глубине материков находятся в
относительной безопасности [6]. Однако вызванные тропическими циклонами ливневые дожди могут
вызвать наводнения значительных масштабов несколько дальше от побережья, на расстоянии до 40 км.
В связи с этим существует потребность в базе данных треков тропических циклонов для дальнейшего
анализа их поведения и предотвращения неблагоприятных экономических последствий.
Ранние методы, предложенные для решения задачи трекинга основывались на предположении, что
движущиеся объекты остаются неизменными (их размер и форма не меняются при переходе между
последовательными кадрами исходных данных), которое неприменимо не только для решения задачи
трекинга мезоциклонов, но даже тропических циклонов.
Метод, предложенный в статье [1] используется для трекинга циклонов. В качестве входных данных в этом исследовании использовались результаты отслеживания штормов в поле давления [7] для
42 зимних сезонов (январь-март) с 1958 по 1999 г. с временным разрешением 6 часов по данным реанализа [8]. Идея метода может быть описана слудующим образом: в каждый последующий момент
времени каждому циклону соотносится такой циклон, который ближе к выбранному в предыдущий
момент времени. Этот метод не может быть использован в данной работе для построения траекторий
полярных мезоциклонов из-за того, что мезоциклоны имееют меньшую «инертность» (ввиду высокой скорости перемещения) и степень предсказуемости положения для мезоциклонов намного ниже,
нежели чем для тропических циклонов, поэтому соотносить местоположения двух ближайщих мезоциклонов на двух последовательных моментах времени не представляется целесообразным в контексте
задачи построения траекторий полярных мезоциклонов.
Несколько методов было предложено для решения задачи трекинга в статье [2], построеные на предположениях гладкого движения циклонов. Это побудило авторов статьи минимизировать функцию,
которая бы давала наиболее гладкий трек из всех возможных. Эти предположения сильно ограничивают область применимости алгоритма.В этом исследовании отдельно подчеркивается особая роль
ограничения, накладываемого на гладкость трека, формулируемого с помощью специальной функции
потерь, оптимизируемой при поиске решения для каждого отдельного циклона. По мнению авторов,
плюс их метода состоит в том, что он может работать одновременно с большим количеством движущихся объектов.
Другой метод [3] также используется для трекинга циклонических явлений и полностью построен
на предположении, что трек не может измениться прерывисто, и скорость движения также изменяется
5
плавно. Такое предположение не выполняется в случае мезоциклонов. Автор статьи делает основной
упор на решение задачи сегментации объектов, так как решив задачу выделения границ объекта, он
в последующие моменты времени сопостовляет для найденного объекта ближайший с предыдущего
временного момента. Применимость данного метода зависит от временного разрешения исходных данных.
(a)
(b)
Рис. 1: (a) Карта объектов, сегментированных согласно методу [7]; (b) Результаты работы модели
построения траекторий циклонов
В работе [9] был предложен алгоритм для решения задачи трекинга атмосферных циклонов. Согласно этому исследованию, на данный момент не существует универсальных алгоритмов в данной
области, подразумевая, что предложенные ими методы исследования(а именно - машинного обучения)
являются новыми, приминительно к трекингу и сегментации атмосферных явлений, и не существует универсального метода для извлечения данных из реанализов. В рамках исследования решается
задача регрессии для определения дальнейших координат тропических циклонов в каждый последующий момент времени для заданного начального положения. В этом исследовании авторы использую
результаты 20-летнего (с 1996 по 2015 гг.) запуска модели атмосферы CAM5 [10]. Каждый снимок состояния глобальной атмосферы в модели CAM5 состоит из нескольких физических переменных, таких
как водяой пар,температура поверхности атмосферы, давление, скорость ветра и т. д. Решается данная
задача с использованием модели LSTM( [11] тип нейронной сети, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии
событий во времени или последовательные пространственные цепочки), что является хорошим выбором в рамках поставленной задачи(имея заданным начальное положение циклона, нужно пределить
оставшиеся положения в каждый последующий момент времени).Отличительной особенностью данной
задачи является то, что на заданной синоптической карте мезоциклоны не выделены, поэтому, прежде
чем решать задачу трекинга - решается задача сегментаци, то есть нахождение и выделение циклона
на входном изображении. Для получения изображения, с имеющимися на нем циклонами, была использована архитектура DenseNet [12], которая работает на базе кодировщик-декодер(энкодер учится
сжимать исходные данные, выделяя наиболее информативные, называемыме скрытым представле-
6
нием, признаки, а декодер учится восстанавливать исходные данные,при условии заданного скрытого
представления). Данный метод частично решает проблему построения траекторий, но у него есть существенные недостатки:он применим только для работы с отдельно взятыми атмосферными явлениями,
сопоставимыми по масштабу с внетропическими среднеширотными циклонами. Этот метод не решает
поставленную задачу построения траекторий в формулировке, приведенной ранее, а именно нахождение каждого мезоциклона, который находится в совокупности с другими в определенный промежуток
времени. Алгоритм предназначен для работы с отдельно движущимися объектами.
(b)
(a)
Рис. 2: (a) Архитектура модели, предложенной в работе [9] (b)Результаты работы модели (красными
точками обозначены предсказанные значения, желтым - истинные)
Важно заметить, что все методы, предложенные для построения траекторий тропических циклонов,
работают с данными реанализов, которые не могут быть использованы для построения треков полярных мезоциклонов, так как мезоциклоны плохо воспроизводятся по данным реанализа ERA5 [13, 14];
всего 78% всех мезоциклонов воспроизодятся по данным реанализов [4]. В связи с этим необходимо создание метода, который будет способен строить траектории мезоциклонов по данным, в которых вихри
такого масштаба надежно воспроизводятся. Например, по данным дистанционного зондирования [15].
На данный момент не существует оптимального метода для построения подобных траекторий и все
они строятся человеком, что очень времязатратно.
Относительно недавно был предложен метод для трекинга мезомаштабных явлений (TAMS) [16]
Данный алгоритм полагается на пересечение областей объектов в два последовательных промежутка
времени. Данный метод может быть применим только в работе с высокочастотными данными, когда
движущиеся объекты не успевают отдалиться друг от друга за два последовательных момента времени. Полярные мезоциклоны такими объектами не являются, поэтому применение данного алгоритма
сильно ограничено, поскольку можно заранее предположить что он будет формировать сокращенные
траектории
Несколько методов именно для трекинга полярных мезоциклонов было предложено Xia и др. [17].
В первом методе (MZ - Zahn and von Storch’s method) используются поля среднего давления моря
(MSLP) с цифровой полосовой фильтрацией в пространственном диапазоне 200–600 км (Рис. 3). и
7
временным разрешением 3 часа. По словам авторов статьи, метод разработан специально для работы с полярными мезоциклонами. Второй метод(KH - Hodges’ algorithm) также использует полосовой
фильтр, но основан на дискретных косинусных преобразованиях (DCT) и может применяться к полям
MSLP и полям завихренности. Второй метод был изначально разработан для работы с циклонами,
но дальнейшая его модификация показала применимость и к полярным мезоциклонам. Обе модели
работали на данных реанилиза NCEP/NCAR за период с октября 1993 по сентябрь 1995. Каждый
из предложенных алгоритмов разбит на три основные части: фильтрация исходных данных, идентификация ПМЦ и построение траекторий. В качестве фильтрации первый метод применяет сочетание
прямого и обратного дискретного преобразования Фурье, второй - использует изотропный двумерный
пространственный цифровой фильтр (Рис. 4). Перед применением каждого из фильтров поля давления нормализуются для исключения локальных пространственных и временных возмущений. Метод
MZ был разработан для поиска минимумов в поле давления. Метод KH сначала разбивает поля на отдельные области с помощью маркировки связных компонент, а затем обнаруживает границы в каждом
регионе [3]. Этот метод находит минимумы, которые расположены между точками сетки, используя
B-сплайн-интерполяцию. Это приводит к сглаживанию треков. Следующий шаг в работе предложенных алгоритмов - соединение идентифицированных позиций в треки. В методе KH используется метод
ближайшего соседа: в последующий момент времени к выбранному мезоциклону приписывается ближайший с с предыдущего момента времени. Также авторы данного метода производили оптимизацию
среди выбранных треков для построения самого гладкого. Таким образом можно заявлять, что авторы данной статьи отождествляли самый оптимальный трек с самым гладким. Это идет вразрез с
предположением оптимальности трека, заключающемся в том, что трек должен состоять из объектов
наиболее похожих друг на друга в соседние промежутки времени. Метод KH, помимо вышеизложенного
ограничения, добавляет еще ограничение на поиск подходящего объекта в трек: ближайший объект не
может сместиться более чем на 200 км. Если же этому условию удовлетворили несколько мезоциклонов
в определенный момент времени, то в трек добавляется ближайший к текущей позиции мезоциклона
(Рис. 5). По вышеизложенным причинам, данный метод имеет значительные ограничения на степень
своей выразительности: так как в течение 3-х часов мезоциклон может переместиться более чем на
200 км, и у алгоритма не будет даже малейшего шанса определить правильный [4]. Также авторы
наложили еще одно ограничение на формируемые треки: каждый трек должен иметь по крайней мере
8 шагов по времени (то есть длиться один день), что также является сильным ограничением на природу мезоциклонов, которые могут существовать 6 часов [4]. Резюмируя все вышесказанное, методы
построения тректорий существуют, но у них есть свои особенности связанные связанные с обработкой
не хаотично дивижущихся объектов, которыми являются полярные мезоциклоны, поэтому возникает необходимость создания нового способа построения траекторий, который бы не обладал такими
особенностями.
8
Рис. 3: Неотфильтрованное поле давления(MSLP)
Рис. 4: Поля давления после применения полосного фильтра: цифровой фильтр(свеху), дискретное
косинусное преобразование(снизу) - с найденными минимумами: для KH(красный) и MZ(зеленый)
Рис. 5: Построенные треки моделями KH(красный) и MZ(голубой)
2
Методология исследования
2.1
Исходные Данные
Объективные трудности анализа динамики развития полярных мезоциклонов определяются их характерными особенностями (незначительные размеры и короткий срок жизни) и усугубляются дефицитом данных стандартных метеорологических наблюдений на арктических акваториях и не всегда
9
имеющеися возможностью оперативного получения спутниковои информации с достаточным временным разрешением. Согласно установившемуся в научном сообществе мнению [18], время жизни полярных мезоциклонов весьма невелико по сравнению с внетропическими или тропическими циклонами:
от 6 до 36 часов. По результатам анализа на основе данных спутникового зондирования, в среднем,
продолжительность жизненного цикла мезоциклонов составляет 9 часов [4]. Однако по данным реанализа полярные мезоциклоны живут не более 30 часов (например, если следить за динамикой развития
мезоциклона по спутниковым мозаикам с временным разрешеним 3 часа, то время жизни будет не
более 10 временных шагов с шагом 3 часа) [19].
Рис. 6: Карта треков всех тропических циклонов за период с 1985 по 2005 по данным [13]
Рис. 7: Карта треков всех мезоциклонов взятых из датасета SOMC; черные точки обозначают место
позиции мезоциклонов.
Расстояния, проходимые мезоциклонами, могут варьироваться в зависимости от ряда факторов: от
синоптическои ситуации, до влияния западного переноса на все процессы перемещения. Так, к примеру,
ситуация с холодным вторжением, сопутствующая прохождению мезоциклонов далеко на юг по потоку
10
накладывает опечаток на дальность перемещения. Обратныи эффект имеет движение мезоциклонов по
западному потоку в направлении береговои линии. Однако говорить об исключительнои роли одного из
факторов невозможно в виду различных условий формирования и развития полярных мезоциклонов
с течением времени.
Для выбранного подхода, а именно нейросетевого, использовался набор данных SOMC [20], состоящий из 1735 траекторий мезоциклонов за четырехмесячный период (Июнь, Июль, Август, Сентябрь)
2004 года [4] (Рис.7). Данный набор данных был разработан при помощи визуальной идентификаии и
построения траекторий 976 спутниковых мозаик (IR 10.3-11.3 микрон; WV 6.7 микрон) с временным
разрешением в 3 часа и пространственным в 5 километров, которые были предоставлены Антарктическим метеорогическим исследовательским центром (AMRC). Каждая мозаика является композицией наблюдений геостационарных и полярно-орбитальных спутников (GOES East and West, Meteostat,
NOAA, METEOR, Aqua, Terra), которые были объединены в одну карту-мозаику. Набор данных SOMC
содержит широты и долготы центров мезоциклонов за каждый трехчасовой промежуток времени.
Для построения траекторий тропических циклонов использовались данные реанализов ERA5 [13]
за период с 1981 по 2017 года. Данный набор данных имел временное разрешение 1 час и пространственное разрешение 31 км. В каждый последовательный промежуток времени имелось поле давление
из которого вычленялись данные для обучения нейронной сети. Информация о траекториях тропических циклонах за период с 1981 по 2017 года содержалась в датасете IBTrACS (International Best Track
Archive for Climate Stewardship) [21] (Рис.6).
2.2
Методология
Существует два подхода для описания движения объектов в среде: подход Эйлера и подход Лагранжа. В первом мы интересуемся тем, что происходит в точках пространства, в которых/через которые
движется объект. Во втором важны только индивидуальные интересующие нас объекты(частицы) среды. Для решения задачи построения траекторий атмосферных явлений в данной работе использовался
подход Лагранжа, при котором нас не интересовала информация о среде(в данном случае параметры
характеризующие циклоны/мезоцилоны на синоптической карте/спутиковом изображении), а использовались данные полей давления или дистанционного зондирования в каждый момент времени. Стоит
также заметить, что в данном случае мы подразумеваем, что решена задача идентификации, что является по своей сути отдельным исследованием по выявлению и определению тех самых объектов,
для которых в дальнейшем должны быть построены траектории. В некоторых работах [22, 23] же
под задачей трекинга подразумевается именно одновременная идентификация и построение траектории для заданного движущегося объекта, что идет вразрез с нашей постановкой задачи, в которой
предполагается задача идентификации заведомо решенной.
Задачу построения траекторий циклонов/мезоциклонов в подходе Лагранжа можно переформулировать как задачу соотнесения объектов: в каждые последовательные промежутки времени сравнивать
11
признаковое описание объекта со всеми остальными в последущий момент времени пока не будет решена задача соотнесения или же не выяснится, что трек закончился. Для двух или более изображений
одной и той же сцены, взятых с разных ракурсов/в разные моменты времени, проблема соотнесения относится к задаче нахождения набора точек на одном изображении, которые можно идентифицировать
как одинаковые точки на другом изображении. Для этого точки или элементы на одном изображении
сопоставляются с соответствующими точками или элементами на другом изображении. Изображения
могут быть получены в различных ракурсах, в разное время. В рамках решения поставленной проблемы, а именно задачи соотнесения объектов в последовательные промежутки времени использовался
нейросетевой подход. Для этого она была переформулированна в терминах машинного обучения как
обучение метрики сходства. Для каждой входной пары (x1 , x2 ) изображений следует получить ответ:
являтся ли x2 продолжением x1 в последующий промежуток времени или нет?
В рамках решения задачи построения траекторий атмосферных объектов решались отдельно две
задачи: построение траекторий тропических циклонов и построение траекторий полярных мезоциклонов.
Тропические циклоны - это атмосферные явления синоптического масштаба, возникающие в тропических широтах над поверностью моря. Их отличительной особенностью является относительно
медленное движение, что позволяет идентифицировать их положение за два последовательных промежутка времени. За промежуток времени с 1985 по 2017 года было собрано признаковое описание
положений 2624 траекторий циклонов, которое было разбито на части, необходимые для обучения и
тестирования модели нейронной сети: 2203 объектов для обучения и 421 для тестирования финальной
модели [13].
Как было описано в разделе данных, используемая в настоящем исследовании база данных SOMC
собранная на базе визуальной идентификаии и трекинга 976 спутниковых мозаик, содержит информацию о 1735 траекториях мезоциклонов за четырехмесячный период (Июнь, Июль, Август, Сентябрь)
2004 года. Этот набор данных был разбит на части для обучения и тестирования модели: 1200 треков
для обучения, 200 для валидации и оставшиеся 336 для тестирования обученной модели.
В рамках подготовки исходных данных для алгоритмов построения траекторий был проведен разведочный анализ характеристик траекторий базы данных мезоциклонов. Проведенный анализ показывает, что в среднем время жизни мезоциклонов варьируется от 15 до 39 часов. Но также в исходном
наборе данных имеются относительно долгоживущие с временем жизни больше 60 часов (Рис.8).
Отличительной особенностью работы с данными в этом исследовании является разбиениенабора
данных траекторий на тренировочную и проверочную выборки не хаотично, а с учетом даты и времени
зарождения мезоциклонов, чтобы в дальнейшем тестировать модель на целом промежутке времени и
всех атмосферных явлений, которые в это время проиходили. Поэтому, говоря в терминах времени,
модель для построения траекторий тропических циклонов обучалась на данных за период времени с
1985 года по 2010 год и тестировалась на промежутке с 2010 года по 2017. В итоге полученная модель
12
700
80
600
70
500
60
50
400
40
300
30
200
20
100
0
(a)
10
0
250
500
750
1000
1250
1500
0
1750
0
15
30
(b)
45
( .)
60
Рис. 8: (a) Гистограмма диаметров мезоциклонов, которые использовались в данной работе(b) Гистограмма времен жизни мезоциклонов, которые использовались в данной работе
строит все треки, которые были за промежуток времени в 7 лет (2010-2017 гг.). Аналогично, модель
для построения треков полярных мезоциклонов обучалась на данных за промежуток времени с 200406-01 по 2004-08-23, ее гиперпараметры были оптимизированы, основываясь на данных в промежутке
с 2004-08-23 по 2004-09-06 и тестировалась на данных за промежуток с 2004-09-06 по 2004-09-30.
Как уже было упомянуто в разделе данных, исходные данные представляли из себя карты-мозаики
(для мезоциклонов) и поля давления (для тропических циклонов). Иными словами, имелась карта с отмеченными на ней траекториями атмосферных явлений. Данные траектории были построены/размечены вручную специалистами. Для того чтобы использовать нейросетевые структуры в терминах предлагаемой методологии необходимо каждую траекторию представить в виде композиции
изображений циклона/мезоциклона в последовательный промежутки времени согласно времени их
жизни. Для этого с исходной карты-мозаики/поля давления признаковое описание циклонов/мезоциклонов
вычленяется для формирования обучающей и тестовой выборки. В настоящем исследовании в качестве
признакового описания отдельных меток мезоциклонов/тропических циклонов принимается квадратный пространственно ограниченный участок спутниковых мозаик/поля давления, центрированный на
центре соответствующего мезоциклона/тропического циклона. В качестве пространственного ограничения был выбран размер области, гарантированно покрывающий любой мезоциклон/тропический
циклон из числа зарегистрированных в базе данных SOMC/реанализе ERA5. Таким образом, формирование признакового описания каждой из меток мезоциклонов/тропических циклонов происходит в
следующем порядке: (1) в спутниковой мозаике/поле давления ищется узел, ближайший к центру мезоциклона/тропического циклона с точки зрения географических координат; (2) признаковым описанием
метки мезоциклона/тропического циклона считается подвыборка узлов мозаики/поля давления, центрированная на найденном элементе и имеющая размеры 200 узлов по горизонтали и 200 узлов по
вертикали для мезоциклонов и 80 узлов по горизонтали и 80 узлов по вертикали для тропических
циклонов. Указанная процедура применяется для формирования частей признакового описания, соот-
13
ветствующих данным канала IR,канала WV, поля давления. Результирующее признаковое описание
данных мезоциклонов является двухканальным и имеет, таким образом, размеры 200 × 200 × 2. Результирующее признаковое описание данных тропических циклонов является одноканальным и имеет,
таким образом, размеры 80 × 80 × 1.
Рис. 9: Поле давления для работы с тропическими циклонам
Рис. 10: Карта-мозаика для работы с мезоциклонами
Для решения поставленной задачи использовался нейросетевой подход, а именно сверточные нейронные сети. Их использование в данном исследовании оправдывается наличием визуального признакого описания в качестве входных данных. Данная нейросетевая структура изначально была создана для
работы с визуальной репрезентацией данных и показала приемлимые результаты в терминах метрики
«точность» (Accuracy) для решения различного типа задач, включая задачу классификации полярных
мезоциклонов [24]:
14
Accuracy =
1 X
[ŷi = yi ],
||Ω||
(1)
Ω
где квадратные скобки использованы в смысле нотации Айверсона: значение обращается в единицу,
если выражение в скобках истинно, и ноль в противном случае; Ω обозначает полный набор данных,
на которых оценивается значение метрики Accuracy, ||Ω|| - количество объектов в этом наборе данных,
ŷi - ответ модели на i-ом объекте, yi - истинное значение целевой переменной на этом же объекте.
В текущем исследовании в качестве данных выступали двумерные геофизические поля (MSLP, IR,
микроволновой), что обосновывает применение моделей искусственных нейронных сетей, которые показали свою применимость для работы с пространственно распределенными данными [25, 26]. Говоря
в терминах машинного обучения, решается задача бинарной классификации, а именно, определение
одного из двух классов («1» или «0»), к которому может принадлежать входной объект, описываемый
двумя порциями исходных данных, взятыми с последовательных кадров по времени. В данной задаче
входными объектами были пары двумерных геофизических полей, и на выходе обученная модель выдавала вероятность принадлежности каждой пары к каждому классу (вероятность p для класса «1» и
1 − p для класса «0»). Нейронная сеть в процессе обучения минимизировала функцию потерь бинарной
кросс-энтропии, широко применяемую для решения подобных задач. Данная функция потерь имеет
вид [24]:
L = −(y log(p) + (1 − y) log(1 − p)),
(2)
где y - это истинное значение класса для входного объекта (в задаче бинарной классификации принимает значения либо 1, либо 0), а p - вероятность входного объекта принадлежать классу 1.
Следует отметить, что данное исследование решает задачу построения траекторий путем решения
двух отдельных подзадач: обучение нейронной сети решению вышеописанной задачи классификации и
построение траекторий циклонов и мезоциклонов с использованием обученной нейронной сети. Предположение о применимости подхода, базирующегося на использовании нейросетей, основывается на
том, что визуальное представление циклона/мезоциклона за два последовательных временных шага не изменяется достаточным образом. Поэтому имеет смысл обучить нейросеть, которая научится
«находить» мезоциклон в следующий момент времени для заданного.
В качестве признакового описания входных объектов нейросети выступали двумерные геофизические поля полярных мезоциклонов и тропических циклонов, также в качестве дополнительной информации для работы с мезоциклонами использовалась дистанция между ними. Изображения поступали
на вход нейросети в качестве пары изображений. В качестве ответов для обучения нейронной сети
выступали числа 0 и 1: 1 в том случае, если входная пара изображений состоит из двух последовательных изображений одного трека циклона или мезоциклона, а 0, если пара изображений состоит из двух
никак не связанных объектов.
Отличительной особенностью любой модели искусственной нейронной сети является необходимость
большого количества данных для обучения. Это необходимо для предотвращения проблемы пере15
обучения модели, при котором модель не способна уловить закономерность в данных и утрачивает
обощающую способность. В современных исследованиях, посвященных этой проблеме, предлагаются
различные способы [9, 27] для искусственного расширения обучающей выборки, заключающиеся в применении небольших деформаций к входному изображению и ведущие тем самым к созданию нового
изображения, на котором можно обучать нейросеть. В данном исследовании для обучения модели для
работы с мезоциклонами использовалась информация о 1200 траекториях. Средняя длина трека составляет 9 временных шагов, что дает оценку в 8400 изображений, которые имеются для обучения.
Этого недостаточно для обучения нейросети с высокой степенью выразительности, что обосновывает
использование подхода искусственного расширения обучающей выборки.
В качестве деформаций, которые применялись к каждому изображению были выбраны:
• Случайное
на угол в ±5.1 градусов. (Аффинное преобразование с матри вращение изображения
cosθ −sinθ
где θ ∈ [−5.1, 5.1] .)
цей A =
sinθ cosθ
• Случайное обрезание изображения на [0, 16] пикселей.
1
• Случайный сдвиг изображения. (Аффинное преобразование с матрицей A =
0
метр s отвечает за смещение исходного изображения и s ∈ [−1.1, 1.1] .)
s
1
где пара-
• Добавление гауссовского шума с параметрами µ = 0 и σ 2 = 3.0. (Генерируется массив размера
(200 × 200), где каждый элемент в массиве является выборкой из гауссовского распределения с
µ = 0 и с σ 2 = 3.0. Затем для каждого канала исходного изображения размера (200 × 200 × 2) I
получаем изображение с шумом, I’= I + N.)
После применения данной процедуры исходная обучающая выборка значительно увеличилась в
размерах; к тестовой выборке данная прецедура применена не была (Таб.1,2,3).
Таблица 1: Количество изображений мезоциклонов, использовавшися для обучения сети
Обучение
Валидация
Тестирование
IR
6213 (68%)
1101 (12%)
1849 (20%)
WV
6213 (68%)
1101 (12%)
1849 (20%)
Всего
9163 (100%)
9163 (100%)
Построенная и обученная нейросеть решает задачу обучения метрики [28, 29], которая формально
не является задачей построения траекторий. Поэтому, после процесса обучения нейросети необходимо
построить треки мезоциклонов, используя полученную нейросеть, а затем сравнить их с уже имеющимися на тестовом промежутке времени.
Процесс построения треков заключался в следующем: в момент времени t имеются тропические
циклоны/мезоциклоны; поочередно выбирается каждый объект и сравнивается с каждым имеющимся
16
Таблица 2: Количество пар изображений мезоциклонов, использовавшися для обучения сети
Обучение
Валидация
Тестирование
IR
10023 (68%)
1802 (12%)
3025 (20%)
WV
10023 (68%)
1802 (12%)
3025 (20%)
Всего
14850 (100%)
14850 (100%)
Таблица 3: Количество пар изображений мезоциклонов, использовавшися для обучения сети после
применения процедуры искусственного увеличения данных
Обучение
Валидация
Тестирование
IR
200460 (97%)
1802 (0.8%)
3025 (1.2%)
WV
200460 (97%)
1802 (0.8%)
3025 (1.2%)
Всего
205287 (100%)
205287 (100%)
объектом в момент времени t+1, используя обученную нейросеть, которая возвращает вероятность двух
объектов принадлежать одному треку; после сравнения исходного объекта в момент t со всеми объектами в момент t + 1 в трек добавляется объект с наибольшей вероятностью быть частью трека исходного
объекта. Если же такого объекта не было, то построение трека для выбранного циклона/мезоциклона
завершается. Такая процедура повторяется для всех ихображений на тестовом промежутке времени
(см. Algorithm 1).
Algorithm 1 Алгоритм построения траекторий
1:
for t для всех тестовых промежутков времени do
if объект не принадлежит какой-либо траектории then
2:
новая траектория ← объект
3:
else
4:
for для всех объектов в t + 1 do
5:
существующая траектория ← объект с максимальной вероятностью
6:
if Для существующей траектории нет объекта then
7:
существующая траектория ← конец
8:
2.3
Оценка качества моделей построения траекторий атмосферных явлений
Существует несколько способов оценки качества построенной модели построения траекторий, при
условии наличия экспертной разметки треков, считающейся верной за определенный промежуток времени. Один из них - это «метрический» метод, заключающийся в сравнении результатов по заранее
предопределенной метрике, подходящей для задачи. Другой - сравнение распределений характеристик жизненного цикла атмосферных явлений, получаемых в варианте автоматического построения
17
траекторий и на наборе траекторий, построенных экспертом. Каждый из этих способов оценки качества построения траекторий имеет свои недостатки: отдельная величина посчитанной метрики MOTA
(eng. Multiple Object Tracking Accuracy)[22] не говорит ничего том, какое распределение характеристик
жизненного цикла атмосферных явлений построила модель; сравнение распределений характеристик
жизненного цикла атмосферных явлений же не является универсальным методом проверки качества
трекинга, посколько построенная модель может искусственно создать распределение аналогичное истинному распределение характеристик жизненного цикла атмосферных явлений, но состоящее из совершенно неверных объектов. Например, если трек будет составляться из кусков настоящих треков, и
при этом распределение времени жизни будет совпадать с эмпирическим, то такое сравнение распределений покажет, что метод в таком случае работает верно, хотя на самом деле каждый составленный
трек не будет иметь ничего общего с эмпирическим кроме общей времени жизни. Поэтому, для полного понимания качества работы моделей трекинга необходимо сравнивать не только значение метрики
(MOTA в данной работе), но и сами распределения характеристик жизненного цикла.
Метрикой оценки качества работы нейронной сети в данной работе являлась доля правильных ответов, которая не могла быть также использована в качестве целевой метрики для оценки качества
работы трекинга, так как, к примеру, если одна модель построит трек, который будет от построенного экспертом отличаться только одним значеним, то он будет считаться неверным предсказанием
(Accuracy = 0). Другой трек, построенный этой же самой моделью предскажет только единственное
верное значение - также ошибется (Accuracy = 0). Таким образом, при использовании метрики Accuracy
в качестве метрики для оценки качества построения траекторий теряется способность отличать «хороший» трек (близкий к построенному экспертом) от «плохого» (трека неудовлетворительного качества,
который составлен из меток разных экспертных треков) (Рис.11). Поэтому использование метрики
«доля правильных ответов» в качестве целевой метрики в данном исследовании не представляется целесообразным. Важно учитывать количество пропущенных меток, количество переключений на другие
траектории, количество ложных срабатываний, - которые Accuracy не учитывает в силу своей локальности в пределах одной пары временных кадров.
В качестве метрики качества, полученной модели трекинга была использована метрика MOTA:
M OT A = 1 − (m + f p + mme)
где m =
P
m
Pt t
t gt
(3)
отношение числа пропусков к длине сравниваемой последовательности (построенной
P
fp
экспертом), f p = Pt gtt отношение числа ложных срабатываний к длине сравниваемой последовательP t
t mmet
ности и mme = P
отношение числа несовпадений к длине сравниваемой последовательности.
t gt
Область значений данной метрики принадлежит лучу (−∞; 1]: максимальное значение которой достигается в случае отсутствия пропусков, ложных срабатываний и несовпадений. Отсутствие нижней
границы у данной метрики обосновыется тем, что построенный трек может иметь бесконечную длину(в
случае отсутствия какого бы то ни было правила прерывания трека) и иметь бесконечное количество
18
(a)
(b)
Рис. 11: (a) Пример трека, построенного моделью, который имеет только одно не совпадение с экспертным (зеленый цвет). (b) Пример трека, построенного моделью, который имеет только одно совпадение
с экспертным.
пропусков, ложных срабатываний и несовпадений (Рис. 12).
Рис. 12: Метрика качества, используемая в данном исследовании; синий круг - верная отметка для
данного трека, зеленая - ложная отметка для данного трека.
Важной особенностью метрики MOTA является способ ее вычисления. Для каждого построенного моделью трека ищутся временные пересечения с треками, построенными экспертом, и только эти
экпертные треки испульзуются для подсчета конечного значения метрики для построенного моделью
трека. Такая процедура повторяется для всех построенных моделью траекторий, и потом результаты
усредняются.
2.4
Модель с произвольным правилом сопоставления
Самой простой и базовой моделью построения траекторий является модель (Random Mesocyclones/
Random Tropical Cyclones), которая пользуется тривиальным правилом построения траектории для
выбранного объекта: из всех объектов на следующем кадре для сопоставления выбирается произвольный. Метрика качества такой модели считается наихудшей, а сама модель - наиболее примитивной в
рамках описанного подхода. Такая модель либо строит траекторию для выбранного объекта до бесконечности, либо с какой-то предустановленной вероятностью останавливает построение. Данный метод
19
может использоваться в качестве начальной модели, относительно которой будут сравниваться все
остальные, так как он является быстрым и простым в реализации.
2.5
Модель, базирующаяся на нейросетевом подходе
В качестве модели нейронной сети использовалась Сиамская нейронная сеть [30], которая учится
идентифицировать входные пары и возвращать вероятность того, что два визуальных представления отражают один и тот же объект реального мира. Данная модель показала высокие результаты в
задачах построения траекторий движения визуальных объектов [31, 32]. Эта сеть не учится классифицировать изображение напрямую, скорее, она изучает функцию сходства. Функция потерь для такой
модели сети имеет вид:
L(x1 , x2 ) = −(y(x1 , x2 ) log(p(x1 , x2 )) + (1 − y(x1 , x2 )) log(1 − p(x1 , x2 ))),
(4)
где (x1 , x2 ) - такая пара входных изображений, что y(x1 , x2 ) = 1, если x1 и x2 - два визуальных
представления, которые отражают один и тот же объект реального мира и y(x1 , x2 ) = 0 в противном
случае.
Другой отличительной особенностью Сиамской сети является наличие слоя, который подсчитывает расстояние между двумя векторами, которые получаются после прохождения сверточных частей
нейронной сети (см. на Рис. 13 Подсчет метрики L1 ). Применение такого слоя может считаться регуляризацией уровня архитектуры нейросети, который позволяет ускорить и облегчить процесс обучения.
В настоящем исследовании в процессе обучения такая модель сверточных искусственных нейронных
сетей выучивается определять принадлежность двух входных ихображений одному треку. В качестве
двух входных векторов использовались два изображения циклона/мезоциклона в два последовательных промежутка времени (модель MCNN). Помимо визуальной информации использовалась также
информация о расстоянии между двумя входными изображениями мезоциклонов на карте-мозаике
(модель MCNNd).
2.6
Предобработка данных мезоциклонов
Как описано в разделе 2.1, для работы с данными мезоциклонов использовался набор данных
SOMC, состоящий из 1735 траекторий мезоциклонов за четырехмесячный период (Июнь, Июль, Август,
Сентябрь) 2004 года. Этот набор данных и был использован для формирования признакового описания,
описанного в разделе методологии. Каждая карта-мозаика представляла из себя композицую изображений из двух спутниковых каналов(инфракрасного и водяного пара), которые были объединены для
отображения участка поверхности Земли с наблюдаемыми на нем атмосферными явлениями. Для создания данных, которые будут непосредственно использоваться для обучения сиамской сети, описанной
в разделе методологии, каждый трек нужно было объединить в совокупность последовательных изоб-
20
(a)
(b)
Рис. 13: (a) Структура Сиамской сети, использующая только изображения мезоциклонов (b) Структура Сиамской сети, использующая дополнительно информацию о дистанциях между мезоциклонами
ражений самих мезоциклонов, согласно времени их существования. В процессе процедуры вырезания
мезоциклонов необходимо было обрабатывать изображения, находящиеся на границе карты. Для этого
к вырезанному изображению искусственно добавлялся вектор константных значений для того, чтобы
все изображения имели одинаковый размер 200 × 200 (Рис. 15).
(a)
(b)
Рис. 14: (a) Пример изображения мезоциклона из инфракрасного канала (b) Пример изображения
мезоциклона из микроволнового канала
21
(a)
(b)
Рис. 15: (a)Пример изображения мезоциклона из инфракрасного канала с нормализованным значением
яркости согласно формуле (5), который непосредственно использовался для обучения сети (b) Пример
изображения мезоциклона из инфракрасного канала, который был взят с границы мозаики
После формирования признакового описания меток мезоциклонов из мозаик к полученным изображениям была применена технология искусственного дополнения выборки, описанная в разделе методологии, и процедура нормализации по максимальному и минимальному значению, согласно формуле:
Xnorm =
X − Xmin
.,
Xmax − Xmin
(5)
где Xmin , Xmax - минимальное и максимальное значения радиояркостной температуры; Xmin =
230.0 К, Xmax = 330.0 К.
Пара изображений с меткой класса 1
Рис. 16: Пример пары изображений мезоциклонов из микроволнового канала с нормализованным
значением яркости, которые непосредственно использовались для обучения сети
В итоге, после проделанных выше преобразований каждый трек представлял из себя группу изобра-
22
Пара изображений с меткой класса 0
Рис. 17: Пример пары изображений мезоциклонов из микроволнового канала с нормализованным
значением яркости, которые непосредственно использовались для обучения сети
жений, подверженных искусственным искажениям и не модифицированных изображений. Количество
изображений для одного трека равно длительности жизни мезоциклона помноженное на величину
количества изображений, полученных в результате искусственного расширения выборки. Например,
если мезоциклон существовал 12 часов (4 шага по времени), и количество искусственно созданных
изображений было установлено в 20, то для данного трека мезоциклона будет создан массив из 4 × 20
изображений. Далее, из каждого трека формировался непосредственно набор данных для обучения и
тестирования нейросети, согласно формулировке задачи о соответствиях в терминах машинного обучения, приведенной в разделе методологии. В связи с этим были реализованы генераторы данных,
которые возвращали пары изображений, информацию о дистанции между мезоциклонами для каждой
из пар и метку класса. После генерации данных баланс классов на тренировочной и валидационной
выборках был равен 0.5, что позволяет использовать «Accuracy» в качестве метрики для проверки
качества работы обученной нейросети в задаче бинарной классификации.
2.7
Предобработка данных тропических циклонов
Как описано в разделе 2.1, для работы с данными тропических циклонов использовались данные реанализа ERA5 за период с 1981 по 2017 года. Этот набор данных и был использован для формирования
признакового описания, описанного в разделе методологии. Признаковое описание каждой метки тропического циклона представляет собой участок поля атмосферного давления на уровне моря (MSLP),
покрывающий, совмещенный с положением соответствующего циклона. Признаковое описание треков
тропических циклонов формировалось по аналогии с предобработкой данных мезоциклонов согласно
времени существования каждого из треков. После выполнения данной процедуры получались признаковое описание циклонов размера 80 × 80 которые непосредственно и использовались для обучения
23
нейронной сети (Рис. 18).
(a)
Рис. 18: Пример ненормализованного изображения тропического циклона
После формирования признакового описания тропических циклонов к нему было применено преобразование нормализации по максимальному и минимальному значению, описанная в разделе методологии, согласно формуле:
Xnorm =
X − Xmin
,
Xmax − Xmin
(6)
где Xmin = 92353 Па, Xmax = 105111 Па
Пара изображений с меткой класса 1
(a)
(b)
Рис. 19: Пример пары изображений тропических циклонов с нормализованным значением яркости,
которые непосредственно использовались для обучения сети
После проделанных выше преобразований каждый трек тропического циклона представлял из себя
группу величин, состоящих из признаковых описаний циклона в каждый из последовательно идущих
моментов времени. Далее, из каждой полученной траектории формировался непосредственно набор
24
Пара изображений с меткой класса 0
(a)
(b)
Рис. 20: Пример пары изображений тропических циклонов с нормализованным значением яркости,
которые непосредственно использовались для обучения сети
Таблица 4: Количество изображений тропических циклонов, использовавшися для обучения сети
Обучение
SLP
145734 (85%)
Тестирование
26443 (15%)
Всего
172177 (100%)
Таблица 5: Количество пар изображений тропических циклонов, использовавшися для обучения сети
Обучение
SLP
222799 (87%)
Тестирование
33340 (13%)
Всего
256139 (100%)
данных для обучения и тестирования нейросети исходя из следующего предположения: для каждой
пары входных изображений ставится в соответсвие целевая метка класса 1 или 0, отвечающая за то,
является ли одно из признаковых описаний продолжением второго в последующий момент времени
или нет: класс 1, если является продолжением, класс 0, если нет. В связи с этим были реализованы
генераторы данных, которые возвращали пары признаковых описаний тропических циклонов, а также
метку класса. После генерации данных баланс классов на тренировочной и валидационной выборках
был равен 0.5, что позволяет использовать «доля верных ответов» в качестве метрики для проверки
качества работы обученной неросети в задаче бинарной классификации.
3
Реализация и оптимизация предложенных моделей
Для реализации всех преобразований и обучений моделей, описанных в разделе методологии иссле-
дования, использовался язык программирования Python [33, 34], а также специализированные пакеты
25
для создания программных реализаций нейросетей: Keras [35] и Tensoflow[19, 36] и искусственного
увеличения обучеющей выборки - imgaug [37].
3.1
Нейронная сеть для работы с данными мезоциклонов
В разделе методологии прдставлены структуры Сиамских сети, использовавшихся в данном исследовании для построения траекторий полярных мезоциклонов (MCNN и MCNNd). Cтруктура сверточной части обеих сетей может быть представлена в виде следующей последовательности слоев::
S1 →
− S2 →
− S3 →
− S4 →
− ... →
− S12 . Конфиугурации слоёв представлены ниже:
• S1 . 32 сверточных фильтра размером (3, 3) и смещением равным 1.
• S2 . 32 сверточных фильтра размером (3, 3) и смещением равным 1.
• S3 . 32 сверточных фильтра размером (3, 3) и смещением равным 2.
• S4 . 64 сверточных фильтра размером (3, 3) и смещением равным 1.
• S5 . 64 сверточных фильтра размером (3, 3) и смещением равным 1.
• S6 . 64 сверточных фильтра размером (3, 3) и смещением равным 2.
• S7 . 128 сверточных фильтра размером (3, 3) и смещением равным 1.
• S8 . 128 сверточных фильтра размером (3, 3) и смещением равным 1.
• S9 . 128 сверточных фильтра размером (3, 3) и смещением равным 2.
• S10 . 256 сверточных фильтра размером (3, 3) и смещением равным 1.
• S11 . 256 сверточных фильтра размером (3, 3) и смещением равным 1.
• S12 . 256 сверточных фильтра размером (3, 3) и смещением равным 2.
Обе ветви Сиамской сети имеют одинаковую структуру и последовательность сверточных слоев
для сохранения идентичности приобразований, применяемых к признаковому описанию обеих меток
входного примера. После прохождения вышеизложенной последовательности сверточных изображения
преобразовывались в вектора и проходили через полносвязную сеть, состоящую из трех последовательных слоев с размерами 1024, 512, 224 и активацией ReLU [38, 39]. Результатом преобразования
признаковых описаний сиамской сетью являются векторы скрытых представлений примеров, входной
пары. Архитектуры обеих ветвей сети идентичны друг другу, поэтому размерности векторов скрытых
представлений также идентичны. В качестве архитектурной регуляризации между этими векторами
вычисляется абслютное значение покоординатной разности, которое далее является входным вектором
для нейросетевой классификационной части сиамской сети. В случае варианта нейросети MCNNd, учитывающей дистанцию, вектор, полученный на предыдущем шаге совмещается с этой информацией о
26
дистанции между мезоциклонами, представленный в виде вектора размера 30. Этот вектор подается
на вход трех последовательно применяемых полносвязных слоев, содержащих соответственно 254, 128
и 16 нейронов с функцией активации ReLU [38, 39]. Слой выходных данных содержит один нейрон с
сигмоидальной функцией активации [39], которая интерпретируется как вероятность p отнесения примеров входной пары к одному объекту реального мира в последовательные моменты времени. Всего
модель MCNNd имеет 46998431 обучаемых параметра, которые настраивались в процессе оптимизации.
Ее программная реализация, а именно структура обучаемых слоев может быть представлена в виде:
(a)
Рис. 21: Структура MCNNd
Для оптимизации предложенной модели использовался оптимизатор Adam [40] с шагом обучения
в 0.00001. Нейронная сеть обучалась 80 эпох. Здесь под эпохой понимается количество итераций оптимизации матрицы весов нейронной сети равное размеру размеру обучающей выборки. В данном
исследовании при обработке данных полярных мезоциклонов одна эпоха состояла из 12426 итераций оптимизации матрицы весов. На рис. 22 приведена история обучения сети в отношении значения
функции потерь на тренировочной и тестовой выборках. Функция потерь на тренировочной выборке
монотонно снижается по мере обучения. Значения функции потерь на тестовой выборке несущественно
расходятся со значениями функции потерь на тренировочной выборке, из чего можно сделать вывод,
что модель нейронной сети обучилась, т.е. достигла локального минимума:
Модель MCNN имеет абсолютно такую же структуру как и модель MCNNd, за исключением того,
что информация о дистанции между мезоциклонами не используется, и последние полносвязные слои
имеют размеры 128 и 16 с функцией активации ReLU [38, 39]. Всего модель MCNN имеет 46929761
27
(a)
Рис. 22: Функция потерь MCNNd
обучаемых параметра, которые настраивались в процессе оптимизации.
Ее программная реализация, а именно структура обучаемых слоев может быть представлена в виде:
(a)
Рис. 23: Структура MCNN
Для дальнейшей оптимизации предложенной структуры использовался оптимизатор Adam [40] с
шагом обучения в 0.00001. Нейронная сеть обучалась 300 эпох. Здесь под эпохой понимается количество
итераций оптимизации матрицы весов нейронной сети равное размеру размеру обучающей выборки. В
данном исследовании при обработке данных полярных мезоциклонов одна эпоха состояла из 12426 итераций оптимизации матрицы весов. На рис. 24 приведена история обучения сети в отношении значения
функции потерь на тренировочной и тестовой выборках. Функция потерь на тренировочной выборке
монотонно снижается по мере обучения. Значения функции потерь на тестовой выборке несущественно
28
расходятся со значениями функции потерь на тренировочной выборке, из чего можно сделать вывод,
что модель нейронной сети обучилась, т.е. достигла локального минимума:
(a)
Рис. 24: Функция потерь MCNN
3.2
Нейронная сеть для работы с данными тропических циклонов
Сверточная часть Сиамской сети для обработки данных тропических циклонов имела структуру
аналогичную сверточной части модели MCNN, описанной выше. После прохождения вышеизложенной
последовательности сверточных изображения вытягивались в вектора и проходили через полносвязную сеть, состоящую из трех последовательных слоев с размерами 2048, 1024, 512 и активацией ReLu.
Результатом преобразования обоих ветвей сиамской сети являются векторы скрытых представлений
примеров, входной пары. Архитектуры обеих ветвей сети идентичны друг другу, поэтому размерности векторов скрытых представлений также идентичны. В качестве архитектурной регуляризации
между этими векторами вычисляется абслютное значение покоординатной разности, которое далее
является входным вектором для нейросетевой классификационной части сиамской сети. Эта часть состоит из двух последовательно применяемых полносвязных слоев, содержащих соответственно 128 и
16 нейронов с функцией активации ReLU [38, 39]. Слой выходных данных содержит один нейрон с
сигмоидальной функцией активации [39], которая интерпретируется как вероятность p отнесения примеров входной пары к одному объекту реального мира в последовательные моменты времени. Всего
модель(TCNN) имела 17755489 обучаемых параметра, которые настраивались в процессе оптимизации.Программная реализация нейронной сети для работы с данными тропических циклонов (TCNN)
имеет вид:
Для дальнейшей оптимизации предложенной структуры использовался оптимизатор Adam [40] с
29
(a)
Рис. 25: Структура TCNN
шагом обучения в 0.00001. Нейронная сеть обучалась 13 эпох. Здесь под эпохой понимается количество
итераций оптимизации матрицы весов нейронной сети равное размеру размеру обучающей выборки. В
данном исследовании при обработке данных полярных мезоциклонов одна эпоха состояла из 291468 итераций оптимизации матрицы весов. На рис. 26 приведена история обучения сети в отношении значения
функции потерь на тренировочной и тестовой выборках. Функция потерь на тренировочной выборке
монотонно снижается по мере обучения. Значения функции потерь на тестовой выборке несущественно
расходятся со значениями функции потерь на тренировочной выборке, из чего можно сделать вывод,
что модель нейронной сети обучилась, т.е. достигла локального минимума:
(a)
Рис. 26: Функция потерь TCNN
30
4
Результаты
Модели, подробно описанные в разделах методологии и реализации, тестировались на отложенных
выборках, полученных согласно правилу, описанному в разделе методологии (Таб. 6), где MOTA метрика качества модели построения траекторий, а Accuracy - метрика качества работы обученной
нейросети.
Таблица 6: Сводная таблица об обученных моделях для построения траекторий полярных мезоциклонов и тропических циклонов
В качестве оценки качества работы предложенных моделей (для обработки данных мезоциклонов
MCNN, MCNNd, Random Mesocyclones) для построения траекторий также использовался метод сравнения распределений характеристик жизненного цикла атмосферных явлений (описанный в разделе
методологии), получаемых в варианте автоматического построения траекторий и на наборе траекторий, построенных экспертом (Рис. 27,28,29). Видно, что модель Random Mesocyclones показывает
низкое качество с точки зрения метрики МОТА. Также видно, что модель строит распределение климатологией характеристик жизненного цикла мезоциклонов далекое от построенного экспертом, выражающееся в большм количестве построенных траекторий мезоциклонов с временем жизни 240 часов,
что существенно отличается от результатов, известных из литературы [4]. Из рис.28 видно, что модель
модель MCNN строит много коротких траекторий (с временем жизни менее 10 часов). Только модель
MCNNd воспроизводит распределение близкое к экспертному (Рис. 27). В качестве метода для проверки близости двух распределений характеристик жизненного цикла, получаемых в варианте автоматического построения траекторий моделью MCNNd и на наборе траекторий, построенных экспертом,
использовался непараметрический ранговый критерий Манна-Уитни, [41] а который проверяет гипотезу насколько значительно две выборки отличаются друг от друга. Значение p-статистики получилось
31
равным 0.0001, поэтому на уровне доверия 0.05 гипотеза о том что две выборки имеют одинаковое
распределение отвергается. Однако, при визуальном сравнении распределений можно заметить, что
они не отличаются в значительной степени.
MCNNd
80
250
70
200
60
50
150
40
100
30
20
50
10
0
0
15
30
(a)
45
( .)
0
60
0
15
30
45
(b)
60
( .)
Рис. 27: (a) Распределение времени жизни мезоциклонов на тестовой выборке, построенное экспертом
(b) Распределение времени жизни мезоциклонов на тестовой выборке, полученное с использованием
модели MCNNd
MCNN
80
600
70
500
60
50
400
40
300
30
200
20
100
10
0
0
(a)
15
30
45
( .)
0
60
(b)
0
15
30
( .)
45
60
Рис. 28: (a) Распределение времени жизни мезоциклонов на тестовой выборке, построенное экспертом
(b) Распределение времени жизни мезоциклонов на тестовой выборке, полученное с использованием
модели MCNN
32
Random Mesocyclones
100
80
70
80
60
50
60
40
40
30
20
20
10
0
0
(a)
15
30
45
( .)
0
60
(b)
0
30
60
90
120
150
( .)
180
210
240
Рис. 29: (a) Распределение времени жизни мезоциклонов на тестовой выборке, построенное экспертом
(b) Распределение времени жизни мезоциклонов на тестовой выборке, полученное с использованием
модели Random Mesocyclones. Диаграммы приведены в разных масштабах по оси абсцисс для удобства
восприятия
MCNNd
Рис. 30: Пример трека, который можно считать близким к экспертному, построенного моделью MCNNd
в сравнении с построенным экспертом
33
MCNNd
Рис. 31: Пример трека неудовлетворительного качества, который составлен из меток разных экспертных треков вследствие явления переключения, построенного моделью MCNNd в сравнении с построенным экспертом
MCNN
Рис. 32: Пример трека, который можно считать близким к экспертному, построенного моделью MCNN
в сравнении с построенным экспертом
34
MCNN
Рис. 33: Пример трека неудовлетворительного качества, который составлен из меток разных экспертных треков вследствие явления переключения, построенного моделью MCNN в сравнении с построенным экспертом
Random Mesocyclones
Рис. 34: Пример трека, построенного моделью Random Mesocyclones в сравнении с построенными экспертом
35
TCNN
1000
100
800
80
60
600
40
400
20
200
0
0
50
100
(a)
( .)
150
0
200
0
50
100
150
( .)
(b)
200
250
Рис. 35: (a) Распределение времени жизни тропических циклонов на тестовой выборке, построенное
экспертом (b) Распределение времени жизни тропических циклонов на тестовой выборке, полученное с использованием модели TCNN. Диаграммы приведены в разных масштабах по оси абсцисс для
удобства восприятия
Random Tropical Cyclones
8000
100
7000
80
6000
5000
60
4000
40
3000
2000
20
0
(a)
1000
0
50
100
( .)
150
0
200
(b)
0
25
50
75
100
125
( .)
150
175
200
Рис. 36: (a) Распределение времени жизни тропических циклонов на тестовой выборке, построенное
экспертом (b) Распределение времени жизни тропических циклонов на тестовой выборке, полученное
с использованием модели Random Tropical Cyclones
36
TCNN
Рис. 37: Пример трека, который можно считать близким к экспертному, построенного моделью TCNN
в сравнении с построенным экспертом
37
TCNN
Рис. 38: Пример трека неудовлетворительного качества, который составлен из меток разных экспертных треков вследствие явления переключения, построенного моделью TCNN в сравнении с построенным экспертом
38
Random Tropical Cyclones
Рис. 39: Пример трека, построенного моделью Random Tropical Cyclones в сравнении с построенными
экспертом
39
5
Заключение
В представленной работе предложен метод постороения траекторий атмосферных явлений. Работа
предложенного метода не зависит от характера движения объектов и отличает его от существующих
ныне [3, 17], что позволяет говорить о достижении цели данного исследования. Впервые приводится
оценка качества построения траекторий с использованием метрики MOTA, позволяющая количественно оценивать качество построения траекторий в различных подходах.
В рамках решения поставленной задачи были реализованы несколько архитектур искусственных
нейронных сетей, решающих задачу о назначениях для подбора оптимальной метки на последующих
кадрах мезоциклонов. С точки зрения предложенной метрики качества MOTA реализованный нейросетевой подход оказался лучше. Лучший результат показала структура MCNNd, использующая не
только признаковое описание, сформированное на базе карт-мозаик, полученных с помощью дистанционного зонтирования,но и информацию о расстоянии между метками. Достигаемый результат для
данной структуры в терминах MOTA составляет 0.32 ± 0.04, что значительно превышает качество модели (Random Mesocyclones) в терминах той же метрики качества, используемой в качестве бейзлайна.
Характерные значения метрики MOTA, достигаемые в задаче построения траекторий [23] варьируются
от 0.59 до 0.69, что позволяет говорить о применимости предложенного подхода для решения задачи
построения траекторий.
Предложенный подход был применен для построения траекторий как полярных мезоциклонов, так
и тропических циклонов. Визуальный анализ полученных результатов позволяет говорить, что реализованный подход имеет место быть и может быть применен для построения траекторий других
атмосферных явлений. В задаче построения траекторий мезоциклонов для лучшей модели MCNNd
был проведен анализ соответствия распределения характеристики жизненного цикла - времени жизни
мезоциклона. Статистическое сравнение распределений хоть и не показало значимость полученных результатов, но визуальный анализ полученных распределений позволяет говорить о том, что применная
модели строит распределение близкое к построенному экспертом. Поэтому можно говорить о потенциальном продолжении развития предложенного подхода, а именно в улучшении работы нейросети,
которая решает задачу сопоставления меток.
Очевидное превосходство модели MCNNd над моделью MCNN позволяет говорить, что информация
о расстоянии между метками на последовательных шагах является ключевым признаком в работе с
данными мезоциклонов для построения их траекторий. Но, также следует заметить, что при работе с
другими атмосферными объектами, такими как вихри в океане, признак дистанции может оказаться
не таким информационно значимым.
40
Список литературы
[1] Zolina O, Gulev SK.
Improving the Accuracy of Mapping Cyclone Numbers and Frequencies.
Monthly Weather Review. 2002 Mar;130(3):748–759.
Society.
Publisher: American Meteorological
Available from: https://journals.ametsoc.org/doi/full/10.1175/1520-0493%282002%
29130%3C0748%3AITAOMC%3E2.0.CO%3B2.
[2] Salari V, Sethi IK. Feature Point Correspondence in the Presence of Occlusion. IEEE Transactions on
Pattern Analysis and Machine Intelligence. 1990 Jan;12(1):87–91. Available from: https://doi.org/
10.1109/34.41387.
[3] Hodges KI.
A General Method for Tracking Analysis and Its Application to Meteorological
Data. Monthly Weather Review. 1994 Nov;122(11):2573–2586. Publisher: American Meteorological
Society.
Available from: https://journals.ametsoc.org/doi/abs/10.1175/1520-0493%281994%
29122%3C2573%3AAGMFTA%3E2.0.CO%3B2.
[4] Verezemskaya P, Tilinina N, Gulev S, Renfrew IA, Lazzara M. Southern Ocean mesocyclones and polar
lows from manually tracked satellite mosaics: Mesocyclones Over the Southern Ocean. Geophysical
Research Letters. 2017 Aug;44(15):7985–7993.
Available from: http://doi.wiley.com/10.1002/
2017GL074053.
[5] Rasmussen E.
A case study of a polar low development over the Barents Sea.
Tellus A.
1985 Oct;37A(5):407–418. Available from: http://tellusa.net/index.php/tellusa/article/view/
11685.
[6] Del Valle A, Elliott RJR, Strobl E, Tong M. The Short-Term Economic Impact of Tropical Cyclones:
Satellite Evidence from Guangdong Province.
Economics of Disasters and Climate Change. 2018
Oct;2(3):225–235. Available from: https://doi.org/10.1007/s41885-018-0028-3.
[7] Gulev SK, Zolina O, Grigoriev S. Extratropical cyclone variability in the Northern Hemisphere winter
from the NCEP/NCAR reanalysis data. Climate Dynamics. 2001 Jul;17(10):795–809. Available from:
http://link.springer.com/10.1007/s003820000145.
[8] Kalnay E, Kanamitsu M, Kistler R, Collins W, Deaven D, Gandin L, et al. The NCEP/NCAR 40-Year
Reanalysis Project. Bulletin of the American Meteorological Society. 1996 Mar;77:437–472. Available
from: http://adsabs.harvard.edu/abs/1996BAMS...77..437K.
[9] Mudigonda M, Kim S, Mahesh A, Kahou S, Kashinath K, Williams D, et al. Segmenting and Tracking
Extreme Climate Events using Neural Networks;p. 5.
[10] Neale RB, Gettelman A, Park S, Chen CC, Lauritzen PH, Williamson DL, et al. Description of the
NCAR Community Atmosphere Model (CAM 5.0);p. 289.
41
[11] Hochreiter S, Schmidhuber J. Long Short-Term Memory. Neural Computation. 1997 Nov;9(8):1735–
1780. Available from: https://doi.org/10.1162/neco.1997.9.8.1735.
[12] Review: DenseNet — Dense Convolutional Network (Image Classification);. Available from: https:
//towardsdatascience.com/review-densenet-image-classification-b6631a8ef803.
[13] Guillory A. ERA5 [Text]; 2017. Library Catalog: www.ecmwf.int. Available from: https://www.ecmwf.
int/en/forecasts/datasets/reanalysis-datasets/era5.
[14] ERA40 | NCAR - Climate Data Guide;.
Available from: https://climatedataguide.ucar.edu/
climate-data/era40.
[15] Data and Imagery – AMRC / AWS;. Available from: https://amrc.ssec.wisc.edu/data/.
[16] Núñez Ocasio KM, Evans JL, Young GS. Tracking Mesoscale Convective Systems that are Potential
Candidates for Tropical Cyclogenesis. Monthly Weather Review. 2019 Dec;148(2):655–669. Publisher:
American Meteorological Society. Available from: https://journals.ametsoc.org/doi/abs/10.1175/
MWR-D-19-0070.1.
[17] Xia L, Zahn M, Hodges K, Feser F, Storch H. A comparison of two identification and tracking methods
for polar lows. Tellus A: Dynamic Meteorology and Oceanography. 2012 Dec;64(1):17196. Publisher:
Taylor & Francis _eprint: https://doi.org/10.3402/tellusa.v64i0.17196. Available from: https://doi.
org/10.3402/tellusa.v64i0.17196.
[18] Blechschmidt
from
satellite
AM.
remote
A
2-year
sensing.
climatology
of
Geophysical
polar
low
Research
events
Letters.
over
the
Nordic
2008;35(9).
https://agupubs.onlinelibrary.wiley.com/doi/pdf/10.1029/2008GL033706.
Available
Seas
_eprint:
from:
https://agupubs.onlinelibrary.wiley.com/doi/abs/10.1029/2008GL033706.
[19] ИВАН Термодинамические характеристики интенсивных полярных мезоциклонов над морями
Северной Атлантики по данным спутниковых наблюдений и реанализа ERA5;.
[20] Satellite-based reference dataset of the Southern Ocean mesocyclone tracks for winter 2004;. Available
from: https://sail.ocean.ru/antarctica/.
[21] Information (NCEI) NCfE. International Best Track Archive for Climate Stewardship (IBTrACS)
Project, Version 4;. Last Modified: 2019-03-13 Library Catalog: data.nodc.noaa.gov. Available from:
https://data.nodc.noaa.gov/cgi-bin/iso?id=gov.noaa.ncdc:C01552#.
[22] Bernardin K, Elbs A, Stiefelhagen R. Multiple Object Tracking Performance Metrics and Evaluation
in a Smart Room Environment;p. 8.
42
[23] Zhang Y, Wang C, Wang X, Zeng W, Liu W.
A Simple Baseline for Multi-Object Tracking.
arXiv:200401888 [cs]. 2020 Apr;ArXiv: 2004.01888 version: 3. Available from: http://arxiv.org/abs/
2004.01888.
[24] Krinitskiy M, Verezemskaya P, Grashchenkov K, Tilinina N, Gulev S, Lazzara M. Deep Convolutional
Neural Networks Capabilities for Binary Classification of Polar Mesocyclones in Satellite Mosaics.
Atmosphere. 2018 Oct;9(11):426. Available from: http://www.mdpi.com/2073-4433/9/11/426.
[25] Liu T, Fang S, Zhao Y, Wang P, Zhang J. Implementation of Training Convolutional Neural Networks.
arXiv:150601195 [cs]. 2015 Jun;ArXiv: 1506.01195.
Available from: http://arxiv.org/abs/1506.
01195.
[26] Indolia S, Goswami AK, Mishra SP, Asopa P. Conceptual Understanding of Convolutional Neural
Network- A Deep Learning Approach. Procedia Computer Science. 2018;132:679 – 688. Available from:
http://www.sciencedirect.com/science/article/pii/S1877050918308019.
[27] Differential Data Augmentation Techniques for Medical Imaging Classification Tasks;. Available from:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5977656/.
[28] Li W, Huo J, Shi Y, Gao Y, Wang L, Luo J. Online Deep Metric Learning. arXiv:180505510 [cs]. 2018
May;ArXiv: 1805.05510. Available from: http://arxiv.org/abs/1805.05510.
[29] Suárez JL, Garcı́a S, Herrera F. A Tutorial on Distance Metric Learning: Mathematical Foundations,
Algorithms and Experiments. arXiv:181205944 [cs, stat]. 2019 Dec;ArXiv: 1812.05944. Available from:
http://arxiv.org/abs/1812.05944.
[30] Koch G, Zemel R, Salakhutdinov R. Siamese Neural Networks for One-shot Image Recognition;p. 8.
[31] Guo Q, Feng W, Zhou C, Huang R, Wan L, Wang S. Learning Dynamic Siamese Network for Visual
Object Tracking. In: 2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE;
2017. p. 1781–1789. Available from: http://ieeexplore.ieee.org/document/8237458/.
[32] He A, Luo C, Tian X, Zeng W. A Twofold Siamese Network for Real-Time Object Tracking;p. 10.
[33] Welcome to Python.org;. Available from: https://www.python.org/.
[34] Van Rossum G, Drake Jr FL. Python reference manual. Centrum voor Wiskunde en Informatica
Amsterdam; 1995.
[35] Keras: the Python deep learning API;. Available from: https://keras.io/.
[36] Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, et al.. TensorFlow: Large-Scale Machine
Learning on Heterogeneous Systems; 2015. Software available from tensorflow.org. Available from:
https://www.tensorflow.org/.
43
[37] Jung AB, Wada K, Crall J, Tanaka S, Graving J, Reinders C, et al.. imgaug; 2020. Online; accessed
01-Feb-2020. https://github.com/aleju/imgaug.
[38] Agarap AF. Deep Learning using Rectified Linear Units (ReLU). arXiv:180308375 [cs, stat]. 2019
Feb;ArXiv: 1803.08375. Available from: http://arxiv.org/abs/1803.08375.
[39] Nwankpa C, Ijomah W, Gachagan A, Marshall S. Activation Functions: Comparison of trends in Practice
and Research for Deep Learning. arXiv:181103378 [cs]. 2018 Nov;ArXiv: 1811.03378. Available from:
http://arxiv.org/abs/1811.03378.
[40] Kingma DP, Ba J. Adam: A Method for Stochastic Optimization. arXiv:14126980 [cs]. 2017 Jan;ArXiv:
1412.6980. Available from: http://arxiv.org/abs/1412.6980.
[41] Divine GW, Norton HJ, Barón AE, Juarez-Colunga E. The Wilcoxon–Mann–Whitney Procedure Fails
as a Test of Medians. The American Statistician. 2018 Jul;72(3):278–286. Publisher: Taylor & Francis
_eprint: https://doi.org/10.1080/00031305.2017.1305291. Available from: https://doi.org/10.1080/
00031305.2017.1305291.
44
Отзывы:
Авторизуйтесь, чтобы оставить отзыв