Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Мурманский государственный технический университет»
На правах рукописи
Запорожцев Иван Федорович
КРАТКОСРОЧНОЕ ПРОГНОЗИРОВАНИЕ
ПРОСТРАНСТВЕННО-ВРЕМЕННОЙ ИЗМЕНЧИВОСТИ
ОКЕАНОГРАФИЧЕСКИХ ХАРАКТЕРИСТИК
МЕТОДАМИ АНАЛИЗА МНОГОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ
05.13.18 - Математическое моделирование,
численные методы и комплексы программ
ДИССЕРТАЦИЯ
на соискание ученой степени
кандидата технических наук
Научный руководитель: доктор
технических наук, профессор
Середа Альгирдас-Владимир
Игнатьевич
Мурманск - 2016
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ .............................................................................................................. 4
ГЛАВА I. ОБЩИЕ СВЕДЕНИЯ О ФОРМИРОВАНИИ И
КРАТКОСРОЧНОМ ПРОГНОЗИРОВАНИИ ВРЕМЕННЫХ РЯДОВ
ЗНАЧЕНИЙ ФИЗИЧЕСКИХ ХАРАКТЕРИСТИК ОКЕАНИЧЕСКОЙ
ПОВЕРХНОСТИ ................................................................................................... 11
§1.1. Описание временной изменчивости пространственного распределения
геофизических характеристик с помощью временных рядов .......................... 11
§1.2. Организация сбора и систематизация данных о температуре и
аномалиях уровня поверхности Мирового океана ............................................ 19
§1.3. Нормативная база и методологические особенности построения
краткосрочных морских гидрологических прогнозов ...................................... 23
§1.4. Постановка задачи исследования ............................................................. 26
§1.5. Декомпозиция аддитивной модели одномерного временного ряда ..... 33
§1.6. Методы краткосрочного прогнозирования многомерного временного
ряда ......................................................................................................................... 37
§1.7. Выводы ........................................................................................................ 46
ГЛАВА II. ФОРМИРОВАНИЕ И ХАРАКТЕРИСТИКИ КЛАСТЕРНЫХ
ВРЕМЕННЫХ РЯДОВ ......................................................................................... 47
§2.1. Содержательная постановка задачи разбиения на подмножества
данных вида FNUG (t ) .............................................................................................. 48
§2.2. Проблема разбиения множества временных рядов как задача
кластеризации ........................................................................................................ 49
§2.3. Обзор классических методов кластеризации и оценка возможности их
применения в решении задачи исследования .................................................... 57
§2.4. Авторский метод кластеризации ряда FNUG (t ) ........................................ 64
§2.5. Кластерные характеристики ..................................................................... 68
§2.6. Выводы ........................................................................................................ 71
ГЛАВА III. МЕТОДИКА КРАТКОСРОЧНОГО ПРОГНОЗИРОВАНИЯ
ЗНАЧЕНИЙ КЛАСТЕРНЫХ ВРЕМЕННЫХ РЯДОВ ...................................... 72
§3.1. Основные положения подходов МССА и МДЭМ в рамках задачи
декомпозиции многомерного временного ряда ................................................. 73
2
§3.2. Модель пространственно-временной изменчивости целевой
характеристики ...................................................................................................... 79
§3.3. Определение оптимальной длины фрагмента ряда для построения по
нему прогноза ........................................................................................................ 82
§3.4. Способы определения количества значимых аддитивных компонент
кластерного ряда по МССА ................................................................................. 85
§3.5. Метод построения начального внутрикластерного прогноза ............... 88
§3.6. Применение методов МССА и МДЭМ к фрагменту кластерного ряда
сгенерированных данных ..................................................................................... 90
§3.7. Метод уточнения начального внутрикластерного прогноза ............... 103
§3.8. Оценка временной сложности алгоритмов методики прогноза .......... 106
§3.9. Выводы ...................................................................................................... 113
ГЛАВА IV. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И ЭКСПЕРИМЕНТЫ ......... 114
§4.1. Общая характеристика комплекса программ ........................................ 114
§4.2. Описание подсистем библиотеки ядра .................................................. 116
§4.3. Описание графической оболочки ........................................................... 128
§4.4. Вычислительные эксперименты со сгенерированными данными ...... 132
§4.5. Вычислительные эксперименты с реальными данными ...................... 137
4.5.1. Статистический анализ массивов SST............................................... 139
4.5.2. Использование авторской методики для массивов SST .................. 146
4.5.3. Использование авторской методики для массивов SLA.................. 159
4.5.4. Выводы по экспериментам с реальными данными ......................... 163
§4.6. Выводы ...................................................................................................... 164
ЗАКЛЮЧЕНИЕ ................................................................................................... 165
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ......................................... 165
ПРИЛОЖЕНИЕ А. БЛОК-СХЕМА УТОЧНЁННОГО АЛГОРИТМА
ПОСТРОЕНИЯ ВНУТРИКЛАСТЕРНОГО ПРОГНОЗА ................................ 180
ПРИЛОЖЕНИЕ Б. КОПИИ СВИДЕТЕЛЬСТВА О ГОСУДАРСТВЕННОЙ
РЕГИСТРАЦИИ ПРОГРАММЫ ДЛЯ ЭВМ И АКТА О ВНЕДРЕНИИ
РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ ....................................... 181
3
ВВЕДЕНИЕ
Актуальность темы. Комплексное изучение временной изменчивости
характеристик поверхности океана является неотъемлемой частью многолетнего анализа геофизических процессов в атмосфере и океане. Компьютерное
моделирование и разработка математически обоснованных технологий численного анализа характеристик океанической поверхности представляют
несомненный интерес для специалистов различных областей научных исследований (океанологов, биологов, экологов и др.) и практической деятельности (рыбопромысловой, нефтегазодобывающей, транспортно-логистической
и т.п.).
В последние десятилетия российскими учёными И.М. Ашиком, С.К. Поповым, А.Л. Лобовым, В.В. Елисовым, О.Н. Вербицкой и др. [5,9,16,45,58]
разработаны гидродинамические модели прогнозирования уровенной поверхности для Баренцева, Белого, Карского и Каспийского морей. Эти теоретические модели могут быть адаптированы для исследования различных характеристик поверхности, однако они строятся, исходя из анализа данных
прибрежных станций и других источников, исключая спутниковый мониторинг, который имеет наибольший охват по территории. Известно, что в ряде
случаев поля характеристик поверхности, являющиеся результатами применения методов численной гидродинамики и спутниковой океанографии, плохо согласованы. Несмотря на существенную погрешность данных дистанционного зондирования Земли спутниками, именно они являются основным источником для построения гридированных массивов (восстановленных в узлах
равномерной планарной или трёхмерной сетки) значений температуры и
аномалий уровня поверхности моря. Анализ и краткосрочный прогноз временных рядов этих двух характеристик в узлах сетки вместе с учётом метеорологической информации является основой оперативного информационного
обеспечении поддержки принятия управленческих решений на море. Эмпирические модели, устанавливающие зависимости в значениях временных ря4
дов одной или нескольких целевых характеристик, появились задолго до
гидродинамических в рамках физико-статистического подхода и существуют
до сих пор. В основе нового направления лежат так называемые структурные
модели, которые стали результатом усложнения (по сравнению с традиционными статистическими) процесса построения аналитических зависимостей:
вводятся различные способы расчёта коэффициентов линейных комбинаций,
а также рассматриваются варианты нелинейных связей. Примерами таких
формализмов являются искусственные нейронные сети, модели, построенные
по результатам многомерных вариантов сингулярного спектрального анализа
(МССА), декомпозиции на эмпирические моды (МДЭМ) и т.д. Значительный
вклад в становление и развитие двух последних групп методов внесли: Н.Э.
Голяндина, H. Hassani, A. Zhigljavsky, M. Ghil, Д.В. Степанов (МССА)
[14,15,63], N.E. Huang, В.А. Давыдов, P. Yang, R.T. Rato, J. Fleureau, N.
Rehman, D.P. Mandic (МДЭМ) [19,84,88,103,104], результаты работ которых
были использованы при написании диссертации. Общей чертой всех структурных моделей является алгоритмичность: необходимость выполнения ряда
шагов, не все из которых хорошо формализованы, причём содержат большое
количество модельных параметров. Именно в рамках этих моделей в настоящее время ведётся работа над созданием системного адаптивного подхода к
прогнозированию значений рядов без учёта специфики анализируемых данных, обусловленной их природой. Следует отметить, что ключевой задачей в
случае прогнозирования гридированных значений является анализ не только
системы одномерных временных рядов, но и взаимного расположения узлов
равномерной сетки, соответствующих тем или иным рядам, в то время как
известные структурные модели ориентированы исключительно на работу с
рядами. Таким образом, построение новой методики прогнозирования на основе структурных моделей, но с учётом пространственно-временной изменчивости в целом является целесообразным.
Цель работы – создание методики краткосрочного прогнозирования как
набора методов, использующих структурные и статистические модели, и ре5
ализующей их компьютерной технологии, позволяющей получать результаты
в темпе поступления исходных экспериментальных данных (на примере температуры поверхности океана и аномалий уровенной поверхности).
В работе поставлены и решены следующие задачи исследования:
1. Выполнение обзора методов и моделей прогнозирования, которые используются в настоящее время или имеют потенциал для применения в рамках морских гидрологических прогнозов; выявление их достоинств и недостатков.
2. Выбор и обоснование модели пространственно-временной изменчивости целевой физической характеристики как модели многомерного временного ряда её гридированных значений в заданной акватории.
3. Разработка методики краткосрочного прогнозирования как набора методов идентификации модели пространственно-временной изменчивости:
3.1. Разработка метода кластеризации узлов планарной равномерной
сетки и соответствующих им одномерных рядов (выделение кластеров узлов
и группировка по ним одномерных рядов; группы названы кластерными рядами).
3.2. Разработка метода построения начального внутрикластерного
прогноза (метода НВП) для каждого кластерного ряда в отдельности.
3.3. Разработка метода уточнения начального внутрикластерного прогноза (метода УВП) для получения итогового краткосрочного прогноза.
4. Создание комплекса программ, реализующих методику прогнозирования, для построения прогнозов по сгенерированным («искусственным») и
реальным данным, их статистической обработки и анализа их качества, а
также для визуализации необходимой аналитической информации.
Объектом исследования диссертационной работы является океаническая поверхность в некоторой акватории. Предметом изучения являются
модели и алгоритмы, позволяющие составить краткосрочный прогноз пространственно-временной изменчивости целевой характеристики поверхности
океана.
6
Методы исследования. Для решения поставленных задач использовались: математическое моделирование, методы анализа многомерных рядов
(МССА и МДЭМ), математической статистики, кластерного анализа, линейной алгебры; в экспериментальной части – методы теории графов, структурного и объектно-ориентированного программирования, интерактивные компьютерные технологии визуализации аналитической информации, вычислительный эксперимент.
Научная новизна работы заключается в следующем:
1. Предложена и экспериментально обоснована модель пространственно-временной изменчивости целевой физической характеристики, представляющая исходный многомерный временной ряд как систему многомерных
кластерных рядов, аддитивные составляющие которых выражены структурными и статистическими моделями.
2. Разработана методика краткосрочного прогнозирования, включающая:
2.1. Метод разбиения множества узлов равномерной сетки на подмножества, названный автором «метод кластеризации», обеспечивающий группировку сильно взаимно коррелированных одномерных временных рядов,
соответствующих соседним узлам этой сетки.
2.2. Метод построения начального внутрикластерного прогноза на основе предложенного автором и экспериментально подтверждённого способа
совместного использования двух аддитивных моделей временного ряда (в
рамках подходов МДЭМ и МССА).
2.3. Метод уточнения начального внутрикластерного прогноза.
3. Разработан комплекс программ (библиотека ядра, консольные утилиты и графическая оболочка), реализующих предложенную автором методику
краткосрочного прогнозирования значений целевой характеристики.
Достоверность научных результатов и выводов обусловлена корректностью применяемого математического аппарата и подтверждается ре-
7
зультатами вычислительных экспериментов для сгенерированных и реальных
данных.
Практическая значимость результатов работы заключается в том,
что они обеспечивают решение задачи краткосрочного прогнозирования пространственно-временной изменчивости океанографических характеристик,
представляющей практический интерес для специалистов в области промысловой океанографии, экологии, морской биологии и т.п., а также других изменчивых во времени пространственно распределённых характеристик, независимо от их природы.
Положения, выносимые на защиту:
1. Модель пространственно-временной изменчивости целевой физической характеристики, структурная и параметрическая идентификация которой выполняется путём применения авторских методов кластеризации и прогнозирования.
2. Методика краткосрочного прогнозирования, которая включает в себя:
2.1. Метод кластеризации узлов планарной равномерной сетки и соответствующих им одномерных временных рядов.
2.2. Метод построения начального внутрикластерного прогноза многомерного временного ряда на базе МССА и МДЭМ.
2.3. Метод уточнения начального внутрикластерного прогноза, использующий введённые автором кластерные характеристики и модель ошибки
начального внутрикластерного прогноза.
3. Комплекс программ, реализующий авторскую методику.
4. Результаты анализа и краткосрочного прогнозирования многомерных
временных рядов по массивам сгенерированных и реальных данных.
Внедрение результатов работы. Разработанные методика и программные средства были успешно использованы автором при выполнении НИР в
рамках государственного задания Федерального агентства по Рыболовству по
теме «Компьютерное моделирование, численный анализ и прогнозирование
уровенной поверхности океана в акваториях Арктики» (2014 г, № ГР НИОКР
8
01201459892), а также специалистами научно-производственной компании
«Морская информатика», осуществляющей информационное обеспечение
рыбопромыслового флота (2015 г., получен акт о внедрении). Основной компонент созданного комплекса программ (библиотека ядра) зарегистрирован в
Реестре программ для ЭВМ.
Апробация результатов работы. Результаты, полученные в диссертации, докладывались и обсуждались на 7 конференциях: международных
научно-технических конференциях «Наука и образование − 2013» и «Наука и
образование − 2014» (Мурманск, 4−11 марта 2013 г., 24−28 марта 2014 г.);
XIII и XIV международных научных конференциях студентов и аспирантов
«Проблемы Арктического региона» (Мурманск, 14 мая 2013 г., 14 мая 2014
г.); международной научно-технической конференции «Computer Modeling
and Simulation» (Санкт-Петербург, 2-4 июля 2014 г.); международной конференции «2014 International Conference on Computer Technologies in Physical
and Engineering Applications» (Санкт-Петербург, 30 июня – 4 июля 2014 г.);
Первой международной конференции молодых учёных «Проблемы и перспективы развития рыбохозяйственного комплекса на современном этапе»
(Мурманск, 22-24 октября 2014 г.).
Исследования поддержаны стипендиями губернатора Мурманской области (2010-2011 уч. год, 2011-2012 уч. год) и стипендией Президента РФ для
аспирантов, обучающихся по приоритетным направлениям модернизации и
технологического развития российской экономики (2013-2014 уч. год).
Предложенные автором методы, алгоритмы и программные средства показали свою эффективность при обработке реальных данных, относящихся к
акваториям Баренцева моря и моря Ирмингера.
Личный вклад автора в совместных работах. Разработка общей схемы и детализация этапов предложенной в диссертации методики краткосрочного прогнозирования, выбор и обоснование модели пространственновременной изменчивости целевой физической характеристики, разработка
необходимых методов и алгоритмов, реализующих эту методику, создание
9
программных средств для экспериментальной оценки её эффективности,
осуществление и анализ результатов вычислительных экспериментов проводились автором самостоятельно.
Публикации. По теме диссертации опубликовано 12 научных работ, в
том числе: 3 статьи в ведущих рецензируемых научных журналах и изданиях,
рекомендованных ВАК РФ; 1 свидетельство о государственной регистрации программы для ЭВМ; 1 работа, зарегистрированная в ЦИТиС; 7 статей
в материалах международных научно-технических конференций.
Структура и объём работы. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка и приложений.
Работа изложена на 183 страницах машинописного текста, включает 70 рисунков и 16 таблиц. Список использованных источников содержит 112
наименований.
10
ГЛАВА I. ОБЩИЕ СВЕДЕНИЯ О ФОРМИРОВАНИИ И КРАТКОСРОЧНОМ ПРОГНОЗИРОВАНИИ ВРЕМЕННЫХ РЯДОВ ЗНАЧЕНИЙ ФИЗИЧЕСКИХ ХАРАКТЕРИСТИК ОКЕАНИЧЕСКОЙ ПОВЕРХНОСТИ
В настоящей главе рассмотрена специфика формирования многомерных
временных рядов физических характеристик океанической поверхности, выполнена постановка задачи исследования и представлен обзор методов краткосрочного прогнозирования как реализованных в практике морских гидрологических прогнозов, так и потенциально применимых для прогноза временных рядов заданного вида. В качестве целевых характеристик выбраны
температура и аномалии уровня океанической поверхности.
В §1.1 обоснована целесообразность использования временных рядов
для моделирования пространственно-временной изменчивости геофизических характеристик. В §1.2 приведено описание процесса сбора и систематизации данных о температуре и аномалиях уровня. В §1.3 представлены основы нормативной базы морских гидрологических прогнозов и анализ методов,
в высокой степени ориентированных на эту предметную область. В §1.4 сделана постановка задачи краткосрочного прогнозирования, решение которой
предложено в данном диссертационном исследовании. В §1.5 рассмотрены
некоторые методы декомпозиции аддитивной модели одномерных многокомпонентных временных рядов, сложная структура которых обусловлена
большим количеством факторов. В §1.6 проанализированы существующие
методы краткосрочного прогнозирования многомерных временных рядов в
соответствии с поставленной задачей диссертационной работы.
§1.1. Описание временной изменчивости пространственного распределения геофизических характеристик с помощью временных рядов
Всякая область земной поверхности Ω может быть ограничена в общем
случае криволинейным четырёхугольником на картографической проекции,
стороны которого параллельны координатным линиям географической системы координат. Зачастую геометрия области упрощается сведением её к
11
прямоугольнику, так как широкий класс задач допускает эту модель, вполне
естественную при использовании цилиндрической проекции Миллера – модификации применяемой на протяжении нескольких сот лет меркаторской
проекции.
Свойства динамических систем, являющихся геофизическими объектами, такими как океан или атмосфера, локализованные в изучаемой области и
изменяющиеся во времени, хорошо формализуются с помощью измеряемых
характеристик. Эти характеристики есть функции непрерывных или дискретных аргументов f(t,x,y), а именно: времени t и географических координат
(x,y). Данные такого рода вместе с их семантическим окружением составляют
основу геоинформационных систем (ГИС).
На практике обеспечить непрерывность пространственных аргументов
(x,y) невозможно. Пространственно распределённые пункты системы геофизического мониторинга можно представить множеством узлов некоторой
сетки G. При работе с характеристиками в области Ω удобно зафиксировать
положение узлов сетки в некоторой плоскости. Полученная планарная сетка
G может быть регулярной (равномерной) и нерегулярной. Для нерегулярной
сетки характерно отсутствие очевидных закономерностей в расположении
узлов: топология сетки определяется особенностями предметной области.
Узлами сетки этого типа чаще всего являются специализированные станции:
географическое положение места выполнения измерений остаётся постоянным во времени, а сами измерения поступают с гарантированной периодичностью. Примерами могут быть метеорологические, сейсмологические, береговые и буйковые океанографические станции. Такая организация измерений
позволяет формировать массивы данных за продолжительные промежутки
времени, отслеживать случайные и систематические погрешности, то есть
гарантировать высокое качество предоставляемых данных. При апробации
новых методик интеллектуальной обработки данных измерения, полученные
на подобных станциях, используются как наиболее надёжные: ошибки мето-
12
да проще распознать при наличии минимальной и заранее известной ошибки
во входных данных.
Данные об изменчивости характеристик в различных пространственных
точках исследуемой области могут накапливаться в течение определённого
промежутка времени для того, чтобы восстановить её пространственное распределение в узлах равномерной сетки и приписать конкретному моменту
времени. Прямоугольной области в этой задаче очевидным образом соответствует прямоугольная равномерная планарная сетка с фиксированным пространственным шагом. Шаги вдоль пары перпендикулярных направлений
(базисных векторов прямоугольной декартовой системы координат, с которой связана исследуемая область Ω и соответствующая ей сетка G) могут не
совпадать. Массив значений, каждое из которых приписывается определённому узлу сетки G в фиксированный момент времени t, образует карту характеристики для момента t. Задача восстановления значений возникает
при дистанционном зондировании поверхности Земли с помощью спутников
или выполнении неединовременных измерений на судах, имеющих различные маршруты движения. В этом случае построение пространственного распределения для равноотстоящих временных отсчётов в узлах равномерной
планарной сетки неизбежно влечёт за собой (вследствие нерегулярного расположения исходных измерений, как во времени, так и в пространстве) появление ошибок метода аппроксимации, которые добавляются к ошибкам измерения. Однако преимуществом такого подхода является гарантия покрытия данными всей исследуемой области, что достигается путём адаптивной
дискретизации временного аргумента функции f(t,x,y) и выбора оптимального
пространственного разрешения – шага сетки.
В каждом из упомянутых случаев (для регулярной и нерегулярной сеток) временная изменчивость характеристики f(t,x,y) в фиксированной точке
(x,y) может быть представлена одномерным (скалярным) временным рядом
FN(t), то есть последовательностью значений длины N, полученных в равноотстоящие моменты времени t = t0,…,t0+N-1. В дальнейшем, при условии,
13
что длина ряда (или фрагмента ряда) не представляет интереса, нижний индекс в обозначении будем опускать. Для всей области можно ввести многомерный (векторный) временной ряд FNG (t ) FN1 (t ), FN2 (t ),..., FNs (t ) , где s –
число узлов сетки G. Для визуализации многомерного ряда такого вида используются массивы карт, построенных для последовательных моментов
времени (рисунок 1.1). Под картой понимается не только массив единовременных данных, но и способ его визуализации: специализированное изображение с различными метками (в том числе географическими), цветомодуляцией значений ряда и т.д.
Рисунок 1.1. Временной массив карт из статьи [83]
Отметим, что при необходимости подчеркнуть равномерность имеющейся сетки в данной работе используется обозначение UG (uniform grid);
при этом множество узлов равномерной сетки есть V UG , а многомерный временной ряд для неё – FNUG (t ) . Следует указать, что часто в большинстве англоязычных источников термин grid подразумевает именно равномерную
сетку, но в данной работе будем оставаться в рамках введённых обозначений.
Рассмотрим некоторые задачи, связанные с формированием и исследованием временных рядов геофизических характеристик. Более подробный
обзор соответствующих задач и методов решения можно найти в монографи14
ях и учебных пособиях [21,33,47,65]. Следуя указанным источникам, примем
аддитивную модель ряда:
F (t ) (t ) (t ),
(1.1)
где (t ) – детерминированная составляющая (тренд произвольного вида), а
(t ) – случайная составляющая (обычно с нулевым средним и постоянной
неизвестной дисперсией).
Заполнение пропусков в данных. Если ряд FN(t) регистрируемых значений характеристики содержит пробелы или нетипичные выбросы, обусловленные сбоями в работе измерительной системы или природой измеряемых величин, их можно заменить в простейшем единичном случае полусуммой предыдущего и последующего значений. Заполнение интервалов отсутствующих или недостоверных данных осуществляется в соответствии с методом наименьших квадратов по имеющимся данным. Другим подходом,
связанным с оценками максимального правдоподобия, является анализ с сохранением пробелов. Библиография в рамках этого подхода может быть
найдена в книге [22].
Дискретизация сигнала. При исследовании сигналов y(t) с непрерывным временем или последовательностей значений, не образующих равномерную сетку по времени, возникает задача преобразования исходных данных к временному ряду F(t). Интервал дискретизации Δt выбирается для аналогового сигнала традиционно исходя из анализа некоторой априорной информации о сигнале, а в случае неравномерной временной сетки – как
наибольшее значение приращения временных меток (шага по времени) или
из условия максимума гистограммы частот имеющихся шагов. Все существующие методы формирования сигнала с равномерным временным шагом,
то есть ряда F(t), основаны на осреднении исходных значений в окрестности
каждой точки равномерной временной сетки. Широко используется, в частности, так называемое ядерное сглаживание [47]. Это преобразование с параметром H = Δt /2 (радиусом усреднения) для сигнала с непрерывным временем вычисляется по формуле:
15
F (t ) y (t | H )
y(t H ) ( )d ( )d ,
(1.2)
а в случае неравномерного сигнала в расчёте участвуют k имеющихся значений из H-окрестности точки t:
t t
F (t ) y (t | H ) y (t j ) j
j 1
H
k
k
tj t
.
H
j 1
(1.3)
Если ядро усреднения ψ(ξ) = exp(-ξ2), то результат преобразования называется гауссовским трендом.
Восстановление значений в узлах равномерной сетки. Данные измерений, накопленные в области Ω, необходимо приписать не только конкретным временным отсчётам, что происходит на этапе дискретизации, но и пространственным точкам (x,y). Для задания FNUG (t ) шаг Δt выбирается таким
образом, чтобы обеспечить значения в каждый момент времени в каждом узле сетки UG, считая, что этот шаг должен быть примерно равен периоду
устойчивости пространственной изменчивости характеристики – промежутку
времени, на котором пространственное распределение характеристики меняется незначительно. Обзор существующих способов аппроксимации наблюдённых значений в области Ω с целью восстановления в узлах равномерной
сетки, а также авторская методика, применённая для восстановления альтиметрических полей, приведены в работе [16].
Отделение сигнала от шума. Ещё на этапе регистрации значений характеристики (сбора полевых данных) часто происходит аппаратная фильтрация аналогового сигнала, после которой для анализа подключаются цифровые фильтры, реализованные также аппаратно или программно. Будем полагать, что в модели (1.1) слагаемое (t ) представляет собой полезный сигнала, а случайную составляющую (t ) будем именовать шумом, обусловленным некорректной работой измерительного оборудования или неучтенными
факторами, влияющими на значения исследуемой характеристики. Специфика решения задачи существенно зависит от предметной области и квалифи-
16
кации исследователя: важную роль играет опыт как организации и проведения наблюдений, так и анализа и интерпретации данных. Результаты многолетней практики разработки различных фильтров приведены в справочниках
[13,20,23,69].
Идентификация аддитивных компонент. Обобщение задачи отделения сигнала от шума является проблема декомпозиции аддитивной модели
для уточнения компонент детерминированной составляющей. Эта задача часто называется предобработкой временного ряда, методы её решения будут
проанализированы в §1.4.
Прогнозирование значений. После предобработки ряда может быть
сделана экстраполяция его аддитивных компонент. Эта задача является центральной в диссертации, поэтому здесь ограничимся лишь её декларированием без детализации.
Определение однородных фрагментов ряда и подобластей Ω. Задача
декомпозиции может рассматриваться иначе: как сегментация каждого временного ряда, выделяя промежутки в рамках которых значения обладают некоторыми свойствами или как разделения области Ω на подобласти, такие
что пары временных рядов, соответствующих узлам сетки G из одной подобласти, характеризуются большим значением меры сходства, чем пары произвольно выбранных рядов. Выделение таких однородных областей во времени
и/или пространстве можно пытаться проводить исходя из возможностей визуального анализа графиков временных рядов и трёхмерных поверхностей
значений карт. Однако человеческий глаз может различать в основном низкочастотные особенности поведения гладких кривых, если они не теряются
на фоне шума, к тому же следует помнить о субъективности восприятия. После формализации этой задачи результаты её решения зависят от определения мер сходства (мер отличия), соответствующих им пороговых значений и
критериев качества сформированной в итоге системы кластеров (однородных
областей). Наиболее популярным вычислительным аппаратом кластеризации
множества точек пространственной области Ω является метод эмпирических
17
ортогональных функций, используемый в метеорологии [6,50,78,106] и океанологии [46,66]. Основные идеи этого метода будут изложены в §2.3. Активно развиваются нейросетевые подходы кластеризации, например, из класса
самоорганизующихся карт SOM, введённых Kohonen T.K. Обзор этих
нейросетевых технологий и их геофизических приложений представлен в
монографии [98,100]. Кластеризация, или сегментация, одномерного временного ряда стала самостоятельной задачей, начиная с публикации Page E.S.
(1954) [11], а Fogler H.R (1974) [71] стал впервые рассматривать её как предобработку в задаче прогнозирования. Среди ранних отечественных работ
стоит отметить монографию [51]. В настоящее время кластеризация такого
рода весьма популярна, для справки можно обратить внимание на работы
[11,43].
Идентификация моментов смены состояний. Отслеживание моментов
смены состояний (кластеров в динамике ряда) возможно путём задания порогов для значений ряда или каких-либо его характеристик. Ограниченность
этого подхода очевидна: необходимо учитывать структурные особенности –
такие сигналы в составе временного ряда, которые являются в некотором
смысле предвестниками перехода между состояниями. Эти сигналы зачастую
трудно отделить от шума, поэтому более достоверные результаты [47] можно
получить, считая, что изменчивость полей синхронизируется на некотором
промежутке времени. Это приводит к увеличению значения некоторой меры
согласованности временных рядов по сравнению с её средними значениями
на всём промежутке, для которого построены ряды. Важно, чтобы мера согласованности учитывала метрические характеристики области Ω: в результате кластеризацию по времени и кластеризацию по пространству можно
совмещать.
Построение агрегированного сигнала и мер когерентности рядов.
Одномерный временной ряд, аккумулирующий в себе наиболее общие свойства динамики некоторого многомерного ряда, например, соответствующего
выбранному кластеру узлов сетки G, является одним из самых простых и
18
наглядных представлений о поведении полезного сигнала, характеризующего
пространственно-временную изменчивость. В настоящее время популярен
подход построения агрегированного сигнала и мер синхронного поведения
(когерентности)
системы
временных
рядов
на
основе
вейвлет-
преобразования [47].
§1.2. Организация сбора и систематизация данных о температуре и аномалиях уровня поверхности Мирового океана
Метеорологическая информация, а также данные о температуре поверхности и аномалиях уровня моря составляют основу оперативного информационного обеспечении поддержки принятия управленческих решений на море, в частности, в рыбопромысловой отрасли. В отличие от температуры поверхности моря (sea surface temperature, SST), понятие аномалий уровня нуждается в пояснении, так как может интерпретироваться по-разному. Аномалией уровня морской поверхности (sea level anomaly, SLA), приписанной конкретной точке поверхности в конкретный момент времени, называется разность высоты морской поверхности (sea surface height, SHH) в этот момент
времени и её среднего многолетнего значения (за период 1993-1999) в этой
точке. SLA изменяется в пределах ±1 м (данные представляют в см), а SSH по
модулю не превышает 100 м.
Современные способы определения значений характеристик водной поверхности включают измерения на специализированных прибрежных станциях и судовые измерения, а с конца 1970-х гг. – результаты дистанционного
зондирования Земли, то есть регистрации данных с помощью аппаратуры,
установленной на спутниках. Составление банков данных (карт характеристик), регулярных как по времени, так и по пространству, стало возможно
исключительно благодаря организации спутниковых наблюдений.
Для измерения температуры на судах применяются ртутные термометры, для поверки и калибровки которых используется платиновый термометр
сопротивления. Калибруется он на фиксированных точках между тройной
19
точкой равновесия (равновесия трёх агрегатных состояний) водорода –
13,8033 К и температурой замерзания серебра – 961,78 К, включая тройную
точку воды – 0,060 ºС, точку плавления галлия – 29,7646 ºС и точку замерзания индия – 156,5985 ºС. Измерения ртутным термометром проводятся либо
в ёмкости, которая опускается на требуемую глубину, либо в резервуарах на
судне, которые предназначены для хранения воды, необходимой для охлаждения двигателя. Данные со спутников стали получать с 1978 года, когда
были разработаны радиометры высокого разрешения (advanced very high
resolution radiometer). Радиометр регистрирует инфракрасное излучение поверхности океана и преобразует его в напряжение. Ближайшая к спутнику
специализированная наземная станция получает данные с разрешением в 1
км, а осреднённые значения хранятся на устройствах спутника и передаются
в центр NOAA (США) с разрешением 4 км. Информация, доступная пользователям, обновляется дважды в сутки, точность составляет в среднем 0,6 ºС;
значения температуры восстанавливаются в узлах равномерной сетки (так
называемые гридированные данные) с шагом 0,25º по широте и долготе.
Колебания уровня поверхности Мирового океана можно отслеживать по
данным береговых станций и спутников. При дистанционном зондировании
альтиметр измеряет расстояние между спутником и поверхностью воды
(range). Расстояние между спутником и отсчётным эллипсоидом, являющимся математической моделью Земли, (satellite altitude) оценивается путем анализа эффекта Доплера с помощью оборудования наземных станций, оснащённых лазерными дальномерами (laser/DORIS station). Отслеживание траектории спутника и корректное позиционирование происходит как путём обработки информации упомянутых станций, так и с помощью GPS-спутника.
Динамика высоты морской поверхности относительно эллипсоида обусловлена особенностями эквипотенциальной поверхности поля силы тяжести
Земли (геоида), а также изменчивостью, вызванной циркуляцией водных
масс (dynamic topography). Динамические изменения уровня возникают под
действием внешних сил: ветра, градиента атмосферного давления и приливо20
образующих сил Луны и Солнца, отклоняющая сила вращения Земли и силы
трения.
Рисунок 1.2. Идентификация уровенной поверхности [16]
Международный проект AVISO, ведущую роль в обработке данных для
которого играет Франция, предоставляет вдольтрековую спутниковую альтиметрию с пространственным разрешением 5-6 км, а также гридированные
значения аномалий уровня с шагом 0,33º по долготе и 0,25º по широте (с 2015
года – шаг вдоль меридианов и параллелей составляет 0,25º). Грубая оценка
ошибки вдольтрековых спутниковых измерений: ±(2-5) см.
В рамках международного проекта GODAR была проведена оцифровка
океанографических данных, накопленных за более чем 100 лет, оценка их
точности и разработка компьютерных технологий контроля их качества. Как
результат этой деятельности для морей Арктики были выпущены «Климатический атлас Баренцева моря 1998: температура, солёность, кислород», а
также «Климатический атлас морей Арктики 2004» (Баренцево, Белое, Карское и море Лаптевых – океанография и морская биология), разработанные
сотрудниками Мурманского морского биологического института (подразделения Кольского научного центра РАН) Г.Г. Матишовым, А.Н. Зуевым, П.Р.
Макаревичем, В.А. Голубевым и др. Подобные атласы интересны для уста21
новления среднемноголетних значений характеристик, например, по месяцам, и выявления крупномасштабной временной изменчивости, но вследствие нерегулярности данных во времени и пространстве (используются судовые и береговые измерения) они не пригодны для краткосрочного прогнозирования. Коллективный труд «Атлас изменчивости уровня Северозападной части Тихого океана» (2011 г.) специалистов из СанктПетербургского государственного университета Т.В. Белоненко, А.В. Колдунова, В.В. Колдунова, А.В. Рубченя, В.Р. Фукса и др. завершил цикл исследований, относящихся к использованию спутниковой альтиметрии, а также
данных с береговых станций и постов для изучения межгодовой и сезонной
изменчивости уровня в Северо-западной части Тихого океана и дальневосточных морей.
В 2005 году введена в эксплуатацию межведомственная система для
комплексного информационного обеспечения различных видов морской деятельности, получившая название «Единая государственная система информации об обстановке в Мировом океане» (ЕСИМО). Оперативный модуль
ЕСИМО предоставляет данные краткосрочного прогноза для характеристик
метеорологических условий и ветрового волнения в приводной слое атмосферы и на поверхности моря. Карты этих характеристик строятся по данным
глобального прогноза NOAA. По сведениям, имеющимся на конец ноября
2015 года, пользователям ЕСИМО доступны карты температуры поверхности
(предоставлены NOAA) и альтиметрии (предоставлены AVISO) для 11 морей, омывающих Россию. Прогнозирование температуры поверхности не выполняется в рамках этого проекта, а прогнозирование аномалий уровня моря
доступно только для Баренцева моря с заблаговременностью 48 часов (почасовые значения обновляются два раза в сутки). Нужно отметить, что аномалии уровня моря на длительные сроки не предсказываются, так как сезонные
и многолетние колебания уровня для большинства морей России невелики и
практического значения не имеют. Исключение составляет Каспийское море,
где сезонные, годовые и многолетние колебания весьма существенны.
22
§1.3. Нормативная база и методологические особенности построения
краткосрочных морских гидрологических прогнозов
Служба морских гидрологических прогнозов представляет собой систему научно-исследовательских учреждений и территориальных управлений
Росгидромета (Федеральной службы России по гидрометеорологии и мониторингу окружающей среды). Росгидромет определяет следующие основные
нормативные документы в этой области: РД 52.27.759-2011 «Наставление по
службе прогнозов. Раздел 3. Часть III. Служба морских гидрологических прогнозов» [60] и РД 52.27.284-91 «Методические указания. Проведение производственных (оперативных) испытаний новых и усовершенствованных методов гидрометеорологических и гелиогеофизичесих прогнозов» [59].
Среди современных справочников и пособий следует выделить разработанные сотрудниками Росгидромета материалы («Руководство по гидрометеорологическому обеспечению морской деятельности» (2009)[62], «Оперативное океанографическое обслуживание» (2009) [53]), сменившие справочник «Морские гидрологические прогнозы» (1974) [41], и монографию «Introduction To Physical Oceanography» (2008, США) [107].
Краткосрочным прогнозом, согласно [60], называется прогноз с заблаговременностью (горизонтом) от нескольких часов до нескольких суток. За допустимую ошибку краткосрочного прогноза аномалий уровня моря, солёности, течений и температуры воды принимается величина δдоп, равная
±0,674σΔ, где σΔ – среднее квадратичное отклонение изменение значения характеристики от нормы её изменения в данном пункте для промежутка времени, равного горизонту прогноза:
N 1
x x
i 1
2
i
N 1
,
(1.4)
где Δxi – приращение характеристики за интервал времени, равный горизонту
τ: Δxi = x(i+τ-1) – x(i), x – среднее приращение значений для N значений ряда при числе временных отсчётов, для которых строится прогноз, равным τ. С
23
указанной допустимой ошибкой сравнивают ошибку прогноза δ – разность
между значениями фактической величины xф и прогнозируемой xп.
Согласно [60], эффективность прогноза – комплексная характеристика
успешности прогноза, учитывающая оправдываемость и горизонт τ. Оправдываемость прогноза определяется как процентное отношение числа оправдавшихся прогнозов к общему числу проверочных прогнозов K. Прогноз
считается оправдавшимся, если ошибка прогноза доп . Применение метода краткосрочного прогноза в оперативную практику допускается лишь в том
случае, если оценка вероятности допустимой ошибки доп , то есть оправдываемость, не менее чем на 18% превышает пороговые значения обеспеченности прогноза в случае нормального распределения значений. Эти вероятности определяется по таблице [60] в зависимости от значений основных показателей успешности прогноза, а именно: отношения S/σΔ, в котором S является средней квадратичной ошибкой серии проверочных прогнозов, и коэффициента корреляции рядов фактических и прогнозируемых значений. Стоит
отметить, что специализированной методики оценки оправдываемости при
прогнозировании карт характеристик (а не значений, приписанных одной
точке пространства) источник [60] не предлагает.
Классические методы построения краткосрочных морских гидрологических прогнозов можно разделить на две группы: физико-статистические и
гидродинамические.
Физико-статистические методы. В основе этих методов лежат
физические гипотезы, которые являются результатами систематических
наблюдений. При прогнозе температуры регрессорами выступают локальные
характеристики циркуляции атмосферы и теплообмена океана с атмосферой
[12]. В свою очередь солёность может определяться по температуре. В
качестве предикторов временной изменчивости уровенной поверхности
океана
исторически
первыми
были
выбраны
характеристики
ветра:
направление, скорость, продолжительность [9], а позже были добавлены поля
давления. Регрессионная модель прогнозирования осадков в тропиках, в
24
которой регрессорами выступают температура поверхности океана и
изменение потока стратосферного ветра, представлена в [50]. Коэффициенты
уравнения множественной линейной регрессии определяются эмпирически и
подвергаются коррекции с течением времени и увеличением количества
наблюдённых данных. Такой подход используется до сих пор в качестве
дополнительного прогностического средства в основном для отдельных
станций (узлов сетки G), так как пространственная корреляция данных для
различных узлов здесь практически не учитывается. Также отметим, что конкретная физико-статистическая модель, полученная для некоторого узла сетки G, может оказаться совершенно непригодной для другого узла, если геофизические особенности в области соответствующих пунктов сбора данных
существенно отличаются.
Гидродинамические методы. В качестве модели используется система
дифференциальных уравнений в частных производных, для решения которой
применяются численные методы: в заданной области вводится расчётная сетка G, исходные уравнения рассматриваются для узлов этой сетки, непрерывные функции заменяются их дискретными аналогами. Таким образом, краевая задача математической физики сводится к системе конечно-разностных
уравнений. Данный метод является наиболее распространённым в современной практике гидрометеорологических служб различных стран мира. Ограниченность этого подхода связана со значительными трудностями при подборе физически интерпретируемого пространства параметров уравнений, постановке начальных и граничных условий, подборе шага по времени и пространству из соображений устойчивости разностных схем, проблемой существования и единственности решения [61]. Методы прогнозирования данного
типа для температуры воды разработаны главным образом для Северной Атлантики [53]. Гидродинамические модели для уровенной поверхности Баренцева и Карского морей, а также Каспийского моря можно найти в [5,58] и [9]
соответственно. Оценка качества прогноза по гидродинамическим моделям
полей ветра в Северной Атлантике присутствует в [45].
25
Известно, что с середины 90-х годов начинается новый период широкого
развития технологий дистанционного зондирования Земли. Появилась новая
наука – спутниковая океанография. Основным математическим аппаратом
этой науки можно считать методы численного анализа многомерных временных рядов с географической привязкой. Нужно отметить, что традиционный
подход, а именно вычислительная гидродинамика, не всегда позволяет построить пространственное и временное распределение целевой характеристики поверхности океана так, чтобы оно было хорошо согласовано с данными спутниковой океанографии. Одной из причин является тот факт, что гидродинамика использует главным образом данные прибрежных и буйковых
станций, как более точные в смысле систематической погрешности, чем данные со спутника. С другой стороны, по мере удаления от берега погрешность
результатов гидродинамического моделирования возрастает, в то время как
погрешность спутниковых данных в точке не зависит напрямую от её положения относительно суши. В итоге, приемлемые для практики результаты
гидродинамического моделирования были достигнуты только для Каспийского, Белого морей и лишь некоторых акваторий Баренцева и Карского морей. Как следствие, в настоящее время отсутствует и эффективная общая
технология краткосрочного прогнозирования океанографических характеристик (см. сведения о службе ЕСИМО в §1.2).
§1.4. Постановка задачи исследования
Существующие методы прогнозирования, ориентированные на специфическую предметную область, в частности, морские гидрологические прогнозы, были рассмотрены в §1.3. Важной особенностью упомянутых методов
является работа со значениями нескольких физических характеристик, по которым строится прогноз целевой характеристики. Эти методы позволяют выполнить прогноз многомерного ряда, если доступна дополнительная информация, необходимая для определения значений их параметров.
26
В данном исследовании считается, что для расчётов доступен только
многомерный ряд FNUG (t ) одной характеристики как массив гридированных
данных для равномерной сетки UG, то есть не будут исследованы зависимости в пространственном и временном распределении различных свойств поверхности Ω, а также не принимаются во внимание свойства ряда, обусловленные его природой. Такой подход позволяет применять разрабатываемую
методику прогнозирования для большого количества характеристик заданной
поверхности, которые занимают важное место в геофизических, экономических, социальных и других исследованиях. В качестве основы методики прогнозирования временного ряда FNUG (t ) выберем модель множественной линейной регрессии. Прогнозное значение некоторого временного ряда будет
определяться по регрессорам в виде значений этого ряда для последовательно взятых моментов, непосредственно предшествующих первому прогнозному (они образуют вектор задержек (лагов)), значений других рядов из
FNUG (t ) , а также их различных точечных и интервальных характеристики,
включая ошибки прогнозов, полученных для предшествующих фрагментов
рядов.
Пусть в прямоугольной области = [a,b] [c,d] R2 задана планарная
равномерная сетка = x y, где:
x={xk | a = x0 <…< xn = b, xk = xk-1+hx, k=1,2,…,n};
y={yk | c = y0 <…< ym = d, yk = yk-1+hy, k=1,2,…,m}.
(1.5)
Так как значения любой характеристики, измеренные в узлах этой сетки в
выбранный момент времени, удобно представлять в виде матрицы, а географические координаты узлов не важны для дальнейших расчётов, равномерная сетка может быть определена как множество пар индексов (строчного и
столбцового) соответствующих узлов:
UG = [1,dr] [1,dc] N2 , где dr = m + 1 и dc = n + 1.
При таком определении сетки UG её шаг по обеим осям равен единице.
27
(1.6)
Для каждого узла сетки UG (1.6) известен временной ряд, отражающий
временную изменчивость целевой характеристики исследуемого динамического процесса, причём временные ряды для каждого из узлов сформированы
единообразно: совпадают стартовый временной отсчёт, шаг по времени между измерениями и анализируемая длина временного ряда. Такой подход к
формированию временных рядов позволяет говорить, что в области задан
многомерный временной ряд FNUG (t ) FN1 (t ), FN2 (t ),..., FNs (t ) длины N (рисунок 1.3), где s = dr·dc. – число одномерных временных рядов, равное числу
узлов сетки UG.
Рисунок 1.3. Построение многомерного временного ряда FpUG (t ) длины p
(фрагмента ряда FNUG (t ) ) для узлов равномерной сетки UG.
Понятно, что в силу упомянутых ограничений, ряд FNUG (t ) будет сформирован по измеренным данным (спутниковым, судовым, береговым и т.д.) в
результате некоторой их аппроксимации (см. §1.1). Требования к определению ряда FNUG (t ) обусловлены форматом массивов гридированных данных,
принятых в рамках международных проектов (см. §1.2). На рисунке 1.3 представлен пример такого временного ряда: изображение равноотстоящих друг
от друга узлов сетки UG на временной оси означает наличие значений физической характеристики в моменты, выбранные с постоянным шагом.
28
Напомним, что картой характеристики в момент времени t (см. §1.1)
называется массив значений, приписанных фиксированному моменту t и
определённых во всех узлах сетки UG. Далее при упоминании карт, полагается, что они могут быть сформированы по значениям ряда FNUG (t ) без дополнительных вычислений, например, (t1 ) , (t p ) и т.д.
Горизонт прогноза τ (период упреждения, заблаговременность) – число
последовательных временных отсчётов, для которых необходимо сгенерировать прогнозные значения (см. §1.3) – удовлетворяет условию τ << N, так как
речь идёт именно о краткосрочном прогнозировании. В работе принято ограничение N / 50 . Необходимо задать или оценить относительную (или
нормированную) погрешность в значениях исходного многомерного временного ряда ε. Кроме того, одним из важных элементов решения является проблема определения по величинам τ и ε длины фрагмента T исходного многомерного временного ряда, продолжением которого будут спрогнозированные
значения целевой характеристики, при условии, что этот фрагмент имеет
наименьшую возможную длину для обеспечения ошибки прогноза того же
порядка, что и величина ε. В работе принято, что значения τ и ε одни и те же
для всех одномерных рядов, составляющих FNUG (t ) .
Центральной проблемой исследования является построение методики
краткосрочного прогнозирования значений многомерного ряда FNUG (t ) для
выбранного временного отсчёта и всех узлов сетки UG на заданный горизонт
τ по его фрагменту длины T. В соответствии с задачами, сформулированными
во введении, необходимо аппроксимировать значения этого ряда (фрагмента)
некоторой
моделью,
которая
именуется
моделью
пространственно-
временной изменчивости целевой физической характеристики в области .
Область Ω разобьём на однородные в некотором смысле подобласти, именуемые кластерами. Кластером С будем называть некоторое подмножество
множества узлов сетки UG, образующих односвязную область, и таких что
ряды, им соответствующие, будут иметь в высокой степени похожие свой29
ства. Формирование кластеров приводит к снижению размерности векторов и
матриц, участвующих в расчётах, и позволяет ожидать повышение точности
и устойчивости результатов прогнозирования. Ряд FTC будем именовать кластерным временным рядом, то есть многомерным рядом, составленным из sC
одномерных временных рядов, соответствующим узлам кластера С. Таким
образом, методика прогнозирования должна включать методы идентификации модели изменчивости, а именно: кластеризации узлов сетки UG, аппроксимации и прогнозирования кластерных рядов. Понятия «кластер» и «задача/метод кластеризации» в данном контексте используются для упрощения
наименований, так как не соответствуют их строгому математическому
смыслу: кластер узлов не может характеризоваться «сгущением» объектов
вокруг некого его центра, а сам анализ «близости» объектов (узлов и рядов)
происходит алгоритмически без использования формальной меры из задачи
кластеризации, ввиду наличия как пространственных, так и временных зависимостей.
Будем полагать, что оператор прогноза для каждого кластера С, который
обозначим PR0 ( FTC ) , является рекурсивным и позволяет получить многомерный ряд прогнозных значений FC (t ) с длиной τ:
FC (t ) F1 (t ),..., FsС (t ) PR0 FTC PR0 FNC (t T ),..., FNC (t 1)
...
FC (t 1) PR0 FNC (t T ),..., FNC (t 1)
(1.7)
PR0 1 ( FNC (t T 1),..., FNC (t 1), FC (t )).
Метод прогнозирования, реализующий PR0 ( FTC ) , должен быть построен
так, чтобы учитывать наиболее важные особенности временной изменчивости всех одномерных временных рядов кластерного ряда, поэтому PR0 ( FTC )
должен включает в себя предобработку временных рядов и декомпозицию
модели (1.1). Во время предобработки необходимо установить, в частности,
оптимальную длину фрагмента временного ряда T, исходя из наибольшей
допустимой ошибки прогноза и значения горизонта, предполагая, что исход30
ный ряд имеет длину N. Прогноз по PR0 ( FTC ) , будем называть начальным
внутрикластерным прогнозом. Очевидно, что для повышения точности результатов необходимо также привлекать информацию о динамике временных
рядов из других кластеров сетки UG. Тогда имеем следующую задачу: указать для каждого кластера С, называемого корректируемым кластером,
множество корректирующих кластеров Сi являющееся подмножеством множества кластеров узлов всей сетки UG. Наконец, выполнить коррекцию
(уточнение) значений ряда FC , вычисленных в результате начального внутрикластерного прогноза. Таким образом, необходимо разработать ещё одну
составляющую методики краткосрочного прогнозирования – метод уточнения начального внутрикластерного прогноза. Для уточнённых значений также будем использовать обозначение FC .
О точности прогноза значений характеристики по фрагменту кластерного ряда FTC FT1 , FT2 ,..., FTsC длины T, для которого последним временным отсчётом является (t-1), на горизонт τ будем судить по нормированной среднеквадратичной ошибке (NRMSE) tC,T , , выраженной в %:
1
tC,T , NRMSEt ( FTC , FC )
100
max
d (t ) i 1,...,sC
FNi (t j ) Fi (t j )
j 0
2
,
(1.8)
где FC F1 , F2 ,..., FsC – соответствующий многомерный ряд прогнозных
значений длины τ (его значения соответствуют временным отсчётам (t+j), j =
0,…, τ-1), вычисленных по фрагменту FTC , а нормирующий множитель определяется разностью d(t):
d (t ) max max FNi (t ) min FNi (t ) .
i 1,...,sC
t t
t t
(1.9)
Погрешность исходных данных ε будем далее рассматривать как относительную величину: среднюю абсолютную погрешность, нормированную на
значение d(N).
31
Также будем использовать в качестве меры ошибки наибольшее абсолютное отклонение (MAXE):
tC,T , MAXEt ( FTC , FC )
100
max max FNi (t j ) Fi (t j ) .
d (T ) i 1,...,sC j 0,..., 1
(1.10)
Ошибка для всех узлов сетки будет определяться как
C
tUG
,T , max t ,T , .
C UG
C
(1.11)
Важным понятием в области прогнозирования является надёжность
(оправдываемость) прогноза как оценка вероятности наступления события в
виде достоверного (успешного) прогноза, который обычно определяется попаданием спрогнозированного значения в заранее заданный интервал эталонного значения. Под качеством прогноза можно понимать как его точность, так и надёжность.
Отметим, что многие прогностические задачи предполагает не построение пространственного распределения с конкретными значениями характеристики для последующих временных отсчётов, а выявление пространственных и временных тенденций изменения рассматриваемой характеристики на
заданный горизонт. Для определения качества прогноза будем использовать
не только абсолютные или относительные значения ошибок, но и экспертную
оценку согласованности соответствующих пар карт целевой характеристики:
сгенерированных по методике прогнозирования и эталонных. В простейшем
случае динамика ряда на фиксированном временном промежутке может характеризоваться наличием сигнала в виде нестрого возрастающих или нестрого убывающих значений и его отсутствием, если на промежутке имеется
хотя бы один локальный экстремум или фрагмент ряда является константой.
Качество прогноза в соответствии с некоторой выбранной методикой может
описываться экспертом одним из четырёх элементарных событий [32]:
1) «правильное обнаружение» – спрогнозирован сигнал, который совпадает
с динамикой эталонного ряда;
32
2) «неправильное обнаружение» – предсказан сигнал, отсутствующий во
фрагменте эталонного ряда или тип монотонности пары сигналов различается;
3) «правильное необнаружение» – предсказано отсутствие сигнала, во фрагменте эталонного ряда его также нет;
4) «неправильное необнаружение» – спрогнозировано отсутствие сигнала,
но фрагмент эталонного ряда является монотонным.
В дополнение к функционалам ошибки (1.8-1.11) в работе будет использована визуальная экспертная оценка: анализ пространственных распределений посредством сравнения плотности линий уровня в подобластях карты
прогноза и эталонных значений. Эта оценка выполняется на практике, в
частности, специалистами береговых аналитических центров, обеспечивающих информационное обеспечение рыбопромыслового флота [16].
§1.5. Декомпозиция аддитивной модели одномерного временного ряда
При формировании временных рядов физических характеристик их аддитивная модель (1.1) предполагает сложную многокомпонентную структуру
ввиду большого количества факторов, действующих на водные массы в исследуемой области Ω. Рассмотрим некоторые подходы к решению задачи декомпозиции (1.1).
Интерес представляют не только практические методики разделения
(декомпозиции, сепарации и т.п.) временного ряда на детерминированную и
случайную составляющие, но и способы дальнейшего разделение детерминированной части на компоненты, имеющие те или иные свойства. Отметим
особую важность свойства стационарности случайной составляющей, наличие или отсутствие которого зачастую влияет на выбор методов анализа всего ряда и будет упоминаться в дальнейшем изложении. Случайный процесс
x(t), реализующийся как случайная составляющая временного ряда из модели
(1.1), принято называть стационарным в широком смысле, если его матема33
тическое ожидание не зависит от момента времени t, объёма выборки (длины
фрагмента временного ряда) и особенностей её положения относительно
временной оси: a = M[x(t)] = const, причём автокорреляционная функция зависит только от разности моментов времени: АКФ(t,s) = M[(x(t) – a)(x(s) – a)]
= f(t-s). Если же конечномерное распределение любого количества случайных
величин, составляющих этот процесс, в любые моменты времени не зависит
от времени, процесс называется стационарным в узком смысле.
Простейшим способом исключения случайной компоненты из ряда (1.1)
является сглаживание в скользящем окне (метод скользящего среднего)
[17,36]. Каждое значение ряда может пересчитываться, как посредством вычисления среднего арифметического значений ряда в окне, так и через их
взвешенную сумму, что соответствует полиномиальной аппроксимации. На
практике этот метод весьма распространён, основной вопрос для исследования в каждом конкретном случае – выбор ширины окна сглаживания и весовых коэффициентов. Метод ядерного усреднения, упомянутый в §1.1. также
является методом сглаживания, хотя и не столь популярен, как метод скользящего среднего.
При рассмотрении временных рядов, аддитивная модель которых включает несколько хорошо отделимых друг от друга гармонических компонент,
широко используется Фурье-анализ. Частным случаем цели исследования
может быть частотная фильтрация – способ цифровой обработка сигналов,
при котором колебания, имеющие периоды из заданного диапазона значений,
сохраняются, а все остальные следует подавлять. Этот подход становится
мало пригодным, если промежутки значений периодов полезного сигнала и
помех пересекаются. Применение дискретного преобразования Фурье, как и
быстрого преобразования Фурье, ставшего на практике основным вычислительным инструментом, может быть корректным только в том случае, когда
временной ряд является реализацией процесса, удовлетворяющего требованиям линейности и стационарности [88]. Несмотря на эти теоретические
ограничения, Фурье-анализ широко используется и при решении задач ис34
следования нестационарных временных рядов. Преобразование Фурье эффективно, если необходимо отобразить информацию о глобальных свойствах
временных рядов, но непригодно для извлечения данных о локальновременных свойствах, которые важны для краткосрочного прогнозирования.
Типичным примером в литературе по обработке сигналов является следующий. Рассматриваются несколько гармоник с пропорциональной частотой,
одинаковой амплитудой и фазой. Формируются две функции: первая из них
представляет собой последовательно включенные гармоники одинаковой
длительности, а вторая – их сумму на всём временном промежутке. Качественно периодограммы этих функций (рисунок 1.4) будут отличаться незначительно: они практически совпадают по частотам.
Рисунок 1.4. Периодограммы функций f1 (слева) и f2 (справа)из книги [7]: f1
состоит из трёх косинусоид, включённых последовательно, f2 – их сумма на
всём промежутке.
Поиск локальных особенностей временных рядов может быть выполнен
с использованием оконного преобразования Фурье, результат которого можно назвать частотно-временным описанием временного ряда. При таком подходе амплитуды аномалий усредняются, особенности динамики ряда могут
быть локализованы во времени с точностью, равной длине окна. Уменьшение
длины окна может сделать спектральные оценки неустойчивыми и повысить
влияние шумовых компонент. В последние двадцать лет альтернативой
оконного преобразования Фурье для спектрального анализа сигналов, содержащих так называемые сингулярные эффекты в виде изменяющихся периодов, фаз и амплитуд гармонических компонентов, а также скачков, стало
вейвлет-преобразование. В рамках такого подхода снимается ограничение на
35
вид базисной функции: она не обязана быть гармоникой. В качестве такой
функции (вейвлета) выбираются функции, хорошо локализованные не только
в частотной области, но и во временной. Вейвлеты и их Фурье-образы существенно отличаются от нуля лишь на малых интервалах времени и частоты и
равны нулю вне этих интервалов. В книге [7] приведён пример идентификации преобразованной гармоники на фоне шума. Исследуется временной ряд
x(t), который является амплитудно-модулированной косинусоидой С(t) с линейно возрастающей огибающей амплитуд, скрытой случайным процессом
y(t), описываемым моделью авторегрессии второго порядка АР(2):
t 50
2 t
cos
,
300
16
y (t ) 0,1 y (t 1) 0,3 y (t 2) (t ), 0,68,
c (t )
(1.12)
x (t ) c(t ) y (t ),t 1,256.
Были построены периодограмма Фурье-анализа по алгоритму с весовой
функцией Бартлетта и скейлограмма вейвлет-анализа Морле. Графики, приводимые в книге, позволяют сделать вывод, что пик скейлограммы имеет
большую амплитуду, а амплитуды высокочастотных составляющих лучше
сглажены (рисунок 1.5).
Рисунок 1.5. Периодограмма (слева) и скейлограмма (справа) зашумлённой
косинусоиды с линейно возрастающей амплитудой
Понятие «мгновенной частоты», близкое к идеям теории вейвлетов о
временной локализации, введено в работе [88]. Предложенный метод декомпозиции на эмпирические моды (ДЭМ) позволяет выделять ортогональные
компоненты модели (1.1). Другим способом разложения, применимым, как и
ДЭМ, к рядам произвольного вида, в частности, нестационарным, является
метод, основанный на сингулярном спектральном анализе (ССА) [14], при
36
котором выделяемые компоненты модели не являются ортогональными, но
строятся по множеству взаимно ортогональных векторов. Более подробно
ДЭМ и ССА, а также их многомерные аналоги будут представлены в §3.1.
§1.6. Методы краткосрочного прогнозирования многомерного временного ряда
В результате экспериментальных исследований реальных динамических
систем строятся модели, адекватность которых понимается как учёт известных физических закономерностей из предметной области и общих предположений о динамике процессов. Обычно имеют в виду ситуацию без катастрофического непредсказуемого поведения. Часто на систему действуют
большое количество факторов и вклад каждого в отдельности в динамику
всей системы трудно оценить. Допуская конечномерное описание системы
внешних факторов, в некоторых задачах можно определить так называемую
размерность вложения [43], которая позволяет оценить число этих факторов.
В терминах временных рядов одной характеристики, это число может трактоваться как размерность вектора лагов (см. §1.4) [43], то есть вектора, компонентами которого являются значения одномерного временного ряда в подряд идущие моменты времени. Вектор лагов естественным образом обобщается на случай многомерного ряда.
Общие предположения о динамике процессов, следствием которых являются наблюдаемые временные ряды, сводятся к гипотезам:
1) о повторяемости внешних воздействий на динамическую систему;
2) об адекватности реакции [22] (похожие внешние воздействия вызывают похожие реакции);
3) об инерционности (наличия промежутков устойчивости в динамике);
4) о конечном числе значимых факторов, влияющих на систему.
Априорная информация о физике конкретных процессов и общие предположения о их динамике позволяют в рамках теории временных рядов решать задачи идентификации выбросов и наличия сезонности, определения
периодов гармоник и уровня шума, а также прогнозирования значений мно37
гомерного ряда вида FNUG (t ) . Существующие методы прогнозирования в теории временных рядов (то есть инструменты, применяемые безотносительно
природы происходящих процессов, что соответствует постановке задачи исследования в §1.4) можно разделить на два класса: локальные и глобальные.
Такое деление проводится по области определения параметров аппроксимирующей функции, рекуррентно устанавливающей следующее значение временного ряда по нескольким предыдущим (по вектору лагов).
Локальные методы прогнозирования. Эти методы определены главным образом для одномерных рядов. Примерами являются так называемая
локальная аппроксимация, описанная в [43] и метод прогнозирования по выборке максимального подобия [72]. Так как в обоих случаях имеет место гипотеза воспроизведения с некоторой погрешностью целого фрагмента временного ряда (квазипериодичность), на лицо их основной недостаток – требование достаточно большого количества наблюдений: превышение горизонта в 500-700 раз в работе [72] и превышение горизонта не менее, чем в 100150 раз в монографии [43]. Исходя из обозначенного в §1.4. количества значений исходного ряда FNUG (t ) , которое превосходит значение горизонта в 50
и более раз, эти методы могут оказаться некорректными для решения поставленной задачи.
Экспоненциальное сглаживание. При вычислениях в режиме реального времени, когда требуется быстрое обновление прогноза при поступлении
новых данных, используют адаптивные методы прогнозирования. Так, следуя
методу экспоненциального сглаживания [36,44,72], прогноз определяется как
экспоненциальная средняя вектора лагов по рекуррентной формуле
x(t 1) S (t ) x(t ) (1 )S (t 1) ,
(1.13)
где α – параметр сглаживания, 0 < α < 1. Выполнив преобразование формулы
(1.13) с учётом размерности вектора лагов, равной N, и S(t-N) = 0, получаем:
N 1
x(t 1) S (t ) (1 )i x(t i )
i 0
38
(1.14)
Чем меньше значение параметра α, тем в большей степени подавляются
колебания исходного ряда. Обобщением метода является двойное экспоненциальное сглаживание (метод Хольта), при котором экспоненциальное среднее вычисляется и для ряда в целом, и для его трендовой составляющей. Распространение этих расчётов и на сезонную составляющую приводит к модели тройного экспоненциального сглаживания (методу Хольта-Уинтерса). Основным недостатком этих быстрых в расчётах адаптивных методов является
использование как моделируемого объекта только одномерного временного
ряда. Дополнительная информация (например, о динамике других одномерных рядов из FNUG (t ) ) может использоваться лишь путём регулирования параметров сглаживания. Придавая наибольший вес последним компонентам
вектора лагов, эти методы приближаются по смыслу к локальным методам
прогнозирования, хотя и являются глобальными.
Одномерная модель ARIMA. Хорошо зарекомендовавший себя глобальный статистический метод прогнозирования основан на представлении
одномерного ряда линейной моделью ARIMA (1.15), авторегрессионной моделью с интегрированным скользящим средним [4,7,17,36,44,54,56,65,70]:
p
q
i 1
j 1
d x(t ) c ai d x(t i ) b j (t j ) (t ) ,
(1.15)
где к одномерному ряду x(t) d раз применяется оператор разностного дифференцирования Δ, затем прогнозное значение определяется как сумма реализаций авторегрессионного процесса порядка p и процесса скользящего среднего порядка q. Эта модель применима к стационарным и некоторым нестационарным рядам, остаток которых после d-кратного разностного дифференцирования оказывается стационарным. Такие ряды называют интегрированными или разностно-стационарными. Метод естественным образом обобщается для кластерного ряда FTC : в работе [101] параметры порядка (p,d,q) подбирались при условии наилучшей аппроксимации всех одномерных временных рядов FTC (рассматриваемые целевые характеристики: температура, ско-
39
рость ветра и концентрация озона) Основные трудности при использовании
этой модели заключается в необходимости удаления тренда и определения
типа шумовой составляющей в аддитивной модели (1.1) до использования
ARIMA. Модель содержит большое число параметров, идентификация которых неоднозначна и ресурсоёмка ввиду того, что параметры порядка (p,d,q)
могут меняться со временем, исходя, например, из физической интерпретации динамики значений ряда или общих предположений.
Многомерные модели класса VAR. Статистическими аналогами ARIMA для многомерных рядов являются модели класса VAR – векторной авторегрессии. Их характеристики и приложения хорошо представлены как в
отечественной [35,52,67], так и в зарубежной литературе [75,79]. Примеры
приложений этих моделей к прогнозированию в задачах геофизики можно
найти в работах по исследованию осцилляций Маддена-Джулиана в океане
[94], проблемам сейсмики [96] и т.д. Представляет интерес адаптация этого
метода к учёту взаимного пространственного расположения узлов, для которых известны временные ряды значений некоторой характеристики. В работах [77,95] используется подход Spatial VAR (пространственная модель VAR)
для прогноза ситуации с безработицей в регионах Израиля, Испании и Швейцарии. Так или иначе, как и в случае параметрической идентификации ARIMA, сложность адаптации моделей класса VAR к конкретной прогностической задаче велика и требует высокого уровня квалификации эксперта как в
области статистики, так и в предметной области.
Модели с сегментацией одномерного ряда. Стационарность ряда
предполагает, что любая выборка последовательных значений временного
ряда (также говорят окно, фрагмент или отрезок временного ряда) принадлежит одной и той же генеральной совокупности. Для нестационарных рядов
данные, содержащиеся в разных фрагментах, не окажутся выборками с одним и тем же распределением. При попытке применения множественной линейной регрессии для такого ряда окажется, что выборки данных демонстрируют наличие структурных сдвигов в аддитивной модели ряда [43] – значи40
мое отличие коэффициентов регрессии. Отрезки постоянства коэффициентов
регрессии (то есть стационарные фрагменты ряда) иногда именуют структурными режимами, а моменты резкого изменения свойств наблюдаемого
ряда называют моментами разладки. Задачи нахождения моментов разладки
(анализа смены структурных режимов, или сегментации ряда), исследования
влияния этой неоднородности на точность прогноза и адаптации к ней получаемых прогнозов активно прорабатывались в последние двадцать лет
[11,37,43,98]. Большинство исследуемых временных рядов составляют нестационарные ряды, математический аппарат анализа которых весьма ограничен. Если ряд нестационарный, то его часто пытаются свести к стационарному путём перехода к первым (или вторым и т.д.) разностям, анализируя на
каждом шаге (чаще зрительно) коррелограмму, повторяя процесс до тех пор,
пока она не будет удовлетворять известным требованиям. Далее проводятся
тесты на стационарность (ADF-тест, критерий Колмогорова-Смирнова и т.д.
[2,38,54,56]). Тем не менее, разностное дифференцирование исходного ряда,
а также его остатков, не гарантирует получение стационарного ряда за конечное число шагов, так как тренд, исключённый из значений ряда, может
наблюдаться в его характеристиках: дисперсии и других моментах.
Среди отечественных работ последних лет особый интерес представляет статья Ю.Н. Орлова и К.П. Осминина [56]. Важным результатом статьи
является установление количественной связи между горизонтом прогноза,
объёмом выборки (длиной фрагмента) и точностью прогноза нестационарного временного ряда на основе интегрального критерия, применяемого не к
самому ряду, а его выборочной функции распределения. Новый метод статистического анализа и прогнозирования нестационарных временных рядов основан на введении критерия квазистационарности выборочной функции распределения и использовании дифференциального уравнения её эволюции для
описания поведения внутри и вне границ квазистационарности. Выделение
квазистационарных фрагментов исходного ряда по сути также является задачей сегментации. В последующей монографии [54] приведены результаты
41
применения данного метода для прогнозирования цен на финансовых и сырьевых рынках. К сожалению, предложенный авторами [54] метод прогнозирования не обобщается на случай многомерного ряда, однако введённый ими
метод определения квазистационарных фрагментов одномерных рядов будет
использован в данной работе (§§3.2,3.5) и кратко характеризуется в §3.3.
Рассмотрим далее несколько глобальных методов прогнозирования, которые основаны на структурных моделях временных рядов: нейросетевой
подход, экстраполяцию с помощью системы базисных функций, метод на основе сингулярного спектрального анализа и метод LGAP. В отличие от упомянутых ранее глобальных моделей, они не используют аппарат математической статистики. Как и подход, предложенный Ю.Н. Орловым и К.П. Осмининым, эти методы могут использоваться при работе с нестационарными
временными рядами, в том числе в многомерном случае.
Нейросетевое моделирование. Одним из популярных подходов для
решения практических задач анализа и прогнозирования временных рядов
является использование искусственных нейронных сетей (ИНС). Достаточно
изученной моделью, пригодной к решению задачи прогнозирования, является
многослойный персептрон [3,57,68], реализующий модель нелинейной регрессии. Важным вопросом для ИНС является выбор метода обучения (в
частности, алгоритма оптимизации), критериев его качества и остановки. В
том случае, если априорных знаний о зависимостях в данных практически
нет, часто используют именно модель ИНС как универсальный нелинейный
аппроксиматор. При прогнозировании пространственно-временной изменчивости с помощью персептронов можно поступать так: поставить в соответствие каждому узлу сетки UG многослойный персептрон, на входы которого
подаются как значения компонент вектора лагов для этого узла, так и значения характеристики в соседних узлах [89]. Экспериментальное исследование
в рамках этого подхода, сделанное автором данной диссертации, представлено в [26]. Основным недостатком ИНС является сложность структурной
идентификации выбранной модели сети (моделирование ведётся в условиях
42
«чёрного ящика») и ресурсоёмкость процесса её обучения.
Аппроксимация и экстраполяция с помощью системы базисных
функций. Стоит также упомянуть о методах решения задачи прогнозирования, в основе которых лежит выбор системы аппроксимирующих функций,
учитывающих динамику процесса, его существенную изменчивость на различных временных масштабах. В работе [17] предложен подход, использующий кусочно-полиномиальные функции. Исходя из очевидных преимуществ
построения
гладкой
аппроксимации,
предпочтение
отдаётся
сплайн-
функциям. В работе [40] проведен сравнительный анализ эффективности
применения нейронных сетей и вариационного сглаживающего сплайна при
решении задачи краткосрочного прогнозирования для модельных (сгенерированных искусственно) данных, которые могут быть аппроксимированы полиномами и гармоническими функциями. Обобщения этих методик для многомерных рядов обнаружено не было. Упомянутая в §1.5. методика декомпозиции временного ряда на эмпирические моды как базисные функции дополнена возможностью работы с многомерными рядами в работах [84,104], однако эмпирические моды не задаются аналитически, поэтому этот вариант
декомпозиции можно рассматривать только как предобработку временных
рядов до этапа прогнозирования (см. §3.1).
Прогноз по результатам сингулярного спектрального анализа.
Именно этот метод является основой начального внутрикластерного прогноза, поэтому он будет охарактеризован в §3.1.
Метод LGAP. Последний метод, который будет рассмотрен в этом параграфе из класса структурных методов, предложен Н.Г. Загоруйко [22]. Метод
LGAP (Learning Genetic Algorithm for Prognosis) является генетическим самообучающимся алгоритмом извлечения закономерностей из матрицы значений
многомерного временного ряда, в которой каждый столбец есть одномерный
временной ряд. Для этого метода способ упорядочения одномерных рядов
(выбор номера столбца в матрице для записи значений ряда) не важен. Экспериментальная проверка алгоритма проводилась на ежедневно публикуе43
мых курсах валют: для кросскурсов решалась задача прогнозирования на
один день вперёд. Примеров использования этого подхода для прогноза пространственно распределённых систем обнаружено не было, однако потенциальная возможность такого использования есть. Для определения прогнозного значения каждого временного ряда на один временной отсчёт вперёд использовалась модель линейной регрессии, в которой регрессорами выступают элементы матрицы, расположенные относительно друг друга в соответствии с определённым правилом: их «конфигурация» не изменялась вдоль
оси времени – при движении от первой строки матрицы к последней так
называемые штаммы (конфигурации) могли быть получены один из другого
с помощью сдвига во времени с постоянным шагом. Выбор оптимальной
конфигурации, или базового штамма, осуществляется переборным генетическим алгоритмом. При заданной мощности штамма (числе регрессоров)
можно получить однозначный вариант прогноза, оптимальный в смысле
ошибки регрессионной модели, коэффициенты которой получены из вычислений для тех штаммов, чьи регрессанты известны. Когда априори число регрессоров неизвестно (наиболее распространённый случай), появляется необходимость рассматривать различное их количество и, в итоге, делать взвешенное усреднение результатов ансамбля однотипных алгоритмов.
Коллективно-групповой подход (ансамблевый, консенсус-прогноз)
[22,72] принят во многих отраслях прогностической деятельности. Ансамбли
прогнозов широко используются в метеорологии [6,49], так как в настоящее
время известен ряд физических моделей атмосферы, разработанных в разных
странах. Аналогично, при анализе значений характеристик океана, имеющих
пространственное распределение и меняющихся во времени, используются
гидродинамические, регрессионные, нейросетевые и другие методы, совместный анализ результатов которых позволяет повысить надёжность генерируемых прогнозов. В статье [92] делается попытка использования комбинированного подхода для прогноза динамики водосборной площади водоёма.
Рассматривается множество станций (пунктов сбора данных), которые обра44
зуют нерегулярную сеть G. В каждом узле сети на заданный горизонт строится прогноз значений временного ряда с помощью статистической модели
ARIMA, а также нейросетевой прогноз с помощью многослойного персептрона, на входы которого подаются значения в остальных узлах с единичным
временным лагом. Финальный прогноз для узла есть линейная комбинация
двух предыдущих результатов. Численные эксперименты подтверждают повышение точности прогноза в рамках такого комбинированного подхода по
сравнению с регрессионным и нейросетевым в отдельности. По-прежнему
взаимное расположение узлов сетки G напрямую не учитывается.
Идеи коллективно-групповых подходов с весовыми коэффициентами,
показывающими значимость результата каждого отдельного алгоритма при
определении финального значения прогнозируемой величины, используются
также в гораздо менее формальных методах, известных как экспертный логический анализ [65]. Он предполагает учёт знаний, опыта, интуиции конкретных специалистов, работающих над решением отдельной проблемы,
возможно, без обязательного требования обобщения их результатов. Методы
такого типа оказываются полезными, так как предлагают комплексный анализ ретроспективы (накопленных сведений разного характера): качественной
трудно формализуемой информации в виде мнений и оценок экспертов, а
также количественных статистических данных. Экспертный логический анализ основывается на методе Беллмана-Брука-Буркова (по сведениям из [65]).
Он начинается с построения логической схемы, имеющей иерархическую
структуру, элементами которой являются: цель, эксперты, критерии оценки
вариантов (функции и сценарии положительных эффектов и рисков) и сами
варианты – методы прогнозирования и/или их результаты для конкретных
данных, в данном случае. Степень значимости критерия для выбранного эксперта, а также степень значимости его суждения для специалиста, использующего этот метод, задаётся посредством ранжирования. В результате, полученные числовые значения указывают сравнительную ценность вариантов с
точки зрения всех использованных критериев и с учетом предпочтений всех
45
экспертов. Такая работа проводится, в частности, специалистами береговых
аналитических центров, взаимодействующих с флотом во время рыбного
промысла: обобщаются суждения и результаты, представляемые специалистами в области морской биологии, промысловой океанографии, гидродинамики, математической статистики и т.д.
§1.7. Выводы
1. Регулярно проводимые измерения характеристик океанической поверхности, таких как температура и аномалии уровня (в частности, спутниковые данные) позволяют строить карты и многомерные временные ряды значений, соответствующие узлам планарной равномерной сетки UG.
2. Методы краткосрочного прогнозирования, относящиеся к группам
гидродинамических или физико-статистических подходов, не обладают достаточной общностью. Применение известных методик для решения задачи
прогнозирования пространственного распределения новой целевой характеристики или уже исследованной характеристики в другой акватории, которая
не рассматривалась изначально, не может быть выполнена путём незначительных изменений; более того, результаты гидродинамического моделирования недостаточно согласуются с данными спутниковой океанографии.
3. Задача диссертационного исследования как проблема краткосрочного
прогнозирования временной изменчивости пространственного распределения
физической характеристики без учёта её природы, опираясь только на ретроспективные данные измерений этой характеристики, сформулирована в терминах теории временных рядов.
4. Существующие методы краткосрочного прогнозирования многомерных временных рядов имеют ряд недостатков, связанных с жёсткими ограничениями на длину одномерных рядов и их свойства, неиспользованием информации о геометрии узлов сетки UG, порождающих эти ряды, поэтому
принято решение разработать собственную методику, использующую некоторые их идеи.
46
ГЛАВА II. ФОРМИРОВАНИЕ И ХАРАКТЕРИСТИКИ КЛАСТЕРНЫХ
ВРЕМЕННЫХ РЯДОВ
Глава посвящена кластеризации множеств двух типов объектов задачи
краткосрочного прогнозирования, сформулированной в §1.4: узлов сетки UG
и соответствующих им одномерных временных рядов. Задача разбиения
множества узлов и временных рядов с географической привязкой не является
строго говоря задачей кластеризации, так как невозможно интерпретировать
«центр сгущения» кластера, а функция расстояния между элементами кластера, как и межкластерное расстояние, должна учитывать как пространственные, так и временные особенности, что затруднительно. Тем не менее,
разработанный метод разбиения опирается на идеи и подходы кластерного
анализа, поэтому называется методом кластеризации, подмножество узлов –
кластером, а подмножество одномерных рядов – кластерным рядом. В главе
рассмотрены как классические общие подходы, так и авторский метод кластеризации.
В §2.1 приведена содержательная постановка задачи разбиения узлов
сетки UG на подмножества с учётом динамики соответствующих им временных рядов. В §2.2 определён понятийный аппарат методов решения этой задачи как задачи кластеризации. В §2.3 сделан обзор широко распространённых методов кластеризации и выполнена оценка возможности их применения
для решения поставленной задачи. В §2.4 приведён авторский метод кластеризации ряда FNUG (t ) как один из элементов предобработки данных в рамках
методики краткосрочного прогнозирования. В §2.5 предложены кластерные
характеристики, используемые как для оценки качества решения задачи кластеризации, так и для выбора корректирующих кластеров в задаче прогнозирования на этапе уточнения начального прогноза.
47
§2.1. Содержательная постановка задачи разбиения на подмножества
данных вида FNUG (t )
Проблемы разбиения множества узлов сетки UG на подмножества (а
также области Ω на подобласти) и множества соответствующих им одномерных временных рядов на кластерные ряды сформулированы в постановке задачи диссертационного исследования в §1.4. Решение этих проблем будем
выполнять в рамках теории и методов кластерного анализа. Для учёта особенностей пространственно-временных данных необходимо определить бинарное отношение пространственно-временной близости при фиксированной
длине фрагментов временных рядов на множестве узлов. Каждому узлу сетки
ставится в соответствие некоторая прямоугольная пространственная подобласть так, чтобы ни одна пара узлов не имела пересекающиеся подобласть
области Ω. Кластер составляется только из соседних узлов сетки UG, для
фрагментов временных рядов которых, значения некоторых критериев превышают заданный порог. Объединение вместе с узлами их пространственных
подобластей приводит к образованию односвязной подобласти области Ω.
Таким образом, под кластером можно понимать как подмножество узлов сетки UG, та к и односвязную подобласть области Ω. Для упрощения изложения
также будем отождествлять узел сетки UG и соответствующий ему временной ряд, а также кластер и кластерный ряд как объекты метода кластеризации, но при необходимости объект будет уточнён. Сформулируем содержательные требования к методу кластеризации ряда FNUG (t ) :
R1: адаптированность к сетке UG: кластеры должны быть прямоугольными или являться объединением прямоугольных областей;
R2: низкая чувствительность к шуму в значениях FNUG (t ) ;
R3: формирование кластеров в виде односвязных областей;
R4: обеспечение высокой степени согласованности временной изменчивости рядов кластера;
48
R5: запрет отставания или опережения в динамике временных рядов одного кластера относительно друг друга (будем считать, что одномерный ряд F1 отстаёт от ряда F2, если некоторые статистические
характеристики фрагмента ряда F1 могут быть определены по характеристикам фрагмента ряда F2 такой же длины, но начинающегося с более позднего временного отсчёта ).
Следует также ввести характеристики кластеров как меры их однородности различных временных масштабов, которые определяются по фрагментам соответствующих временных рядов.
§2.2. Проблема разбиения множества временных рядов как задача кластеризации
Под задачей кластеризации в работе имеется в виду задача разбиения
множества X мощности N (N = |X|) входных векторов размерности m на подмножества (кластеры) Xk. Векторы одного кластера более близки в соответствии с некоторым критерием, чем векторы из разных кластеров. Для решения сформулированной в §2.1 задачи имеем несколько вариантов [93] выбора
вида элемента множества Х:
1) ряд или фрагмент ряда (raw-data-based);
2) вектор значений характеристик ряда (feature-based): спектра сингулярного разложения, коэффициента кросс-корреляции, результатов
вейвлет-преобразование Хаара, особых точки и т.д.
3) вектор значений параметров модели (model-based): ARIMA, скрытой
цепи Маркова, смеси гауссиан, нейронной сети и т.д.
Всякий метод кластеризации определяется конечным набором правил P
(принципов, principles) [10]. Также он характеризуется функцией n(X,P), возвращающей количество кластеров, образуемых элементами множества Х по
правилам P. Значение этой функции может быть предустановлено условием
задачи, а может быть определено лишь после применения системы правил P.
Известно, что всякому способу кластеризации по правилам P свойственно
наличие так называемых потерь, связанных со степенью несходства элемен49
тов кластера. Эти потери характеризует вектор значений штрафной функции
qk ( X , P) q1k ,..., qNk при отнесении вектора xi к кластеру с номером k, где
qik qk ( xi , P) , а также X x i .
N
i 1
В типичных случаях, когда X – вещественное векторное пространство,
являющееся подпространством линейного нормированного пространства X*
(часто Rm), значения штрафной функции для ∀x ∈ X определяются с помощью
метрики, введённой на X*:
q k x, P x , k x k ,
(2.1)
причём в расчётах участвует так называемый центр k-го кластера θk (центр
сгущения) – точка из X*, которая может как принадлежать Х так и не быть
элементом этого множества. Координаты вектора θk обычно задаются как
среднее арифметическое координат элементов кластера Xk; координаты θk
могут многократно изменяться в ходе выполнения алгоритма кластеризации.
При таком подходе штрафная функция для элемента возрастает при удалении
x от центра соответствующего кластера, а множество X разбивается на n кластеров X1(P),…,Xn(P) таким образом, что к кластеру Xk(P) относятся все точки x, находящиеся к его центру ближе, чем к любому другому. При задании
элементов Х как фрагментов одномерных временных рядов (raw-data-based)
центром кластера является некоторый агрегированный сигнал. Он может
быть временным рядом медиан или средних по выборке, представленной
значениями карт Φ(t), попадающими в этот кластер.
Метрикой ρ(x,y), x,y∈X по определению называется функция двух переменных, которая удовлетворяет трём требованиям на всей области определения (аксиомам метрики [10,43,73,80,82,93,102]):
1) аксиома тождества: x, y 0x y ;
2) аксиома симметрии: x, y y, x ;
3) неравенство треугольника: x, z x, y y, z .
50
Выбор метрики является узловым моментом исследования, от которого
решающим образом зависит окончательный вариант разбиения множества Х
на кластеры при заданном алгоритме кластеризации. К нормам в Rm, ставших
классическими метриками, относятся:
1) расстояние Евклида:
2 x, y
m
x y
i 1
i
2
i
;
(2.2)
2) манхэттенское расстояние (является частным случаем расстояния
Минковского, как и расстояние Евклида):
m
1 x, y xi yi ;
(2.3)
i 1
3) расстояние Чебышёва:
4) x, y max xi yi .
(2.4)
1i m
Для фрагментов временных рядов также вводятся специализированные
функции расстояния, которые не удовлетворяют всем требованиям метрик.
Их называют мерами отличия d(x,y). Приведём некоторые известные меры
отличия, используемые при анализе рядов:
1. Мера для коротких фрагментов временных рядов ρshort:
d short x, y
N 1
x(i 1) x(i ) y(i 1) y(i )
2
.
(2.5)
i 1
2. Мера динамической временной обмотки (dynamic time warping, DTW)
[91]. Значения этой меры определяются с помощью метода динамического программирования. Рассмотрим два ряда x(t) и y(t) длины N.
Сформируем матрицу MN×N, элемент (i,j) которой является модулем разности x(i) и y(j). Обмоткой W = w1, …,wK длины К, где K=N,…,2N-1,
называется последовательность значений элементов матрицы, которая
удовлетворяет некоторым условиям: первым и последним элементами
обмотки являются соответственно первый и последний элемент главной
51
диагонали матрицы W, очередным значением последовательности может быть только элемент матрицы, который является соседним для
предыдущего и не отстаёт от него по времени. Мера находится по множеству всех возможных обмоток (в частности, всех возможных длин К):
K W
d DTW x, y min
W
w
k 1
k
K W
(2.6)
.
3. Расстояние Махаланобиса:
d M x, y
x y
T
S 1 x y ,S cov( x, y ) .
(2.7)
4. Популярными являются меры, основанные на вычислении линейного
коэффициента кросс-корреляции:
1) d1 x, y 1 rxy [50,85,87,112];
2) d 2 x, y
1 rxy
2
[105]
1 rxy
3) d 3 x, y
, 0 [85];
1 r
xy
4) d 4 x, y
1 r 0 r l [76], где
max
xy
l 1
xy
(2.8)
l – значение лага,
для которого вычислялся коэффициент кросс-корреляции.
В работах [93,102] можно найти и другие меры отличия, которые нашли
применение в кластеризации временных рядов. Из соображений классификации существующих подходов в этой области представляет интерес работа
[93] – обзор до 2005 года, а также [102] – обзор до 2012.
В статье [90] предложено сравнение результатов различных вариантов
кластеризации, где участвуют расстояние Евклида, Махаланобиса, DWT и
коэффициент кросс-корреляции, результаты которого подтверждают эффективность корреляционной меры. Исходя из требований R4 и R5 о согласованности временных рядов и запрете отставания/опережения, именно коэффициент корреляции выбран в качестве основной меры отличия в предлагае52
мом в §2.4 авторском методе. Если мера отличия d(x,y) нормирована, то в некотором смысле альтернативной ей можно считать меру близости – выражение (1 - d(x,y)). В расчётах можно использовать любую из этих мер. Таким
образом, для объединения пары временных рядов в кластер значение меры
отличия для них должно быть близко к нулю (если в качестве меры использовать d1 x, y 1 rxy , то имеем случай слабо коррелированные фрагменты
временных рядов), а меры близости – к единице (сильная положительная
корреляция фрагментов).
Вместо формальных построений аналитического выражения одной меры
отличия, в записи которой одновременно участвуют неоднородные по своей
природе относительные временные отсчёты и относительные пространственные координаты узлов, как, например, в [101], можно предложить несколько
мер и систему правил кластеризации P, учитывающих и пространственную, и
временную изменчивость. Таким образом, имеем две меры отличия:
1) временную меру dtime ( x, y ) для пары временных рядов x и y;
2) пространственную меру d space (ux , u y ) для соответствующих рядам узлов ux и uy сетки UG:
0,если 2 ux , u y 1,
d space (ux , u y )
1,если 2 ux , u y 1,
(2.9)
являющуюся дискретной метрикой, выделяющей соседей по значению метрики Евклида 2 ux , u y .
Наконец, вместо аналитически заданной метрики, мер близости или
определения модельных параметров (model-based) можно задать квадратную
симметричную бинарную матрицу, аналогичную матрице смежности в теории графов [10]: единица означает, что соответствующая пара элементов
(временных рядов) может попасть в один кластер, а ноль – напротив. Выбор
соответствующих формальных критериев представляет определённые трудности: для пары временных рядов может не быть однозначной интерпретации. Рассмотрим следующий пример (рисунок 2.1). Даны два временных ряда
53
длины N = 50 как две реализации одного и того же стационарного процесса
авторегрессии второго порядка, то есть AR(2):
x(t ) x(t 1) 0,5 x(t 2) e1 (t ),e1 (t )
N (0,1),
x(0) e1 (0), x(1) e1 (1),
y (t ) y (t 1) 0,5 y (t 2) e2 (t ),e2 (t )
N (0,1),
(2.10)
y (0) e2 (0), y (1) e2 (1).
Рисунок 2.1. Сгенерированные по модели AR(2) временные ряды
Оба ряда сгенерированы при одном и том же наборе параметров, а из
графиков видно, что они имеют похожую изменчивость относительно среднего значения (относительно нуля). Зная это, можем говорить, что алгоритм
кластеризации должен принимать во внимание механизмы процессов, породивших ряды, то есть сходства и отличия в динамике процессов, а не рядов.
В данном случае делаем вывод, что ряды могут быть отнесены к одному кластеру. С другой стороны, если доступная информация ограничена графиками
временных рядов, в результате визуального анализа можно отметить отрицательную корреляционную связь: для одних и тех же моментов ряды имеют
отклонения разного знака относительно среднего. Расчёт показывает, что коэффициент корреляции равен -0,48. Теперь проанализируем ряды в частотной
области (рисунок 2.2).
54
Рисунок 2.2. Периодограммы сгенерированных временных рядов
Периодограммы не имеют очевидных общих свойств. Делаем вывод, что ряды не могут быть отнесены к одному кластеру. На лицо противоречие.
Анализируя значения функции потерь q(X,P), определяемые по метрикам или мерам отличия, для каждого варианта выбора правил P и при условии приоритета меньшего количества кластеров, можно говорить о преимуществах одного метода кластеризации перед другим. Для этого задаётся критерий качества разбиения множества Х на кластеры. Выбор того или иного
функционала, как правило, осуществляется весьма произвольно и опирается
скорее на эмпирические соображения, чем на какую-либо строгую формализованную систему. Приведём наиболее распространённые критерии [10]:
1) сумма средних внутрикластерных расстояний:
n
0
i 1
1
Xi
x , min ,
N
j
j 1
ij
i
(2.11)
где µij – функция принадлежности вектора xj кластеру Xi, µij∈{0,1} ∀(i,j);
2) сумма межкластерных расстояний:
55
1 , i max ,
n
(2.12)
i 1
где θ – центр масс элементов Х.
3) отношение значений функционалов 1) и 2):
2 0 1 min .
(2.13)
В [80] функционал качества при работе с FNUG (t ) определяется как средняя абсолютная ошибка (MAPE). Пусть M – множество кластеров, полученное для ряда FNUG (t ) . Тогда
mape( M , FNv )
,
MAPE ( M )
V UG
vV UG
(2.14)
где FNv является временным рядом, соответствующим узлу v, а ошибка для
этого фрагмента рассчитывается по центру кластера, в котором находится
узел v:
v
v
1 N FN i i
mape( M , F )
.
N i 1
FNv i
v
N
(2.15)
Таким образом, задачу кластеризации можно ставить как задачу дискретной оптимизации: необходимо так приписать номера кластеров элементам Х, чтобы значение выбранного функционала качества приняло оптимальное значение.
Алгоритмы кластеризации можно разделить на следующие группы [73].
Иерархические и неиерархические. Наиболее известный признак классификации алгоритмов, учитывающий возможность построения дерева кластеров (вложения одних кластеров в другие).
Агломеративные и дивизивные. В агломеративных алгоритмах считается, что изначально каждый элемент содержится в отдельном кластере, которые на каждом шаге объединяются между собой, пока не будет выполнено
условие остановки. В дивизивных вариантах – наоборот: все элементы содержатся в едином кластере, который далее разделяется.
56
Непересекающиеся и нечеткие. Непересекающиеся алгоритмы относят
каждый элемент строго к одному определенному кластеру, в то время как нечеткие алгоритмы каждому элементу возвращают вектор вероятностей принадлежности к тому или иному кластеру.
Детерминированные и стохастические. Детерминированные методы
используют детерминированные алгоритмы оптимизации, а в стохастических
имеют место элементы случайного поиска.
Также можно производить разделение алгоритмов на те, что работают в
режиме реального времени, зависят или не зависят от начального разбиения
и порядка рассмотрения объектов и т. д.
§2.3. Обзор классических методов кластеризации и оценка возможности
их применения в решении задачи исследования
В данном параграфе рассмотрены достоинства и недостатки пяти широко распространённых в геофизических приложениях методов кластеризации
пространственно-временных данных. Для каждого из них в выводе в конце
соответствующего раздела дано обоснование, почему метод нежелательно
применять для решения задачи, сформулированной в §2.1. Это обоснование
сводится к наиболее очевидным комментариям о невыполнимости хотя бы
одного требования, заданного в §2.1. Классической задачей кластеризации
можно считать так называемую геометрическую кластеризацию: априори
считается, что компоненты каждого вектора x удовлетворяют некоторым
условиям, которые и позволяют выделять кластер, однако все компоненты
равноправны. Переупорядочение компонент будет являться чисто геометрическим преобразованием (поворотом или отражением системы координат) и
физическая интерпретация элементов множества Х не изменится. В простейшем случае, работая с каждым временным рядом как с элементом RN, стоит
также иметь в виду, что в отличие от геометрической кластеризации компоненты вектора xi таковы, что каждый следующий зависит от предыдущих, а
порядок естественным образом устанавливается по временным отсчётам.
57
При геометрической кластеризации можно говорить о форме кластера – замкнутой поверхности, такой что область пространства, ограниченная ею, содержит все элементы кластера. Обычно поверхность определяется из соображений удобства интерпретации. Наиболее распространённые варианты:
многомерный параллелепипед, сфера, эллипсоид. Если алгоритм кластеризации предполагает формирование кластеров определённой формы, то может
оказаться, что он не сможет выполнить правильную идентификацию кластеров другой формы. Рассмотрим три наиболее распространённых неиерархических метода геометрической кластеризации: метод К-средних, нейросетевой метод карт самоорганизации и плотностный метод DBSCAN. Необходимо упомянуть также популярный агломеративный иерархический алгоритм,
который может быть адаптирован для кластеризации пространственновременных данных (§2.4). В заключение рассматривается метод, основанный
на формировании эмпирических ортогональных функций.
Метод К-средних. В соответствии с методом К-средних (K-means),
предложенном Дж. Хартиганом и М. Вонгом [86], число кластеров должно
быть известно заранее (параметр К). Центры кластеров инициализируются
случайным образом как векторы Х. Алгоритм заключается в повторении двух
шагов: распределения элементов множества Х по кластерам по значениям
метрики, вычисленной для пары, в которой участвует центр очередного кластера и элемент Х, и пересчёта центров после такого распределения. Определение номера кластера k, в который попадает х∈X происходит из условия
ij x j , i min ,
n
N
i 1 j 1
(2.16)
где µij – функция принадлежности вектора xj кластеру Xi, µij∈{0,1} ∀(i,j). В качестве модификации можно рассмотреть вариант вероятностного определения принадлежности каждого вектора множества Х определённому кластеру
(конструкция из нечёткой логики), тогда коэффициенты µij∈[0,1] (fuzzy Cmeans). Однако, в обоих случаях сумма этих коэффициентов по переменной i
равна единице. Итеративный процесс прекращается, когда изменение значе58
ний компонент центров кластеров становится незначительным (определяется
параметром ε), то есть процесс настройки центров сходится. Недостатком
этого простого и широко распространённого метода является выделение кластеров только в форме многомерной сферы, а также необходимость задания
числа кластеров в качестве входного параметра. Также на результат существенных образом влияет инициализация центров, алгоритм чувствителен к
выбросам в значениях координат векторов множества Х. В приложениях недостатки метода К-средних компенсируются вычислительной эффективностью (временная сложность O(N·logN)), которая позволяет выполнять его
многократно для одного и того же множества Х, но разными вариантами
инициализации, пока не сформируется устойчивое разбиение на кластеры.
Вывод: если использовать метод К-средних для решения задачи данного исследования, то требования R1 и R2 очевидным образом не будут выполнены;
сравнение с искусственными данными в виде центров кластеров может привести к невыполнимости требования R5.
Методы с картами самоорганизации. Методы, основанные на SOM
(Self-Organizing Maps, карты самоорганизации), которые также называют
картами Кохонена (см §1.1), являются нейросетевыми самообучающимися
способами кластеризации. Карта Кохонена имеет структуру двумерной равномерной сетки с единичным шагом, в узлах которой находятся нейроны, что
позволяет интерпретировать их как узлы или прямоугольные подобласти сетки UG в решаемой задаче. Нейрон характеризуется вектором весов, размерность которого равна размерности векторов из Х, так как обучение сводится к
настраиванию весов таким образом, чтобы они выполняли роль центров кластеров, а сами нейроны интерпретировались как кластеры. Следует отметить,
что в данном подходе кластер может оказаться пустым: нейрон в структуре
сети существует, но ему не соответствует ни один вектор множества Х. Инициализация сети заключается в присвоении весам нейронов случайных, близких к нулю, но отделимых от него значений, при этом элементы множества Х
должны быть нормированы. Каждая итерация обучения c номером i пред59
ставляет собой последовательно выполняемые действия: выбор случайным
образом одного элемента множества Х как входного, определение множества
обновляемых нейронов, веса которых необходимо изменить, и, наконец, обновление нейронов. Для очередного вектора х определяется ближайший
нейрон ν0 (в качестве метрики для вектора весов нейрона и вектора х обычно
выбирается расстояние Евклида). Далее определяется пространственная
окрестность этого нейрона Uν0⊂UG. Завершает i-тую итерацию обучения обновление веса нейрона ν по правилу:
w (i ) (i ) 2 ( , 0 )( x(i ) w (i 1)),если U 0 i
w (i 1)
w (i ),если U 0 i
(2.17)
где α(i) – монотонно убывающая функция адаптации (этот параметр также
именуется шагом, скоростью) поправки, а ρ2(ν,ν0) – евклидово расстояние
между нейронами ν и ν0 как узлами равномерной сетки, которая образует карту Кохонена. Модификации GSOM и GHSOM позволяют строить растущие и
растущие иерархические карты соответственно, что снимает проблему в виде
предустановленного числа кластеров, как в алгоритме К-средних. Также
нужно отметить, что SOM не требуют от пользователя настройки своих параметров: для каждого из них есть рекомендуемые значения. Ещё одним достоинством метода является возможность работы с зашумлёнными данными,
так как никакой вектор из Х не рассматривается как центр кластера ни на одном шаге метода. Общим недостатком методов группы SOM является необходимость многократного выполнения алгоритма для достижения в некотором смысле устойчивых результатов в силу того, что он является стохастическим. Этот недостаток присущ и методу К-средних, однако в меньшей степени, так как он является детерминированным. Вывод: обновление весовых
векторов приводит к появлению искусственных осреднённых данных, что
может нарушить выполнимость требования R5.
Плотностные методы DBSCAN и OPTICS. Основная цель этих методов – выполнить идентификацию кластеров произвольной формы, предполагая также наличие шума в данных. Алгоритм DBSCAN (Density-Based Spatial
60
Clustering of Applications with Noise) [82] имеет два параметра: радиус εокрестности точки x∈X и наименьшее число точек p (ε-соседей), которое
должно попадать в эту окрестность. Если очередная рассматриваемая точка,
не отнесённая ещё ни к одному из кластеров, имеет достаточное количество
ε-соседей, возможно, уже использованных в других кластерах, то она формирует новый кластер. Если ε-соседей мало, то эта точка временно помечается
как шумовая, но в том случае, когда она попадёт в ε-окрестность точки y, у
которой количество ε-соседей не меньше p, то она попадает в кластер, в котором содержится у. Достоинство метода заключается в низкой чувствительности к инициализации (выбору вектора исходных данных, с которого начнёт
работу алгоритм) и порядку рассмотрения точек. Так или иначе, стоит отметить, что DBSCAN непригоден для кластеризации данных, плотность (отношение p/ε) которых существенно меняется. Также использование метода не
имеет смысла для больших размерностей векторов Х: здесь «проклятие размерности» также затрудняет выбор значений пары (p, ε). Алгоритм OPTICS
(Ordering Points To Identify the Clustering Structure) [74] является развитием
DBSCAN и позволяет идентифицировать кластеры с разной плотностью. В
этом алгоритме появились дополнительные характеристики для элементов Х,
поэтому векторы исходных данных анализируются в определённом порядке.
Оба алгоритма имеют временную сложность, равную O(N·logN), причём
среднее отношение временных затрат OPTICS к DBSCAN составляет 1,6 [74].
Вывод: алгоритм не адаптирован к работе с сеткой, то есть не выполняется
условие R1.
Агломеративные иерархические методы. В агломеративных иерархических методах кластеризации неотъемлемой частью алгоритма является выбор элемента y∈X для добавления в кластер, уже состоящий из двух элементов. Для решения этой задачи вводится функция расстояния между кластерами, предполагая, что один элемент также можно рассматривать как отдельный кластер. Большинство используемых соотношений для определения
межкластерных расстояний является частными случаями формулы Ланса61
Уильямса [10]. Приведём некоторые из них, используя для пары кластеров
обозначения С и К:
1) расстояние ближайшего соседа:
D1 (C, K ) min c, k ;
cC ,kK
(2.18)
D2 (C, K ) max c, k ;
(2.19)
2) расстояние дальнего соседа:
cC ,kK
3) расстояние между центрами:
D3 (C, K ) 2 C , K ;
(2.20)
4) расстояние Уорда:
D4 (C , K )
C K
2 C , K .
CK
(2.21)
Для визуализации иерархии кластеров часто используется дендрограмма, в которой элементы Х расположены вдоль горизонтальной прямой равномерным образом (рисунок 2.3), а по вертикали откладываются значения
метрики или межкластерных расстояний. Из соображений удобства восприятия оси расстояний и элементов Х могут меняться местами.
Рисунок 2.3. Пример дендрограммы для результатов кластерного анализа
зимних полей солености воды в слое 5–50 м в Арктическом бассейне за период c 1950 по 1993г. и 2007г; элементами Х являются годы наблюдений [66]
62
Вывод: фактически метод можно модифицировать таким образом, чтобы использовались две меры близости dspace и dtime, определённые ранее, но он не
приспособлен для выделения прямоугольных кластеров, что нарушает требование R1, поэтому он должен предваряться некой дивизивной процедурой.
Построение эмпирических ортогональных функций. Традиционным
способом обработки геофизических данных при решении задач выявления
однородных подобластей области Ω, описания основных особенностей ряда
FNUG (t ) и его прогнозирования является метод, основанный на использовании
эмпирических ортогональных функций (ЭОФ) [46,47,97]. Построение и исследование ЭОФ относится к разделу обработки данных, называемому факторным анализом, основным инструментом которого является метод главных
компонент, использующий сингулярное разложение матриц. В частности,
при работе с FNUG (t ) ЭОФ определяются по матрице, столбцами которой являются некоторым образом преобразованные значения карт Φ(t).
Физическая интерпретация последовательности ЭОФ, как и идентификация проявлений физических процессов в каждой из них, затруднена из-за
требования ортогональности. Это свойство ЭОФ как базисных функций может привести, например, к следующей ситуации. Изменчивость первой ЭОФ
незначительна, на карте второй ЭОФ отчётливо наблюдаются два «центра»
изменчивости, один из которых характеризуется окрестностью с положительными значениями ЭОФ, другой – с отрицательными, а далее для очередной ЭОФ количество таких центров возрастает для выполнения условия ортогональности. Кроме того, необходимо помнить, что каждая ЭОФ строится
так, чтобы учесть как можно большую изменчивость, а не подчеркнуть временную или пространственную локализацию некоторых особенностей физического процесса. Вполне возможно, что очередная ЭОФ будет содержать
только положительные значения, а следующая – только отрицательные, однако не было ни одного момента времени, при котором карты имели отклонения от средних значений с такими свойствами. Отметим также, что особенности пространственного расположения узлов сетки UG не используются
63
в расчётах ЭОФ. Наконец, возникают проблемы численного разделения пары
ЭОФ для близких значений сингулярных чисел. Существуют определённые
эвристики [97] для преодоления указанных недостатков, но они не являются
достаточно общими. Одним из подходов является вращение системы координат, чтобы каждая ЭОФ принимала значимые, отделимые от нуля значения
в различных пространственных точках – тогда ЭОФ можно интерпретировать
как кластер. Вывод: при интерпретации ЭОФ как кластеров можем получить
вариант, где кластер не будет односвязной областью (нарушается требование
R3); ЭОФ не работают напрямую с сеткой (нарушается требование R1).
§2.4. Авторский метод кластеризации ряда FNUG (t )
Рассмотрим метод кластеризации узлов сетки UG, основанный на анализе пространственно-временной изменчивости ряда FNUG (t ) , опубликованный
автором диссертации в [27]. В качестве меры отличия d1 ( x, y ) будем использовать выражение (1 - rxy), где rxy – коэффициент кросс-корреляции, вычисленный для пары временных рядов x и y (см. §2.2). В основу метода положены следующие правила (с учётом требований из §2.1):
P1: на начальном этапе следует группировать узлы, находящиеся внутри
прямоугольных областей, так как исходная равномерная сетка является
прямоугольной;
P2: коэффициент кросс-корреляции, вычисленный для любой пары узлов
(то есть для соответствующей пары временных рядов) одного кластера,
не должен быть меньше наперёд заданного порогового значения;
P3: для любой пары узлов одного кластера наибольшее значение коэффициента кросс-корреляции для заданных фрагментов соответствующих им
рядов должно приходиться на нулевой лаг;
P4: кластеры необходимо укрупнять, объединяя прямоугольные кластеры в
соответствии с жадным алгоритмом (то есть алгоритмом, на каждом шаге которого принимаются локально оптимальные решения): объединя64
ются пары имеющих общую пространственную границу кластеров с
наибольшим значением наименьшего коэффициента кросс-корреляции,
который вычисляется для пар узлов (то есть для соответствующих пар
временных рядов), взятых из разных кластеров.
По представленным правилам можно сформировать такую последовательность действий: первичное разбиение UG равномерным образом на прямоугольники (P1, инициализирующий шаг), дальнейшее измельчение кластеров (P2 и P3, дивизивный шаг), а затем объединение этих кластеров (P4, агломеративный шаг). Необходимость дивизивного шага можно обосновать
тем фактом, что кластеризация интерпретируется как этап предобработки в
задаче краткосрочного прогнозирования. Исходя из требований объединения
в определенном смысле наиболее согласованных в динамике одномерных рядов, важно принимать во внимание не только значения коэффициента кросскорреляции, но и лаг, на котором достигается его наибольшее значение. Так
как далее система кластеров используется для взаимной коррекции, то есть
ставится задача выбора корректирующих кластеров, опережение или отставание одного ряда относительно другого (случай, когда наибольшая корреляция наблюдается не для нулевого лага – нарушение требования R5 из §2.1)
следует рассматривать как неоднородность кластера, в котором они содержатся, поэтому кластеры с такими элементами запрещены. Предложенные
правила кластеризации не предусматривают работу с искусственными данными в виде центров кластеров: происходит анализ только реальных рядов.
Выполнение указанных требований позволяет ожидать большую эффективность процедур начального внутрикластерного прогноза и коррекции.
Остановимся на интерпретации опережения/запаздывания одного ряда
относительно другого из требования R5 в контексте использования коэффициента кросс-корреляции. Для многомерного ряда входных данных вычисляется коэффициент корреляции между любой парой одномерных рядов. Рассматриваются оба варианта временного сдвига фрагмента одного ряда относительно другого: при опережении и запаздывании (см. §2.1). Необходимо
65
выяснить, при каком значении лага для каждой пары фрагментов временных
рядов при заданной их длине и выбранного стартового временного отсчёта
наблюдается наибольшая положительная корреляционная связь. Для обоих
вариантов (запаздывания и опережения) последовательно перебираются значения лага от 0 до некоторого заранее установленного наибольшего числа.
Очередное значение лага считается оптимальным, если коэффициент корреляции для этого лага превышает коэффициент для ранее найденного оптимального не менее, чем на 0,005. Последнее условие будем трактовать как
критерий определения наибольшего значения коэффициента корреляции.
Значение лага равно нулю, если для выбранной пары узлов наибольшее значение (в том смысле, как указано ранее) коэффициента корреляции достигается в случае, когда временной сдвиг для выбранных временных рядов отсутствует; лаг положителен, если искомое значение лага наблюдается при опережении фрагмента ряда для узла u2 значений фрагмента ряда для узла u1 – то
есть наибольшем коэффициенте корреляции именно при таком варианте
сдвига по времени фрагмента одного ряда относительно фрагмента другого.
При условии запаздывания u2 относительно u1 лагу приписывается отрицательное значение. Таким образом, для всякой упорядоченной пары узлов (u1,
u2) знак лага позволяет однозначно установить какой ряд из пары одномерных рядов опережает/запаздывает по отношению ко второму.
Входными параметрами метода является пороговое значение µ для коэффициента кросс-корреляции, а также количество прямоугольников, в которые группируются узлы на инициализирующем шаге. Так как дальнейшее
разделение этих прямоугольников осуществляется во время дивизивного шага, то этот входной параметр можно считать необязательным (некритичным),
определив его равным, например, четырём. В этом случае необходимо только, чтобы размеры UG сетки dr и dc были чётными. Назовём базовым подкластером кластер, образованный в результате выполнения инициализирующего
и дивизивного шагов. Тогда агломеративный шаг представляет собой следующий алгоритм:
66
1. Формируем список List1 с элементами C вида <базовый подкластер ZC,
пустой список (множество) подкластеров LC>. Элементы списка List1 по
окончании агломеративного шага будут представлять итоговые кластеры
вида С = ZC∪LC.
2. Составляем список List2 всех возможных неупорядоченных пар базовых
подкластеров (Z1,Z2) и вычисляем расстояние между ними через коэффициент кросс-корреляции как расстояние дальнего соседа:
D( Z1, Z 2 ) max
z1Z1 ,z 2Z2
1 r ,еслиr
z1z2
z1z2
иrz1z2 rz1z2 (0) max rz1z2 l ,
l 0,...,lmax
где l – лаг, в противном случае эта величина принимает значение по умолчанию η=1.
3. Сортируем список List2 по возрастанию межкластерных расстояний.
4. Просматриваем список List2 от начала. Как только найдена пара подкластеров (Z1,Z2), которым соответствуют кластеры с общей границей (С1,С2),
то есть имеет место пара узлов (u1,u2) u1∈Zi , u2∈Zj, Zi⊂С1, Zj⊂С2, для которой dspace(u1,u2) = 1, эти кластеры объединяются:
4.1. пара (Z1,Z2) удаляется из списка,
4.2. Z3D( Z1, Z3 ) max D( Z1, Z3 ), D( Z 2 , Z3 ) ,
4.3. все пары (Z2,Z3) удаляются, а соответствующие пары (Z1,Z3) перемещаются, занимая их позиции, если удалённая пара была дальше от
начала списка List2,
4.4. Z2 перестаёт именоваться базовым подкластером и добавляется в список подкластеров кластера С1 вместе со всеми остальными подкластерами кластера С2.
4.5. кластер С2, содержавший ранее Z2, удаляется из списка List1.
5. Переход на 4.
6. Критерий останова для 4-5: нет пар (Z1,Z2), соответствующих кластерам с
общей границей, таких что D(Z1,Z2) не равно единице.
67
§2.5. Кластерные характеристики
Введём характеристики кластеров, на основе которых можно определить
критерии качества кластеризации как меры однородности временной изменчивости одномерных рядов кластеров. Также эти характеристики необходимы в дальнейшем для выбора корректирующих кластеров при фиксированном корректируемом кластере. Их использование с этой целью будет обсуждаться в §3.6.
Коэффициент кросс-корреляции можно определить как кластерную
характеристику: выбрать наименьшее значение, вычисленное для всех возможных пар одномерных временных рядов кластера при нулевом лаге. Чем
больше значение этой характеристики, тем более однородным с точки зрения
временной изменчивости является кластер.
Отношение сингулярных чисел. Множество сингулярных чисел может
быть определено для каждого временного ряда, если использовать одномерный вариант сингулярного спектрального разложения траекторной матрицы
(см. §3.1). Составим отношения первого сингулярного числа ко второму, второго к третьему и т.д. Затем выбираем для каждой пары номеров сингулярных чисел наибольшее и наименьшее значение отношения среди всех рядов
кластера. Представляет интерес рассмотрение таких отношений небольшого
количества первых сингулярных чисел (например, до 5-го). Как критерий качества эти отношения можно использовать следующим образом: чем меньше
отличие наибольшего и наименьшего отношений для фиксированных номеров сингулярных чисел, тем в большей степени кластерный ряд является однородным. Также заметим, что, что значительная близость значений пары соседних сингулярных чисел показывает наличие гармонической составляющей в модели временного ряда [14]. Если одно значение в паре отношений
сингулярных чисел (k1,k2) указывает на присутствие гармоники, а другое –
нет, то кластер можно признать неоднородным. Будем считать кластер однородным, если имеет место один из следующих случаев:
68
1) min k1, k2 1,1и k1 k2 ;
max k1 , k2 1
2.
2) min k1 , k2 1,1и
min k1 , k2 1
(2.22)
Дисперсия пространственной изменчивости приращений характеристики. Проанализируем пространственную и временную изменчивость
приращений исследуемой характеристики в пределах кластера С за небольшой временной промежуток τ. Для этого найдём разности
F i (t ) F i (t ) F i (t 1) ,
(2.23)
где i – номер узла кластера С. Вычислим среднее значение для каждого временного ряда отдельно
2
F i (t | ) F i (t j ) 1
j 0
(2.24)
и нормируем найденные разности
f i (t j ) F i (t j ) F i (t | ) .
(2.25)
При фиксированных значениях t0 и τ эту процедуру можно распространить на
все кластеры сетки UG, сформировав временные ряды и соответствующие
карты Δf(t) (рисунок).
Рисунок 2.4. Массив карт нормированных разностей Δf(t)
Вычислим для каждого момента времени t∈[t0-τ+2; t0] оценку дисперсии
приращений значений карты в области, ограниченной кластером. Наконец,
69
найдём среднюю дисперсию:
2
D (C , t , )
D (f (t j ))
j 0
1
,
(2.26)
которую и будем считать дисперсией пространственной изменчивости приращений характеристики в рамках кластера C на момент t для временного
масштаба τ.
Направление градиента пространственной изменчивости кластера.
Для каждого узла (i,j) кластера С в заданный момент времени t находим градиент gij(t):
gij(t) = [F i+1,j (t) - F i-1,j (t)]e1 + [F i,j+1 (t) - F i,j-1 (t)]e2 ,
где F i,j (t) – значение характеристики в узле (i,j) в момент времени t; e1, e2 –
орты горизонтальной (вдоль параллелей) и вертикальной (вдоль меридианов)
осей соответственно. Сумму градиентов для всех узлов одного кластера
назовём градиентом этого кластера. Для простоты направление градиента
кластера будем считать совпадающим с одним из четырёх географических
направлений, на которое он имеет наибольшую проекцию. Рассмотрим в качестве примера градиент для некоторого узла (рисунок 2.5). Если предположить, что он является градиентом кластера, то результатом применения к
нему такой аппроксимации будет направление на север.
Рисунок 2.5. Градиент характеристики в узле (узел выделен красным) при
заданных значениях характеристики в 4-х соседних узлах.
70
Эту характеристику можно интерпретировать как критерий качества кластеризации по значению модуля градиента: чем больше его значение (при условии малости дисперсии D(C,τ,t)), тем более однородным является кластер С в
момент времени t для временного масштаба τ .
Отметим, что введённые характеристики можно разделить на две группы как меры однородности локального (дисперсия и градиент) и глобального
(корреляция и отношения сингулярных чисел) временного масштаба.
§2.6. Выводы
1. Разбиение системы одномерных временных рядов на однородные в
некотором смысле группы может быть выполнено классическими методами
кластерного анализа и методами, использующими эмпирические ортогональные функции. Объектом кластеризации могут быть как фрагменты одномерных рядов, так и векторы их характеристик.
2. Разбиение множества узлов сетки UG на подмножества (кластеры) и
построение кластерных рядов по многомерному ряду с географической привязкой FNUG (t ) не следует выполнять упомянутыми методами ввиду наличия
как пространственных, так и временных зависимостей в данных.
3. Особенности задачи кластеризации пространственно-временных данных вида FNUG (t ) дают основания для определения специализированных правил, на основе которых предложен авторский метод кластеризации.
4. Для кластерных временных рядов введены меры однородности пространственно-временной изменчивости глобального и локального масштаба
времени, именуемые для краткости кластерными характеристиками, которые
можно использовать как для оценки качества решения задачи кластеризации
данных вида FNUG (t ) , так и в дальнейшем при решении задачи уточнения
начального внутрикластерного прогноза.
71
ГЛАВА III. МЕТОДИКА КРАТКОСРОЧНОГО ПРОГНОЗИРОВАНИЯ
ЗНАЧЕНИЙ КЛАСТЕРНЫХ ВРЕМЕННЫХ РЯДОВ
В главе представлена модель пространственно-временной изменчивости
целевой характеристики как аппроксимация кластерных рядов, сгруппированных из одномерных рядов многомерного ряда FNUG (t ) в соответствии с
методом,
изложенным
в
§2.4.
Предложены
методы
идентификации
структурных компонентов модели кластерного ряда, которые вместе с
методом кластеризации образуют методику краткосрочного прогнозирования
значений ряда FNUG (t ) .
В §3.1 приведён содержательный анализ аддитивных моделей многомерного ряда ДЭМ (декомпозиции на эмпирические моды) и ССА (сингулярного спектрального анализа) и их многомерных вариантов (МДЭМ и МССА),
которые используются в модели кластерного ряда, представленной в §3.2.
Дальнейшие параграфы посвящены детализации этой модели. В §3.3 содержится краткие сведения о способе выбора длины фрагмента временного ряда,
который непосредственно используется для построения прогноза, в §3.4 обсуждается подходы к определению количества значимых аддитивных компонент кластерного ряда, определяемых по МССА. В §3.5 описан авторский
метод начального внутрикластерного прогнозирования, а в §3.6 – результаты
его применения для сгенерированных (искусственных) данных. В §3.7 изложен авторский метод уточнения начального внутрикластерного прогноза, использующий статистическую модель временного ряда усреднённых по кластерам ошибок начального прогноза. В §3.8 делается оценка временной
сложности алгоритмов кластеризации и прогнозирования, входящих в состав
представленной в диссертации авторской методики построения прогноза значений ряда FNUG (t ) .
72
§3.1. Основные положения подходов МССА и МДЭМ в рамках задачи
декомпозиции многомерного временного ряда
Рассмотрим более подробно два метода декомпозиции, упомянутые в
§1.1: ДЭМ и ССА. Каждый из них был предложен для одномерных рядов,
однако позже они были распространены на многомерный случай. Модели и
алгоритмы, принятые в рамках этих подходов, будут использованы для аппроксимации каждого кластерного ряда, то есть построения модели пространственно-временной изменчивости целевой характеристики (см. §3.2).
Декомпозиция на эмпирические моды (ДЭМ). В работе [88] Huang
делает обобщение гармонических функций как ортогональных функций базиса декомпозиции, названных в русскоязычной литературе «эмпирическими
модами»: пара огибающих графика каждой функции симметрична относительно нуля, а общее число экстремумов либо равно количеству нолей, либо
меньше на единицу. В работе также предлагается численный метод, позволяющий выделять эмпирические моды из произвольного временного ряда.
Шумовые составляющие по ДЭМ формируются в первую очередь, а последняя компонента – остаток – не удовлетворяет в общем случае требованиям,
предъявляемым к эмпирической моде. Этот остаток является самой низкочастотной компонентой ряда, так как имеет наименьшее количество экстремумов (или не имеет вовсе). Численный алгоритм получения ортогональных
мод, названный в работе [88] «просеиванием», сводится к построению на
каждой итерации огибающих ряда: верхняя огибающая проходит через локальные максимумы, а нижняя – через минимумы. Несомненным достоинством ДЭМ является адаптивность её базиса: метод позволяет не только выделять составляющие нестационарного ряда, число которых для реальных
данных обычно невелико (до 10), но и определять их временную изменчивость по исходными данными. Также ДЭМ предоставляет возможность сглаживания путём отбрасывания первой составляющей. Известным недостатком
метода ДЭМ является так называемый краевой эффект, в результате которого
каждая следующая выделенная компонента подвергается всё большим иска73
жениям на обеих границах. Эффект отчётливо прослеживается при анализе
рядов (рисунок 3.1), компонентами которых являются гармоники [19].
Рисунок 3.1. Сигнал f0 и его компоненты c1,c2, c3, выделенные по методу ДЭМ
Краевой эффект становится критическим моментом, если рассматривать
ДЭМ как предобработку ряда в задаче прогнозирования. Основной причиной
погрешности в рамках этого эффекта является объявление границ ряда одновременно и максимумами, и минимумами, то есть опорными точками для построения соответствующих огибающих. Статья [109] является одной из последних зарубежных работ, в которой представлен как обзор известных способов уменьшения краевого эффекта, так и влияние этих корректирующих
процедур на результаты прогноза. В последующих параграфах будут использованы подходы коррекции координат первой и последней опорных точек
для составления огибающих, предложенные в [103] и [19] R.T. Rato и В.А.
Давыдовым соответственно (рисунок 3.2, метки «Давыдов» и «Rato» даны
для упрощения ссылок), так как они, по мнению автора диссертации, используют лишь общие предположения о динамике рядов. Будем говорить, что
первый минимум – это первая (с наименьшим значением аргумента – номером временного отсчёта) опорная точка для построения нижней огибающей,
а последний минимум – последняя (с наибольшим аргументом) опорная точка для этой же огибающей. Аналогично определяются первый и последний
максимумы как точки на верхней огибающей. Второй и последующие минимумы (максимумы) определяются естественным образом по известным необходимым и достаточным условиям. Автор работы [103] предлагает подход,
74
при котором граничные моменты времени для огибающих находятся за пределами области определения ряда. Значение первого минимума совпадает со
значением второго, а его аргумент равен противоположному по знаку значению аргумента второго максимума, предполагая, что левая граница временного ряда соответствует нулевому моменту времени. По аналогии вводится
первый максимум. Пара последних экстремумов также определена подобными «зеркальными» условиями. Подход [103] в экспериментальном исследовании [109] показал лучшие результаты. Второй подход, используемый далее
в данной работе, предложен отечественными авторами в статье [19]. В рамках этого подхода область определения огибающих и ряда совпадают, а каждая граничная точка может быть принята как опорная точка не более чем одной огибающей. Значения первого и последнего минимума (максимума)
определяются так же, как и в работе [103].
F
Давыдов Rato
N
0 1
t
Рисунок 3.2. Варианты задания последних минимума и максимума (метки по
фамилиям авторов)
Адаптации идей ДЭМ для многомерного временного ряда общего вида
(МДЭМ) представлена в настоящее время серией публикаций двух коллективов авторов, в частности, работами [84,104]. В диссертационной работе принят подход из [84]. Основной обобщения является задание некоторой согласованности в построении огибающих одномерных рядов, так как ДЭМ, применяемый к каждому ряду отдельно, не гарантирует выделение одинакового
количества компонент в их разложении. Рассмотрим вектор-функцию f(t), ко75
торая вводится для интерполяции значений кластерного ряда FNC (t ) и является непрерывно дифференцируемой. Так как понятие экстремума для векторфункций в общем случае не определено, авторы [84] предлагают понятие
«экстремумов осцилляции» (oscillation extrema) как множества локальных
минимумов скалярной функции β(t):
(t ) df
dt
2
,
(3.1)
где . используется для обозначения евклидовой нормы. Легко видеть, что
множество экстремумов осцилляции в случае скалярной функции f(t), то есть
одномерного временного ряда, включает в себя как экстремумы в классическом смысле, так и седловые точки этой функции. Для каждого временного
ряда в отдельности строится пара огибающих, одна из которых проходит через экстремумы осцилляции с чётными номерами, а другая – с нечётными.
Граничные точки каждого ряда также используются для вычисления огибающих. Важно, что опорные точки огибающих всех временных рядов взяты в
одни и те же моменты времени.
Сингулярный спектральный анализ (ССА). Другим способом разложения, применимым, как и ДЭМ, к рядам произвольного вида, в частности,
нестационарным, является метод, основанный на выделении не ортогональных аддитивных компонент ряда, а использовании ортогонального базиса
пространства, порождённого так называемой траекторной матрицей, поставленной в соответствие фрагменту исходного временного ряда. Это подход
известен как сингулярный спектральный анализ. В работе [14] исследована в
рамках ССА асимптотическая разделимость временных рядов, формируемых
функциями: константа, прямая пропорциональность, косинус, экспонента,
амплитудно-модулированный экспонентой косинус. Показано, что при конечном объёме выборки (длине фрагмента ряда) точная разделимость гарантирована лишь для некоторых их пар: (const, cos), (cos, cos), (exp, exp cos),
(exp cos,exp cos). Ключевыми проблемами обработки реальных данных в
рамках этого подхода являются также неоднозначность в выборе числа строк
76
(или столбцов) траекторной матрицы, а также определении количества главных компонент сингулярного разложения этой матрицы, которые отвечают
за всю детерминированную составляющую ряда.
Обобщение ССА на многомерный случай (МССА) делается в [64] следующим образом: траекторная матрица многомерного ряда получается последовательным приписыванием справа траекторных матриц каждого одномерного ряда, а далее аналогично исходному варианту выполняется сингулярное разложение полученной матрицы многомерного ряда. Применение
одномерного и многомерного вариантов ССА в том числе в задаче прогнозирования можно найти на сайте группы его авторов [18].
В работе [63] приводится сравнительный анализ работы алгоритмов
ДЭМ и ССА при рассмотрении в качестве исследуемого одномерного временного ряда суммы косинусоид и шума с нормальным распределением:
x(t ) 4cos21t cos22t (t ), (t )
N (0; ),t 1,1000.
(3.2)
При значениях частоты гармоник, которые отличаются менее чем на порядок, ДЭМ выполняет идентификацию с существенно большей ошибкой (рисунок 3.3), чем ССА: даже без шума разделение происходит с ошибкой, сопоставимой со значениями, полученными по ССА при наиболее зашумлённом варианте. Далее график зависимости ошибки от отношения частот для
ДЭМ идёт на спад и является почти константой.
Рисунок 3.3. Зависимость десятичного логарифма ошибки идентификации
пары гармоник от отношения их частот по ДЭМ (слева) и по ССА (справа)
при 2 0, , , ,1 . Красным выделен график для ряда без случайной со1 1 1
8 4 2
ставляющей ( 0 ) [63].
77
Преимущества ССА очевидны и при анализе ошибок восстановления
гармоник eССА и eДЭМ, частоты которых отличатся более чем на порядок:
eССА ≈ 0,001σ6, eДЭМ ≈ 0,1σ3.
(3.3)
Особенностями ДЭМ по сравнению с ССА (это справедливо и для их
многомерных аналогов) являются
1) меньшее число выделенных аддитивных компонент,
2) метод ДЭМ более предпочтителен [88], если колебательные аддитивные составляющие, имеющиеся в ряде, характеризуются переменной
амплитудой и/или частотой,
3) проблема определения количества значимых элементов сингулярного
разложения, то есть тех, которые отвечают за сигнал, а не за шум, в
ДЭМ преобразуется в задачу отделения шумовых мод от мод полезного сигнала.
При моделировании и прогнозировании значений многомерного временного ряда в данной работе в качестве базового используется подход
МССА. При его практической реализации возникает ряд затруднений, для
преодоления которых авторы метода не дают общих рекомендаций:
1) идентификация аддитивных колебательных компонент переменной амплитуды и/или частоты;
2) неопределённость в выборе количества значимых сингулярных чисел
(аддитивных компонент разложения);
3) неопределённость в выборе длины фрагмента временного ряда для аппроксимации, который непосредственно участвует в прогнозировании.
Способы преодоления указанных затруднений, формулировка модели
пространственно-временной изменчивости целевой физической характеристики и методика прогнозирования по этой модели составляют новизну и основные результаты данной диссертационной работы.
78
§3.2. Модель пространственно-временной изменчивости целевой характеристики
Сформулируем модель пространственно-временной изменчивости целевой характеристики, которая и будет использоваться в экспериментах как для
сгенерированных данных, так и для реальных массивов значений физических
параметров для некоторых акваторий (в §§4.4-4.5). Ранее (в §2.4) был описан
авторский метод разбиения (кластеризации) множества узлов сетки UG (и
как следствие, множества одномерных рядов) на подмножества (кластеры) Ci
UG Ci иF UG (t ) F Ci (t ),причёмCi
i
i
F Ci (t )
(3.4)
Важно отметить, что результаты выполнения этого метода будут изменяться в зависимости от значения порога для коэффициента кросскорреляции. Учтём, что в данной работе не устанавливается приоритет одного результата перед другим, так как здесь задача кластеризации призвана
лишь уменьшить размерность данных: число одномерных компонент в многомерном ряде, фрагмент которого непосредственно обрабатывается при
прогнозировании.
Для статистического вывода о наличии или отсутствии корреляционной
связи между исследуемыми временными рядами необходимо произвести
проверку значимости выборочного (определённого для фрагментов рядов)
коэффициента кросс-корреляции. Как всякая статистическая характеристика,
выборочный коэффициент корреляции является случайной величиной: его
значения случайно рассеиваются вокруг одноимённого параметра генеральной совокупности (истинного значения коэффициента корреляции ρ).
Известно, что с увеличением корреляционной связи степень близости
распределения выборочного коэффициента кросс-корреляции r к нормальному уменьшается (оно становится более асимметричным). Имеет место нормализующее преобразование Фишера случайной величины, благодаря которому распределение может быть приближенно приведено к нормальному:
z ( r ) 0,5ln
1 r
.
1 r
79
(3.5)
Обратное преобразование – вычисление гиперболического тангенса:
e z e z
r thz z
.
e e z
(3.6)
Распределение величины z асимптотически нормально с параметрами
z z( )
2(n 1)
, z
1
.
n3
(3.7)
Знание асимптотических распределений оценок параметров регрессии
позволяет произвести оценку значимости статистической характеристики и
построить интервальную оценку по вычисленной точечной. Таким образом,
доверительный интервал строится с использованием преобразования Фишера. Доверительный множитель – квантиль стандартного нормального распределения на заданном уровне значимости . Доверительные границы
определяются как z(r) z , а для самого r – путём обратного пересчёта.
Установим повышенный порог для истинного коэффициента кросскорреляции 0 и проверим статистическую значимость выборочного коэффициента кросс-корреляции. Предполагая сильную корреляционную связь
между фрагментами рядов, будем использовать гипотезу о равенстве порога
и неизвестного коэффициента корреляции для генеральной совокупности H0:
0 . Альтернативная гипотеза будет H1: 0 . Проверка значимости
выполняется путём анализа статистики t
z ( r ) z ( 0 )
z
, которая имеет рас-
пределение Стьюдента с (n-2) степенями свободы. Расчёт выборочных коэффициентов кросс-корреляции будем выполнять для годового фрагмента, следовательно, при уровне значимости 5% с учётом использования односторонней
критической
области
критическое
значение
статистики
t3652;0,05 t363;0,05 1,649 (до трёх знаков после запятой).
Исследуем следующий вопрос: для каких значений выборочного коэффициента r и порогов 0 можно принять утверждение о значимости этой статистики, вычисляя
80
t (r)
z ( ri 1 ) z ( ri )
z
z ( r ) 362 19,026 z ( r ) 19 z ( r ) ,
(3.8)
где ri+1 имеет смысл выборочного значения, а ri – порог.
Составим таблицу значений t(r).
ri
z(r)
0,5
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0,95
0,549 0,618 0,693 0,775 0,867 0,973 1,099 1,256 1,472 1,832
Δz(r) 0,069 0,075 0,082 0,092 0,106 0,126 0,157 0,216 0,360
t
1,311 1,425 1,558 1,748 2,014 2,394 2,983 4,104 6,840
Сравнивая полученные значения t(r) с критическим значением, можно
сделать вывод о наличии тесной корреляционной связи между парой фрагментов временных рядов, то есть данные позволяют считать правдоподобным, что значение коэффициента кросс-корреляции характеризуется величиной, не меньшей, чем порог 0 . Это справедливо для следующих пар наиболее близких значений r; 0 , на которые будем ссылаться в дальнейшем:
0,6;0,5 , 0,65;0,55 , 0,7;0,65 , 0,75;0,7 , 0,8;0,75 , 0,85;0,8 , 0,9;0,85 ,
0,95;0,9 .
Для всех кластерных рядов F Ci примем единый вид модели, но параметрическая идентификация каждой её реализации будет выполнена отдельно
для каждого ряда и будет носить локальный характер. Она будет строиться
по некоторому фрагменту многомерного ряда (и аппроксимировать этот
фрагмент), оканчивающемуся моментом (t0-1), и будет использоваться для
прогнозирования следующего фрагмента длиной τ, начинающегося с t0. Каждая модель F Ci
t0
(t ) будет иметь вид суммы временного ряда, восстановлен-
ного с помощью МССА, и авторегрессионной ошибки:
F Ci
t0
(t ) F Ci
t0 ,T ,s
(t ) eCi (t ),eCi (t ) ARCi
t0 , , C j
j
81
(t ) .
(3.9)
Как следует из формулы, ряд F Ci
t0 ,T ,s
(t ) , восстановленный по МССА,
зависит от момента времени t0, длины фрагмента T и количества значимых
сингулярных чисел s. Как было сказано в §3.1, авторы МССА не дают общих
рекомендаций для определения двух последних параметров: метод установления значений для первого из них кратко описан в §3.3, обзор методов для
выбора значимых компонент разложения МССА приведён в §3.4, а в §3.5
приведён переборный алгоритм, в соответствии с которым указывается их
количество в данной работе. Также в §3.5 представлен метод построения
начального внутрикластерного прогноза, который использует модель
F Ci
t0 ,T ,s
(t ) . Ряд ARCi
t0 , , C j
(t ) как авторегрессионная ошибка определяется
j
моментом времени t0, горизонтом прогноза τ и некоторым множеством кластеров C j UG , которые названы в §1.4 «корректирующими кластерами».
j
Явный вид модели ARCi
t0 , , C j
(t ) , в частности, процедура выбора корректи-
j
рующих кластеров, показан в §3.7. Построение этой модели является основной целью авторского метода уточнения внутрикластерного прогноза (§3.7).
§3.3. Определение оптимальной длины фрагмента ряда для построения
по нему прогноза
Приведём основные сведения о методе определения оптимальной длины
фрагмента временного ряда Topt при заданном горизонте прогноза τ, основанный на определении длины квазистационарных фрагмента ряда из анализа
выборочной плотности функции распределения (ВПФР) [54]. Этот метод
предусматривает работу только с одномерными рядами, поэтому дисперсия
значений Topt может рассматриваться как ещё одна кластерная характеристика. Если дисперсия невелика, то ряд можно считать по этому критерию однородным.
82
Введём ошибку прогноза одномерного временного ряда x(t) на горизонт
τ как величину среднеквадратичного отклонения прогнозных значений x(ti )
от фактических x(ti ) на промежутке горизонта прогноза:
1
t
x (t ) x (t )
i t 1
i
i
2
.
(3.10)
Далее в качестве исследуемой выборки будем рассматривать некоторый
фрагмент ряда x(t). Для оценки ошибки прогноза δ на заданный горизонт
необходимо учитывать как дисперсию выборочного распределения σ2, так и
изменчивость ε выборочной функций распределения, построенной по выборке фиксированного объёма T, значения которой формирует временного окно,
сдвигаемое, например, на горизонт прогноза τ. Эта изменчивость наблюдается в том числе для стационарных рядов в силу ограниченного набора данных.
Различие между двумя выборочными функциями распределения можно сделать сколь угодно малым за счёт увеличения объёма выборки (в стационарном случае эти выборки формируются из одной и той же генеральной совокупности), что приводит, в частности, и к уточнению выборочной дисперсии.
Однако в случае нестационарного ряда, когда использование понятия генеральной совокупности становится некорректным, увеличение объёма выборки приводит к увеличению дисперсии σ2. В работе [54] показано, что оценкой
сверху фактической ошибки прогноза ряда будет функционал 2 2 .
Решим задачу определения объёма Topt(t), при котором пары ВПФР, построенные по соответствующим выборкам, сдвинутым на τ, отличались бы
друг от друга на заданное число ε, характеризующее уровень нестационарности. Отметим, что это свойство ВПФР должно быть выполнено для всех выборок последовательных значений ряда вплоть до момента tlast, предшествующего первому прогнозному временному отсчёту tpr.
Следуя [54], введем понятие квазистационарного распределения и соответствующее понятие для ВПФР fT(x,t), построенной по выборке данных x(tT+1), x(t-T+2),…,x(t). ВПФР fT ( x, t ) называется τ -ε-стационарной, если
83
tV (T , , t ) ( fT ( x, t ), fT ( x, t )) ,
(3.11)
где расстояние между парой ВПФР определяется как
( fT ( x, t1 ), fT ( x, t2 )) fT ( x, t1 ) fT ( x, t2 ) dx .
(3.12)
Для определения Topt(t) введём также понятие горизонтного ряда. Горизонтным рядом hτ,ε(t) для ряда x(t ) при сдвиге на промежуток τ называется
такой ряд значений объёмов выборки, что при всех T > hτ,ε(t) выполняется
условие τ-ε-стационарности соответствующей ВПФР. Таким образом, значение горизонтного ряда в каждый момент времени есть минимально допустимый объём τ -ε-стационарной выборки исходного ряда.
Пусть горизонтный ряд hτ,ε(t) построен для некоторого фрагмента временного ряда x(t), последнее значение которого вычислено для tlast. Определим Topt(tlast) как наибольшее значение элементов этого горизонтного ряда:
Topt (tlast ) max h , (t ) .
t tlast
(3.13)
Орловым и Осмининым показано, что верхней оценкой Topt(tlast) в таком
2
. Следовательно, можно утверждать, что ана-
случае является значение
лизируемый фрагмент временного ряда x(t) будет τ-ε-стационарным, его дли2
на будет не меньше .
Таким образом, отличие прогнозной ВПФР от фактической, построенных по выборкам равных объёмов, одна из которых содержит в качестве последнего значения x(tlast), а другая – x(tlast+τ), ограничено сверху ошибкой ε,
если объём выборки определён приведённым выше способом.
В заключение рассмотрим проблему выбора числа интервалов разбиения
при построении гистограммы частот, представляющей ВПФР. В настоящее
время не существует полностью формализованного способа построения равномерного разбиения области гистограммы частот. В ГОСТе «Прикладная
статистика» приведены лишь общие рекомендации: эффективная процедура
определения числа интервалов не представлена. Когда оцениваемая плот-
84
ность неизвестна, число интервалов сказывается на виде распределения частот конечной выборки: укрупнение интервалов разбиения может необоснованно сглаживать изучаемое распределение. Измельчение разбиения может
привести к тому, что гистограмма содержит выбросы в силу статистически
не оправданного малого количества данных со значениями из того или иного
интервала, а это приводит к неверной оценке гипотезы о виде распределения.
Таким образом, задача построения гистограммы требует особого внимания.
В данной работе число промежутков определяется по широко используемому и простому эмпирическому правилу Стерджеса:
nd 1 log2 N .
(3.14)
Отметим, что при необходимости численного определения расстояния
между ВПФР, построенным по выборке объёма T, одна из которых сдвинута
по времени относительно другой на промежуток τ, естественно требовать
совпадающее число интервалов разбиения, что не могут гарантировать методы определения этого числа, использующие те или иные оценки характеристик распределения исследуемой выборки, рассмотренные, например, в [56].
§3.4. Способы определения количества значимых аддитивных компонент кластерного ряда по МССА
Задача выбора числа значимых компонент разложения кластерного ряда
может быть сформулирована как задача определения количества значимых
сингулярных чисел (и соответствующих им сингулярных векторов) в сингулярном разложении траекторной матрицы МССА кластерного ряда. Если
взять большое количество сингулярных чисел, то результаты анализа будут
искажены шумовыми эффектами. Если их выбрано слишком мало, то в рамках исследования будет недостаточно информации для моделирования динамики детерминированной составляющей ряда. Рассмотрим существующие
правила выбора оптимального значения количества значимых сингулярных
чисел,
упорядочив
все
имеющиеся
85
числа
по
убыванию:
1 2 ... n [7,48,81]. Эти критерии применяется в основном при разложении матрицы, которая удовлетворяет требованиям корреляционной матрицы,
однако могут быть приняты во внимание и в общем случае.
Правило Кайзера. Это правило гласит, что необходимо рассматривать
сингулярные числа равные или превосходящие единицу.
Правило Кардиса-Сапорта. Данный подход является развитием правила Кайзера, при котором значимые сингулярные числа должны превосходить
порог, определяемый выражением, зависящим от числа строк и и столбцов
раскладываемой матрицы.
Дисперсионный критерий. Находя отношение суммы выбранных сингулярных чисел к сумме всех чисел, получаем долю дисперсии, которая приходится на выбранные числа, то есть долю объяснённой дисперсии. Дисперсионный критерий требует задания значения вклада значимых сингулярных
чисел в общую дисперсию.
Правило наилучшей линейной аппроксимации. Так как сингулярные
числа убывают экспоненциально, то для фрагмента их графика, соответствующего последним числам, можно построить оптимальную в смысле МНК
линейную аппроксимацию при фиксированном числе опорных точек. Анализируя результаты аппроксимации для различного количества последних сингулярных чисел, некоторые авторы определяют последнее значимое число
как то, которое не участвовало в построении прямой, являющейся в некотором смысле оптимальной.
Правило Кэттелла. График сингулярных чисел, упорядоченных по
убыванию, иногда называют «каменистой осыпью» (scree plot). Кэттелл
предложил визуально анализировать график с целью выявления значительных изломов (elbow), а сингулярное число, на которое приходится излом,
считать порогом, причём оно может как объявляться значимым, так и опускаться. Очевидно, что при таком подходе изломов может оказаться несколько
(рисунок 3.4).
86
Рисунок 3.4. График сингулярных чисел с двумя отчётливыми изломами [81]
Правило сломанной трости. Нормировав сингулярные числа, получим
набор значений 1,..., n ( 1 2 ... n ) Рассмотрим длины так называемых
обломков трости единичной длины, сломанной в n-1 точке, которые выбираются случайным образом независимо и распределены по равномерному закону по её длине. Пусть Li ( i 1,..., n ) – это длины полученных частей трости,
пронумерованных в порядке убывания: L1 L2 ... Ln . Математическое ожидание Li имеет вид: li M ( Li )
1 n 1
. Тогда k-е сингулярное число будем поn j i j
лагать значимым, если выполняется цепочка неравенств 1 l1,..., k lk .
Рисунок 3.5. Пороговые значения для 50 сингулярных чисел (n = 50)
Авторы [7,48,81] признают, что упомянутые выше эвристические подходы не являются достаточно эффективными, поэтому выбор количества зна87
чимых сингулярных чисел / главных компонент / факторов определяется экспертно, исходя из опыта исследователя, или экспериментально посредством
перебора с использованием различных количественных критериев качества.
Этот перебор является направленным, так как вопрос лишь в том, сколько
первых сингулярных чисел следует считать значимо отличными от нуля. В
данной работе количество значимых сингулярных чисел устанавливается в
результате реализации переборного алгоритма, использующего прогнозирование по МССА для предыдущего момента времени. Детализация приведена
в следующем параграфе.
§3.5. Метод построения начального внутрикластерного прогноза
По результатам МССА может быть выполнено прогнозирование значений многомерного ряда. Авторы статьи [64] предлагают вариант прогноза (Кпродолжения), основанный на следующем допущении: последняя строка
траекторной матрицы многомерного временного ряда, дополненного спрогнозированными значениями на один шаг по времени, принадлежит пространству, порождённому всеми строками матрицы, кроме последней, то есть
строками траекторной матрицы исходного многомерного ряда. Как и МССА,
алгоритм К-продолжения может быть корректно применён к рядам общего
вида, так как нет никаких ограничений на свойства ряда. Общность этого алгоритма определила его выбор в качестве основного инструмента начального
внутрикластерного прогнозирования в данной диссертации.
Введём базовый вариант метода построения начального внутрикластерного прогноза. Далее для краткости будем именовать его методом Д-МССА
(«дополненный МССА»).
1. Задаются длина фрагмента кластерного ряда T, по которому будет
построена траекторная матрица, и горизонт τ. Будем считать, что известны
значения кластерного ряда FNC (t ) в моменты t = 1,…,N (N ≥ T), а прогноз выполняется для τ последовательных отсчётов, начиная с N+1. Длина T определяется для каждого одномерного ряда из условия τ-ε-стационарности его
88
фрагментов (см. §3.3) и выбирается наибольшее значение как характеристика
всего кластерного ряда.
2. Формируются два фрагмента ряда длины T: обучающий
LFT FN ( N T 1),..., FN ( N )
(3.15)
TFT FN ( N T 1),..., FT ( N ) .
(3.16)
и тестовый
3. Для каждого фрагмента выбирается длина окна (число строк траекторной матрицы) L = [T/2].
4. Для фрагмента LFT строится модель F C
t0 ,T ,s
(t ) , t0 N 1 и серия
прогнозов по алгоритму К-продолжения на горизонт τ, в которых количество
значимых сингулярных чисел s равно 1, 2, …, L. По результатам этой серии
выбирается оптимальный вариант значения sopt, который доставляет минимум
ошибки NC 1,T , (NRMSE или MAXE, см. §1.4), если все NC 1,T , , или первый
попавшийся при упорядоченном переборе, если NC 1,T , .
5. Для фрагмента TFT строится модель F C
t0 ,T , sopt
(t ) , t0 N 1 и выпол-
няется единственный эксперимент методом К-продолжения со значением s =
sopt. Значение NC1,T , (NRMSE или MAXE) для этого фрагмента будем считать
итоговым значением ошибки прогноза.
В статьях автора диссертации [25,31] экспериментально исследована
возможность совместного использования МССА и МДЭМ. В §3.1 было указано, что МДЭМ предпочтительнее МССА при идентификации аддитивных
колебательных компонент переменной амплитуды и/или частоты (квазипериодических составляющих). Начальный внутрикластерный прогноз в этом
случае строится следующим образом.
1. Аналогично пункту (1) Д-МССА.
2. Выполняется МДЭМ для фрагмента ряда длины T+τ. МДЭМ
гарантирует построение модели с совпадающим количеством мод каждого
89
одномерного ряда, поэтому моды рядов с одинаковыми номерами образуют
новые многомерные ряды (многомерные моды).
3. К каждой многомерной моде применяется Д-МССА: для каждой
многомерной моды строится частичная модель f C
t0 ,T ,s
(t ) и выполняется
прогнозирование. Итоговая аппроксимация фрагмента ряда F C
t0 ,T ,s
(t ) –
сумма частичных моделей.
4. Итоговая ошибка прогноза NC1,T , вычисляется для прогнозного ряда
FC , который получен покомпонентным суммированием результатов МССА.
§3.6. Применение методов МССА и МДЭМ к фрагменту кластерного ряда сгенерированных данных
Рассмотрим в качестве примера кластерный ряд F(t), состоящий из десяти одномерных временных рядов. Ряды построены по одной модели: параметры сигнала, представленного полиномом 4-го порядка и гармоникой,
полностью совпадают, отличия обусловлены только шумом в виде случайной
составляющей, распределённой по нормальному закону:
x(t ) y(t ) z(t ), y(t ) P4 (t ) sin t,z(t )
N (0, 2 ) ,
(3.17)
где σ2 определяется из условия оценки математического ожидания отношения
z (t )
шума к сигналу: M
y (t )
0,1 . Для определённости примем, что
P4 (t ) 1,3678t 4 0,0357t 3 5,053t 2 2,0098t 9,5077,
t t / 30 2,t 1,...,120, / 5, 0,65.
(3.18)
Пример зашумлённого ряда x(t), построенного на одном чертеже с сигналом
y(t), приведён на рисунке 3.6.
90
Рисунок 3.6. Профили временных рядов: зашумлённого и незашумлённого
Начнём с варианта модели, не содержащего шумовой составляющей, то
есть десяти совпадающих рядов. Зафиксируем наибольшую возможную длину фрагмента ряда N = 100 и первый прогнозный момент времени t = 101. Результат применения МДЭМ (конкретно в этом случае фактически используется одномерный ДЭМ ввиду совпадения значений рядов) к ряду FN(t) представлен на рисунке 3.7.
Рисунок 3.7. Исходный ряд и моды его ДЭМ
Отметим, что модель верно идентифицирует параметры гармоники: период и амплитуду, однако имеют место искажения в виде так называемого
краевого эффекта, упомянутого в §3.1 (примерно по три временных отсчёта в
начале и конце фрагмента ряда). С учётом этой поправки можно утверждать,
что полиному соответствуют три эмпирические моды, а гармонике – одна.
При использовании коррекции огибающих [19] ошибка восстановления
гармоники на границах стала меньше (ослабление краевого эффекта), а также
число мод уменьшилось до трёх (рисунок 3.8).
91
Рисунок 3.8. Исходный ряд и моды его ДЭМ (с коррекцией)
Выполним аналогичное разложение по МССА (в данном случае – ССА,
так как все одномерные ряды совпадают). В отличие от ДЭМ аддитивные
компоненты ряда по методу ССА строятся не напрямую, а как следствие некоторых действий со столбцами полученной в результате сингулярного разложения ортогональной матрицы, в частности, результатом осреднений. Более того нет точного соответствия между ортогональными векторами и аддитивными компонентами: одному компоненту могут соответствовать как несколько векторов, так и один. В данном случае для определённости положим
взаимно однозначное соответствие. Это не противоречит тому факту, что
гармонике соответствуют два сингулярных числа (и два ортогональных вектора), так как обе восстановленные аддитивные компоненты имеют тот же
период, что и оригинал, а их амплитуда составляет половину амплитуды исходной гармоники. В решаемой задаче из анализа графика логарифмов сингулярных чисел (рисунок 3.9) можно сделать вывод, что семь из них являются значимыми, однако расчёты показали, что шестое и седьмое порождают
нулевые (с некоторым допущением) аддитивные компоненты.
Рисунок 3.9. Десятичные логарифмы сингулярных чисел
92
Рисунок 3.10. Пять аддитивных компонент, полученных по ССА
Определим наименьшее число T – длину фрагмента ряда F(t), при которой происходит абсолютно точная идентификация аддитивных компонент
сигнала y(t), то есть прогноз оставшихся 20 значений ряда, ошибка которого
обусловлена только машинными вычислениями и округлением. Результаты
МССА представлены на рисунках 3.11-3.13.
Рисунок 3.11. Результаты прогноза по фрагменту длины 100 в зависимости от
количества сингулярных чисел: зелёный – 5, фиолетовый – 6, сиреневый – 7.
Рисунок 3.12. Результаты прогноза по фрагменту длины 10 в зависимости от
количества сингулярных чисел: зелёный – 3, фиолетовый – 4, сиреневый – 5.
93
Рисунок 3.13. Результаты прогноза по фрагменту длины 8 в зависимости от
количества сингулярных чисел: зелёный – 2, фиолетовый – 3, сиреневый – 4.
Экспериментально установлено, что наименьшее значение T для абсолютно точного прогноза составляет 10 отсчётов, то есть значение периода
гармоники. При T = 8 точные значения имеют место только для τ = 5 (вместо
τ = 20).
Выполним аналогичный прогноз, используя ДЭМ при различных значениях длины фрагмента T (T = 10,15,…,50). Для расчёта ошибки tC,T , принято выражение NRMSE из §1.4 – формула (1.8):
1
tC,T , NRMSEt ( FTC , FC )
100
max
d (T ) i 1,...,sC
F
j 0
i
N
(t j ) Fi (t j )
2
.
В таблице 3.1. представлены три варианта реализации метода НВП на
базе Д-МССА (применяется к каждой моде ДЭМ): ДЭМ без коррекции огибающих (строка с заголовком «ДЭМ»), коррекция по методу [103] («Rato»), а
также коррекция в соответствии с подходом из [19] («Давыдов») Если ошибка превышает 20%, то в таблицу заносится символ «х».
Таблица 3.1. Результаты прогноза для незашумлённых данных
Горизонт τ = 5
Длина
ДЭМ
Rato
Давыдов
10
1,0
х
х
15
0,9
0,7
х
20
13,8
7,7
х
25
10,3
6,4
8,2
30
0,6
2,2
х
94
35
0,9
1,5
5,8
40
14,6
4,7
1,1
45
9,9
4,0
1,1
50
х
х
1,0
горизонт τ = 10
Длина
10
ДЭМ
16,4
Rato
х
Давыдов 13,0
горизонт τ = 20
15
4,6
10,9
х
20
15,0
6,1
х
25
16,0
4,5
х
30
10,5
7,7
х
35
х
х
х
40
х
х
10,0
45
х
х
17,2
50
х
13,3
10,3
Длина
МДЭМ
Rato
Давыдов
15
х
х
х
20
11,4
14,2
х
25
14,0
16,6
х
30
25,6
10,3
15,0
35
31,5
13,6
9,2
40
х
х
х
45
х
х
х
50
х
х
9,5
10
х
х
х
С ростом горизонта точность прогноза уменьшается, причём для варианта с коррекцией по [19] падение эффективности наиболее заметно. Для горизонта τ = 5 в среднем при T = 15,20,…,45 лучшие результаты показал вариант [103]. «ДЭМ» наиболее эффективен при T∈{10,15,30,35}. Вариант «Давыдов» позволяет получить в высокой степени точный прогноз при
T∈{40,45,50}.
Продолжим расчёты для зашумлённых данных. Построим график логарифмов сингулярных чисел для всего фрагмента (T = 100, рисунок 3.14).
Рисунок 3.14. Десятичные логарифмы сингулярных чисел
При сравнении с рисунком 3.9 становится очевидно, что шумовые (незначимые) сингулярные числа возросли в среднем на 3 порядка. Здесь имеем
дело с «настоящим» МССА (не с ССА), так как все одномерные ряды кластерного ряда различны. Отметим, что по критерию Кеттелла (см. §3.4) получим 5 значимых чисел, что подтверждают приведённые выше результаты
95
экспериментов для незашумлённых данных. Первые пять аддитивных компонент совпадают с теми, которые были представлены на рисунке 3.10.
Перейдём к прогнозированию по МССА. Результаты представлены на
рисунках 3.15-3.19. Как и ранее, рассмотрим различные варианты длины T и
количества значимых сингулярных чисел.
Рисунок 3.15. Результаты прогноза по фрагменту длины 100 в зависимости от
количества сингулярных чисел: зелёный – 5,фиолетовый – 20,сиреневый – 30.
Рисунок 3.16. Результаты прогноза по фрагменту длины 100 в зависимости от
количества сингулярных чисел: зелёный – 3, фиолетовый – 4, сиреневый – 5.
Рисунок 3.17. Результаты прогноза по фрагменту длины 20 в зависимости от
количества сингулярных чисел: зелёный – 3, фиолетовый – 4, сиреневый – 5.
96
Рисунок 3.18. Результаты прогноза по фрагменту длины 10 в зависимости от
количества сингулярных чисел: зелёный – 3, фиолетовый – 4, сиреневый – 5.
Рисунок 3.19. Результаты прогноза по фрагменту длины 8 в зависимости от
количества сингулярных чисел: зелёный – 2, фиолетовый – 3, сиреневый – 4.
Полученные результаты позволяют утверждать, что наилучший вариант
прогноза полезного сигнала (но уже не абсолютно точный) среди выбранных
T∈{100,50,20,10,8} на горизонте τ = 5 имеет место только при T = 20, причём
достигается при 5 значимых сингулярных числах. Важно отметить, что количество значимых сингулярных чисел для реальных данных (не сгенерированных по простой модели, аналогичной рассматриваемой) по их графику в соответствии с критерием Кеттелла определить не всегда возможно.
Далее сведения о результатах варианта прогноза по МССА с 5-ю значимыми числами и варианта прогноза, при котором Д-МССА применяется к
модам МДЭМ, будут объединены в одну таблицу. По правилу трёх сигм
(приблизительно с 0,9973 вероятностью значение нормально распределённой
случайной величины лежит в соответствующем интервале) наибольшая амплитуда отклонения шумовой составляющей относительно нуля может быть
97
принята равной 1,95. Для зашумлённых данных значение d(t) (см. §1.4) примерно равно 16. Ошибка NRMSE определяется по формуле, в которой участвует осреднение, поэтому будем допускать наибольший результат такого
осреднения (среднего квадратичного), равным 1,6. То есть допустимая ошибка составит 10%. Напомним, что сигма подбиралась из таких соображений,
чтобы обеспечить среднее отношение шума к сигналу 0,1. Для ошибки
MAXE, которая рассчитывается по формуле (1.10) из §1.4
tC,T , MAXEt ( FTC , FC )
100
max max FNi (t j ) Fi (t j ) ,
D(T ) i 1,...,sC j 0,..., 1
установим несколько больший порог – 15%. Далее будут приведены таблицы
только для горизонта τ = 5 и двух вариантов первой прогнозной точки t: 101 и
108, множество возможных значений T: Т = 10,15,…,90. На рисунке 3.20 выделены фрагменты незашумлённого ряда (соответственно целевые интервалы), для которых строится прогноз, учитывая наложенный шум.
Рисунок 3.20. Целевой интервал для построения прогноза
При t = 101 фрагмент является несимметричной двусторонней окрестностью локального максимума, причём монотонность в начале этого фрагмента согласуется со знаком разности пары значений для последних непрогнозных отсчётов. При t = 108 первый прогнозный отсчёт приходится на локальный минимум, то есть алгоритм прогноза должен выявить смену монотонности значений ряда. Таким образом, вторая ситуация является более
сложной, чем первая.
Результаты расчётов оформим в виде таблиц 3.2-3.5, аналогичных построенным ранее. Наименьший результат для каждой из ошибок (NRMSE и
98
MAXE) и значений t будем выделять зелёным. Значения NRMSE, не превышающие 10%, а в случае MAPE – 15%, будут представлены на жёлтом фоне.
Таблица 3.2. Результаты при t = 101, ошибка NRMSE
Длина
МССА
МДЭМ
Rato
Давыдов
10
13,6
х
х
х
15
8,3
х
19,5
х
20
7,8
х
18,4
15,4
25
9,8
х
8,1
7,2
30
6,2
х
9,1
11,0
35
4,9
х
9,6
6,6
40
5,4
х
10,6
8,3
45
6,9
х
12,4
9,8
Длина
МССА
МДЭМ
Rato
Давыдов
55
10,9
х
12,9
9,4
60
8,4
х
12,5
9,9
65
12,8
х
13,0
8,9
70
13,1
х
12,6
10,4
75
14,1
х
15,5
10,0
80
15,2
х
14,1
11,2
85
15,4
х
16,1
12,0
90
15,9
х
17,2
11,3
50
11,3
х
13,4
9,8
Таблица 3.3. Результаты при t = 108, ошибка NRMSE
Длина
МССА
МДЭМ
Rato
Давыдов
10
х
х
15,1
12,2
15
10,2
х
16,2
х
20
9,7
х
10,5
8,9
Длина
МССА
МДЭМ
Rato
Давыдов
55
10,5
х
11,5
12,9
60
10,5
х
11,1
9,3
65
70
75
80
85
90
10,7 13,9 9,6
14,6 8,2
7,6
х
х
х
х
х
х
14,9 11,6 14,2 11,9 15,0 12,9
11,6 8,8
10,9 9,7
9,4
9,0
Таблица 3.4. Результаты при t = 101, ошибка MAXE
Длина
МССА
МДЭМ
Rato
Давыдов
10
20,7
х
х
х
15
17,3
х
х
х
20
13,5
х
21,4
х
25
13,1
х
16,4
13,1
30
8,0
х
17,3
20,0
35
8,6
х
18,5
14,1
40
8,8
х
20,5
16,0
45
11,0
х
х
19,7
Длина
МССА
МДЭМ
Rato
Давыдов
55
16,8
х
х
19,9
60
13,3
х
х
21,0
65
19,4
х
17,5
20,4
70
19,4
х
х
19,7
75
20,6
х
х
х
80
21,7
х
15,2
х
85
22,4
х
17,7
х
90
23,0
х
х
х
25
12,5
х
13,9
9,2
30
12,3
х
13,0
х
99
35
11,9
х
15,0
12,6
40
11,9
х
12,7
7,1
45
10,4
х
15,0
9,7
50
10,5
х
11,9
х
50
17,4
х
х
20,5
Таблица 3.5. Результаты при t = 108, ошибка MAXE
Длина
МССА
МДЭМ
Rato
Давыдов
10
х
х
х
19,1
15
15,8
х
х
х
20
18,1
х
х
13,5
25
18,2
х
х
12,9
30
16,7
х
17,6
х
35
16,5
х
х
15,8
40
15,9
х
17,7
14,6
45
17,4
х
17,5
15,4
Длина
МССА
МДЭМ
Rato
Давыдов
55
16,2
х
12,4
15,1
60
14,9
х
15,4
11,7
65
19,0
х
17,5
14,7
70
15,8
х
12,5
13,6
75
14,4
х
14,9
15,5
80
12,4
х
12,5
17,0
85
11,0
х
16,0
15,1
90
11,6
х
14,0
12,6
50
17,5
х
12,5
х
Определим наименьшую длину фрагмента ряда, при которой фрагмент
удовлетворяет условию τ-ε-стационарности. Примем, что τ = 5, а ε = 0,1. Следует помнить, значение построенного горизонтного ряда, используемого для
определения искомой длины (см. §3.3), в некоторый момент времени может
не существовать. В этом случае будем считать, что имеет место ошибка. Количество этих ошибок можно выразить в процентах от длины горизонтного
ряда, то есть величины t-1-τ. Здесь (t-1) есть длина всего доступного фрагмента ряда (t – первая прогнозная точка). Составим таблицу 3.6, в столбцах
которой будут содержаться:
1) число операций d взятия разности, которые предшествуют анализу;
2) набор пар значений длины и процента ошибок для 10 рядов, составляющих кластерный ряд;
3) пара наибольших значений длины и ошибки при фиксированном d;
4) пара средних значений длины и ошибки при фиксированном d.
Таблица 3.6. Длина фрагмента из условия τ-ε-стационарности (t = 101)
Значения
d
0
1
21
21
21
21
21
21
21
21
21
21
max
среднее
21
21
21,1 20,0 21,1 23,2 21,1 20,0 20,0 25,3 20,0 22,1 25,3
21,4
20
18
19
20
16
17
16
20
100
16
16
20
20
2
3
4
5
6
7
7,4
5,3
6,3
8,4
8,4
12,6 9,5
7,4
14,7 13,7 14,7
9,4
19
15
20
16
20
17
18
16
16
19
20
18
7,4
9,5
15,8 11,6 7,4
7,4
7,4
8,4
9,5
8,4
15,8
9,3
20
16
21
15
19
16
17
20
21
21
21
19
6,3
7,4
7,4
12,6 7,4
5,3
7,4
7,4
19,0 10,5 19,0
9,1
16
16
19
16
20
20
20
21
20
19
21
19
8,4
8,4
8,4
7,4
9,5
8,4
5,3
7,4
6,3
5,3
9,5
7,5
16
17
21
19
19
16
20
20
21
20
21
19
7,4
6,3
9,5
8,4
9,5
9,5
9,5
7,4
15,8 6,3
15,8
9,0
16
18
21
19
21
20
21
21
20
21
21
20
8,4
7,4
7,4
9,5
8,4
10,5 5,3
6,3
9,5
8,4
10,5
8,1
16
17
21
20
19
16
20
21
21
21
21
19
9,5
10,5 11,6 9,5
10,5 9,5
4,2
7,4
13,7 8,4
13,7
9,5
Таким образом, при любом из рассмотренных значений d наименьшее
значение длины фрагмента, которое обеспечивает τ-ε-стационарность, можно
принять равным 21. Наименьшее значение как средней, так и наибольшей
ошибки достигается при d = 4, что согласуется с наличием полинома 4-й степени как аддитивной составляющей исходного ряда. Для фрагмента с t = 108
получены значения, позволяющие сделать аналогичные выводы. Как результат, получаем таблицу 3.7.
Таблица 3.7. Ошибки прогноза при T = 21 и τ = 5
Метод
Прогноз для t = 101
Прогноз для t = 108
NRMSE
MAXE
NRMSE
MAXE
МССА
7,5
13,3
9,9
18,6
МДЭМ
х
х
18,5
х
Rato
15,8
18,7
15,0
19,2
Давыдов
9,3
14,2
11,8
13,8
Так как оптимальная длина фрагмента рассчитывалась после дифференцирования, длина анализируемого ряда уменьшается с ростом d. Определив
значение d, при котором ошибка в значениях горизонтного ряда наименьшая
101
(как средняя, так и наибольшая по рядам), увеличиваем найденную оптимальную длину на значение d. В данном случае результат составит 25 (таблица 3.8).
Таблица 3.8. Ошибки прогноза при T = 25 и τ = 5
Метод
Прогноз для t = 101
Прогноз для t = 108
NRMSE
MAXE
NRMSE
MAXE
МССА
9,8
13,1
12,5
18,2
МДЭМ
х
х
х
х
Rato
8,1
16,4
13,9
х
Давыдов
7,2
13,1
9,2
12,9
По результатам вычислительных экспериментов со сгенерированными
данными, представленным в данном параграфе, делаем следующие выводы:
1) коррекция огибающих в МДЭМ приводит к существенному повышению точности прогноза по сравнению со случаем использования МДЭМ без
коррекции; из двух вариантов коррекции, основная идея которых изложена в
§3.1, принят вариант из работы [19];
2) способ определения оптимальной длины фрагмента для прогноза, использующий условие квазистационарности из [54], позволяет получать результаты, не превышающие погрешность исходных данных (в данном случае
– долю шумовой составляющей); они оказываются близкими к показателям
оптимальных (по NRMSE и MAXE) вариантов длины и существенно лучше,
чем результаты при некоторых значениях длины, которые могут быть получены при произвольном выборе;
3) ошибки NRMSE и MAXE в прогнозных значениях, полученных после
применения метода начального внутрикластерного прогноза (с коррекцией
огибающих МДЭМ способом из [19]), меньше ошибок МССА-прогноза при
той же длине фрагмента, найденной из условия его квазистационарности, что
подтверждает целесообразность и эффективность авторского метода.
102
§3.7. Метод уточнения начального внутрикластерного прогноза
Метод прогнозирования значений ряда FC для кластера С, представленный в §3.5, выполняется исключительно по значениям кластерного ряда FTC ,
вследствие чего данный этап называется начальным внутрикластерным прогнозом. Методика уточнения его результатов должна использовать информацию о динамике других кластерных рядов, составленных для кластеров узлов
сетки UG. Выполнение этого требования позволяет предположить повышение оправдываемости результирующего прогноза.
Принятая в данной работе уточнения результатов начального внутрикластерного прогноза, выполненного с помощью МССА, применяемого к исходному кластерному ряду или его модам МДЭМ, основана на модели одномерного временного ряда ARX (AutoRegressive model with eXternal input). Эта
модель представляет собой авторегрессионную модель с дополнительной авторегрессионной частью относительно внешних переменным. Обзор некоторых приложений модели в геофизических исследования представлен в [108]
Интерпретация параметров модели ARX для решаемой задаче будет:
p
et (C ) 0 j et j (C ) ij et j (Ci ) ,
j 1
(3.19)
i 1 j 1
где С – корректируемый кластер, то есть кластер, значения ряда FC которого
необходимо корректировать;
et(С) – средняя ошибка начального внутрикластерного прогноза для
момента t и τ = 1 значений ряда кластера С;
Ci – i-тый корректирующий кластер, то есть кластер, ошибка прогноза в
котором выступает внешней переменной ARX;
p – число корректирующих кластеров.
Отметим, что в модели ARX в данном случае используется один тип регрессора – ошибка начального внутрикластерного прогноза как среднее
арифметическое разностей фактического и прогнозного значений, вычисленных для всех одномерных рядов кластера. Ситуацию, при которой модель
103
используется с p = 0 назовём автокоррекцией. В зависимости от того, присутствует ли только автокоррекция или уточнение прогноза выполняется с
корректирующими кластерами, метод прогнозирования будет именоваться
УВП-AR и УВП-ARX соответственно (предполагаем в дальнейшем, если не
указано прямо, что оба варианта метода прогнозирования выполнены уже
после применения метода НВП, описанного в §3.5).
Для практического использования модели необходимо произвести её
структурную и параметрическую идентификацию, а именно выполнить следующие действия:
1) определить число корректирующих кластеров и провести отбор этих
кластеров из множества всех имеющихся;
2) найти значения параметров β.
Для задачи (2) при условии выполнения предыдущих есть очевидное
решение – метод МНК. Необходимо задать необходимое количество независимых уравнений u и число корректирующих кластеров p для использования
МНК. Для выбора корректирующих кластеров будем использовать правила,
основанные на некоторых свойствах пары (корректируемый кластер С, потенциальный корректирующий кластер К) и значениях кластерных характеристик, введённых в §2.5.
Случаи запрета использования кластера К:
1) непопадание кластера К в заданную окрестность кластера С в рамках
сетки UG;
2) отставание временных рядов кластера К, то есть наличие пары одномерных рядов ( F i , F j ),F i F K , F j F C , в которой первый отстаёт от
второго в смысле достижения наибольшего коэффициента кросскорреляции при некотором лаге;
Далее представлены критерии для отбора p наилучших кластеров среди
тех, которые не были опущены по запретительным правилам. Правила отбора
следует рассматривать в соответствии со следующим списком убывания их
приоритета:
104
1) задача максимизации: число совпадений направления градиента кластеров К и С для промежутка времени длины τ, непосредственно
предшествующего первой прогнозной точке t;
2) задача минимизации: значение дисперсии кластера;
3) задача максимизации: значение коэффициента корреляции для пары
кластеров (К,С), определяемое как минимум по всем возможным парам одномерных временных рядов из разных кластеров;
Таким образом, определение корректирующих кластеров есть многокритериальная задачи дискретной оптимизации. По каждому из значений критериев можно установить порог, превышение которого является необходимым
условием для результата решения этой задачи.
Следует также упомянуть так называемую меру однородности кластера
по динамике глобального временного масштаба – отношения сингулярных
чисел (см. §2.5). Наличие свойства однородности, что определяется по численному критерию, сформулированному ранее в упомянутом параграфе,
можно считать как необходимым условием в определении корректирующего
кластера, так и дополнительной информацией при выборе из нескольких альтернатив.
Сформируем итоговый вариант внутрикластерного прогноза. Для удобства ссылок введём некоторые обозначения, используя рисунок 3.21.
Рисунок 3.21. Разметка временной оси для внутрикластерного прогноза
Выполним разметку временной оси, предполагая, что t* -- первая прогнозная точка, Topt – оптимальная длина фрагмента для прогноза, вычисленная по значениям, соответствующим 1,…, t*. Момент t0 есть первая прогнозная точка первого начального внутрикластерного прогноза, который повто105
ряется последовательно u раз для формирования данных, на которых настраивается модель ARX. Отметим, что Topt не изменяется. Моменту t0 предшествует фрагмент длины τ, на котором определяется оптимальное количество
значимых сингулярных чисел nopt первого прогноза по фрагменту длины Topt,
далее для каждого из оставшихся (u-1) прогнозов значение nopt обновляется.
В данной работе принято, что u = Topt , а p не превосходит 4 (может быть и
меньше, в зависимости от того, сколько калстеров имеют подходящие значения кластерных характеристик). В рамках начального внутрикластерного
прогноза для обучающего временного ряда используется заданное значение
горизонта τ, а для тестового будем указывать моменты времени, в которые
определяются значения, например, «МССА: t0» означает вычисления для одного шага по времени (отсчёта t0), то есть горизонт равен единице. Уточнённый алгоритм (итоговый) краткосрочного прогнозирования приведён в Приложении А.
§3.8. Оценка временной сложности алгоритмов методики прогноза
Перечислим основные параметры, которые являются определяющими
при оценке временной сложности (количества операций) алгоритмов, входящих в состав методики прогнозирования, представленной в диссертации:
1) размеры сетки UG dc и dr (число узлов n = dcdr);
2) длина фрагментов временных рядов N, по которым вычисляется коэффициент кросс-корреляции;
3) средняя мощность кластера как множества узлов s (или количество одномерных рядов в кластерном ряде);
4) длина фрагментов рядов T, для которых выполняется МССА и Кпродолжение.
Введём некоторые условия, которые обусловлены:
априорными предположениями: n 100, n O( N ) ;
результатами проведённых численных экспериментов: s O( n ),T n .
106
Детальный анализ вычислительной сложности будет приведён для алгоритма кластеризации и серии начальных внутрикластерных прогнозов.
Кластеризация. Для представления массивов, хранящих значения
наибольшего коэффициента кросс-корреляции и лага, при котором он достигается, для каждой пары временных рядов (или пары узлов сетки UG) выбран
одномерный вариант, так как он позволяет использовать меньше памяти
ЭВМ. Оба массива содержат n(n 1) / 2 элементов, что равно числу пар различных одномерных рядов. Вычисление коэффициента корреляции для фиксированного значения лага и одной пары требует O(N) операций. Примем,
что число различных вариантов значения лага равно L = 21 ( lag 10 ). Таким
образом, общее число операций равно
LNn(n 1)
. Будем предполагать, что
2
LN
O( n ) , то есть подготовительный этап имеет сложность O(n2,5). Для
2
длинных рядов (но N < 1000) будем использовать оценку О(n3). Алгоритм
кластеризации можно считать эффективным в данном случае, если суммарная временная сложность его дивизивного и агломеративного шагов не превосходит сложности подготовительного этапа.
Первая ступень дивизивного шага – разбиение множества узлов сетки
UG на 4 подмножества равномерным образом, то есть 4 прямоугольных кластера, для каждого из которых далее проверяются два условия: превышение
порогового значения коэффициента кросс-корреляции и равенство нулю соответствующего лага для всех пар одного кластера (первичного, то есть одного из четырёх). Если одно из условий не выполнено, то к нему применяется
аналогичная процедура разбиения. Выполнение дивизивных ступеней можно
представить в виде дерева, вершинами которого будут подмножества узлов
сетки UG, которые необходимо далее разделить; наибольшее число ступеней
(число ярусов этого дерева) p определяется по формуле p log2 max dr , dc .
Самый простой вариант расчёта наибольшего общего количество операций (проверки условий дальнейшего деления вплоть до кластера из одного
107
узла) дивизивного шага имеет место для случая dr dc n , причём dc – степень двойки:
n2 n
nn
16 4
2
1
4 4
n n;
1-я ступень: Ops1 4
4
2
2
24 2
n2 n
nn
4 42
1
n2
n
16 16
2 4
2-я ступень: Ops2 16
4
;
2
2
2
24 2
n2
n
nn
1
2k
4k
4k 4k
4k 4
k-я ступень: Opsk 4k
2
2
2
n n;
2 4k 2
общее число операций:
n2
n
n2
n
n2
n
n2
n
Ops Opsk
...
2 41 2 2 42 2 2 43 2
24p 2
k 1
p
1
n 2 1 p
n 1 1
1 np
4 np
1 2 ... p1
24 4 4
4 2
2
1
8 1
4
2
(3.20)
n2
1 np n 2
1 n log 2 n
1 p
1 log n
6 4 2
6 4 2
2
n2
1 n log 2 n n 2 1 n log 2 n n 2 n log 2 n
1 log2 n
1
.
6 2
4
6 n
4
6
4
Предположим, что для значений (dr,dc) из предыдущего примера
( dr dc n ) выполнено k дивизивных ступеней, причём все вершины дерева, кроме вершин последнего яруса, имеют ровно 4 потомка. Агломеративный шаг алгоритма кластеризации основан на принципе Р4 (см. §2.4): объединять можно только кластеры с общей границей, поэтому можно предположить, что при установлении коэффициента кросс-корреляции для пар базовых подкластеров (результатов дивизивного шага) следует рассматривать
только пары соседей. Однако это не так, ввиду наличия возможности объединения в один кластер нескольких базовых подкластеров, которые непосредственно не имеют общей границы и найдётся пара одномерных рядов по
108
одному из соответствующих им кластерных рядов, для которой коэффициент
кросс-корреляции меньше порогового значения. Число пар кластеров равно с
= 4k (4k 1) / 2 ; для всякой пары кластеров число пар всевозможных одно2
n
мерных рядов по одному из каждого кластерного ряда равно k . Коэффи4
циент
кросс-корреляции
для
всех
пар
кластеров
определяется
за
4k (4k 1) n n 2
операций. Наиболее эффективная сортировка этих пар
k
2
2
4
2
по величине коэффициента имеет временную сложность O(c log2 c) . Выразим
эту величину через значение k:
4k (4k 1)
4k (4k 1)
c log 2 c
log 2
2
2
(3.21)
4k (4k 1)
4k (4k 1)(4k 1)
k
k
log 2 4 log 2 0,5 log 2 (4 1)
k 24 k 1.
2
2
В наихудшем случае, когда k p log2 max dr , dc имеем
k 24 k 1 log 2 n 24log2
n 1
1
log 2 n 2 22log2 n n2 log 2 n .
2
(3.22)
Жадный алгоритм, реализующий объединение базовых подкластеров в
результате анализа упорядоченного набора их пар с постепенным уменьшением, потребует менее О(n2) операций. Таким образом, агломеративный шаг
составляет последовательность трёх действий с оценками сложности для
наиболее затратного варианта входных данных О(n2), О(n2log2n) и О(n2) соответственно. Общая сложность – О(n2log2n). Принимая во внимание оценку
для дивизивного шага, можно утверждать, что указанная величина является
оценкой всего алгоритма кластеризации. Легко проверить (рисунок 3.22), что
она имеет меньший порядок роста, чем О(n2,5).
109
Рисунок 3.22. Графики функций, использованных для оценки порядка роста
(с разными ограничениями по оси ординат).
Серия начальных внутрикластерных прогнозов. Вычислительная
сложность алгоритмов сингулярного разложения прямоугольной невырожденной матрицы А размером (a×b), при b > a составляет O(a2b). Предполагая,
что для среднего числа s одномерных рядов одного кластерного ряда выполняется условие s O( n ) , выразим указанную сложность через входные параметры решаемой задачи. Матрица А в данном случае – траекторная матри-
T T
T
цы фрагмента кластерного ряда длины T размером Ks 1 s ,
2
2 2
где К – параметр траекторной матрицы кластерного ряда в МССА, по рекоT
мендации авторов которого в общем случае K 1 . Таким образом, имеем
2
T3 n
2
O ( a b) O
(3.23)
.
8
Оценим сложность алгоритма К-продолжения. Формально он сводится к
итеративному вычислению компонент вектора прогнозных значений
FC (t j ) ( F1 (t j ),..., Fs (t j ))T ( I WW T )1WQ j MZ j
(3.24)
для каждого временного отсчёта (t+j), j 0, 1 , то есть на горизонт τ, причём матрица модели М вычисляется один раз. Размерность матриц:
110
I ss ,Wsd , Qd ( K 1) s , Z( K 1) s1 , где K
T
1 , d – число значимых сингулярных чи2
сел. Оценки для числа операций при выполнении последовательности вычислений по формуле (3.24) приведены в таблице 3.9.
Таблица 3.9. Оценка числа операций для формулы (3.24)
Результат
Суммарное число операций
WT
Sd
WWT
sd+s2d
I - WWT
sd+s2d+s
(I - WWT)-1
sd+s2d+s +O(s3)
(I - WWT)-1W
sd+s2d+s +O(s3)+sd
(I - WWT)-1WQ
sd+s2d+s +O(s3)+sd+sd(K-1)s
(I - WWT)-1WQZj
sd+s2d+s +O(s3)+sd+sd(K-1)s+s(K-1)s
При каждом j > 0 будет появляется ещё одно слагаемое, равное последнему,
то есть s(K-1)s. Наибольший порядок определяется выражениями О(s3) и
sd(K-1)s. Так как
s O( n )иd T / 2
(по МССА), оценкой будет
T 2n
O(n )иO
. Наконец, полагая, для реальных расчётов
4
1,5
T n
n1,5
max
получаем,
что
число
операций
n 100 ,
оценивается
как
nmax nmax
104 104 108
106
. Учтём ранее найденное количество опе4
4
4
T3 n
раций для сингулярного разложения O
, что соответствует оценке
8
108
. Далее используем тот факт, что значимое число сингулярных чисел d
8
определяется перебором Т/2 вариантов, а также то, что для коррекции необходимо построить временной ряд ошибок серии внутрикластерных прогнозов
(их число u также можно принять как O(T)), причём выполнить все расчёты
111
необходимо для каждого из z (оценка O(n0,5)) кластеров системы, получаем
выражение
T 3 n 1,5 T 2n T
n
u z .
8
4
2
(3.25)
Наконец, в соответствии с числовыми значениями находим его оценку:
108 108 nmax
8
4
2
108 108 102 2
2
13
nmax nmax
10 10 10 операций.
4 2
8
Для произвольных Т и n, не связанных обязательным соотношением T n ,
нужно использовать наибольшую из оценок:
2) O T
2) O T
1) O n1,5 T T n O T 2 n2 ;
2
n T T n O T 4 n1,5 ;
3
n T T n O T 5 n .
(3.26)
В итоге, кластеризация на основе кросс-корреляционного анализа потребует 1012 + 109 (для расчёта значений коэффициентов кросс-корреляции
применим оценку «длинного ряда» O(n3) и реализации авторского алгоритма
кластеризации соответственно) операций, а алгоритмы прогноза – 1013 операций. Можно показать, что число операций для вычисления кластерных характеристик, отбора корректирующих кластеров и коррекции по ARX существенно меньше 1013. Таким образом, серия начальных внутрикластерных
прогнозов является наиболее ресурсоёмкой задачей по критерию времени
выполнения. Важно отметить, что оценка числа операций 1013 соответствует
ситуации, при которой используются наибольшие допустимые значения параметров. В расчётах, выполненных для реальных данных, например, для SST
моря Ирмингера (§4.5), использованы следующие значения параметров:
z = 57, u = 60, s = 25, T = 60, n = 45·60 = 2700, N = 700.
(3.27)
Тогда по приведённым в данном параграфе формулам (3.22) и (3.25) оценка
результата для кластеризации составляет 1010 операций, а для прогноза – 1011
112
операций. Таким образом, в этом примере прогноз требует примерно в 10 раз
больше операций, чем кластеризация.
§3.9. Выводы
1. Проанализированы достоинства и недостатки методов разложения
многомерных рядов МССА и МДЭМ на аддитивные составляющие.
2. Введена модель пространственно-временной изменчивости целевой
характеристики, использующая структурные (МССА и МДЭМ) и статистические (ARX) модели.
3. Разработан метод начального внутрикластерного прогноза (НВП), использующий в качестве основного прогностического средства метод Кпродолжения (на базе МССА). Он впервые дополнен автором процедурами
выбора количества значимых аддитивных компонент в разложении многомерного ряда, критерием определения длины его фрагмента, по которому
строится прогноз, и предобработкой по МДЭМ. Вычислительные эксперименты показали, что НВП позволяет получить лучшие результаты в смысле
приведённой относительной ошибки, чем метод прогнозирования МССА.
4. Представлен метод уточнённого внутрикластерного прогноза (УВП),
который использует начальный внутрикластерный прогноз для построения
временного ряда ошибок прогноза, экстраполяция которого с помощью статистической модели позволяет сделать уточнение прогноза значений целевой
физической характеристики.
5. Показано, что наибольшую временную сложность имеет серия
начальных внутрикластерных прогнозов, которая необходима для формирования временного ряда ошибок предсказанных значений, экстраполяция которого с помощью статистической модели позволяет сделать уточнение прогноза. Временная сложность алгоритма кластеризации не превосходит сложности расчёта множества коэффициентов кросс-корреляции для всех возможных пар одномерных временных рядов целевой физической характеристики.
113
ГЛАВА IV. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И ЭКСПЕРИМЕНТЫ
В главе дано описание комплекса программ, реализующих авторскую
методику прогноза, и результатов экспериментов со сгенерированными и реальными данными. В качестве искусственных данных выступает многомерный временной ряд, сгенерированный по аддитивной модели, включающей
полином 4-го порядка, гармонику и шумовую составляющую. Реальные данные – поля ежедневных значений температуры поверхности моря Ирмингера
за три года (2012-2014 гг.) и аномалий уровенной поверхности Баренцева моря (с августа 2012 года по август 2013 года). В §4.1 приводятся общие сведения о составе разработанного пакета программ, а также содержится информация о типах входных и выходных файлов, которые поддерживаются созданными программами. В §4.2 детализирована структура основного компонента пакета – библиотеки ядра, в §4.3 кратко охарактеризована графическая
оболочка, использующая эту библиотеку. В §4.4 представлены результаты
работы со сгенерированными данными. В §4.5 изложены результаты экспериментов с реальными данными.
§4.1. Общая характеристика комплекса программ
Комплекс программ, реализующих предложенную методику прогноза,
имеет ряд функций. В частности, для оперативного извлечения информации
выполнена визуализация полей целевой физической характеристики в виде
плоских прямоугольных карт и трёхмерных поверхностей с возможностью
вывода значения характеристики для выбранного узла карты. Для выполнения прогностических экспериментов разработан удобный в использовании
человеко-машинный интерфейса. Стремление к высокой степени автоматизации обработки временных рядов с целью прогноза не исключает существенной роли экспертов в процессе принятия решений при использования
данной методики. Программное обеспечение содержит ряд параметров, для
которых имеются априорно заданные (рекомендуемые) значения, а также
114
представлена возможность задания других конкретных значений с помощью
ручной настройки. Таким образом, методика реализована в виде интерактивной (на каждом шаге обработки данных) компьютерной технологии.
Комплекс программ, реализующих авторскую методику прогноза, состоит из трёх элементов:
1) библиотеки ядра, которая содержит внутреннее представление таких семантических единиц как одномерный/многомерный временной ряд, узел
сетки UG, кластер, и т.д.; реализацию моделей и алгоритмов (МССА, различные варианты ДЭМ и МДЭМ, ARX и т.д.), набор вспомогательных
сущностей (коллекции, анализаторы, менеджеры, парсеры), которые служат для обеспечения необходимой логики взаимодействия основных сущностей, определённых выше;
2) графической оболочки, выполненной на основе технологии Eclipse Rich
Client Platform (RCP), которая является промежуточным звеном между
пользователем и библиотекой ядра: взаимодействие с пользователем осуществляется с помощью графических элементов управления JFace и SWT,
а с библиотекой – посредством вызова её API;
3) набора отдельных консольных утилит, позволяющих организовать доступ
к отдельным функциям библиотеки ядра из командной строки.
Библиотека ядра и графическая оболочка реализованы в среде Eclipse
(Eclipse for RCP and RAP Developers, Luna Release, 2014) на языке Java (JRE
1.8). Для работы с картографическими материалами: построения узлов сетки
UG и визуализации пространственного распределения целевой характеристики на географической карте созданы модули на языке Python (версия 2.7.6) в
среде IDLE.
Входные данные для экспериментов представлены во внутреннем формате MTS. Он используется для сериализации объекта класса, обеспечивающего внутреннее представление многомерного временного ряда. Также разработаны дополнительные модули преобразователей, которые используют в
115
качестве входных данных следующие варианты, приводимые в дальнейшем к
MTS:
1) ASCII-файл, который генерируется OpenDap при загрузке данных с портала AVISO1, который является источником информации об аномалиях уровня в виде массивов вдольтрековых (на основе спутникового зондирования)
и гридированных данных;
2) файлы CSV (Coma Separated Values), каждая строка которого содержит пару географических координат и значение целевой характеристики для одного узла сетки UG, число файлов равно числу временных отсчётов;
3) специальным образом организованный файл формата XLS (файл табличного процессора Microsoft Excel), каждый лист которого содержит матрицу
значений целевой характеристики для одного временного отсчёта, а номера столбца и строки однозначно определяют географические координаты
узла сетки UG, для которого указано значение в ячейке; первый лист документа XLS также содержит сведения о географических координатах, шаге
по широте, долготе и времени, первую и последнюю даты, которым приписаны представленные в файле значения.
Результаты прогностических расчётов оформляются как элементы файловой системы в форматах XLS (аналогично входному файлу) и/или CSV, где
спрогнозированные значения записываются последовательно в строку после
соответствующих географических координат узла.
§4.2. Описание подсистем библиотеки ядра
В основе архитектуры библиотеки ядра лежит взаимодействие следующих подсистем (рисунок 4.1):
а) загрузки и хранения данных;
б) кластеризации;
в) прогноза значений многомерного временного ряда;
г) визуализации карт и временных рядов.
1
http://www.aviso.altimetry.fr/en/home.html
116
Рисунок 4.1 Основные компоненты библиотеки ядра
Охарактеризуем назначение основных классов указанных подсистем.
Некоторые из них естественным образом соответствуют сущностям предметной области, другие же являются вспомогательными. Всего объектноориентированной модель библиотеки ядра содержит около пятидесяти классов.
Подсистема загрузки и хранения данных является источником данных
для всех последующих систем. Здесь под данными понимаются следующие
категории сведений предметной области:
а) многомерный временной ряд значений целевой характеристики;
б) число временных отсчётов, для которых доступны пространственные
распределения (то же, что и число карт, длина временного ряда);
в) уникальные идентификаторы карт (дата в некотором строковом формате);
г) сведения о физической интерпретации положения узлов прямоугольной
сетки (географические координаты, размеры сетки UG, шаг по широте и
долготе), которые необходимы для корректной визуализации на подложке
в виде географической (контурной) карты.
Класс TimeSeries (рисунок 4.1) является обёрткой вещественного массива, представляющего одномерный временной ряд значений целевой характе117
ристики, для элементов которого доступны дополнительные действия:
нахождение наименьшего и наибольшего значения, наименьшей длины квазистационарного фрагмента в смысле определений из §3.4, удаление выбросов, сглаживание, нормировка, построение автокорреляционной функции, а
также вычисление коэффициента кросс-корреляции для пары массивов (то
есть временных рядов) при различных значениях лага (как положительных,
так и отрицательных, см. §2.4). Многомерный ряд представлен сущностью
MultivarTimeSeries; он инкапсулирует некоторые методы, аналогичные методам TimeSeries, так как является по сути контейнером (одномерным массивом) объектов TimeSeries, а также содержит определение некоторых вариантов расчёта невязки (ошибки прогноза) между двумя многомерными рядами.
Загрузка и хранение многомерного ряда, а также информации о его географической
привязке
выполняется
в
рамках
абстрактного
класса
DataLoader. Конкретные классы. являющиеся наследниками класса DataLoader (SLAFromTXTLoader, ExcelDataLoader, SSTFromCSVLoader) обеспечивают загрузку данных из разных внешних источников: из TXT, XLS и CSV
соответственно (см. ранее в текущем параграфе). Для определения даты (по
умолчанию предполагается суточная дискретность) по номеру временного
отсчёта, а также географических координат конкретного узла сетки UG также
необходимо вызывать методы DataLoader. Экземпляр этого класса является
полем класса Session, реализующего шаблон проектирования Singleton, так
как система в каждый момент времени взаимодействует только с одним источником данных в оперативной памяти. Таким образом, предполагается, что
сессия работы пользователя однозначно определяется массивом входных
данных: при загрузке нового массива начнётся новая сессия, а информация из
предыдущей будет утеряна.
Подсистема кластеризации. Основные классы, которые были представлены на рисунке 4.1, имеют содержательные аналоги среди сущностей
предметной области задачи и выделены для удобства восприятия на диаграмме всех классов подсистемы кластеризации (рисунок 4.2).
118
Рисунок 4.2. Диаграмма классов подсистемы кластеризации
Класс ClusterManager необходим для управления множеством кластеров
и предоставления функций работы с ним графической оболочке. ClusterProvider реализует алгоритм кластеризации, порождая множество кластеров (экземпляров Cluster), также выступает в роли контейнера для них. В свою очередь Cluster является контейнером для прямоугольных подкластеров Unit.
Класс CorrCoeffs обеспечивает выполнение кросскорреляционного анализа и
хранение массивов оптимальных значений лага и коэффициента кросскорреляции (в интерпретации из §2.4). Его экземпляр используется при кластеризации и в дальнейшем при выборе корректирующих кластеров, поэтому
доступ к его экземпляру имеют и ClusterManager, и ClusterProvider. Класс
Node соответствует узлу сетки UG: он необходим для обеспечения перехода
от двухиндексной адресации узла (например, при визуализации – номер
строки и столбца) к одноиндексной – для идентификации одномерного временного ряда в исходном многомерном или многомерном кластерном ряде,
так как MultivarTimeSeries, как было сказано ранее, суть одномерный массив.
Класс Node используется как объектом CorrCoeffs при вычислении коэффициентов кросс-корреляции и организации их хранения, а также кластерами и
подкластерами (Cluster и Unit соответственно). Интерфейс ICorrCoeffsUser,
классы Layer, SuperUnit, Pair, PairComparator и UnitComparator являются
119
вспомогательными: первые три сущности обеспечивают логику взаимодействия при дивизивном шаге алгоритма кластеризации, а три последние участвуют в агломеративном шаге.
Подсистема прогноза многомерного временного ряда. Основные
классы этой подсистемы изображены на рисунке 4.3. Выделенные блоки показывают семантическую группировку классов, реализующих МССА и
МДЭМ соответственно.
Рисунок 4.3. Некоторые классы подсистемы прогноза многомерного
временного ряда
Для реализации многомерного сингулярного спектрального анализа
(МССА) введён класс MTSCaterpillar, являющийся потомком MultivarTimeSeries. Алгоритм К-продолжения представлен в методах класса sMSSA.
PropMSSA
содержит
значения
параметров
МССА
и
алгоритма
продолжения:
п1) стартовый прогнозируемый временной отсчёт;
п2) длину временного окна (число строк траекторной матрицы МССА);
п3) длину фрагмента ряда, по которому строится траекторная матрица;
120
К-
п4) количество значимых сингулярных чисел;
п5) тип вычисляемой ошибки прогноза (MultiForecastError) в обучающем
(для определения оптимального количества сингулярных чисел) и в тестовом режимах;
п6) длина окна для сглаживания одномерных рядов методом скользящего
среднего (название sMSSA означает Smoothing and MSSA – «сглаживание
и МССА»).
Объект PropMSSA, содержащий управляющие параметры для sMSSA, создаётся экземпляром класса PropMSSALoader, который в свою очередь требует определения параметров п1, п2, п5, п6 а также числа последовательных
временных отсчётов, для каждого из которых будет выполняться независимо
от остальных прогноз на заданный горизонт, что необходимо для построения
временного ряда ошибок прогноза. Для каждого отсчёта будет создан собственный PropMSSA, исходя из результатов как обучающего прогноза, который позволит установить оптимальное количество сингулярных чисел (п4),
так и анализа квазистационарности, который описан в §3.4 (параметр п3, реализация – методы класса OptVolumeCalculator).
Разложение на аддитивные составляющие, использующее идеи декомпозиции на эмпирические моды в одномерном и в многомерном случаях, выполнялось несколькими способами. Абстрактный класс sMSSAwithMEMD,
являющийся потомком sMSSA, наследет прогностические функции, а также
использует аппарат декомпозиции в общем виде – объект MEMD. Он инкапсулирует поля (составляющие являются объектами MTSCaterpillar) и основные методы для декомпозиции (формирование списков локальных экстремумов, генерация огибающих, расчёт меры отличия текущей выделенной составляющей от предыдущей и т.д.). В частности, наследники sMSSAwithMEMD классы sMSSA_MEMD_Rato и sMSSA_MEMD_Davidov по-разному достраивают начальный и конечный фрагменты огибающей временного ряда
(опираясь
на
идеи
из
статей
[113]
и
[19]
соответственно),
а
sMSSA_MEMD_R_Davidov удаляет первую выделенную моду, считая её шу121
мом. Реализация этих классов сводится к заданию параметров для MEMD и
переопределению одного из методов базового класса, который задействован
в осуществлении прогноза. MEMD поддерживает существенную вариативность реализации декомпозиции: были рассмотрены варианты обнуления
первой/второй производной в граничных точках, отказ от процесса просеивания, различные способы аппроксимации огибающих. Различные ситуации
достраивания огибающих на концах представлены в списке меток EndEffectMode. Уникальные идентификаторы каждого способа декомпозиции вынесены в перечислении (enum) MethodType, а их вызов сводится к созданию объектов соответствующих классов наследников sMSSAwithMEMD фабричными
методами MSSAForecastFactory (шаблоны проектирования: «фабрика» и
«фабричный метод»).
Классы, представленные на рисунке 4.3, по сути реализуют начальный
внутрикластерный прогноз. Для коррекции (уточнения прогноза) не выделяется отдельная подсистема, так как основная работа по исправлению прогностических значений может быть выполнена в рамках имеющихся сущностей
объектной модели. Для некоторых подзадач коррекции созданы два дополнительных модуля: классы ClusterCharacteristic и ARXModel. Первый из них является обёрткой для набора значений кластерных характеристик одного кластера, причём характеристики упорядочены в соответствии с их приоритетом
при решении задачи отбора корректирующих кластеров (см. §3.6). Второй
класс реализует параметрическую идентификацию модели ARX методом
наименьших квадратов по заранее сформированным массивам. Подготовительную работу для коррекции выполняют методы классов ClusterManager,
Cluster, а также классов, участвующих в организации начального внутрикластерного прогноза.
Общая схема уточнения прогноза представлена в виде диаграммы активности на рисунке 4.4 в предположении, что процедура коррекции вызывается объектом класса MainHandler. Для удобства изображения на рисунке
введены следующие аббревиатуры: МВР – многомерный временной ряд,
122
ПВИ – пространственно-временная изменчивость, НВП – начальный внутрикластерный прогноз.
Рисунок 4.4. Общая схема метода уточнения внутрикластерного прогноза
Так как для работы с отдельными кластерами в рамках первого цикла
(цикла расчёта характеристик), а также для вычисления различных характеристик одного кластера можно организовать параллельные вычисления, диаграмма содержит разветвление на конкурирующие потоки. При таком параллелизме разделяемыми ресурсами являются диспетчер параметров серии
НВП (то есть объект класса PropMSSALoader) и многомерный временной ряд
123
(MTSCaterpillar). Для второго цикла (цикла коррекции) можно также организовать параллельную обработку различных кластеров. Список разделяемых
ресурсов в данном случае пополнится массивами коэффициентов кросскорреляции и лагов (из объекта CorrCoeffs), которые следует загрузить в оперативную память до входа в цикл коррекции (в цикле расчёта характеристик
эти массивы не использовались), кроме того экземпляры класса Cluster будут
обмениваться инкапсулированной в них информацией. Каждый кластер как
корректируемый должен также получить доступ к набору пороговых значений критериев, которые используются для отбора корректирующих кластеров. Список из девяти переменных-порогов можно тиражировать ввиду его
незначительного объёма и не рассматривать как общий ресурс. Имеем следующий список переменных (описание кластерных характеристик представлено в §2.5):
1) use_neg_lags (логическая): использовать/не использовать кластеры, содержащие одномерные временные ряды, которые отстают в динамике от
рядов текущего кластера;
2) autoCorr (логическая): выполнять только/не только автокоррекцию;
3) protocol (логическая): формировать/не формировать протокол (систему
текстовых файлов с отчётом о процессе отбора кластеров);
4) use_svr_thr (логическая): использовать/не использовать пороги для отношений сингулярных чисел;
5) svr_thr1 (вещественная): значение первого порога (верхней границы) для
отношений сингулярных чисел;
6) svr_thr2 (вещественная): значение второго порога (верхней границы) для
отношений сингулярных чисел;
7) var_thr (вещественная): значение порога для дисперсии ПВИ целевой
характеристики в рамках кластера (верхней границы);
8) cross_corr_thr (вещественная): значение порога для коэффициента кросскорреляции, определённого для пары кластеров (нижняя граница);
124
9) dirs_thr (целочисленная): порог для числа совпадений направления градиентов для пары кластеров на промежутке с длиной, равной горизонту
прогноза, и непосредственно предшествующего первому прогнозному
временному отсчёту (нижняя граница).
Если несколько кластеров удовлетворяют этим критериям, то кластерные характеристики упорядочиваются с убыванием приоритета следующим
образом: число совпадений направления градиента; коэффициент кросскорреляции; дисперсия ПВИ.
Подсистема визуализации карт и временных рядов представлена
следующими основными классами (связи с другими подсистемами отображены на рисунке 4.1):
1. PlotManager управляет отрисовкой профилей временных рядов на заданном графическом контексте: исходного одномерного ряда, спрогнозированного фрагмента и рядов ошибок. Допустимо построение графиков нескольких одномерных временных рядов, причём совпадение длин, а также
стартовых временных отсчётов не требуется. Цвет можно задавать вручную или применить автоматический выбор (вспомогательные классы:
PlotData, ColourManager).
2. ColouredMap2D порождает двумерную карту цветомодулированных значений целевой характеристики или ошибок (вспомогательный класс LinearRangePalette обеспечивает преобразование вещественного значения в
параметры цвета).
3. ColouredMap3D строит поверхность, состоящую из прямоугольников –
трёхмерную модель карты, используя JOGL (OpenGL for Java).
4. СorrCoeffsMap создаёт карты, отображающие результаты кросскорреляционного анализа: обзорную и детализированную. Такие карты строятся для
каждого узла отдельно (выбранный узел визуализируется как закрашенный
чёрный прямоугольник) и представляют пространственное распределение
значений лага, на который приходится наибольшее значение коэффициента кросс-корреляции, и значений этого коэффициента. Для построения карт
125
используется информация из массивов лагов и коэффициентов кросскорреляции объекта CorrCoeffs, а именно – фрагментов массивов, которые
соответствуют парам узлов сетки UG, в которые попадает выбранный узел.
Обзорная карта представляет информацию только в виде цветовой карты.
Серый показывает нулевой лаг, зелёный – лаг, равный по модулю единице,
фиолетовый – двойке, розовый – тройке, а латунный используется для всех
остальных значений лага. Оттенки показывают усиление корреляционной
связи (большая насыщенность базового цвета означает большее значение
коэффициента корреляции). Если некоторый временной ряд отстаёт от выбранного, то этот узел помечается коричневым прямоугольником (рамкой).
Детализированная карта содержит для каждого узла значение лага и коэффициент кросс-корреляции, а также дублирует цветовое выделение аналогично обзорной карте. Для работы с графической оболочкой создан класс
Magnifier, который имитирует режим «увеличительного стекла»: при просмотре обзорной карты пользователь кликает в некоторой точке карты, после чего появляется детализированный фрагмент окрестности этой точки
(рисунок 4.5)
Рисунок 4.5. Обзорная карта и детализированный фрагмент
126
5. ClusterBordersPainter строит визуализацию системы кластеров. Могут
отображаться только границы кластеров или все узлы, а также их можно
окрасить, причём так, что кластеры с общей границей имеют различные
цвета (в соответствии с алгоритмом раскраски вершин графа. при котором
смежные вершины окрашены по-разному).
Необходимо отдельно отметить взаимодействие с картографической системой на базе библиотеки языка Python. Созданы вспомогательные Javaклассы, которые выполняют подготовку экспортируемых данных и запускают отдельные процессы для вызова интерпретатора языка Python. Разработанные модули на Python позволяют создать изображение одного из трёх типов с подложкой в виде географической карты (и одним из нескольких доступных режимом отрисовки – типом проекции): визуализацию узлов сетки
UG, цветомодулированного распределения целевой физической характеристики по узлам (аппроксимация без сглаживания – выбор цвета точек изображения методом ближайшего соседа), аналогичного распределения на базе
непрерывной аппроксимирующей функции с линиями уровня. Примеры визуализации карты аномалий уровня моря (значения в см) в некоторой акватории Баренцева моря показаны на рисунках 4.6 и 4.7: здесь демонстрируются
различные варианты выбора типа проекции, цветовой палитры и способа
отображения пространственного распределения целевой характеристики.
Рисунок 4.6. Карта характеристики с линиями уровня на проекции Миллера
127
Сгенерированная карта является векторным изображением и отображается в обозревателе изображений Python: она может быть растрирована, сохранена в файл; можно масштабировать её отдельные области; доступна
навигация по результатам последовательных преобразований изображения
при просмотре.
Рисунок 4.7. Карта в обозревателе Python (ортографическая проекция)
Библиотека ядра была написана и протестирована в течение 2013-2014
гг., а в январе 2015 г. получено свидетельство о государственной регистрации
программ для ЭВМ («Библиотека для выполнения краткосрочного прогноза
временной изменчивости пространственного распределения характеристик
поверхности океана», свидетельство № 2015610857, автор И.Ф. Запорожцев,
правообладатель ФГБОУ ВПО «МГТУ», см. Приложение).
§4.3. Описание графической оболочки
Графическая оболочка создана в среде Eclipse на языке Java в соответствии с технологией Rich Client Platform, что обеспечивает возможность реализации широкого спектра визуальных эффектов для элементов управления.
Продуманный человеко-машинный интерфейс позволяет повысить удобство
интерактивной обработки многомерных рядов в решаемых пользователем за128
дачах (рисунок 4.8, слева). Типовая ситуация работы пользователя требует
выполнения последовательности действий, представленной на рисунке 4.8
(справа). Некоторые из этих действий можно пропустить или повторить, но в
данном случае делается акцент на рассмотрение только полного списка.
Рисунок 4.8. Диаграммы вариантов использования и действий
Взаимодействие пользователя с оболочкой начинается с загрузки файла
с пространственно-временным распределением значений целевой характеристики (гридированные данные). Объём непосредственно используемых данных можно уменьшить, изменив стартовый временной отсчёт, длину фрагмента ряда, число узлов по широте/долготе (рисунок 4.9).
Рисунок 4.9. Загрузка файла со значениями целевой характеристики и параметрами исследуемой акватории
129
После построения системой исходного многомерного временного ряда
пользователь обозревает дерево карт и ещё несколько пустых окон внутри
главного окна оболочки. При выборе одной из временных меток в дереве
(рисунок 4.10, слева) строится цветомодулированная карта характеристики
(рисунок 4.10, «Текущая карта», среднее окно в первом ряду) и её трёхмерная
модель (рисунок 4.10, крайнее правое окно во втором ряду). При последовательном выборе нескольких меток в дереве карт заполняется окно «Предыдущая карта». Наконец, при выделении узла (прямоугольника) с помощью
мыши в окне текущей или предыдущей карты строится временной ряд с указанием значений характеристики, широты и долготы.
Рисунок 4.10. Просмотр карт и временных рядов в графической оболочке
Любое из этих окон можно развернуть так, чтобы оно занимало всё пространство главного окна графической оболочки, можно сжимать/растягивать,
сворачивать, а также перегруппировать все окна. Последняя выбранная пользователем карта (временная метка) будет ограничивать фрагмент исходного
многомерного временного ряда, который будет участвовать в дальнейшем
анализе: если эта метка не является последней из доступных, то работа будет
130
проходить в режиме тестирования, то есть в финале будет доступен отчёт как
о параметрах используемых методов, так и ошибках. В противном случае,
для спрогнозированных карт не будет эталонов и в отчёт будет записана информация только о параметрах методов. Диалоговые окна для задания значений параметров (со значениями по умолчанию) представлены на рисуноке
4.11. Это взаимодействие с пользователем составляет основу реализации
пунктов 6, 9, 11 списка выполняемых действий, приведённого на рисунке 4.8.
Рисунок 4.11. Диалоговые окна настройки параметров
Параметры, используемые только для уточнения прогнозных значений
(рисунок 4.4) в нынешней версии графической оболочки не могут быть изменены: изменения возможны только из библиотеки ядра или через консольную
утилиту путём загрузки файла с параметрами. Финальная система окон оболочки, отображающих результаты прогноза (в режиме тестирования) показана на рисунке 4.12. Анализ полученных изображений приведён в §4.5.
131
Рисунок 4.12. Система окон, отображающих результаты прогноза
Завершается работа с оболочкой экспортом сгенерированной (или эталонной) карты с подложкой в виде контурной карты в обозреватель изображений (модули на Python), который позволяет сохранить изображение в одном из стандартных растровых форматов. Наконец, пользователь может сохранить в специализированный файл параметры моделей, использованных в
анализе, чтобы воспользоваться ими повторно. Это необходимо, например,
при добавлении информации для одного нового временного отсчёта: можно
построить оперативный прогноз на основе предыдущего, скорректировав результаты в соответствии с новыми данными.
Одна из рабочих версий графической оболочки была успешно
использована в работе научно-производственной компании «Морская
информатика» (г. Мурманск), что подтверждает акт о внедрении (см. §4.5 и
Приложение).
§4.4. Вычислительные эксперименты со сгенерированными данными
Рассмотрим сетку UG размером (30×20) и построим для неё временной
ряд FNUG (t ) длиной N = 350 отсчётов. Априори будем считать, что временные
132
ряды в значительной степени согласованы и образуют несколько кластеров (в
соответствии с авторским алгоритмом кластеризации). Каждый из рядов так
или иначе строится по следующей модели полезного сигнала:
y(t ) P4 (t ) sin t ,
(4.1)
для определённости примем, что
P4 (t ) 2,7356t 4 0,0714t 3 10,106t 2 4,0196t 19,0154,
t t / 90 2,t 0,...,349, 2,5 .
(4.2)
К полезному сигналу будет добавляться шум – случайная составляющая,
распределённая по нормальному закону:
x(t ) y(t ) z(t ),z(t )
N (0, 2 ) ,
(4.3)
где σ2 определяется из условия для оценки математического ожидания отно z (t )
шения шума к сигналу: M
0,05 . В данном случае σ=0,7.
y (t )
Априорные кластеры сформированы так (в скобках указаны размеры
фрагментов сетки):
1) кластер 0 (15×10): модель x(t);
2) кластер 1 (15×5): линейная аппроксимация модели x(t) в виде
a. f(t) = 25 – 0,0667t;
3) кластер 2 (15×5): модель x(t);
4) кластер 3 (7×5): модель x(t-10);
5) кластер 4 (8×5): модель y(t);
6) кластер 5 (7×5): модель x(t-5);
7) кластер 6 (8×5): модель x(t+3);
8) кластер 7 (15×10): модель x(t), в которой установлен более высокий
уровень шума: σ=0,9.
Таким образом, одномерные временные ряды, составляющие кластерный ряд
для кластера 1 (как и для кластера 4) в точности совпадают; для остальных
133
кластеров они отличаются лишь значениями шумовой составляющей (рисунок 4.13а,в).
Рисунок 4.13. Априорная (а), апостериорная (б) системы кластеров и примеры профилей временных рядов (в), являющихся представителями кластеров:
0 (зашумлённый), 1 (нелинейный), 4 (линейный).
При выполнении кластеризации получено несколько отличающееся разбиение: кластер с наибольшими шумовыми эффектами разделился на пять
независимых кластеров (№№ 7-11, рисунок 4.13б). Эти результаты не противоречат закономерностям в модельной генерации рядов, поэтому именно это
апостериорное множество кластеров далее используется для вычисления
прогноза. Изображение на рисунке 4.13б сгенерировано утилитой кластеризации (номера добавлены в результате постобработки вручную), прямоугольник наименьшей площади соответствует узлу, результаты дивизивного шага
алгоритма кластеризации показаны как прямоугольники с утолщёнными границами, итоговые кластеры отмечены номерами и цветом (как в задаче о 4-х
красках, никакие два соседних кластера не окрашены в один цвет).
Прогноз выполнялся независимо для целевого временного отрезка I, содержащего 20 последовательных временных отсчётов (с 220 по 239, рисунок
4.13в) на горизонт, равный 5. Для данного примера оценкой математического
ожидания оптимальной длины фрагмента временного ряда для прогноза с
ошибкой ε не более 10% по условию квазистационарности (см. §3.3) стало
значение, близкое к 20 (T = Topt = 20). Для экспериментального сравнения результатов прогноза взято ещё одно значение: T = 30.
134
Была проведена серия опытов в предположении, что потенциально возможным корректирующим кластером является только кластер 4, как содержащий только идентичные ряды с полезным сигналом (без шума). Результаты показаны на рисунках 4.14 и 4.15 (эти рисунки, как и все последующие
содержат изображения, сгенерированные модулями библиотеки ядра, описанной в §4.2). Изображения сгруппированы парами и строятся следующим
образом: изображение слева отражает результаты коррекции, при которой
используются сторонние (корректирующие) кластеры, а справа – коррекции
по ошибкам прогноза в самом кластере (автокоррекция). На последующих
рисунках тонкая линия показывает ошибку в процентах начального внутрикластерного прогноза, утолщённая – ошибку в процентах прогноза после
коррекции. Для каждого кластера ошибки вычисляются по формуле (1.8),
итоговое значение для графика выбирается из анализа всех кластеров: либо
как средняя ошибка, либо как наибольшая ошибка.
Рисунок 4.14. Средняя ошибка прогноза при T = 20 (а),б)) и T = 30 (в),г)), автокоррекция – б) и г).
Рисунок 4.15. Наибольшая ошибка прогноза при T = 20 (а),б)) и T = 30 (в),г)),
автокоррекция – б) и г).
135
Отметим, что в данном случае графики ошибки коррекции и автокоррекции практически неотличимы для Т = 20. Далее были введены такие ограничения на кластерные характеристики, которые сделали возможным использование большего количества кластеров для коррекции (но не более
трёх, не считая сам корректируемый кластер). Результаты второй серии экспериментов приведены на рисунках 4.16 и 4.17.
Рисунок 4.16. Средняя ошибка прогноза при T = 20 (а),б)) и T = 30 (в),г)), автокоррекция – б) и г).
Рисунок 4.17. Наибольшая ошибка прогноза при T = 20 (а),б)) и T = 30 (в),г)),
автокоррекция – б) и г).
Из анализа полученных результатов (рисунки 4.14-4.17) можно сделать
вывод, что начальный внутрикластерный прогноз (использована более тонкая
линия) даёт наибольшую ошибку в центральной части целевого отрезка I –
эта область соответствует существенному увеличению по модулю величины
производной полезного сигнала (4.1), что видно на рисунке 4.13. Коррекция
136
прогноза показала наилучшие результаты при длине фрагмента в 20 отсчётов,
что соответствует оценке, полученной из условия квазистационарности. Стоит отметить, что при использовании более одного корректирующего кластера
(рис. 9а, 10а), и средняя, и наибольшая ошибки на границах целевого отрезка
I уменьшаются по сравнению с результатами коррекции с помощью одного
4-го кластера (рисунки 4.14а, 4.15а), а также меньше значений при автокоррекции (рисунки 4.14б, 4.15б). Примечательно, что временные отсчёты, соответствующие границам целевого отрезка I, характеризуются инерционностью
– смены монотонности профиля временного ряда полезного сигнала (4.1) не
происходит. На рисунке 4.17а наихудший результат имеет место для отсчёта
16 (отсчёт 235 на рисунке 4.13в), что соответствует точке перегиба для полезного сигнала. При T = 30 начальный внутрикластерный прогноз корректируется плохо во всех случаях, а значения ошибки прогноза без коррекции
больше на 2-4% аналогичных значений при Т = 20.
Таким образом, коррекция с участием нескольких корректирующих кластеров наиболее эффективна на промежутке I в случае продолжения монотонного участка профиля временного ряда и сохранения знака второй производной полезного сигнала (4.1). В окрестности точки перегиба начальный
внутрикластерный прогноз оказался оптимальным. Наихудшие результаты в
случае Т = 30 как раз приходятся на случай коррекции с участием более одного корректирующего кластера (рисунки 4.16в, 4.17в).
§4.5. Вычислительные эксперименты с реальными данными
В диссертационном исследовании выполнен анализ и прогнозирование
для следующих массивов данных: температуры и аномалий уровня поверхности в некоторых акваториях моря Ирмингера и Баренцева моря. Для Баренцева моря предложена серия гидродинамических моделей [5,58], причём
последняя реализована программно и работает в оперативном режиме в рамках сервиса ЕСИМО (Гидрометцентр, см. §§1.2-1.3). Тем не менее, как отмечалось ранее, они недостаточно эффективны, в частности, для решения задач
137
информационного обеспечения управления рыбопромысловым флотом. Для
моря Ирмингера отсутствуют в свободном доступе детальное описание моделей и сервисы, предоставляющие данные прогноза аналогично ЕСИМО,
поэтому моделирование и прогнозирование пространственно-временной изменчивости для этой области Мирового океана представляет интерес (главным образом с практической точки зрения в рамках деятельности отечественных компаний, см. пункт 4.5.1). Данный параграф является значительным по объёму, поэтому разделён на четыре пункта, основное содержание
которых отражено в данной преамбуле. Важно отметить, что почти все рисунки (кроме 4.18 и 4.22), представленные в параграфе, созданы на основе
изображений, сгенерированных библиотекой ядра, разработанной автором
диссертации (см. §4.2) с минимальной постобработкой (только путём добавления надписей и/или нескольких акцентирующих линий). В пункте 4.5.1
представлено обоснование выбора акватории моря Ирмингера, а также нестационарности случайной составляющей одномерных временных рядов
температуры поверхности (за 2012-2014 гг.) в море Ирмингера и Баренцевом
море. Пункт 4.5.2 содержит результаты декомпозиции многомерных рядов
температуры по МССА и МДЭМ, кластеризации, отбора наиболее эффективных значений параметров авторской методики прогноза, а также прогнозирования (по методике МССА и по авторской методике) в виде визуализации
сгенерированных фрагментов временных рядов одного кластера для серии
стартовых временных отсчётов, графиков и таблиц ошибок прогноза (1.8),
осреднённых по кластерам и/или по стартовым отсчётам целевого интервала,
и диаграммы Хофмёллера, показывающей пространственно-временную изменчивость ошибки (1.8), полученной в результате выполнения алгоритмов
авторской методики. В пункте 4.5.3 приведены некоторые результаты апробации авторской методики и некоторых других методик (МССА и нейросетевого моделирования) при работе с годовым массивом (2013 г.) значений аномалий уровенной поверхности в акватории Баренцева моря; сделан акцент на
анализ плотности линий уровня на исходной и сгенерированной картах целе138
вой характеристики, соответствующих одному моменту времени; указанный
массив, а также аналогичный массив данных 2011 г., использовался автором
при формировании и тестировании отдельных шагов методики прогнозирования, обобщение этого опыта представлено в ряде публикаций. Последний
пункт параграфа (4.5.4) содержит выводы по применению разработанной методики на массивах реальных данных.
4.5.1. Статистический анализ массивов SST
В рамках сотрудничества с НПК «Морская информатика» (г. Мурманск)
проведено исследование полей SST (Sea Surface Temperature, температура поверхности моря) моря Ирмингера. Вне этой работы составлен прогноз изменчивости SST в некоторой акватории Баренцева моря.
Работа с морем Ирмингера обусловлена, в частности, возросшим интересом отечественных компаний к распределению в этой акватории популяций окуня-клювача (рисунок 4.18). Успешные результаты работы отмечены в
акте о внедрении (Приложение Б). Рисунки 4.18 и 4.22 были любезно предоставлены Д.Н. Клочковым2, директором НПК «Морская информатика».
Рисунок 4.18. Фактические районы и границы областей промысла окуняклювача весной (область 2) и летом (области 2 и 3) 2013 года флотом одной
из российских компаний.
Д.Н. Клочков. Информационно-прогностическое обеспечение планирования и оперативного управления
производственной деятельностью флотов «Группы компаний ФОР» на сопряжённых промыслах Северной
Атлантики и Баренцева моря. Итоговый научно-технический отчёт. 2013.
2
139
В период с 24 апреля по 1 мая 2014 г. в Копенгагене (Дания) в штабквартире Международного совета по исследованию моря (ИКЕС) прошло
ежегодное заседание Северо-Западной Рабочей группы ИКЕС, в котором
принимали участие делегации Российской Федерации, Исландии, Германии,
Норвегии, Дании, Гренландии и Фарерских островов. В ходе пленарных заседаний на Рабочей группе были выполнены оценки состояния 16 запасов
промысловых рыб в исландско-гренландском районе: окуня-клювача, золотистого окуня, трески, пикши, сайды, черного палтуса и сельди. Практически
все из рассмотренных на Рабочей группе запасов находятся в пределах 200мильных зон прибрежных государств. Окунь-клювач пелагиали моря Ирмингера и сопредельных вод в силу своей доступности представляет значительный интерес для российского рыболовства. Известно, что в течение последнего десятилетия наблюдается устойчивое снижение пелагических запасов
окуня-клювача (с 2,1 до 0,7 млн. т.). Современные меры регулирования промысла этих гидробионтов основаны на существенно устаревших, по мнению
российских учёных, представляющих «ВНИРО», рекомендациях ИКЕС 2009.
Российской делегацией инициирован процесс пересмотра рекомендаций, в
которых планируется учесть особенности изменчивости условий внешней
среды (в частности, SST) различного временного масштаба для принятия
окончательных решений по нормам общего допустимого улова (ОДУ) на
ближайшие годы. Очевидно, что успешное долгосрочное и среднесрочное
прогнозирование SST позволит повысить качество прогнозирования величины ОДУ, а краткосрочный вариант – фактического улова отдельных судов за
различные промысловые периоды.
Параметры массива входных данных для исследования: 25,125°W39,875°W и 54,125°N-65,125°N, сетка (60×45) узлов, шаг составляет 0,25°, суточная дискретность, последняя дата: 14 декабря 2014 года (2012-2014 гг.,
366 + 365 + 339 = 1070 суток), источник – американский портал NOAA
NCDC (http://www.ncdc.noaa.gov/sst/). Была поставлена и решена задача тестирования методики в формате независимых прогностических эксперимен140
тов для 339 отсчётов 2014 года (отсчёты с 731 по 1069, целевой интервал I) и
горизонта τ = 5 (рисунок 4.19). Эта же задача была решена и для аналогичных
данных, представляющих акваторию Баренцева моря (25,125°E - 44,875°E и
71,125°N -76,375°N, 80×22, 1070 суток, рисунок 4.20). Ошибка входных данных составляет 1° С, что означает относительную ошибку ε = 12,5% при
средней разности наибольшего и наименьшего годовых значений в акваториях, равной 8° С.
Динамика SST имеет явную годовую периодичность, именно она составляет основу детерминированной составляющей. Для дальнейшего анализа
нерегулярной случайной составляющей исключим эту периодичность переходом к разностям между каждым годовым ежесуточным профилем и среднегодовым профилем значений SST, вычисленным за три года, то есть по
всем фрагментам, которые с токи зрения статистики составляют выборку
(рисунки 4.19-4.20). Полученные разности затем переведём на отрезок [0;1]
линейным преобразованием (на рисунках представлены ненормированные
остатки, причём их профили подняты на 2 единицы температуры для удобства восприятия). В итоге, нормированный ряд остатков (далее ряд остатков) будет подготовлен для статистического анализа. Отметим, что указанные вычисления проводятся для каждого одномерного ряда в отдельности, не
используя информацию о значениях других рядов.
Рисунок 4.19. Пример исходного временного ряда, среднегодового профиля
(утолщённая линия) и остатка (внизу) значений SST для моря Ирмингера
141
Рисунок 4.20. Пример исходного временного ряда, среднегодового профиля
(утолщённая линия) и остатка (внизу) значений SST для Баренцева моря
Визуальный анализ одномерных рядов всей системы рядов FNUG(t) позволяет сделать вывод о том, что изменчивость SST Баренцева моря и моря
Ирмингера существенно отличается, в частности, для моря Ирмингера имеют
место симметричные «гребни» и «впадины» регулярной годовой низкочастотной составляющей, а для Баренцева море присутствуют несимметричные
окрестности глобальных годовых минимумов/максимумов, причём фрагмент,
приходящийся на апрель-июль (отсчёты примерно с 100 до 200), характеризуется значительной скоростью роста значений SST. Далее численно оценим
для каждой акватории пространственно-временную изменчивость остатков
годовых профилей и доступных фрагментов целиком, используя следующие
статистики фрагмента одномерного ряда F(t) как выборки:
1) среднее выборочное µ = µ(F);
2) медиану m;
3) выборочное среднеквадратичное отклонение σ;
4) коэффициент вариации K1 = σ/µ:
5) коэффициент вариабельности, характеризующий относительное приращение в значениях ряда K2 = |µ(ΔF)| / |µ(F)|, ΔF = {F(t+1) - F(t)}t.
Для каждой статистики (параметра P в таблице 4.1) выполним осреднение по всем одномерным временным рядам остатоков, указав среднее выбо-
142
рочное µ(P), а также медиану m(P) и выборочное среднеквадратичное отклонение σ(P) (в качестве выборки здесь выступает множество значений, по одному для каждого ряда или, что эквивалентно, для каждого узла сетки UG).
Таблица 4.1. Числовые характеристики изменчивости рядов SST
Параметр
Баренцево
Ирмингера
МореP Р
µ
m
σ
K1
K2
µ
m
σ
K1
K2
1 год
2 год
3 год
Весь фрагмент
µ(P)
m(P) σ(P)
µ(P)
m(P) σ(P)
µ(P)
m(P) σ(P)
µ(P)
m(P) σ(P)
0,43
0,40
0,19
0,45
0,13
0,60
0,63
0,19
0,32
0,12
0,42
0,39
0,19
0,45
0,13
0,60
0,64
0,19
0,33
0,12
0,59
0,64
0,20
0,34
0,11
0,44
0,41
0,21
0,48
0,13
0,60
0,65
0,20
0,34
0,11
0,44
0,40
0,21
0,47
0,13
0,47
0,47
0,17
0,37
0,15
0,54
0,55
0,19
0,35
0,15
0,47
0,47
0,17
0,37
0,15
0,54
0,56
0,19
0,35
0,15
0,50
0,50
0,14
0,29
0,12
0,48
0,47
0,16
0,33
0,13
0,50
0,50
0,14
0,29
0,12
0,48
0,48
0,16
0,33
0,13
0,07
0,09
0,02
0,09
0,02
0,06
0,07
0,02
0,06
0,02
0,07
0,09
0,03
0,05
0,02
0,06
0,08
0,02
0,08
0,02
0,06
0,07
0,02
0,06
0,03
0,05
0,06
0,02
0,05
0,02
0,04
0,04
0,02
0,05
0,02
0,04
0,04
0,01
0,05
0,02
Из таблицы 4.1 можно сделать следующие выводы:
1) изменчивость нормированной случайной составляющей значений SST,
восстановленных в узлах равномерной сетки UG, в среднем по одномерным
рядам остатков для двух акваторий отличается несущественно;
2) имеет место значительная временная изменчивость, так как коэффициент вариации K1 в среднем равен 29-45% и 32-48% в зависимости от акватории; так как коэффициент даёт нижнюю оценку ошибки аппроксимации
фрагмента ряда какими-либо статистическими методами (приблизить ряд
точнее, чем это позволяет статистический разброс, невозможно) и его следует трактовать также как оценку для прогноза ряда-остатка, необходимо выполнять разбиение системы рядов для локализации в одном множестве,
например, «хорошо прогнозируемых» и «плохо прогнозируемых» рядовостатков;
3) коэффициент вариабельности в среднем превышает 10% среднего выборочного, причём стандартное отклонение этой величины составляет не ме-
143
нее 15%, что также подтверждает необходимость группировки рядов с различными свойствами, исходя из значений этого коэффициента.
Проверим, характеризуются ли случайные величины, составляющие ряд
остатков, нормальным законом распределения. Будем использовать критерий
типа Колмогорова-Смирнова (с оценкой параметров распределения по выборке) [2][38][54] как для годовых фрагментов, так и всего ряда длиной 1070
отсчётов. На уровне значимости α = 0,05 имеем критическое значение модифицированной (для диагностики нормального закона) статистики Колмогорова-Смирнова DКСкр = 0.895, превышение которого позволит отклонить гипотезу о типе закона. В таблице 4.2 представлена информация о количестве
(и проценте) одномерных временных рядов, фрагменты которых можно считать не подчиняющимися нормальному закону распределения по этому критерию.
Таблица 4.2.
Доля временных рядов (остатков), которые как выборка значений случайной величины не подчиняются нормальному закону распределения
Море
Всего
Ирмингера
Баренцево
2700
1760
1 год
2 год
3 год
Весь фрагмент
число % число % число %
число
%
2570 95 2574 95 1843 68
2564
95
1654 94 1685 96 1254 71
1607
91
Полученные результаты позволяют утверждать, что методы статистики,
применяемые в предположении нормального закона распределения случайных величин, не могут быть реализованы для остатков SST в рассматриваемых акваториях.
Покажем, что ряды являются нестационарными. Воспользуемся критерием Лемана-Розенблатта [42] для проверки гипотезы об однородности выборок как сохранении закона распределения для непересекающихся фрагментов рядов остатков. Критерий имеет правостороннюю критическую область, при превышении статистикой критерий Z значения 0.46 для уровня
значимости α = 0,05 гипотеза отклоняется в пользу альтернативы о неравенстве выборочных функций распределения. Как и ранее, вычисления прово144
дятся отдельно для каждого одномерного ряда, выборки равного объёма
сформированы из последовательных значений для первого и второго года
(2012 и 2013 гг). Аналогично, проверим гипотезу о равенстве дисперсий двух
выборок [38][42], применяя критерий Фишера. Этот критерий очень чувствителен к отклонениям от нормальности распределения в выборках, для повышения его устойчивости к этим отклонениям используется корректировка
степеней свободы, что сделано и в данной работе, так как, исходя из данных
таблицы 4.2, значительная часть рядов-остатков не характеризуется нормальным законом распределения. Таким образом, критические значения Fстатистики получаются при расчёте с дробными степенями. Критерий Фишера будем использовать для доверительной вероятности 0.95 и 0.9, а также
применим критерий Романовского R [38], для которого известно, что если
R 3, то гипотеза равенства дисперсий отклоняется с достоверностью не менее 0,89. Количество рядов, для которых гипотеза однородности (статистика
Z) и гипотеза о равенстве дисперсии отклоняются, приведено в таблице 4.3.
Таблица 4.3. Доля нестационарных временных рядов (остатков)
Море
Всего
Ирмингера
Баренцево
2700
1760
Z, p = 0.95 F, p = 0.95 F, p = 0.9
R
число % число % число % число %
2620 97 1640 62 1810 68 1971 73
1614 92 1053 60 1180 67 1214 69
Анализ таблицы 4.3 показывает, что для подавляющего большинства рядов закон распределения не сохраняется при формировании различных выборок, а изменение дисперсии в остатках наблюдается в существенно меньшем количестве случаем.
В качестве общих выводов можно утверждать, что большинство одномерных рядов FNUG(t) имеет нестационарную случайную составляющую,
причём она существенно изменяется от ряда к ряду, что показывают коэффициенты вариации и вариабельности, а также результаты применения критериев проверки гипотезы сохранения дисперсии для пары соседних годовых
фрагментов. Это делает малоэффективным использование прогнозной моде145
ли одномерного ряда в виде суммы среднегодового профиля SST и хорошо
прогнозируемой статистическими методами случайной составляющей. Таким
образом, в качестве решения задачи краткосрочного прогнозирования значений SST в рассматриваемых акваториях предпочтительнее использовать методы на основе структурных моделей, например, моделей многомерных рядов МССА и/или МДЭМ и выполнять кластеризацию FNUG(t), например, аналогично подходу, изложенному в §2.4.
4.5.2. Использование авторской методики для массивов SST
По итогам кластеризации массива SLA для моря Ирмингера (порог для
коэффициента кросс-корреляции ρ0=0,85) сформирована система 57 кластеров, границы которых отмечены на рисунке 4.21. На этапе анализа системы
кластеров и разложения на аддитивные составляющие использовался массив
значений SST, из которого исключён целевой интервал I (рисунок 4.19), используемый в дальнейшем для тестирования методики прогнозирования.
Рисунок 4.21. Система кластеров и географические особенности акватории
(море Ирмингера)
146
Кластеры вдоль побережья о. Гренландии содержат существенно меньшее число узлов, чем остальные, а соответствующие временные ряды SST характеризуются повышенной изменчивостью значений. Заметное измельчение
кластеров на северо-востоке можно интерпретировать как следствие перемешивания вод холодного Восточно-Гренландского течения и тёплого течения
Ирмингера, в то время как отсутствие сильной дифференциации у побережья
о. Исландия на тех же широтах – циркуляцией только относительно тёплых
водных масс. Таким образом, результаты кластеризации согласуются с океанографическими данными. Особенности северной части рассматриваемой
акватории вызывают повышенный интерес океанологов: из 16 контрольных
точек на рисунке 4.22 (1-10, 15-18, 21-22), для которых выполняется мониторинг динамики SST сотрудниками НПК «Морская информатика», 9 расположены в ней.
Рисунок 4.22. Контрольные точки для мониторинга SST
Аналогичным образом сформирована система кластеров для расчётной
акватории Баренцева моря (49 кластеров, рисунок 4.23).
147
Рисунок 4.23. Система кластеров в акватории Баренцева моря
Были также получены результаты для других значений порога ρ0 коэффициента кросс-корреляции (таблица 4.4). Как упоминалось в §3.2, установлена статистическая значимость этого порога в качестве оценки для реального значения коэффициентов кросс-корреляции на уровне 0,05. Для моря Ирмингера эти результаты также согласуются с физическими особенностями
акватории, упомянутыми выше; для Баренцева моря полученная дифференциация не описывается столь же очевидно с позиций физических особенностей акватории. Сравнительная характеристика различных вариантов кластеризации друг с другом не выполнялась ввиду замечания, сделанного в §3.2.
148
Таблица 4.4 Результаты кластеризации для расчётных акваторий
ρ0
Графическое представление системы кластеров
Море Ирмингера (UG: 45×60)
Баренцево море (UG: 22×80)
34 кластера
13 кластеров
36 кластеров
16 кластеров
104 кластера
117 кластеров
0,7
0,8
0,9
В результате анализа массива сингулярных чисел и двумерных диаграмм
главных компонент, построенных для траекторной матрицы в рамках МССА,
сделан вывод о невозможности выделения гармоник с постоянной амплитудой и периодом для кластерных временных рядов. Фрагменты графика для
первых 25 сингулярных чисел vi в зависимости от моря представлены на рисунке 4.24.
149
Рисунок 4.24. Первые 25 сингулярных чисел: vi [0,1000],vi [0,60] ;
верхний ряд – море Ирмингера, нижний – Баренцево.
Разложение по МССА (рисунок 4.25), как и МДЭМ (рисунок 4.26), позволяет обнаружить квазипериодические аддитивные составляющие. Число
составляющий в МССА задаётся вручную (как половина длины двухгодичного фрагмента, то есть 365), а число мод МДЭМ для трёхлетнего фрагмента
вычисляется алгоритмически и в данном случае варьируется от 4 до 6 для
различных кластеров. На рисунке 4.25 показаны примеры восстановления
одномерных рядов, изображённых ранее на рисунках 4.19-4.20, как элементов соответствующих кластерных рядов методом МССА. Кроме исходного и
восстановленного (то есть модельного) ряда также представлены графики аддитивных компонент, изображенные со сдвигом на 1 градус SST вверх для
удобства чтения. Столбцы рисунка – для моря Ирмингера и Баренцева моря
соответственно, а по строкам – восстановление по 3,5 и 25 аддитивным компонентам.
150
Рисунок 4.25. Пример восстановления ряда SST по МССА.
Для МДЭМ выполнена аналогичная визуализация (рисунок 4.26). Здесь
в восстановлении участвуют все компоненты, кроме первой высокочастотной, принимаемой за шумовую.
151
Рисунок 4.26. Пример восстановления ряда SST по МДЭМ.
Особенностью северо-западной области исследуемой акватории моря
Ирмингера являются существенные колебательные процессы в период январь-июль (с амплитудой до 3 градусов), которые присутствуют во всех модах (рисунок 4.27). Здесь также наблюдается увеличение числа мод либо
усложнение формы первой из них (трендовой).
Рисунок 4.27. МДЭМ для одного из рядов SST в северо-западной области акватории моря Ирмингера
В результате исследования квазистационарности (τ-ε-стационарности)
по фрагментам рядов, предшествующим целевому интервалу I было установлено, что Topt следует принять равным 60, то есть использовать двухмесячный
152
фрагмент для прогнозирования на горизонт τ = 5 при оценке для относительной ошибки ε = 12,5% (ошибки входных данных из пункта 4.5.1).
Для некоторых варьируемых параметров процедуры отбора корректирующих кластеров прогноза составим множество векторов их значений, которые сформированы в соответствии со следующим упорядоченным списком:
1) use_correct (флаг использования корректирующих кластеров, «-» означает автокоррекцию);
2) use_svr_thr (флаг использования порогов для отношений сингулярных
чисел);
3) dirs_thr (порог для числа совпадений направления градиентов для пары
кластеров, не превосходящий τ),
4) var_thr (порог для дисперсии);
5) cross_corr_thr (порог для коэффициента кросс-корреляции);
Были экспериментально исследованы все возможные пятёрки из декартова произведения
; ; 3;4;5 0,5;1,0;1,5;2,0 0,85;0,90;0,95 .
Для сокращения временных затрат на вычисления с одним набором параметров было принято решение упростить используемые модели: отказаться от
переключения режимов в зависимости от направления градиента кластера, а
также использовать МДЭМ только для исключения первой (шумовой) компоненты. Дополнительные эксперименты показали, что выигрыш в производительности оказался существенно больше, чем разница в точности прогноза.
Таким образом, уточнение начального прогноза (НВП) для каждого кластера
выполняется c использованием массива ошибок, вычисленных либо только
для этого кластера (автокоррекция, УВП-AR), либо для нескольких корректирующих (УВП-ARX). Лучшим признан вектор параметров (+;+;3;1,0;0,95).
Была выполнена серия независимых экспериментов для 65 стартовых временных отсчётов с шагом в 5 суток на целевом интервале I при неизменных
значениях горизонта (τ = 5) и длины фрагмента (T = 60), но меняющемся
стартовом прогнозном отсчёте: t = 740, 745, 750, …, 1060. Результаты серии с
153
10-дневным шагом (для удобства отображения) проиллюстрированы на рисунках 4.28-4.29 (для моря Ирмингера): на первом из них показаны профили
4-х исходных временных рядов SST одного кластерного ряда и соответствующие спрогнозированные фрагменты, а на втором – графики относительных
ошибок tUG
,T , как функций относительных временных отсчётов; каждое значение получено осреднением кластерных ошибок tC,T , , вычисленных по
формуле (1.8), по всем кластерам сетки UG. Фиолетовая утолщённая линия
на обоих рисунках отображает результаты начального внутрикластерного
прогноза без МДЭМ (то есть Д-МССА), выделенная зелёная линия – прогнозирования с коррекцией (УВП-ARX), а красная показывает погрешность исходных данных (ошибку ε = 12,5%, см. 4.5.1). На рисунке 4.29 коричневая
линия – ошибка при прогнозировании с автокоррекцией (УВП-AR), а на рисунке 4.28 – исходный ряд.
Рисунок 4.28. Профили четырёх исходных рядов SST одного кластера в
акватории моря Ирмингера и спрогнозированных фрагментов
154
Рисунок 4.29. Графики средней ошибки прогноза, полученной различными
методами (акватория моря Ирмингера)
Оценка вычислительной сложности при расчётах в рамках методики
прогноза для рассматриваемых данных приведена в §3.8 и составляет 1011
операций.
В дополнение к трём упомянутым выше методам прогнозирования, а
именно: Д-МССА, УВП-ARX и УВП-AR, также рассмотрен вариант обновления прогностических результатов при оперативном поступлении данных для
одного временного отсчёта вперёд. Средние и наибольшие ошибки прогноза
по всем кластерам и всем точкам целевого интервала I без учёта (δ1 и δm1) и с
учётом (δ2 и δm2) значений для одного дополнительного (первого прогнозного) временного отсчёта, а также среднеквадратичные отклонения σ каждой
величины указаны в таблице 4.5 (предварительно для каждого кластера вычисляется средняя ошибка на всём целевом интервале, затем по ним определяется среднее и наибольшее значения, а также σ, чтобы сформировать скалярный результат для всей акватории).
Таблица 4.5. Ошибки прогноза для SST (море Ирмингера)
№
1
Ошибка
Метод
Д-МССА
2
УВП-AR
3
УВП-ARX
δ1
σ1
δ2
σ2
δm1
σm1
δm2
σm2
14,5 2,2 13,1 1,9 17,2 2,7 16,8 2,5
11,5 1,8 11,2 1,8 16,7 2,5 16,1 2,3
10,3 1,9 9,8
155
1,8 15,9 2,5 15,3 2,4
Аналогичные результаты получены для акватории Баренцева моря (рисунки 4.30-4.31 и таблица 4.6).
Рисунок 4.30. Профили четырёх исходных рядов SST одного кластера в
акватории Баренцева моря и спрогнозированных фрагментов
Рисунок 4.31. Графики средней ошибки прогноза, полученной различными
методами (акватория Баренцева моря)
156
Таблица 4.6. Ошибки прогноза для SST (Баренцево море)
№
Ошибка
δ1
σ1
δ2
σ2
δm1
σm1
δm2
σm2
1
Метод
Д-МССА
15,7 2,2 14,8 2,2 19,2 2,4 18,6 2,4
2
УВП-AR
13,5 2,0 12,2 1,8 18,1 2,2 17,6 2,3
3
УВП-ARX
13,4 2,0 12,0 1,8 17,5 2,3 16,3 2,3
По данным рисунков 4.28-4.31 и таблиц 4.5-4.6 лучшие результаты показал вариант УВП-ARX, из чего следует, что предложенная методика краткосрочного прогнозирования при работе с массивом SST для выбранных акваторий показывает результаты, превосходящие по качеству (ошибке tUG
,T , ) метод прогнозирования из класса МССА без последующей коррекции. Полученные значения ошибок являются экспериментальным обоснованием целесообразности выполнения уточнения прогноза так, как это сделано в данной
работе: путём коррекции результатов МССА с использованием информации
об ошибке прогноза значений многомерных рядов SST, составленных для
других кластеров. Также делаем вывод, что МДЭМ достаточно применять
только для удаления шумовой составляющей. Отметим, что достаточно высокие значения среднеквадратичного отклонения имеют место вследствие
изменения во времени первой производной SST, а также наличия подобластей (кластеров) акватории с повышенной амплитудой шумовой составляющей в исходных данных (значениях, восстановленных в узлах сетки UG).
Для примера проиллюстрируем изменчивость ошибки прогноза в зависимости от кластера в акватории моря Ирмингера (диаграмма Хофмёллера на
рисунке 4.32). Если ошибка tС,T , не превышает погрешности входных данных (ε 12,5%), то прямоугольники, составляющие кластер (соответствующие его узлам), окрашиваются белым цветом; если 20% , то окраска
происходит зелёным цветом; для остальных ошибок – красным. На диаграмму вынесены цветомодулированные распределения ошибки прогноза tС,T ,
для первых 30 (из 33 ранее представленных на рисунке 4.28) стартовых вре157
менных отсчётов; использована двойная их нумерация: номера в массиве исходных данных (аналогично рисунку 4.28) и относительные номера в рамках
интервала I, как на рисунке 4.29.
Рисунок 4.32. Диаграмма Хофмёллера, показывающая временную изменчивость поля ошибок прогноза значений SST в море Ирмингера
Превышение двадцатипроцентного порога ошибки для «красных кластеров» северо-западной области оказалось незначительным, поэтому распределение осреднённой на всём интервале I ошибки, вычисленной для каждого
кластера отдельно, демонстрирует отсутствие «красных кластеров» (рисунок
4.33).
158
Рисунок 4.33. Поле средних ошибок прогноза значений SST (море Ирмингера)
4.5.3. Использование авторской методики для массивов SLA
Большая часть экспериментов, направленных на выявление особенностей результатов выполнения отдельных шагов авторской методики прогнозирования, была выполнена для массива значений SLA (Sea Level Anomalies,
аномалии уровня моря) в Баренцевом море, что отражено в публикациях автора [26,28,31,110,111]. Параметры акватории: 25 градусов восточной долготы - 44,7 градусов восточной долготы (отсчёты в системе Aviso: 75-134), 71
градус северной широты- 76,4 градуса северной широты (отсчёты в системе
Aviso: 764-823). Равномерная сетка для этой акватории имеет размеры 60×60
узлов. Ежедневные данные о значениях целевой характеристики представлены за годовой период, оканчивающийся 12 августа 2013 года. Эта характеристика более изменчива, чем SST, что подтверждает график на рисунке 4.26.
Аналогично экспериментам, описанным в предыдущем разделе, для исследования был выбран целевой интервал I 200,...,360 , а также подмножество
стартовых временных отсчётов в нём с пятидневным шагом. Оценка погрешности ε на целевом интервале I составляет 15%.
Рисунок 4.34. Пример профиля временного ряда SLA
159
При визуализации результатов для стартовых отсчётов был использован
десятидневный шаг. По аналогии с прогнозами для SST (см. пояснения к рисунку 4.28) сделан рисунок 4.35 с выделением сгенерированных фрагментов
для четырёх одномерных рядов одного кластера.
Рисунок 4.35. Профили четырёх исходных рядов SLA одного кластера в
акватории Баренцева моря и спрогнозированных фрагментов
Ошибки прогноза, полученные по методу УВП-ARX и осреднённые на
интервале I, представлены на рисунке 4.36 (по аналогии с рисунком 4.33)
Рисунок 4.36. Поле средних ошибок прогноза значений SLA
160
При выполнении выпускной квалификационной работы автором диссертации была исследована возможность адаптации двухслойного персептрона,
популярной нейросетевой модели, к решению задачи краткосрочного прогнозирования гридированных данных (на примере массивов SLA 2011 года
для Баренцева моря и акватории желоба Святой Анны, обобщение этого опыта представлено в [26,30]). Применим аналогичную методику для прогнозирования массива SLA, рассматриваемого в данной работе. Каждому узлу сетки UG ставится в соответствие двухслойный персептрон (все персептроны
имеют одинаковое количество нейронов в каждом слое), на его вход подаётся
вектор лагов, сформированный из значений одномерного ряда, на выходе –
прогнозный вектор длины τ. Инициализация матрицы весов происходит по
правилу Нгуена-Уидроу, обучение – методом Левенберга-Марквардта (независимо для каждого узла). Дальнейшая коррекция результатов отсутствует,
поэтому такой способ можно считать вариантом прогнозирования для каждого узла в отдельности. Ошибки прогноза для каждого методики (нейросетевой, Д-МССА, УВП-AR и УВП-ARX) содержит таблица 4.7.
Таблица 4.7. Ошибки прогноза для SLA
№
Ошибка
Метод
δ1
σ1
δ2
σ2
δm1
σm1
δm2
σm2
1
Нейронная сеть
22,4 2,8 21,0 2,5 27,3 2,6 24,7 2,5
2
Д-МССА
19,4 2,3 18,8 2,3 25,2 2,4 22,7 2,4
3
УВП-AR
17,7 2,0 16,4 1,9 24,1 2,3 21,8 2,1
4
УВП-ARX
15,4 2,1 15,2 1,9 23,5 2,3 22,4 2,1
По таблице 4.7 можно сделать выводы, аналогичные результатам, полученным из таблиц 4.5-4.6. Как было сказано в §1.4, кроме функционалов
ошибок NRMSE, MAXE и т.п. можно ввести и другие, менее формализованные критерии качества: правильное воспроизведение динамики (изменчивости во времени) и расположения линий уровня (изменчивости в простран161
стве). Известно, в частности, что специалисты рыбопромыслового комплекса
отслеживают градиент характеристики SLA, так как рыба стремится к областям поднятий [16]. Таким образом, представляет ценность в достаточной
мере правильное воспроизведение плотности линий уровня на большей части
исследуемой акватории. Так как картографические библиотеки Python позволяют выполнить построение линий уровня, эта возможность реализована в
графической оболочке: на рисунке 2.37 представлена сгенерированная карта
для середины целевого интервала I (отсчёт 280).
Рисунок 4.37. Сгенерированная карта для середины целевого интервала I
На рисунке 4.38 имеются два изображения: эталонная и сгенерированная
карты линий уровня для того же временного отсчёта.
Рисунок 4.38. Сгенерированная и эталонная карты линий уровня SLA
162
Легко видеть, что несмотря на отличия (несущественные) значений SLA
в некоторых узлах эталонной и сгенерированной карт (шаг линий уровня равен 1 см), локализация областей сгущения и разрежения линий уровня в достаточной степени согласована (для большинства практически совпадает).
4.5.4. Выводы по экспериментам с реальными данными
1. Применение разработанной методики для реальных данных (температуры поверхности и аномалий уровня) показало достаточно хорошие результаты: ошибки прогноза являются величинами того же порядка, что и погрешность исходных данных, причём ошибки оказались меньше аналогичных
ошибок известных методик прогнозирования (нейросетевого подхода и
МССА без уточнения).
2. Разложение МДЭМ достаточно использовать только для выделения (и
отбрасывания) шумовой составляющей, что позволит уменьшить объём вычислений.
3. Сгенерированные в соответствии с методикой прогноза пространственные распределения в виде карт линий уровня в высокой степени согласованы с эталонными картами. С точки зрения потребителей прогностической информации согласованность подобных карт более важно, чем совпадение с некоторой малой погрешностью в абсолютных значениях характеристики, что в общем случае затруднительно обеспечить.
4. Вычисления выполняются в режиме реального времени, а горизонт
прогноза, для которого прогноз имеют высокое качество, позволяет применять сгенерированные карты заблаговременно без потери их актуальности: в
частности, рыбопромысловый флот имеет достаточный временной запас для
перемещения в район вероятного скопления гидробионтов.
163
§4.6. Выводы
1. Авторская методика прогноза реализована в виде комплекса программ: библиотеки ядра, графической оболочки и консольных утилит.
2. Результаты вычислительных экспериментов подтверждают эффективность разработанной методики и программного обеспечения. Для сгенерированных данных границы кластеров узлов совпадает с априорно заданными с
точностью до одного кластера, который характеризуется повышенной амплитудой шума, что привело к его дроблению в результате применения авторского метода кластеризации. Точность прогноза по методу УВП оказалась
несколько выше, чем у базового (известного) метода МССА. В случае работы
с реальными данными выводы представлены в пункте 4.5.4 предыдущего параграфа: полученная система кластеров согласуется с геофизическими особенностями акватории (в частности, для моря Ирмингера), а качество прогноза в смысле введённых в §1.4 ошибок выше для авторской методики по сравнению с результатами известных и широко используемых подходов к прогнозированию значений многомерных временных рядов на основе структурных моделей (нейронных сетей и метода К-продолжения МССА).
164
ЗАКЛЮЧЕНИЕ
В ходе исследований проведён содержательный анализ существующих
методов прогнозирования многомерных временных рядов, обоснована актуальность использования современного аппарата теории анализа временных
рядов для решения поставленной задачи, разработана и экспериментально
исследована оригинальная методика краткосрочного прогнозирования значений физической характеристики в узлах планарной равномерной сетки. Достоинствами методики являются: широкая область применения безотносительно природы данных, возможность построения прогноза в режиме реального времени, наличие программной реализации, что даёт возможность использования методики на практике. В качестве реальных данных для анализа
были выбраны массивы аномалий уровня и температуры поверхности в акваториях Баренцева моря и моря Ирмингера.
К основным результатам относятся следующие:
1. Предложена модель пространственно-временной изменчивости целевой характеристики как основа авторской методики построения краткосрочного прогноза. Её актуальность обусловлена отсутствием известных гидродинамических моделей (в случае моря Ирмингера) или их недостаточной
практической результативностью (для удалённых от берега акваторий Баренцева моря).
2. Разработана методика прогнозирования как совокупность методов,
осуществляющих идентификацию модели и построение прогноза:
2.1. Метод кластеризации узлов равномерной сетки и формирования кластерных временных рядов. Классический кластерный анализ не применим в
решаемой задаче, а кросскорреляционный анализ не учитывает пространственные особенности формирования многомерного ряда, поэтому авторский
метод синтезирован на базе этих двух подходов.
2.2. Метод построения начального внутрикластерного прогноза (НВП) на
базе структурных моделей МССА и МДЭМ. Метод прогнозирования в рам165
ках МССА впервые дополнен автором практическими процедурами предобработки по МДЭМ и выбора количества значимых аддитивных компонент в
разложении многомерного ряда, критерием определения длины его фрагмента, по которому строится прогноз. Вычислительные эксперименты показали, что НВП позволяет получить лучшие результаты в смысле приведённой
относительной ошибки, чем метод прогнозирования в рамках МССА.
2.3. Метод уточнения результатов начального внутрикластерного прогноза (УВП) для каждого кластера путём прогнозирования ошибки на основании
известных ошибок для предыдущих временных отсчётов. В качестве модели
ошибки используется модификация статистической авторегрессионной модели с внешними переменными, адаптированная автором для решения поставленной задачи; при её структурной идентификации используются введённые автором числовые характеристики кластеров.
3. Методика реализована в виде комплекса программ для проведения прогностических экспериментов и её применения для решения реальных практических задач. Для основных алгоритмов проведён анализ временной сложности: получена оценка количества операций как функция длины фрагмента
временного ряда и числа узлов планарной равномерной сетки. Анализ показал, что методика может применяться в режиме реального времени (прогноз
может быть построен за промежуток времени, существенно меньший периода обновления исходных данных, равного 24 часам, во внешних реально доступных источниках).
4. В результате вычислительных экспериментов подтверждена практическая эффективность применения методики как для сгенерированных, так и
для реальных данных. Сравнительный анализ результатов прогнозирования,
полученных по авторской методике и по МССА, показал, что авторский вариант имеет наименьшую приведённую относительную ошибку и она согласована с относительной погрешностью исходных данных.
166
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Агапова, Е.Г. Построение прогноза температуры поверхности океана с
помощью теории временных рядов / Е. Г. Агапова, А. О. Чудин // Учёные
заметки ТОГУ. – Том 4. – № 4. – 2013. – С. 1310-1315.
2. Айвазян, С. А. Прикладная статистика : Основы моделирования и первичная обработка данных. Справочное издание / С. А. Айвазян, И. С.
Енюков, Л. Д. Мешалкин. – М. : Финансы и статистика, 1983. – 471 с.
3. Аксёнов, С. В. Организация и использование нейронных сетей (методы и
технологии) / С. В. Аксёнов, В. Б. Новосельцев ; под общ. ред. В. Б. Новосельцева. – Томск : НТЛ, 2006. – 128 с.
4. Антоненков, Д. В. Краткосрочное прогнозирование электропотребления
угольного разреза в условиях оптового рынка электроэнергии : дис. …
канд. техн. наук : 05.09.03 / Антоненков Дмитрий Васильевич. – Красноярск, 2009. – 192 с.
5. Ашик, И. М. Численный гидродинамический метод прогноза колебаний
уровня в юго-восточной части Баренцева и юго-западной части Карского
морей [Электронный ресурс] / И. М. Ашик. – 2005. – Режим доступа:
http://method.hydromet.ru/publ/sb/sb31/sb31.html.
6. Багров, Н. А. Долгосрочные метеорологические прогнозы / Н. А. Багров
[и др.]. – Л. : Гидрометеоиздат, 1985. – 248 с.
7. Большаков, А. А. Методы обработки многомерных данных и временных
рядов : Учебн. пособие для вузов / А. А. Большаков, Р. Н. Каримов. – М. :
Горячая линия – Телеком, 2007. – 522 с.
8. Буч, Г. Язык UML. Руководство пользователя / Г. Буч, Д. Рамбо, А. Джекобсон, пер. с англ. – М. : ДМК, 2000. – 432 с.
9. Вербицкая, О. Н. Гидродинамический метод прогноза синоптических колебаний уровня и течений Каспийского моря: дис. … канд. физ.-мат.
наук: 25.00.28 / Вербицкая Ольга Александровна. – М., 2004. – 175 с.
167
10. Воронцов, К. В. Методы кластеризации [Электронный ресурс] / К. В.
Воронцов. – 2013. – Режим доступа : http://www.machinelearning.ru/wiki.
11. Геппенер, В. В. Применение методов Data Mining в обработке сигнальной информации (в геофизических исследованиях) / В. В. Геппенер, А. Б.
Тристанов, П. П. Фирстов // Геофизический мониторинг Камчатки : Материалы научно-технической конференции (Петропавловск-Камчатский ,
17-18 января 2006 г.) / Геофизическая служба РАН. – ПетропавловскКамчатский, 2006. – С. 178-184
12. Глаголева, М. Г. Прогноз температуры воды в океане / М. Г. Глаголева,
Л. И. Скриптунова. – Л. : Гидрометеоиздат, 1979. – 168 с.
13. Гольденберг, Л. М. Цифровая обработка сигналов : справочник / Л. М.
Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. – М. : Радио и связь, 1985. –
312 с.
14. Голяндина, Н. Э. Метод «Гусеница»-SSA : анализ временных рядов :
Учеб. пособие / Н. Э. Голяндина. – СПб. : С.-Петербургский государственный университет, 2004. – 76 с.
15. Голяндина, Н. Э. Метод «Гусеница»-SSA : прогноз временных рядов :
Учеб. пособие / Н. Э. Голяндина. – СПб. : С.-Петербургский государственный университет, 2004. – 52 с.
16. Гомонов, А. Д. Математическое моделирование уровенной поверхности
океана по спутниковым данным на основе двумерной В-сплайн аппроксимации : дис. … канд. техн. наук : 05.13.18 / Гомонов Александр Дмитриевич. – СПб., 2011. – 130 с.
17. Грешилов, А. А. Математические методы построения прогнозов / А. А.
Грешилов, В. А. Стакун, А. А. Стакун. – М. : Радио и связь, 1997. – 112 с.
18. Гусеница. Анализ и прогноз временных рядов [Электронный ресурс]. –
Режим доступа : http://www.gistatgroup.com/gus/index.html.
19. Давыдов, В. А. Уменьшение краевых эффектов при выполнении эмпирической модовой декомпозиции сигналов преобразования Гильберта-
168
Хуанга / В. А. Давыдов, А. В. Давыдов // Актуальные инновационные исследования : наука и практика. – 2011. – № 1. – С. 2-18.
20. Джонсон, Д. Справочник по активным фильтрам / Д. Джонсон, Дж.
Джонсон, Г. Мур ; пер. с англ. – М. : Энергоатомиздат, 1983. – 128 с.
21. Дьяконов, В. В. Компьютерные методы обработки геологической информации: Учебн. пособие / В. В. Дьяконов, Н. В. Жорж. – М. : РУДН,
2008. – 266 с.
22. Загоруйко, Н. Г. Прикладные методы анализа данных и знаний / Н. Г.
Загоруйко. – Новосибирск : Изд-во Ин-та математики, 1999. – 270 с.
23. Залманзон, Л. А. Преобразование Фурье, Уолша, Хаара и их применение
в управлении, связи и других областях / Л. А. Залманзон. – М. : Наука,
1989. – 496 с.
24. Запорожцев, И.Ф. Библиотека для выполнения краткосрочного прогноза
временной изменчивости пространственного распределения характеристик поверхности океана : Свидетельство о государственной регистрации
программы для ЭВМ № 2015610857 / И.Ф. Запорожцев ; правообладатель
ФГБОУ ВПО «МГТУ». – Зарегистрировано в Реестре программ для ЭВМ
20 января 2015 г.
25. Запорожцев, И.Ф. Декомпозиция на эмпирические моды в задаче краткосрочного прогнозирования многомерных временных рядов геофизической природы / И.Ф. Запорожцев, А.-В.И. Середа // Цифровая обработка
сигналов. – 2014. – №2. – С. 34-40.
26. Запорожцев, И.Ф. Использование искусственных нейронных сетей для
прогнозирования временной изменчивости пространственного распределения характеристик океанической поверхности / И.Ф. Запорожцев, А.В.И. Середа // Вестник МГТУ : Тр. Мурман. гос. техн. ун-та. – Мурманск,
2013. – Т. 16, № 4. – С. 708–714.
27. Запорожцев, И.Ф. Кластеризация узлов планарной регулярной сетки в
задаче прогноза временной изменчивости пространственного распределения физических характеристик / И.Ф. Запорожцев, А.-В.И. Середа //
169
Наука и образование – 2014: материалы междунар. НТК, Мурманск,
24−28 марта 2014 г.– Мурманск : МГТУ, 2014. – С. 382-385.
28. Запорожцев, И.Ф. Краткосрочный прогноз значений характеристик океанической поверхности в контексте решения задач рыбного промысла /
И.Ф. Запорожцев, А.-В.И, Середа // Проблемы и перспективы развития
рыбохозяйственного комплекса на современном этапе: Доклады I междунар. конф. молодых учёных, г. Мурманск, 22-24 октября 2014г. – Мурманск : ФГБНУ «ПИНРО», 2014. – С. 63-64.
29. Запорожцев, И.Ф. Методика краткосрочного прогноза изменения значений характеристик динамической системы на основе численного анализа
многомерных временных рядов / И.Ф. Запорожцев, А.-В.И. Середа //
Цифровая обработка сигналов. – № 1. – 2015. – С. 17-24.
30. Запорожцев, И.Ф. Прогноз временной изменчивости поля аномалий уровенной поверхности моря в районе желоба Святой Анны с помощью
нейросетевых методов // Проблемы Арктического региона: материалы
XIII междунар. науч. конф., Мурманск, 14 мая 2013 г. Том II – Мурманск:
ММБИ КНЦ РАН, 2013. – С. 42-44.
31. Запорожцев, И.Ф. Экспериментальное исследование результатов прогнозирования многомерных временных рядов с использованием метода
MSSA с предобработкой по EMD / И.Ф. Запорожцев, А.-В.И. Середа //
Наука и образование – 2013: материалы междунар. НТК, Мурманск, 4−11
марта 2013 г.– Мурманск: МГТУ, 2013. – С. 441-445.
32. Иванов, Н. В. Метод иерархического прогнозирования состояний многомерных сложных объектов : дис. … канд. техн. наук : 05.13.01 / Иванов
Николай Васильевич. – Красноярск, 2008. – 156 с.
33. Канасевич, Э. Р. Анализ временных последовательностей в геофизике /
Э. Р. Канасевич; пер. с англ. В. Н. Лисина. – М. : Недра, 1985. – 300 с.
34. Кандыбина, Н. В. Методы обнаружения связей в метеорологических
данных / Н. В. Кандыбина // Интеллектуальные системы. – Том 8. – № 1. –
2004 г. – С. 79-100.
170
35. Канторович, Г. Г. Анализ временных рядов. Лекция 13. Многомерные
процессы / Г. Г. Канторович // Экономический журнал ВШЭ. – №4. –
2002. – С. 513-523.
36. Кендэл, М. Временные ряды / М. Кендэл ; пер. с англ. и предисл. Ю. П.
Лукашина. – М. : Финансы и статистика, 1981. – 199 с. – (Библиотечка
иностранных книг для экономистов и статистиков).
37. Китов, В. В. Метод взвешенного учёта наблюдений для прогнозирования при наличии структурных сдвигов / В. В. Китов // Математическое
моделирование. – Том 20, № 3. – 2008. – С. 29-47.
38. Кобзарь, А. И. Прикладная математическая статистика. Для инженеров и
научных работников / А. И. Кобзарь. – М. : Физматлит, 2006. – 816 с.
39. Компьютерное моделирование, численный анализ и прогнозирование
уровенной поверх-ности океана в акваториях Арктики : отчёт о НИР (заключ.) / ФГБОУВПО «Мурманский государственный технический университет» ; рук. А.-В.И. Середа ; исполн. И.Ф. Запорожцев. – Мурманск,
2014. – 42 с. – Библиогр. : с. 41-42. – № ГР НИОКР 01201459892. – № ГР
ИКРБС 215040170026. – Зарегистрирован в ЦИТиС 1 апреля 2015 г.
40. Кочегурова, Е. А. Использование вариационного сглаживающего сплайна в задаче краткосрочного прогнозирования / Е. А. Кочегурова, Е. В.
Шебеко // Известия Томского политехнического университета. – Т. 309,
№ 7. – 2006. – С. 36-39.
41. Кудрявая, К. И. Морские гидрологические прогнозы / К. И. Кудрявая, Е.
И. Серяков, Л. И. Скриптунова. – Л. : Гидрометеоиздат, 1974. – 312 с.
42. Лагутин, М. Б. Наглядная математическая статистика : учебн. пособие /
М. Б. Лагутин. – 2-е изд., испр. – М. : Бином. Лаборатория знаний, 2009. –
472 с. : ил.
43. Лоскутов, А. Ю. Анализ временных рядов : Курс лекций [Электронный
ресурс] / А. Ю. Лоскутов. – Режим доступа: http://www.chaos.phys.msu.ru/
Lectures_time_series_analysis.pdf.
171
44. Лукашин, Ю. П. Адаптивные методы краткосрочного прогнозирования
временных рядов : Учеб. пособие / Ю. П. Лукашин. – М. : Финансы и статистика, 2003. – 416 с.
45. Лукин, А. А. Оценка качества прогноза полей ветра по глобальной спектральной модели атмосферы Гидрометцентра России на акватории Северной Атлантики / А. А. Лукин, С. А. Мысленков, Л. К. Храмова // Труды гос. учрежд. «Гидрометеорологический научн.-иссл. центр Российской
Федерации». Гидрометеорологические прогнозы / под ред. Е. С. Нестерова. – М., 2011. – С. 105-119.
46. Лучин, В. А. Тенденции долгопериодных изменений в водах залива Петра Великого [Электронный ресурс] / В. А. Лучин, С. И. Кислова, А. А.
Круц. – 2007. – Режим доступа:
http://pacificinfo.ru/data/cdrom/11/html/4_2_8.html.
47. Любушин, А. А. Анализ данных систем геофизического и экологического мониторинга / А. А. Любушин. – М. : Наука, 2007. – 228 с.
48. Метод главных компонент [Электронный ресурс]. – Режим доступа :
http://www.machinelearning.ru/wiki.
49. Муравьев, А. В. Ансамбли прогнозов: методы, проблемы, перспективы /
А. В. Муравьев, И. А. Кузнецова // Метеорология и гидрология. – 2005. –
№3. – С. 32-46.
50. Нгонголо, Х. К. Статистическое прогнозирование осадков в тропиках по
данным о температуре поверхности океана и квазидвухлетних колебаниях
зонального потока на примере Восточной Африки : автореф. дис. … канд.
физ.-мат. наук : 25.00.30 / Нгонголо Хашим Карим. – СПб., 2011. – 24 с.
51. Никифоров, И. В. Последовательное обнаружение изменения свойств
временных рядов / И. В. Никифоров. – М. : Наука, 1983. – 200 с.
52. Носко, В. П, Эконометрика. Кн. 2. Ч. 3,4 : учебник / В. П. Носко. – М. :
Издательский дом «Дело» РАНХиГС, 2011. – 576 с.
53. Оперативное океанографическое обслуживание / З. К. Абузяров, И. О.
Думанская, Е. С. Нестеров. – М. ; Обнинск: ИГ-СОЦИН, 2009. – 288 с.
172
54. Орлов, Ю. Н. Нестационарные временные ряды : Методы прогнозирования с примерами анализа финансовых и сырьевых рынков / Ю. Н. Орлов,
К. П. Осминин. – М. : Либроком, 2011. – 384 с.
55. Орлов, Ю. Н. Оптимальное разбиение гистограммы для оценивания выборочной плотности функции распределения нестационарного временного ряда [Электронный ресурс] / Ю. Н. Орлов // Препринты ИПМ им. М. В.
Келдыша. – 2013. – № 14. – 28 с.
56. Орлов, Ю. Н. Построение выборочной функции распределения для прогнозирования нестационарного временного ряда / Ю. Н. Орлов, К. П. Осминин // Математическое моделирование. – № 9. – 2008. – С. 23-33.
57. Осовский, С. Нейронные сети для обработки информации / С. Осовский
; пер. с польского И. Д. Рудинского. – М. : Финансы и статистика, 2002. –
344 с.
58. Попов, С.К. Прилив в оперативной модели краткосрочного прогноза
скоростей течений и уровня моря в Баренцевом и Белом морях / С.К. Попов [и др.] // Метеорология и гидрология. – 2013. – №6. – С. 68-82.
59. РД 52.27.284-91 Методические указания. Проведение производственных
(оперативных) испытаний новых и усовершенствованных методов гидрометеорологических и гелиогеофизичесих прогнозов. – М. : Госгидромет,
1991. – 77 с.
60. РД 52.27.759-2011 Наставление по службе прогнозов. Раздел 3. Часть III.
Служба морских гидрологических прогнозов. – М. : Триада ЛТД, 2011. –
195 с.
61. Романов, Л. Н. Статистическое моделирование погоды с использованием
глобальной информации / Л. Н. Романов // Труды Сибирского регионального научно-исследовательского гидрометеорологического института.
Выпуск 106 : Проблемы гидрометеорологических прогнозов, экологии,
климата Сибири. – Новосибирск : Изд-во СО РАН, 2011. – С. 44-54.
62. Руководство по гидрометеорологическому обеспечению морской деятельности. – М. : Росгидромет, 2009. – 135 с.
173
63. Сенов, А. А. Преобразование Гильберта-Хуанга для анализа временных
рядов [Электронный ресурс] / А. А. Сенов, Н. Э. Голяндина. – Режим доступа : http://www.statmod.ru/_diploma/2012/15_5_senov.pdf.
64. Степанов, Д. В. Варианты метода «Гусеница»-SSA для прогноза многомерных временных рядов / Д. В. Степанов, Н. Э. Голяндина // Труды IV
Международной конференции «Идентификация систем и задачи управления» (Москва). – 2005. – С. 1831-1848.
65. Сухарев, М. Г. Методы прогнозирования. Учебн. пособие / М. Г. Сухарев. – М. : РГУ нефти и газа, 2009. – 208 с.
66. Тимохов, Л. А. Пространственно-временная изменчивость зимней солёности воды в слое 5-50 м Арктического бассейна / Л. А. Тимохов [и др.] //
Проблемы Арктики и Антарктики. – 2011. – № 3(89). – С. 5-19.
67. Турунцева, М. Ю. Анализ временных рядов : Пособие для студентов / М
. Ю. Турунцева. – М. : МИЭФ ГУ-ВШЭ, 2003. – 63 с.
68. Хайкин, С. Нейронные сети : полный курс / С. Хайкин ; пер. с англ. Н.
Н. Куссуль. – 2-е изд., испр. – М. : Вильямс, 2006. – 1104 с.
69. Ханзел, Г. Е. Справочник по расчёту фильтров / Г. Е. Ханзел ; пер. с
англ. ; под ред. А. Е. Знаменского. – М. : Сов. радио, 1974. – 288 с.
70. Четыркин, Е. М. Статистические методы прогнозирования / Е. М. Четыркин. – 2-е изд., перераб. и доп. – М. : Статистика, 1977. – 200 с.
71. Чучуева, И. А. Два способа повысить точность прогноза [Электронный
ресурс]
/
И.
А.
Чучуева.
–
2012.
–
Режим
доступа:
http://www.mbureau.ru/blog/dva-sposoba-povysit-tochnost-prognoza.
72. Чучуева, И. А. Модель прогнозирования временных рядов по выборке
максимального подобия : дис. … канд. техн. наук : 05.13.18 / Чучуева
Ирина Александровна. – М., 2012. – 155 с.
73. Шалымов, Д. С. Математическое обеспечение для разработки и анализа
систем распознавания образов, использующих рандомизированные алгоритмы : дис. … канд. физ.-мат. наук : 05.13.11 / Шалымов Дмитрий Сергеевич. – СПб., 2009. – 126 с.
174
74. Ankerst, M. OPTICS: Ordering Points To Identify the Clustering Structure /
M. Ankerst et al // Proc. of ACM SIGMOD International Conference on Management of Data. – 1999. – P. 49-60.
75. Applied Time Series Econometrics / Edited by H. Lütkepohl, M. Krätzig. –
Cambridge : Cambridge University Press, 2004. – 350 p.
76. Baragona, R. A Simulation Study on Clustering Time Series with MetaHeuristic Methods / R. Baragona // Quaderni di Statistica. – 2001. – №3. – P.
1-26.
77. Beenstock, M. Spatial Vector Autoregressions / M. Beenstock, D. Felsenstein
// Spatial Economic Analysis. – Vol. 2. – 2007. – P. 167-196.
78. Campbell, E. P. Nonlinear Statistical Methods for Climate Forecasting : Second Research Report [Электронный ресурс] / E. P. Campbell, B. C. Bates, S.
P.
Charles.
–
2001.
–
Режим
доступа:
http://www.ioci.org.au/publications/pdf/IOCI_SPR_5.pdf.
79. Canova, F. Panel Vector Autoregressive Models : a Survey / F. Canova, M.
Ciccarelli // European Central Bank. Working Paper Series. – № 1507 (January
2013). – 2013. – 55 p.
80. Ciampi, A. Clustering Spatio-Temporal Data Streams / A. Ciampi et al //
Proc. of the 18th Italian Symposium on Advanced Database Systems (Rimini,
Italy, June 20-23, 2010). – 2010. – P. 230-241.
81. Choosing the number of components in PCA. Tanagra : Data Mining Tutorials [Электронный ресурс]. – 2013. – Режим доступа : http://data-miningtutorials.blogspot.ru/2013/01/choosing-number-of-components-in-pca.html
82. Ester, M. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise / M. Ester et al // Proc. of the 2d International Conference on Knowledge Discovery and Data Mining. – 1996. – P. 226-231.
83. Fanaee-Tork, H. Spatio-Temporal Clustering Methods Classification / H.
Fanaee-Tork
// Proc. of Doctoral Symposium on Informatics Engineering
(DSIE'2012). – Porto, Portugal, 2012.
175
84. Fleureau, J. Multivariate empirical mode decomposition and application to
multichannel filtering / J. Fleureau et al // Elsevier Signal Processing. – 2011. –
Vol. 12 (91). – P. 2783-2792.
85. Golay, X. A New Correlation-Based Fuzzy Logic Clustering Algorithm for
fMRI / X. Golay et al // Magnetic Resonance in Medicine. – 1998. – Vol.
40(2). – P. 249-260.
86. Hartigan, J. A. A K-Means Clustering Algorithm / J. A. Hartigan, M. A.
Wong // Applied Statistics. – 1979. – № 28. – P. 100-108.
87. Höppner, F. Compensation of Translational Displacement in Time Series
Clustering Using Cross Correlation / F. Höppner, F. Klawonn // Lecture Notes
in Computer Science. Advances in Intelligent Data Analysis. – 2009. – Vol.
5772. – P. 71-82.
88. Huang, N. E. The Empirical Mode Decomposition and the Hilbert Spectrum
for Nonlinear and Non-Stationary Time Series Analysis / N. E. Huang et al //
Proc. of the Royal Society Academy. – Vol. 454. – 1998. – P. 903-995.
89. Hung, N. Q. An Artificial Neural Network Model for Rainfall Forecasting in
Bangkok, Thailand / N. Q. Hung et al // Hydrology and Earth System Sciences.
– Vol. 13. – 2009. – P. 1413-1425.
90. Iglesias, F. Analysis of Similarlity Measures in Time Series Clustering for the
Discovery of Building Energy Patterns / F. Iglesias, W. Kastner // Energies. –
2013. – Vol. 6. – P. 579-597.
91. Keogh, E. Exact Indexing of Dynamic Time Warping / E. Keogh // Proc. of
the 28th International Conference on Very Large Databases (Hong Kong, China, 20-23 August 2002). – 2002. – P. 406-417.
92. Li, Z. STIFF : A Forecasting Framework for Spatio-Temporal Data / Z. Li, M.
Dunham, Y. Xiao // Mining Multimedia and Complex Data. Lecture Notes in
Computer Science. – 2003. – Vol. 2797. – P. 183-198.
93. Liao, T. W. Clustering of Time Series Data – A Survey/ T. W. Liao // Pattern
Recognition. – 2005. – Vol. 38. – P. 1857-1874.
176
94. Love, B. S. Real-Time Extraction of the Madden-Julian Oscillation Using
Empirical Mode Decomposition and Statistical Forecasting with a VARMA
Model / B. S. Love, A. J. Matthews, G. J. Janacek // Journal of Climate / American Meteorological Society. – Vol. 21. – 2008. – P. 5318-5335.
95. Mayor-Fernandez, M. Short-Run Regional Forecasts : Spatial Models through
Varying Cross-Sectional and Temporal Dimensions / M. Mayor-Fernandez, R.
Patuelli // Defining the Spatial Scale in Modern Regional Analysis. Advances
in Spatial Science. – 2012. – P 173-192.
96. Naghizadeh, M. Multicomponent F-X Seismic Random Noise Attenuation via
Vector Autoregressive Operators / M. Naghizadeh, M. Sacchi // Geophysics. –
Vol. 77, № 2. – 2011. – P. 91-99.
97. Navarra, A. A Guide to Empirical Orthogonal Functions for Climate Data
Analysis / A. Navarra, V. Simoncini. – Springer, 2010. – 151 p.
98. Nikolov, V. Optimizations in Time Series Clustering and Prediction / V. Nikolov // Proc. of 11th International Conference on Computer Systems and
Technologies and Workshop for PhD Students in Computing (Sofia, Bulgaria,
June 17-18, 2010). – 2010. – P. 205-211.
99. Pinson, P. Forecasting of Regional Wind Generation by a Dynamic FuzzyNeural Networks Based Upscaling Approach [Электронный ресурс] / P. Pinson, N. Siebert, G. Kariniotakis // Proc. of the European Wind Energy Conference and Exhibition EWEC 2003, Madrid, Spain, June 16-19, 2003.
100. Poulton, M. M. Computational Neural Networks for Geophysical Data Processing / M. M. Poulton. – Tucson (USA) : Pergamon, 2001. – 356 p.
101. Pravilovic, S. Application of Spatio-Temporal Clustering in Forecasting Optimization of Geo-Referenced Time Series / S. Pravilovic, A. Appice // American Journal of Modeling and Optimization. – Vol. 2, №1. – 2014. – P. 8-15.
102. Rani, S. Recent Techniques of Clustering of Time Series Data: A Survey / S.
Rani, G. Sikka // International Journal of Computer Applications. – 2012. –
Vol. 52, № 15.
177
103. Rato, R. T. On the HHT, its Problems, and Some Solutions / R. T. Rato, M.
D. Ortigueira, A. G. Batista // Mechanical Systems and Signal Processing. –
2008. – Vol. 22. – P. 1374-1394.
104. Rehman, N. Multivariate Empirical Mode Decomposition / N. Rehman, D.
P. Mandic // Proc. of the Royal Society Academy. – 2010. – Vol. 466, № 2117.
– P. 1291-1302.
105. Rodrigues, P. Hierarchical Clustering of Time Series Data Streams / P. Rodrigues, J. Gama, J. P. Pedroso // IEEE Transactions on Knowledge and Data
Engineering. – 2008. – Vol. 20(5). – P. 615-627.
106. Steinhaeuser, K. Comparing Predictive Power in Climate Data: Clustering
Matters / K. Steinhaeuser, N. V. Chawla, A. R. Ganguly // Advances in Spatial
and Temporal Databases. Lecture Notes in Computer Science. – 2011. – Vol.
6849, 2011. – P. 39-55.
107. Stewart, R. H. Introduction to Physical Oceanography / R. H. Stewart. –
College Station : Texas A&M University, 2008. – 353 p.
108. Tastu, J. Spatio-Temporal Analysis and Modeling of Short-Term Wind
Power Forecast Errors / J. Tastu et al // Wind Energy. – 2011. – Vol. 14. – P.
43-60.
109. Xiong, T. Does Restraining End Effect Matter in EMD-Based Modeling
Framework for Time Series Prediction? Some Experimental Evidences / T.
Xiong, Y. Bao, Z. Hu // Neurocomputing. – 2013. – Vol. 123. – P. 174-184.
110. Zaporozhtsev, I.F. Analysis and Forecast of Sea Level Anomalies SpatioTemporal Variability in the Barents Sea / I.F. Zaporozhtsev, A.-V.I. Sereda //
Computer Modeling and Simulation : труды междунар. науч.-техн. конф.,
Санкт-Петербург, 2-4 июля 2014 года. − СПб. : Изд-во Политехн. ун-та,
2014. – С. 81-85.
111. Zaporozhtsev, I.F. Computer Technology for Short-Term Prediction of Sea
Level Anomalies Spatial Distribution in the Arctic [Электронный ресурс] /
I.F. Zaporozhtsev, A.-V.I. Sereda // 2014 International Conference on Comput-
178
er Technologies in Physical and Engineering Applications (ICCTPEA) : Proceedings, Saint-Petersburg, June 30 – July 4 2014 year. – P. 215-216.
112. Zhang, P. Correlation Analysis of Spatial Time Series Datasets : A FilterAnd-Refine Approach / P. Zhang et al // Advances in Knowledge Discovery
and Data Mining. Lecture Notes in Computer Science. – 2003. – Vol. 2637. –
P. 532-544.
179
ПРИЛОЖЕНИЕ А. БЛОК-СХЕМА УТОЧНЁННОГО АЛГОРИТМА
ПОСТРОЕНИЯ ВНУТРИКЛАСТЕРНОГО ПРОГНОЗА
НАЧАЛО
Блок 1
Построение начального внутрикластерного прогноза для фиксированного кластера С
FNC , t * , ,
- -стационарностьTopt
t t0 ,..., t0 u 1
МДЭМ?
нет
да
МССА: t
МДЭМ с коррекцией
моды МДЭМ
МССА: t
суммирование результатов
расчёт ошибки et(C)
вернуться в начало и повторить расчёт
для каждого следующего кластера С
идентификация ARX
МССА: t*
коррекция результата для t*
Блок 2
Коррекция начального внутрикластерного прогноза для фиксированного кластера С
МССА: t*+1,…, t*+τ-1
FC , tC* ,T
opt ,
КОНЕЦ
180
ПРИЛОЖЕНИЕ Б. КОПИИ СВИДЕТЕЛЬСТВА О ГОСУДАРСТВЕННОЙ
РЕГИСТРАЦИИ ПРОГРАММЫ ДЛЯ ЭВМ И АКТА О ВНЕДРЕНИИ
РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ
181
Отзывы:
Авторизуйтесь, чтобы оставить отзыв