Санкт-Петербургский государственный университет
Направление: «Математика» (010101)
Профиль: «Теория вероятностей и математическая статистика» (010105)
Данилова Елена Владимировна
Методы оценки периода циклического пуассоновского процесса
Дипломная работа
Научный руководитель:
профессор, д. физ.-мат. наук Грибкова Н.В.
Рецензент:
профессор, д. физ.-мат. наук Боровских Ю.В.
Санкт-Петербург
2016
SAINT-PETERSBURG STATE UNIVERSITY
Main Field of Study: "Mathematics" (010101)
Area of Specialisation: "Probability theory and mathematical statistics" (010105)
Elena Danilova
Methods of estimating the period of a cyclic Poisson process
Graduation Thesis
Scientific Supervisor:
Professor, Doctor of Physics and Mathematics N. V. Gribkova
Reviewer:
Professor, Doctor of Physics and Mathematics Yu.V. Borovskikh
Saint-Petersburg
2016
Аннотация.
Данилова, Е.В. Методы оценки периода циклического пуассоновского
процесса. Научный руководитель: Грибкова Н.В. Направление: математика,
кафедра теории вероятностей и математической статистики.
В работе изучаются и систематизируются основные методы оценки
периода циклического процесса Пуассона. Библ. – 9 назв.
Данилова, Е.В. Методы оценки периода циклического пуассоновского
процесса: дипломная работа: защищена 09.06.16. / Данилова Елена
Владимировна. – СПб., 2016 – 21 с. – Библиогр.: с. 21.
3
Содержание.
Глава 1.
1.1 Определения и основные обозначения…………………...………….…..5
1.2 Введение……………………………………..……………...……………...6
1.3 Постановка задачи и обзор литературы…………………...……….…….8
Глава 2. Обзор основных результатов
2.1 Метод Хелмерса – Мангку [1]……………………....…….……...…..…10
2.2 Метод Беббингтона – Зитикиса [2]…………………..…...................….13
2.3 Метод Белитсера – Серра – ван Зантена [3]………………………...….18
Заключение……………………………………………………………..………...20
Список литературы…………………………………………………..………......21
4
Глава 1.
1.1 Определения и основные обозначения.
В этой работе мы будем рассматривать специальный случай
неоднородного процесса Пуассона – циклический процесс Пуассона, т.е.
процесс с
периодической интенсивностью. Дадим определение такого
процесса.
Определение 1.
Неоднородный процесс Пуассона с периодической интенсивностью.
Пусть 𝑋(𝑠), 𝑠 ≥ 0 – процесс с независимыми приращениями. Тогда
𝑃 (𝑋 (𝑠 ) − 𝑋 (𝑡 ) = 𝑘 ) =
[Λ(𝑠) − Λ(𝑡)]𝑘 ∗ 𝑒 −[Λ(𝑡)−Λ(𝑠)]
, 0 ≤ 𝑡 ≤ 𝑠,
𝑘!
где Λ называется ведущей функцией процесса. Производная этой функции
называется интенсивностью Λ′ (𝑠) = 𝜆(𝑠) . Причем в данном случае 𝜆(𝑠) –
периодическая функция. У однородного процесса 𝜆 постоянна: Λ(𝑠) = 𝜆𝑠, а у
𝑠
неоднородного Λ(𝑠) = ∫0 𝜆 (𝑡)𝑑t.
Из определения процесса Пуассона видно, что приращения этого процесса
имеют распределение Пуассона с параметрами Λ(𝑠) − Λ(𝑡). Отсюда следует,
что математическое ожидание приращения для любых двух точек 𝑡 ≤ 𝑠
равно разности этих функций.
𝑠
𝐸(𝑋(𝑠) − 𝑋(𝑡)) = Λ(𝑠) − Λ(𝑡) = ∫𝑡 𝜆(𝑡)𝑑t И,
соответственно,
если
есть
интенсивность, то это интеграл. Дисперсия совпадает с математическим
ожиданием: 𝐷(𝑋(𝑠) − 𝑋(𝑡)) = Λ(𝑠) − Λ(𝑡).
5
1.2 Введение.
Понятие потока однородных событий возникло в математике как
отражение различных реальных явлений, например, потока вызовов на АТС,
потока клиентов, несчастных случаев, прибытия пациентов в отделении
интенсивной терапии больницы, при анализе транспортных потоков на
магистралях. Он также применяется в страховании и анализе финансовых
механизмов, таких как поток платежей и других реальных потоков. Теорию
потока однородных событий разработал советский математик А. Я. Хинчин,
впоследствии она легла в основу теории массового обслуживания. Целью
исследований теории массового обслуживания является рациональный выбор
структуры системы обслуживания и процесса обслуживания на основе
изучения потоков, поступающих в систему и выходящие из неё, а также
длительности ожидания.
Методы для анализа натуральной периодической или циклической
информации хорошо понятны в случае, когда данные формируют временные
ряды. Тем не менее, часто данные состоят из событий, случайным образом
расположенных в промежутке времени. Точечные процессы образуют
естественный класс стохастических моделей для таких данных. Мы называем
данные циклическими, если функция интенсивности является периодической.
Такие процессы стали рассматривать в связи с необходимостью решать
прикладные задачи, в которых определенные события происходят в
случайные моменты времени и с некоторой периодичностью. Хорошую
интерпретацию циклического процесса дает процесс моментов отказа
технического оборудования, зависящего от сезонных факторов: мороз, жара,
влажность и т.д. Интенсивность таких процессов часто можно считать
периодической, она зависит от времени года. Для моделирования таких
потоков используют процесс Пуассона.
Во многих задачах обычно используется то, что период известен. Но
на практике это часто бывает не так. Оценка периода является интересной
6
проблемой сама по себе, но также и является важным компонентом для
непараметрического оценивания функции интенсивности. Если мы не знаем
периода, то мы не можем оценить и функцию интенсивности, так как
существующие методы оценки функции интенсивности основаны на знании
периода и нуждаются в оценке периода до построения непараметрической
оценки. Проблема оценки может быть формально сформулирована так: мы
хотим
оценить
одномерный
параметр
(период)
в
присутствии
бесконечномерного дополнительного параметра (функция интенсивности).
Поэтому
для
нас
основной
интерес
составляет
оценка
или
аппроксимирование этой функции интенсивности 𝜆(𝑠) и существующие
методы для этого.
Рассмотрим Х неоднородный точечный процесс Пуассона на
действительной прямой ℝ с неизвестной локально интегрируемой функцией
интенсивности 𝜆(𝑠) для некоторого периода 𝜏 > 0. Мы рассмотрим ситуацию,
когда интенсивность 𝜆 – это периодическая функция, т.е. выполняется такое
равенство: 𝜆(𝑠) = 𝜆(𝑠 + 𝑘𝜏), 𝑘 = ±1, ±2, …, где 𝜏– это наименьшая величина,
для которой это выполняется - период. Предположим, что мы имеем только
одну реализацию Х в ограниченном временном интервале или «окне»,
𝑊 ⊂ ℝ.
Если лямбда произвольная параметрическая функция, допустим:
λ(s)=sin (ax+b), то для оценки параметров можно воспользоваться методом
максимального правдоподобия.
Часто бывает так, что параметрическая модель не верна, возникает
ситуация с многомодальностью, когда функция интенсивности внутри
периода имеет несколько максимумов, т.е. может не описываться никакой
параметрической моделью. Поэтому очень важно иметь непараметрическме
методы оценки периода.
7
1.3 Постановка задачи и обзор литературы.
Основной целью работы является изучение и систематизация
материалов, сравнение методов оценки периода. На данный момент
существует не очень много работ по этой теме. Приведем ниже наиболее
примечательные из них.
Впервые метод оценки периода циклического процесса Пуассона был
представлен в 1982 году в работе Вере-Джонса [7]. С помощью
спектрального
анализа
он
рассчитал
оценку
на
основе
максимума
периодограммы Бартлетта для частоты 𝜔 для циклической Пуассоновской
интенсивности 𝜆(𝑠) = 𝐴𝑒𝑥𝑝(𝜌 cos(𝜔𝑠 + 𝜙)) ,
а
также
исследовал
ее
асимптотическое поведение. Вере-Джонс также отметил, что эта оценка
эффективна только для специальных моделей точечных процессов, когда
функция интенсивности имеет форму, близкую к предполагаемой.
От стандартных параметрических методов для оценки интенсивности
циклического процесса Пуассона, которыми являются метод периодограмм и
подходы спектрального анализа, Беббингтон и Зитикис [2] в своей работе в
2004 году перешли к полу-параметрическому методу, который чувствителен
к форме интенсивности, в частности к числу пиков в цикле. Они дали
устойчивую оценку для периода интенсивности функции Пуассона, построив
семейство непараметрических оценок для периода, и протестировали ее на
искусственных данных. Эти непараметрические оценки оказались достаточно
точны, в то время как метод периодограмм вообще не мог справиться с
мультимодальными циклами.
Хелмерс, Мангку и Зитикис [5], [8] исследуют состоятельность
простой непараметрической оценки ядерного типа 𝜏̂ 𝑛 периода 𝜏 для функции
интенсивности циклического процесса Пуассона. Они рассматривают
ситуацию при фиксированной 𝜆 и наблюдении только одной реализации
𝑋(𝜔) процесса Пуассона в ограниченном, расширяющемся окне 𝑊𝑛 .
Предлагаемая оценка состоятельна при бесконечном расширении окна.
8
Получена полная сходимость. Одновременно с ними, Хелмерс и Мангку [1]
продолжают исследовать свойства оценок для периода в предложенных
выше
условиях.
Авторы
также
используют
идею
предложенную
Беббингтоном и Зитикисом [2] для построения своей оценки. Они улучшили
результаты и доказали состоятельность оценки.
Белитсер, Серра и ван Зантен [3] продолжают исследовать свойства
полу-параметрических оценок периода неоднородного процесса Пуассона,
предлагая свою М-оценку для периода. Авторами было получено новое
семейство оценок для периода функции интенсивности и доказана
состоятельность таких оценок. В работе также проводится сравнение
качества полученной оценки 𝜏̂ 𝑛 на тестах на основе искусственных данных,
предложенных Беббингтоном и Зитикисом в [2]. Авторы сопоставляют свою
оценку с параметрической оценкой Вере-Джонса на основе метода
периодограмм [7], оценкой 𝜏̂ 𝑛,𝑚𝑎𝑥 Хелмерса и Мангку [6] и «сглаженными»
оценками 𝜏̂ 𝑛,𝑀 из работы [2]. Метод, предложенный Хелмерсом, Мангку и
Зитикисом демонстрируют хорошие показатели на искусственном наборе
данных, а также на реальном наборе из колл-центра.
9
Глава 2. Обзор основных результатов.
2.1 Метод Хелмерса – Мангку [1].
Рассмотрим идею метода и основные результаты. На вероятностном
пространстве (Ω, 𝐴, 𝑃)задан циклический точечный процесс Пуассона X, 𝜎конечная мера 𝜇 , абсолютно непрерывная относительно меры Лебега 𝜈, и
локально интегрируемая функцией интенсивности 𝜆: ℝ → ℝ+ ∪ 0. 𝜆 задана
таким образом, что ∀ ограниченного борелевского множества B, имеем
𝜇(𝐵) = ∫𝐵 𝜆(𝑠)𝑑𝑠 < ∞.
Также 𝜆 циклическая с периодом 𝜏 , т.е. для некоторого 𝜏 ∈ ℝ+
выполнено 𝜆(𝑠 + 𝑘𝜏) = 𝜆(𝑠)для всех 𝑠 ∈ ℝ и 𝑘 ∈ ℤ.
Период 𝜏 и функцию интенсивности 𝜆 будем считать неизвестными и
предположим, что для некоторого 𝜔 ∈ Ω , мы наблюдаем лишь одну
реализацию 𝑋(𝜔) пуассоновского процесса X через ограниченный интервал,
называемый окном 𝑊 ⊂ ℝ.
Так как 𝜆 локально интегрируема, точечный процесс Пуассона всегда
содержит только конечное число точек в любом ограниченном подмножестве
ℝ. Для того чтобы исследовать состоятельность оценки 𝜏, предположим, что
окно W зависит от "времени" n = 1, 2,…, таким образом, что |𝑊𝑛 | → ∞ при
𝑛 → ∞, где |𝑊𝑛 | - это размер окна 𝑊𝑛 , или мера Лебега.
Необходимым условием для существования состоятельной оценки
будет следующее равенство: ∫ℝ 𝜆(𝑠)𝑑𝑠 = 𝐸𝑋(ℝ) = ∞, откуда следует, что с
вероятностью
почти
наверно
точечная
реализация
𝑋(𝜔)
содержит
бесконечно много точек.
Для
циклических
функций
интенсивности
это
требование
выполняется автоматически при условии, что глобальная интенсивность
𝜏
𝜃 = 𝜏 −1 ∫0 𝜆(𝑠)𝑑𝑠 является положительной. Будем считать, что 𝜃 > 0.
10
Идея методики.
Следующая
конструкция
была
предложена
Беббингтоном
и
Зитикисом [2].
Обозначим интервал, на котором мы рассматривает реализацию
периодического процесса Пуассона через 𝑊𝑛 ≔ (𝑎, 𝑏𝑛 ]. Этот интервал
конечен, 𝑎 ∈ ℝ фиксирована и правая граница будет стремиться к
бесконечности 𝑏𝑛 → ∞ , когда время 𝑛 → ∞ . При данной реализации мы
хотим оценить период интенсивности 𝜏 от 𝜆. В это окно 𝑊𝑛 мы вписываем
непересекающиеся интервалы 𝐼1,…, 𝐼K эквивалентной длины ℓ . Мы можем
менять ℓ и двигать эту конструкцию вправо и влево с тем, чтобы в интервалы
попало примерно одинаковое количество точек. По-видимому, период будет
найден
верно, если дисперсия
относительно среднего
числа точек
(попаданий) будет как можно меньше.
Основываясь на этом, Хелмерс и Мангку предложили оценку 𝜏̂ 𝑛
периода 𝜏:
𝑁𝑛,𝛿
𝑁𝑛,𝛿
𝑖=1
𝑗=1
1
1
𝑄𝑛 (𝛿 ) =
∑(𝑋(𝑈𝛿,𝑖 ) −
∑ 𝑋(𝑈𝛿,𝑖 ))2 , ∀𝛿 ∈ Θ
|𝑊𝑛 |
𝑁𝑛,𝛿
Θ - параметрическое пространство, 𝜏 ∈ Θ и пусть Θ ограниченый открытый
интервал в ℝ+ , такой, что никаких чисел кратных 𝜏 не содержится в Θ. Где
𝑁𝑛,𝛿 = [
|𝑊𝑛 |
𝛿
] - это (максимальное) число смежных непересекающихся
интервалов 𝑈𝛿,𝑖 длины 𝛿 в окне 𝑊𝑛 . Обозначим через 𝑎𝑛 , 𝑏𝑛 левую и правую
конечные точки, т.е. 𝑊𝑛 = [𝑎𝑛 , 𝑏𝑛 ].
И пусть 𝑈𝛿,𝑖 - интервалы такого вида [𝑎𝑛 + 𝑟 + (𝑖 − 1)𝛿, 𝑎𝑛 + 𝑟 + 𝑖 𝛿] для
некоторого 𝑟 ∈ [0, (|𝑊𝑛 | − 𝛿𝑁𝑛 𝛿)]. Иначе выбор 𝑟 свободен и в принципе не
имеет значения (см. Условие Е).
Определим оценку периода 𝜏:
𝜏̂ 𝑛 = arg min 𝑄𝑛 (𝛿 )
𝛿∈Θ
Параметр 𝜏 может быть оценен следующим образом:
11
сперва оценим 𝑘𝜏 , для некоторого положительного 𝑘 , удовлетворяющего
𝑘 = 𝑜(|𝑊𝑛 |), 𝑘𝜏̂ 𝑛,𝑘 задается
𝑘𝜏̂ 𝑛,𝑘 = arg min 𝑄𝑛 (𝛿 )
𝛿∈Θ𝑘
Пусть 𝜏̂ 𝑛,𝑘 - полученная оценка 𝜏.
Главным результатом работы Мангку и Хелмерса является следующая
теорема.
Теорема 1.
Предположим, что 𝜆 циклическая (с периодом 𝜏 ) и Липшициева. Пусть
условие (Е) выполнено и для некоторого 0 ≤ 𝑐 <
Тогда для любого 𝛾 <
1
1
3
верно 𝑘 = 𝑘𝑛 |𝑊𝑛 |𝑐 = 1.
выполняется
2
|𝑊𝑛 |𝛾 |𝜏̂ 𝑛,𝑘 − 𝜏| → 0
𝑝
при 𝑛 → ∞.
Иными словами, разность имеет порядок «о»-малое по сравнению с
гаммовой степенью величины стремящейся к нулю.
Требование 𝑐 <
1
3
задает границу, которая определяет максимальное
количество, которое мы можем оценить без потери состоятельности.
Условие Е.
Если существует 𝑡 ∈ (0, 𝜏): для каждого 𝑛 ≥ 1,
∫ 𝜆(𝑠)𝑑𝑠 = 𝑡θ
𝑈𝑡,𝑖
с
𝑈𝑡,𝑖 = [𝑎𝑛 + 𝑟 + (𝑖 − 1)𝑡, 𝑎𝑛 + 𝑟 + 𝑖 𝑡] для 𝑖 = 1, … , 𝑁𝑛,𝑡 , тогда мера
множества, для которого верно выражение в скобках, равна 0:
𝜐 {𝑟: ∫ 𝜆(𝑠)𝑑𝑠 = 𝑡θ , 𝑖 = 1, … , 𝑁𝑛,𝑡 } = 0 .
𝑈𝑡,𝑖
12
2.2 Метод Беббингтона – Зитикиса [2].
В данной статье Беббингтон и Зитикис предложили устойчивую
оценку для периода интенсивности функции Пуассона, построив семейство
непараметрических оценок, а затем провели ее испытания на искусственных
данных. В работе отмечены ограничения различных оценок, проведено
сравнение их производительности и надежности.
Непараметрическая оценка.
Рис.1.
Для нахождения оценки построим конструкцию, которую мы описали
в параграфе 2.1 и рассмотрим две периодические функции интенсивности и
соответствующий выбор интервалов для них 𝐼1,…, 𝐼𝐾 . Для первой функции
интенсивности длины интервалов – это период 𝜏 , для нижней – длина
𝜏
половины периода .
2
Если длина ℓ была получена вышеописанным способом, то 𝑚ℓ ,
𝑚 ∈ ℕ будут также удовлетворять критерию, описанному в предыдущем
параграфе. При этом мы стремимся найти интервалы 𝐼1,…, 𝐼𝐾 с минимальной
длиной ℓ.
13
𝑋(𝐼𝑘 ) – число точек в любом 𝐼𝑘 из полученных интервалов. Согласно
нашей конструкции, все различия 𝑋(𝐼𝑘 ) − 𝑋(𝐼𝑘+1 ), 𝑘 = 1, … , 𝐾 − 1 должны
быть настолько малы, насколько возможно. Мангку [6] требует, чтобы
разница была малой в среднем и дает следующую оценку минимальной
длины ℓ:
𝐾−1
𝜏̂ 𝑛,𝑚𝑖𝑛 ∶= arg min min ∑( 𝑋(𝐼𝑘 ) − 𝑋(𝐼𝑘+1 ))2
ℓ
(1)
(2)
(2),
𝑘=1
min - это минимум, взятый по всем смежным интервалам 𝐼1,
(2)
…, 𝐼𝐾
⊂ 𝑊𝑛
длины ℓ, min - берется по всем длинам ℓ > 0, а arg − это длина ℓ на которой
(1)
𝑙
min достигается.
(1)
Из рис. 1 мы видим, что оценка 𝜏̂ 𝑛,𝑚𝑖𝑛 может иногда оценить период 𝜏,
а иногда только половину его. Вышеописанная оценка 𝜏̂ 𝑛,𝑚𝑖𝑛 имеет свои
недостатки. При поиске смежных интервалов 𝐼1,…, 𝐼𝐾 ⊂ 𝑊𝑛 минимальной
длины, мы получаем очень большое их количество. К тому же разности
𝑋(𝐼𝑘 ) − 𝑋(𝐼𝑘+1 ) на практике, обычно не равняются нулю. Таким образом, из2
за большого количества слагаемых, суммы ∑𝐾−1
𝑘=1 (𝑋 (𝐼𝑘 ) − 𝑋 (𝐼𝑘+1 )) обычно
принимают большое значение. В результате этого при помощи оценки 𝜏̂ 𝑛,𝑚𝑖𝑛 ,
мы можем оценить только от одной трети до половины длины окна 𝑊𝑛 .
Беббингтон и Зитикис пришли к выводу, что оценка
𝐾−1
𝜏𝑛,𝑚𝑖𝑛 ∶= arg min min ∑( ∫ 𝜆 (𝑠)𝑑𝑠 − ∫
ℓ
(1)
(2)
𝐼𝑘
𝑘=1
𝜆(𝑠)𝑑𝑠)2 ,
𝐼𝑘+1
на которой основана оценка (2), работает хорошо, пока мы можем найти
интервалы 𝐼1,…, 𝐼𝐾 : разности ∫𝐼 𝜆 (𝑠)𝑑𝑠 − ∫𝐼
𝑘
𝑘+1
𝜆(𝑠)𝑑𝑠 будут в точности равны
0 для любого 𝑘 = 1, … , 𝐾 − 1.
Беббингтон и Зитикис предложили следующую модификацию оценки
τ̂n,min :
14
𝐾−1
𝜏̂ 𝑛,𝑚𝑎𝑥 ∶= 2arg max max ∑( 𝑋(𝐽𝑘 ) − 𝑋(𝐽𝑘+1 ))2
ℓ
(1)
(2)
(3),
𝑘=1
где max берется по всем смежным интервалам 𝐽1,…, 𝐽𝐾 ⊂ (𝑎, 𝑏𝑛 ] длины ℓ, max
(2)
(1)
берется по всем длинам ℓ, а arg - это длина ℓ, на которой минимум max
(1)
ℓ
достигается. Максимум должен быть получен на половине этого периода,
хотя можно построить интенсивности таким образом, что максимум
находится на меньших его частях. Это видно из рис. 2 и рис. 3.
Рис.2.
На рисунке показаны две периодические функции интенсивности и
соответствуующие выборы интервалов 𝐽1,…, 𝐽𝐾 . Для обеих функций
𝜏
интенсивности длина интервалов .
2
𝜏̂ 𝑛,𝑚𝑎𝑥 отдает предпочтение наиболее возможному числу К интервалов
𝐽𝑘 , т.е. интервалам минимальной длины ℓ. Тем не менее, главное различие
между 𝜏̂ 𝑛,𝑚𝑎𝑥 и предыдущей оценкой, 𝜏̂ 𝑛,𝑚𝑖𝑛 в том, что мы ищем смежные
интервалы, такие что в среднем, разница между числом точек в любых двух
смежных интервалах максимальна. Для предыдущей оценки мы по
возможности искали интервалы с равным числом точек. Мы используем
15
смежные интервалы, чтобы использоовать тот факт, что высокие и низкие
интенсивности чередуются в циклическом процессе.
Беббингтон и Зитикис используют выражение:
∞
𝜏̂ 𝑛,𝑚𝑎𝑥 = 2arg 𝑠𝑢𝑝 sup ∑ 𝐼{ 𝑟 + (𝑖, 𝑖 + 2]𝜀𝜖𝑊𝑛 }𝑌𝑖2 (𝜀, 𝑟),
𝜀
𝑟≥𝑎 𝜀≥0
𝑖=0
где 𝐼{∙} обозначает индикаторную функцию, которая равна 1, если выражение
внутри скобок истинно, и 0 иначе, и где
𝑌𝑖 (𝜀, 𝑟) ≔ 𝑋(𝑟 + (𝑖, 𝑖 + 1]𝜀) − 𝑋(𝑟 + (𝑖 + 1, 𝑖 + 2]𝜀)
Авторы вместо квадрата разности (𝑋(𝐽𝑘 ) − 𝑋(𝐽𝑘+1 ))2 предлагают
использовать 𝐻(𝑋(𝐽𝑘 ) − 𝑋 (𝐽𝑘+1 )) для некоторой неотрицательной функции Н.
Отмечая при этом, что они не нашли какую-либо функцию, по своим
своиствам лучше, чем 𝐻 (𝑥 ) = 𝑥 2 . Последнее замечание позволяет убрать
неправильные периоды и при этом не исключить верный период из-за
случайного шума в наблюдаемой реализации. Сумма квадратов отклонений
чувствительна к пикам, и поэтому предлагаемая оценка стремится выявить
интервалы высокой и низкой интенсивности.
Рис.3.
16
На рисунке приведен пример, в котором оценка 𝜏𝑛,𝑚𝑎𝑥 находит
𝜏
2
вместо истинного периода 𝜏 . Верхняя фигура показывает площади под
кривой интенсивности. Средняя фигура разделяет 𝑊𝑛 на интервалы 𝐽1,…, 𝐽4
длины
𝜏
2
, а нижняя на интервалы 𝐿1,…, 𝐿7 длины
2
𝜏
4
. Сумма ∑6𝑘=1(𝑋(𝐿𝑘 ) −
2
𝑋(𝐿𝑘+1 )) больше, чем ∑3𝑘=1(𝑋(𝐽𝑘 ) − 𝑋(𝐽𝑘+1 )) .
Обобщение оценки.
Вместо
того,
что
брать
разницу
только
между
двумя
последовательными интервалами в определении 𝑌𝑖 (𝜀, 𝑟) , можно взять
несколько различных разностей. Беббингтон и Зитикис определяют
обобщенную оценку при фиксированном M ∈ ℕ:
∞
2
𝜏̂ 𝑛,𝑀 := 2arg 𝑠𝑢𝑝 sup ∑ 𝐼{ 𝑟 + (𝑖, 𝑖 + 2𝑀]𝜀𝜖𝑊𝑛 }𝑌𝑖,𝑀
(𝜀, 𝑟),
𝜀
𝑟≥𝑎 𝜀≥0
𝑖=0
где
𝑌𝑖,𝑀 (𝜀, 𝑟):= ∑𝑀
𝑚=1(𝑋 (𝑟 + (𝑖 + 2𝑚 − 2)𝜀, 𝑟 + (𝑖 + 2𝑚 − 1)𝜀 ) − 𝑋 (𝑟 +
(𝑖 + 2𝑚 − 1)𝜀, 𝑟 + (𝑖 + 2𝑚)𝜀)).
Когда 𝑀 = 1, 𝑌𝑖,𝑀 (𝜀, 𝑟) равно 𝑌𝑖,1 (𝜀, 𝑟) , отсюда 𝜏̂ 𝑛,1 ≡ 𝜏̂ 𝑛,𝑚𝑎𝑥 . Таким
образом 𝜏̂ 𝑛,𝑀 действительно является обобщением 𝜏̂ 𝑛,𝑚𝑎𝑥 . Беббингтон и
Зитикис отмечают, что 𝜏̂ 𝑛,2 обычно превосходит по качеству 𝜏̂ 𝑛,1 , по крайней
мере, в среднем. Но при дальнейшем исследования 𝜏̂ 𝑛,𝑀 для 𝑀 ≥ 3 им не
удалось выявить каких-либо значительных улучшений оценки 𝜏̂ 𝑛,2 .
В заключение Беббингтон и Зитикис дают следующую оценку для
использования с некоторыми функциями Н, отличными от 𝐻 (𝑥 ) = 𝑥 2 :
∞
𝜏̂ 𝑛,𝑀 (𝐻):= 2arg 𝑠𝑢𝑝 sup ∑ 𝐼{ 𝑟 + (𝑖, 𝑖 + 2𝑀]𝜀𝜖𝑊𝑛 }𝐻(𝑌𝑖,𝑀 (𝜀, 𝑟)).
𝜀
𝑟≥𝑎 𝜀≥0
𝑖=0
𝜏̂ 𝑛,𝑀 это «сглаженная» версия 𝜏̂ 𝑛,𝑚𝑎𝑥 , где М – степень «сглаживания».
17
2.3 Метод Белитсера – Серра – ван Зантена [3].
В статье представлена М-оценка для периода. Для ее построения
авторы
сначала
рассматривают
траекторию
неоднородного
процесса
Пуассона с периодической функцией интенсивности 𝜆 с периодом 𝜏 > 0 и
вводят вспомогательный параметр 𝑇 > 0 , разделяя интервал времени
наблюдения [0, 𝑛) на [𝑛⁄𝑇] частей эквивалентной длины [(𝑖 − 1)𝑇, 𝑖𝑇),
𝑖 = 1, … , [𝑛⁄𝑇] . Затем для каждого из этих интервалов сравнивают число
событий произошедших в первые 𝜃 ≤ 𝑇⁄2 и последние 𝜃 временных
отрезков.
Это приводит к построению критерия сходимости целевой функции к
предельной функции, нули которой связаны с неизвестным периодом в явном
виде. Рассмотрим это подробнее.
Из основных свойств процесса Пуассона видно, что ожидаемая
разница между двумя этими числами событий равна
(𝑖−1)𝑇+𝜃
𝑖𝑇
𝜆(𝑠)𝑑𝑠 − ∫
∫
(𝑖−1)𝑇
𝜆(𝑠)𝑑𝑠
(1)
𝑖𝑇−𝜃
Из периодичности функции 𝜆 следует, что интегралы от 𝜆 по двум
различным интервалам совпадают, если длины интервалов одновременно
равны одному и тому же периоду 𝜏 с учетом кратности или, если интервалы
имеют одинаковую длину и они кратны периоду друг друга.
Из этого следует, что если Т такое, что (ℓ − 1)𝜏 < 𝑇 < ℓ𝜏 для
некоторого ℓ ∈ ℕ, тогда равенство (1) обращается в 0 для 𝜃 равному любому
из значений
0 < 𝑇 − (ℓ − 1)𝜏 < 𝜏 < 𝑇 − (ℓ − 2)𝜏 < 2𝜏 < ⋯ < 𝑇 − (ℓ − 𝑘 )𝜏 < 𝑘𝜏 < ⋯ . (2)
Авторы доказали (см. Теорема 2), что при соответствующих ограничениях на
вспомогательный параметр Т, это единственные точки, в которых функция
𝜓𝑛 (𝜃, 𝑇) стремится к 0 для любого n.
18
[𝑛⁄𝑇 ]
(𝑖−1)𝑇+𝜃
𝑖𝑇
1
𝜓𝑛 (𝜃, 𝑇) =
∑ (∫
𝜆(𝑠)𝑑𝑠 − ∫ 𝜆(𝑠)𝑑𝑠)2
[𝑛⁄𝑇]
(𝑖−1)𝑇
𝑖𝑇−𝜃
(3)
𝑖=1
Белитсер, Серра и ван Зантен основывают свой метод на знании
целевой функции, которая оценивает функцию 𝜓𝑛 . Они определяют
случайную функцию Ψ𝑛 на [0, 𝑇⁄2] следующим образом:
[𝑛⁄𝑇 ]
2
1
+
−(
)
(
)
(𝑁
𝜃,
𝑇
−
𝑁
𝜃,
𝑇
)
− 𝑁𝑖− (𝜃, 𝑇) − 𝑁𝑖+ (𝜃, 𝑇),
𝑖
𝑖
Ψ𝑛 (𝜃, 𝑇) =
∑
[𝑛⁄𝑇]
𝑖=1
где 𝑁𝑖− (𝜃, 𝑇) = 𝑁(𝑖−1)𝑇+𝜃 − 𝑁(𝑖−1)𝑇 – число точек в первых 𝜃 временных
отрезках интервала [(𝑖 − 1)𝑇, 𝑖𝑇)
и, аналогично, 𝑁𝑖+ (𝜃, 𝑇) = 𝑁𝑖𝑇 − 𝑁𝑖𝑇−𝜃
– число точек в последних 𝜃 временных отрезках этого интервала.
Из доказательства к теореме 2, представленного в статье, видно, что
Ψ𝑛 –
действительно
последовательная
оценка
для 𝜓𝑛 ,
т.е.
для
фиксированного 𝜃 и Т, Ψ𝑛 (𝜃, 𝑇) − 𝜓𝑛 (𝜃, 𝑇) сходится по вероятности к 0 при
𝑛 → ∞.
Процедура оценки при известном периоде.
Пусть период известен: 𝜏 ∈ [𝑎, 𝑏], где 0 < 𝑎 < 𝑏 < 2𝑎. Тогда, если мы
возьмем значение вспомогательного параметра 𝑇 ∈ (𝑏, 2𝑎) , получим, что
𝜏 < 𝑇 < 2𝜏 и 𝑇 − 𝜏 > 𝑇 − 𝑏 > 0.
Белитсером, Серра и ван Зантеном было получено (см. Теорема
2), что, при техническом условии, что 𝑇⁄𝜏 – иррационально, целевая функция
𝜃 ↦ Ψ𝑛 (𝜃, 𝑇)
сходится по вероятности, равномерно на [𝑇 − 𝑏, 𝑇 − 𝑎] к
гладкой, неотрицательной функции 𝜓 , которая имеет 0 в точке [𝑇 − 𝜏] .
Основываясь на этом, авторы получили оценку:
𝜏̂ 𝑛 = 𝜏̂ 𝑛 (𝑇) = 𝑇 − 𝜃̂𝑛 ,
(4)
где 𝜃̂𝑛 минимизирует 𝜃 ↦ |Ψ𝑛 (𝜃, 𝑇)| на [𝑇 − 𝑏, 𝑇 − 𝑎], т.е. это точка, такая
что
|Ψ𝑛 (𝜃̂𝑛 , 𝑇)| ≤
𝑖𝑛𝑓
𝜃∈[𝑇−𝑏,𝑇−𝑎]
|Ψ𝑛 (𝜃, 𝑇)| + 𝑜𝑝 (1).
19
(5)
Такая точка всегда существует, так как функция 𝜃 ↦ Ψ𝑛 (𝜃, 𝑇) почти
наверно кусочно-постоянная функция, которая меняет значения только на
конечном числе точек.
Теорема 1.
Для всех 𝑇 > 0, таких что 𝑇⁄𝜏 – иррациональное число,
sup
𝜃∈[0,𝑇⁄2]
𝑃
|Ψ𝑛 (𝜃, 𝑇) − 𝜓(𝜃, 𝑇)| → 0
При 𝑛 → ∞.
Теорема 2.
Пусть 𝑇⁄𝜏 – иррациональное число. Тогда все нули функции 𝜃 ↦ 𝜓(𝜃, 𝑇), 𝜃 ∈
(0, 𝑇) являются точками 𝜃 такими, что каждая 𝜃 – кратна 𝜏 , или 𝑇 − 𝜃
множитель 𝜏.
Используя в дальнейшей работе теоремы 1 и 2 и стандартную теорию
М-оценок, авторы доказали состоятельность оценки (4).
Заключение.
В работе были изучены и систематизированы наиболее известные на данный
момент методы оценки периода циклического процесса Пуассона.
Большой интерес представляет дальнейшее исследование статистических
свойств имеющихся оценок, а также их сравнительный анализ, например,
методом компьютерного моделирования.
20
Список литературы.
[1] R. Helmers, I. W. Mangku, On estimating the period of a cyclic Poisson process
/ Lecture Notes-Monograph Series Vol. 42, Mathematical statistics and
applications: Festschrift for Constance van Eeden, 345-356, Institute of
Mathematical Statistics, Beachwood, OH, 2003.
[2] M. Bebbington, R. Zitikis, A Robust Heuristic Estimator for the Period of a
Poisson Intensity Function / Methodology And Computing In Applied
Probability 6(4), 441-462, January 2004.
[3] E. Belitser, P. Serra and H. van Zanten, Estimating the Period of a Cyclic NonHomogeneous Poisson Process / Online: 18 July 2012, Scandinavian Journal of
Statistics Vol. 40, Issue 2, 204–218, June 2013.
[4] R. Helmers, I. W. Mangku, Statistical Estimation of Poisson Intensity Functions
/ Probability, Networks and Algorithms – R9913, December 31, 1999.
[5] R. Helmers, I. W. Mangku and R. Zitikis, Consistent estimation of the intensity
function of a cyclic Poisson process / Journal of Multivariate Analysis, Vol. 84,
#1, 19-39, Academic Press, 31 January 2003a.
[6] I.W. Mangku, Estimating the intensity of a cyclic Poisson process / Ph.D.
Thesis, University of Amsterdam, 2001.
[7] D. Vere-Jones, On the Estimation of Frequency in Point-Process Data / J.
of Appl. Probab. Vol. 19A, Essays in Statistical Science, 383-394, 1982.
[8] R. Helmers, I. W. Mangku, R. Zitikis, Statistical properties of a kernel type
estimator of the intensity function of a cyclic Poisson process / J.
Multivariate Anal, 2003b.
[9] R. Helmers, I. W. Mangku, Predicting a cyclic Poisson process / Online: 17
March 2012, The Institute of Statistical Mathematics, Tokyo, 2012
21
Отзывы:
Авторизуйтесь, чтобы оставить отзыв