Санкт-Петербургский государственный университет
Направление (математика)
Профиль (теория вероятностей)
Ильин Алексей Геннадьевич
Категориальные методы анализа данных типа времени жизни
Выпускная квалификационная работа
Научный руководитель:
Кандидат физико-математических наук, доцент С.В.Малов
Рецензент:
Доктор технических наук, профессор Уткин Л. В.
Санкт-Петербург
2016
1
SAINT-PETERSBURG STATE UNIVERSITY
Main Field of Study (Mathematics)
Area of Specialization (probability theory)
Aleksei Ilin
Categorical methods in survival analysis
Final qualifying work
Scientific supervisor:
Candidate of Physics and Mathematics, Associate Professor S.V.Malov
Reviewer:
Doctor of Technical Sciences, Professor Utkin L.V.
Saint-Petersburg
2016
2
Введение
Целью данной выпускной квалификационной работы было описать основные
модели и методы обработки данных типа времени жизни, основанных на
точечных процессах и применение их для построения категориальных тестов.
Данное направление в современной математике активно развивается.
Полученные на сегодняшний день результаты позволяют применять их в
различных отраслях (медицина, машиностроение, психология и др.).
В качестве основы для написания, были использованы следующие
материалы:
1. Основные понятия и определения
Основан на материале: Fleming [1], Ширяев[2], Лебедев[3], Кокс,Оукс[5]
Даны вводные определения, необходимы для других разделов
2. Оценки Нельсона-Аалена и Каплана-Мейера, представление с помощью
случайного процесса.
Основаной на материале: Fleming[1]
Даны базовые понятия оценок Нельсона-Аалена и Каплана-Мейера
3. Состоятельность оценки Нельсона-Аалена и Каплана-Мейера.
Основан на материале Fleming
Описаны состоятельность оценок Нельсона-Аалена и Каплана-Мейера
4. Мартингальная Центральная Предельная Теорема.
Основан на материале: Fleming[1]
5. Категориальный данные.
Основан на материале: Malov&O`Brien [4]
Описывается метод построения классических категориальных тестов и
категориальных тестов типа времени жизни.
3
Оглавление
1. Основные понятия и определения
1.1 Введение в данные типа времени жизни.
1.2 Точечные процессы.
1.3. Представление данных с помощью точечных процессов
1.4 Описание цензурированных данных с помощью точечных процессов
2. Оценки Нельсона-Аалена и Каплана-Мейера, представление с помощью
случайного процесса.
2.1 Введение
2.2 Непараметрическое оценивание функции отказов.
2.3 Оценка Каплана-Мейера
3. Состоятельность оценки Нельсона-Аалена и Каплана-Мейера.
4. Мартингальная Центральная Предельная Теорема.
5. Категориальный данные.
5.1 Классические категориальные и из применение в анализе данных типа
времени жизни.
5.2 Категориальные тесты типа времени жизни.
Список литературы
4
1. Основные понятия и определения.
1.1 Введение в данные типа времени жизни.
В анализе данных типа времени жизни рассматриваются группы
объектов исследования (индивидов), для которых определено точечное
событие, называемое отказом. Отказ происходит после некоторого интервала
времени (наработки до отказа) для каждого объекта только один раз.
Примерами наработок до отказа могут служить: продолжительность работы
механизмов машин в технике, жизни больных при клинических исследованиях и др.
Для точного определения наработки до отказа необходимо три условия:
1. четко установить начало отсчета времени;
2. выбрать масштаб для измерения отсчета времени
3. точным должно быть само понятие отказа
При анализе данных типа времени жизни, у некоторых объектов может
не наблюдаться отказ в течение полного времени исследования. Некоторые
больные (многие, как хотелось бы надеяться) будут жить к концу
клинического исследования. Объект, который наблюдался и не имел отказов
в течение нескольких дней, а затем был выключен из числа наблюдавшихся,
имеет наработку до отказа. Такое неполное наблюдение наработки до отказа
называется цензурированием. Заметим, что как и отказ, цензурирование
является точечным событием, а период наблюдения цензурированных
объектов должен регистрироваться.
Предположим, что при отсутствии цензурирования i-й объект в выборке объема п имеет наработку до отказа Ti, (где Ti — случайная величина).
Предположим также, что имеется такой интревал времени Ui при котором
наблюдение над этим объектом прекращается в момент Ui, если отказ не
произойдет раньше. Тогда в действительности наблюдаются величины Xt =
min (Ti,Ui) совместно с индикаторной переменной δi = 1, если Т i≤ Ci (объект
нецензурирован), δi = 0, если Т i> Ci (объект цензурирован). Величины Ui для
объектов, отказ которых наблюдался, считаются нереализованными
моментами цензурирования в противоположность реализованным моментам
цензурирования. Термин «потенциальный момент цензурирования» обычно
употребляется в том случае, когда Ui рассматриваются независимо от того,
произошло ли цензурирование или отказ.
Цензурирование типа I, при котором все Ui равны, Ui = U (где U не
случайная величина). Например, в некоторых приложениях все моменты Ui
известны, например, если единственная причина цензурирования состоит в
запланированном окончании испытаний через заранее определенный срок.
При цензурировании типа II наблюдение прекращается после достижения
заранее определенного числа отказов d, так что U становится случайной
величиной. В общем случае предполагается, что T,U –случайные величины.
5
1.2 Точечные процессы.
Определение 1.1: Случаным процессом мы будем называть семейство
случайных величин {ξt}, определенных на вероятностном
пространстве (, F , P) , где t – принадлежит некоторому параметрическому
множеству T.
Параметр t чаще всего понимают как время. Также случайный процесс
можно представить в виде отображения ξ:Ω×T→R. Если мы зафиксируем t ,
то получим случайную величину ξt , если зафиксируем ω, то получим
функцию ξ(ω,•), заданную на множестве T, которую называют траекторией
случайного процесса или реализацией процесса.
Множество исходов Ω удобно трактовать как набор реализаций.
Реализации могут обладать свойствами: непрерывность,
дифференцируемость.
Определение 1.2: Случайный процесс X(t,ω) измерим, если
отображение X:(Г х Ω, σ(D х F))→(R,B) -измеримо, где σ(D х F) –
минимальная σ-алгебра, содержащая все множества вида I х A, I D, A F; B
– Борелевская σ-алгебра на прямой.
Определение 1.3: Процесс ξ(t) называется процессом с независимыми
приращениями, если для любых 0 t0 t1 t 2 ... t n возрастающих моментов
времени случайные величины (t 0 ), (t 1) (t 0 ), (t 2 ) (t 1),..., (t n ) (t n 1)
являются независимыми.
Разность (t n ) (t n 1) называется приращением.
Определение 1.4: Процесс X t tR
Интегрируем , если sup E X (t )
0t
Квадратично интегрируем, если sup E X (t )
0t
2
Ограничен, если P(sup X (t ) M ) 1, M
0t
Равномерно интегрируем, если lim
sup E ( X (t ) { X (t ) n} ) 0
n
0t
Определение 1.5: Семейство под σ-алгебр {Ft,t ≥ 0} σ-алгебры F
такое, что Fs Ft , s≤t называется фильтрацией.
Пусть {Ft,t ≥ 0} – фильтрация. Определим σ-алгебры Ft Ft h и
Ft Ft h Фильтрация непрерывна справа, если Ft Ft , t R
h 0
6
h0
Определение 1.6: Стохастическим базисом будем называть
вероятностное пространство (, F , P) с непрерывной справа фильтрацией
F {Ft , t 0}
Определение 1.7: Случайный процесс X t tR согласован с фильтрацией
{Ft , t 0} , если для любого t ≥ 0 случайная величина Xt является Ft измеримой.
Определение 1.8: Интегралом (стохастическим) измеримого
процесса X t t 0 по процессу ограниченной вариации Yt t 0 , заданному на том
же вероятностном пространстве, будем называть случайную величину
X Yt ( ) X (u, )Y (du , ),
t
0
где потраекторный интеграл понимается в смысле Лебега-Стильтьеса.
Определение 1.9: Пусть (Ω,F,P) - вероятностное пространство, X –
случайная величина, A F. Условным математическим ожиданием E(X|A)
назовем случайную величину, удовлетворяющую следующим условиям:
E{X|A}- случайная величина измеримая относительно σ-алгебры
A
Для любых B A EX | A }dP XdP
B
B
Условное математическое ожидание существует и единственно с точностью
до множества нулевой меры.
Свойства математического ожидания:
1. Линейность - E{αX+βY|A}=αE{X|A}+α{Y|A}, где X,Y- случайные
величины
2. Пусть X – не зависит от σ-алгебры A, то E{X|A}=EX
3. Пусть X,Y - случайные величины и X измерим относительно A
тогда E{XY|A}=X E{Y|A}
4. Пусть есть две σ-алгебры M A F, M – более бедная
E{X|M}=E{E{X|A}|M}
Определение 1.10: Пусть (Ω,F,P) - вероятностное пространство, Ft возрастающий поток σ-алгебр (фильтрация), s t; s, t T ; Fs Ft
X (t ), t T называется мартингалом, если
1. t , E X (t ) ,
2. X(t) согласован с Ft
3. s t ; s, t T ; E(X(t)| Fs)=X(s) с точностью до множеств нулевой
меры.
7
Определение 1.11: Пусть (Ω,F,P) - вероятностное пространство, Ft возрастающий поток σ-алгебр (фильтрация), s t; s, t T ; Fs Ft . Случайный
процесс X (t ), t T называется субмартингалом, если
1. t , E X (t )
2. X(t) согласован с Ft
3. s t ; s, t T ; E(X(t)| Fs) X(s) с точностью до множеств нулевой
меры.
Определение 1.12: Пусть (Ω,F,P) - вероятностное пространство, Ft возрастающий поток σ-алгебр (фильтрация), s t; s, t T ; Fs Ft . Случайный
процесс X (t ), t T называется супермартингалом, если
1. t , E X (t )
2. X(t) согласован с Ft
3. s t ; s, t T ; E(X(t)| Fs) X(s) с точностью до множеств нулевой
меры.
Определение 1.13: Пусть (Ω,F,P) - вероятностное пространство, Ft возрастающий поток σ-алгебр, t T . Случайная величина τ – называется
моментом остановки относительно Ft , если t , событие{ t} Ft
Свойства моментов остановки:
1. для любого t0 = const – есть момент остановки, так как t0 t
2. τ – момент остановки, при постоянной t0 > 0, тогда t+t0 момент
остановки. {τ+t0 t}={ τ t - t0} Ft-t0 Ft
3. ,σ – моменты остановки , тогда max{ , } - момент остановки
4. ,σ – моменты остановки , тогда min{ , } - момент остановки
5. ~ F { s} Ft, то есть для любого t событие { s} { t} Ft
6. X(k), k=1,2,… - последовательность случайных величин
(случайный процесс с дискретным временем) Fn= σ(X(k),1 ≤ k ≤ n)
- поток σ – алгебр, порожденных последовательностью X(k), момент остановки относительно потока Fn. Тогда
последовательность X( ) - Ft измерима.
Определение 1.14: Пусть (Ω,F,F,P), F={Ft, t ≥ 0} – стохастический
базис. Предсказуемой, называется σ-алгебра, содержащая все множества вида
(Г (t , ∞)) х A, A Ft ,t ≥ 0.
Система подмножеств вида
(Г (a , b)) х A, A Fa , a,b ≥ 0
является порождающей для предсказуемой σ-алгебры.
8
Определение 1.15: Процесс X t t 0 называется предсказуемым в
стохастическом базисе (Ω,F,F,P), если он измерим относительно
предсказуемой σ-алгебры.
Пусть T ≥ 0 – случайная величина (время безотказной работы)
F(t) = P( T ≤ t ) – функция распределения случайной величины T
S(t) = 1 – F( t ) – функция отказа случайной величины T
Предположим, что T абсолютно непрерывна с плотностью f
Определение 1.16:
1) Интенсивностью отказа случайной величины T будем называть
следующую функцию:
P (t T t t | T t )
dS (t )
d ln S (t ) f (t )
/ S (t )
,t R
t 0
t
dt
dt
S (t )
(t ) lim
2) Накопленной интенсивностью будем называть функцию:
(t ) (u )du; t R
t
0
Замечание:
1) В рассматриваемом случае абсолютно непрерывной S
справедливо равенство
S (t ) exp (t ), t R
Определение 1.17 (Класс D)
Процесс X – процесс класса (D) (класса Дирихле), если множество
случайных величин {ХТ: Т — конечный момент остановки} равномерно
интегрируемо.
Определение 1.18:
Пусть τ — случайный момент, для которого существует неубывающая
последовательность (τn)n≥1 моментов остановки таких, что:
a) τ (ω) = lim τn (ω), ;
b) τn (ω) < τ (ω), { ( ) 0} .
Последовательность (τn)n≥1 будем называть предвещающей
последовательностью для τ.
Теорема (неравенство Ленгляра-Реболледо) 1.1:
Пусть X, Y — неотрицательные процессы из класса D F при этом Х0=
Y0 = 0, Y – возрастающий процесс, F = (Ft )t≥0 . Пусть Y доминирует процесс
X, в том смысле, что для любого момента остановки τ
EX EY
Тогда для любого момента остановки T и чисел а > 0, b > 0
9
(1.1)
P (sup X t a)
t T
1
E YT (b sup Yt ) P (YT b) (1.2)
a
t T
Если к тому же процесс Y предсказуем, то
1
E YT b P(YT b)
a
P (sup X t a)
t T
Доказательство. Будем сначала предполагать, что Т < ∞.
Обозначим
(1.3)
inf(t : X t a), inf(t : Tt b)
и заметим, что
P (sup X t a ) P( sup X t a, T ) P (sup X t a, T ) P ( sup X t a ) P( T )
t T
t T
t T
t T
(1.4)
Оценим члены, входящие в правую часть (1.4). Имеем
P( T ) P(YT b)
Далее,
(1.5)
sup X t a X T a
t T
Отсюда в силу неравенства Чебышева и (1.11) получаем
P( sup X t a ) P ( X T a )
t T
Заметим, что
1
1
EX T EY T
a
a
(1.6)
Y T TT YT YT YT TT YT T(T ) YT
YT Y sup Tt TT b sup Tt
t T
t T
Отсюда и из (1.6)
P( sup X t a )
t T
1
E YT (b sup Yt )
a
t T
Пусть ak , k ≥ 1 такая числовая последовательность, что 0 < ak < a , k ≥ 1 и
ak a . Тогда, согласно доказанному
P (sup X t ak )
t T
1
E YT (b sup Yt ) P (YT b), k 1
ak
t T
(1.7)
а предельный переход при k→∞ в этом неравенстве приводит к неравенству
(1.2).
Для доказательства (1.3) заметим, что поскольку Y V P , то момент β
является предсказуемым. Пусть ( n ) n1 — предвещающая последовательность
моментов остановки для β. Тогда из (1.4)
10
P (sup X t a) P( sup X t a) P ( n T )
(1.8)
t T n
t T
Аналогом неравенства (1.6) будет неравенство
P ( sup X t a )
Но
t T n
1
EY T n
a
Y T n YT n YT Y n YT b , и значит
P ( sup X t a )
t T n
Оценим P( n T ) . Имеем
1
E[YT b]
a
(1.9)
P( n T ) P( n T , n ) P( n T , n )
P( n ) P( T ) P( n ) P(YT b)
Пусть 0 < ak < a , k ≥ 1 и ak a и bi,j ≥ 1 – числовая последовательность
со свойствами: 0 b j b, j 1, b j b , где bj – точки непрерывности функции
распределения случайной величины Yt
Тогда
P ( n T ) P ( n ) P (YT b j ), j 1 (1.10)
Из (1.8)-(1.10) находим
1
E[YT b] P ( n ) P(YT b j )
ak
P(sup X t ak )
t T
Предельный переход lim
lim lim в этом неравенстве дает требуемое
k
0 n
неравенство (1.3)
Установим теперь справедливость неравенства (1.2) и (1.3) для
произвольного момента остановки T (не обязательно конечного).
Пусть LT обозначает правую часть любого из неравенств (1.2) или (1.3).
Положим Tn T n . Тогда
P (sup X t a ) LTn LT
t Tn
Заметим, что sup X t sup X t Выберем последовательность ak, k ≥ 1,
t Tn
t T
такую, что ak a и ak , a - точки непрерывности функции распределения
случайной величины sup X t . Очевидно, что
P(sup X t ak ) P(sup X t a) LT
t T
Отсюда
t Tn
t Tn
P(sup X t ak ) lim P (sup X t ak ) LT
t T
n
11
t Tn
(1.11)
и
P(sup X t a ) lim P(sup X t ak ) LT
t T
k
t T
что и доказывает неравенства (1.2) и (1.3) для произвольного момента
остановки T≤∞.
~
Определение 1.19: Случайный процесс X t -называется компенсатором
процесса X t , если
~
1. X t -предсказуем
~
2. X t -имеет ограниченную вариацию на любом конечном отрезке,
содержащемся в Г.
~
3. Процесс X t - X t -мартингал
Теорема 1.3 (разложение Дуба-Мейера): Пусть (Ω,F,F,P), F={Ft, t ≥ 0},–
стохастический базис, X t t 0 - непрерывный справа неотрицательный
субмартингал класса D. Тогда существует единственный с точностью до
неразличимости непрерывный справа равномерно интегрируемый мартингал
M t t 0 и непрерывный справа возрастающий предсказуемый процесс A t t 0
такой, что E|At|<∞ и
Xt = At + Mt ,
п.н.
Теорема 1.4 (существования): Пусть M t t 0 и M t' t 0 - непрерывные
справа мартингалы в стохастическом базисе (Ω,F,F,P), F={Ft, t ≥ 0}, такие,
что E ( M t ) 2 и E ( M t' ) 2 , t 0 . Тогда существует непрерывный справа
предсказуемый процесс <M,M’> такой, что
1. <M,M’>(0) = 0, E<M,M’>(t) < ∞
2. <M,M’> - разность двух непрерывных справа возрастающих
процессов (<M,M’> - процесс ограниченной вариации)
3. Процесс M t M t' M , M ' (t ) мартингал
Лемма 1: Пусть a,b R. Тогда, как в условиях предыдущей теоремы.
a) E(a Mt + b M t' |Fs)= a Ms+b M s' ,s ≤ t
b) E(a Mt + b M t' )2<∞
c) Процесс E(a Mt + b M t' )2 – субмартингал.
Доказательство (Леммы): а) следует из свойства линейности
условного математического ожидания. Для доказательства b) оценим
E(a Mt + b M t' )2=a2E(Mt)2+b2E( M t' )2+2ab(Mt M t' )≤
≤ a2E(Mt)2+b2E( M t' )2+ab(E(Mt)2+ E( M t' )2)<∞.
Используя неравенство Йенсена и мартингальное свойство получаем
неравенство
12
E((a Mt + b M t' )2|Fs ) ≥ (E(a Mt + b M t' |Fs )) 2= (a Ms+b M s' ,s) 2, s ≤ t
которое доказывает с). Лемма доказана.
Доказательство (теоремы существования): Согласно Лемме условия
теоремы (Дуба-Мейера) выполнены для субмартингалов (Mt + M t' )2 и (Mt –
2
M t' ) Тогда существуют разложения
(Mt + M t' )2= M t +<M+M’,M+M’>(t)
и
(Mt – M t' )2= M t +<M–M’,M–M’>(t)
где M t и M t - соответствующие мартингалы . Пусть
1
4
'
'
Тогда M t M t M , M (t ) мартингал . Остается отметить, что
1
1
<M+M’,M+M’>(t) и <M–M’,M–M’>(t) – возрастающие процессы.
4
4
<M,M’>(t)= (<M+M’,M+M’>(t) – <M-M’,M–M’>(t))
Теорема доказана.
Определение 1.20. Пусть (Ω,F,F,P), F={Ft, t ≥ 0},– стохастический
базис. Непрерывный справа случайный процесс N t t 0 будем называть
точечным, если
1. N t t 0 согласован с F
2. Траектории N (, ) - кусочно-постоянные функции,
3. Скачки N (, ) имеют величину 1 почти наверное.
1.3 Представление данных с помощью точечных процессов
Пусть T,U – неотрицательные случайные величины. Введем величины
X min(T ,U ) T U и {T U } , а также случайные процессы N (t )t 0 и
N U (t )t 0 , определяемые равенствами
N (t ) { X t , 1} { X t } , N U (t ) { X t , 0} (1 ){ X t } , t R
U
Предположим, что Ft ( N (u ), N (u )),0 u t ) , t 0 .
Теорема 1.5 (о независимом цензурировании). Пусть случайная
величина Т имеет абсолютно непрерывное распределение. Тогда случайный
процесс
M (t ) N (t ) { X u} (u )du – F –мартингал если, и только если
t
0
(t )
d
P (T u ,U t ) u t
du
P (T t ,U t )
13
(*)
для любого t 0 : P( X t ) 0
Комментарий.
1.Если T и U независимы, то условие (*) очевидно выполнено.
2. Правая часть (*) может быть переписана в виде
P (t T t h | T t , U t )
h 0
h
lim
Теорема 1.6 (о независимом цензурировании): Следующие
утверждения равносильны:
1. Случайный процесс
M (t ) N (t ) { X u}d (u )
t
0
2. Для любого t 0 : P ( X t ) 0 выполнено равенство
dF (t )
dP(T t ,U T )
1 F (t )
P(T t ,U T )
3. Для любого t 0 : P ( X t ) 0 выполнено равенство
P(t T t dt | T t ) P(t T t dt | T t ,U t )
Определение 1.21: Будем говорить, что пара (T,U) удовлетворяет
условию независимости цензурирования, если выполнено каждое из условий
1) - 3)
Пусть (Ω,F,F,P), F={Ft, t ≥ 0},– стохастический базис. Рассмотрим
стохастический интеграл вида L(t ) H (u )dM (u ) , где N(t)=A(t)+M(t) –
t
0
разложение Дуба-Мейера процесса N(t), H(t)- предсказуемый процесс
Теорема 1.7 (О мартингальном свойстве стохастического интеграла):
Пусть N (t )t 0 - точечный процесс, EN (t ) , t 0; N (t ) A(t ) M (t ) - разложение
Дуба-Мейера в стохастическом базисе (Ω,F,F,P), F={Ft, t ≥ 0}; N (t )t 0 ограниченный на любом ограниченном множестве процесс
Тогда
L(t ) H (u )dM (u ) - мартингал.
t
0
14
1.4 Описание цензурированных данных с помощью точечных
процессов
Пусть (Tij, Uij), j = 1,2,..., nij, i = 1,2,...,m - набор независимых серий
независимых в каждой серии неотрицательных и конечных с вероятностью 1
моментов отказов и цензурирования соответственно. Считаем, что Fi(t) =
P(Tij < t) = Р(Ti1 < t) — функция распределения моментов отказов в i-й серии,
Si(t) = 1 — Fi(t) — соответствующая функция отказа, а функция отказа
величины Uij имеет вид Ci,j(t) = P(Uij > t), t R.
Данные, полученные в результате эксперимента могут быть записаны в
виде набора пар (Xij,δij), j = 1,2,..., nij, i = 1,2,...,m где
Xij=min(Tij, Uij)= Tij Uij ; δij= I{T U }
Обозначим i, j P( X i , j t ) . Введем случайные процессы
N i, j (t ) i , j { X t } ; N U i, j (t ) (1 i , j ){ X t} ; Yi, j (t ) { X
а также
i, j
i, j
N i, (t ) N i , j (t ) ;
ni
j 1
i, j
N i, (t ) N i , j (t ) ;
m
j 1
Yi, (t ) Yi , j (t ) ;
ni
j 1
i, j
i , j t }
, t≥0
Yi, (t ) Yi , j (t ) ; , t ≥ 0
m
j 1
(точка обозначает суммирование по соответствующему индексу)
Определение 1.22. Будем говорить, что цензурирование в i-й серии
независимо, если компенсатор N i, (t ) относительно фильтрации {Ft}t≥0 имеет
вид
i i (t ) Yi , (t ) i (dt )
t
*
S (dt )
где i (dt ) i
S i (t )
0
Покажем, что если каждая пара (Tij, Uij) удовлетворяет условию
независимости цензурирования, т.е.
или
dP(Ti , j u,U i , j Ti , j )
dFi (u )
1 F (u )
P(Ti , j u,U i , j Ti , j )
P (u Ti , j u du | T u ) P (u Ti , j u du | T u ,U u )
i=1,…,k, j=1,…,ni, то условие независимости цензурирования выполнено.
Рассмотрим фильтрацию F={Ft, t ≥ 0}, где
Ft = σ (Ni,j(u), N U i, j (u ) ,0 ≤ u ≤ t, j=1,…,ni, i=1,…,m)
Как было отмечено ранее, при выполнении условия независимости
цензурирования, случайный процесс
M i , j (t ) N i , j (t ) Yi , j (u )d i (u )
t
0
15
где i (t ) ( S i (u )) 1 dFi (u ) , является мартингалом относительно фильтрации
t
0
F ={Ft ,t ≥ 0}, Fti,j=σ (Ni,j(u), N U i, j (u ) ,0 ≤ u ≤ t). Принимая во внимание
независимость пар (Tij, Uij) заключаем, что Mi,j(t) – F- мартингал при всех
j=1,…,ni , i=1,…,m. Следовательно случайный процесс
i,j
i,j
M i (t ) M i , j (t ) Ni , (t ) Yi , (u)di (u)
ni
t
j1
0
является F- мартингалом при любом i {1,..., m}
Рассмотрим некоторые примеры цензурирования справа.
Цензурирование 1-го типа и его обобщения.
Пусть Uij = u0 = const, j = 1, ..., ni, г i=1,…,m, т.е. каждая тестируемая система
наблюдается строго определенное время. Такой тип цензурирования носит
название цензурирования 1-го типа. Обобщением цензурирования данного
типа является цензурирование с независимыми временами отказов и
цензурирований, т.е. Ti,j и Ui,j - являются независимыми при любых i,j.
Например, если наблюдения начинаются в случайные моменты времени, а
завершаются в строго фиксированный момент и продолжительность
интервала времени с момента начала наблюдений до момента отказа не
зависит от времени начала наблюдений, то Ti,j и Ui,j являются независимыми
при любых i,j. Очевидно, что условие независимости цензурирования в
рассматриваемой модели выполнено.
2. Оценки Нельсона-Аалена и Каплана-Мейера, представление
с помощью случайного процесса.
2.1 Введение
Пусть
T1,T2,…,Tn – выборка из распределения с функцией отказа S;
L ≤ n – число различных наблюдаемых отказов;
T1* T2* ... TL* – последовательные времена отказов;
Dk – число отказов в момент времени Tk* , k 1,2,..., L ;
0 =t0 < t1 <…< tm = t – разбиение интервала [0,t];
dl – число наблюдавшихся отказов интервале [tl-1,tl);
yl – число элементов, находящихся под наблюдением, т.е. не
отказавших и не цензурированных, к моменту времени tl-1
При ∆t→0
(t t ) (t ) (t )t
(t t ) (t ) Pt T t t | T t
Таким образом, при yl > 0 естественной оценкой для (tl ) (tl 1 ) выглядит
отношение
dl
, т.е ˆ
yl
l :t l t
d
y
l
l
16
При m→∞ и max tl tl 1 0 ,dl=0, в пределе
1 l m
Dl
(оценка Нельсона-Аалена)
*
k :Tk* t Yl
где Yl* – число элементов не отказавших и не цензурированных на момент
времени Tk* , k 1,..., L , ̂ – оценка Нельсона-Аалена накопленной
интенсивности Λ.
ˆ (t )
Рассмотрим оценку функции отказа S, при
Sˆ (t )
Dl
* 1 Y *
k :Tk t
l
Dl
0
Yl*
(оценка Каплана-Мейера функции отказа)
Пусть Tj определена при T j U j , Xj=min(Tj,Uj), j=1,…,n,
X 1* ... X m* , k 1,..., L – последовательные моменты отказов и цензурирований;
D { X j Ti }
n
*
i
j 1
Di { X j U j , X j Ti }
f
n
(число наблюдений)
j 1
Dic Di* Di f
(число отказов)
(число цензурирований)
В момент времени Xi, i=1,…,m , получаем
k
Di f
*
ˆ
S ( X k ) 1 *
Yi
i 1
Соответствующие дискретное распределение имеет атомы в точках
*
T(k)
величины
*
*
(T(k)
) Sˆ (T(k)
) Sˆ (T(k* -1) ) 1
k 1
i 1
С учетом соотношений
1
Di f
Yi *
Dkf
Df
* S (T(k* -1) ) k*
Yk
Yk
D fi Yi* D fi Yi* D*i Yi D if Yi*1 D*i D fi
* 1
Yi*
Yi*
Yi* Yi* D*i
Yi
Yi*1
получаем следующее выражение
Yk*+1 k Dic
*
ˆ
1 *
S ( X (k ) )
n i 1 Yi 1
(X
*
(k )
Dkf
)
n
Dic
1 *
Yi 1
i 1
17
k 1
2.2 Непараметрическое оценивание функции отказов.
В данном разделе рассматривается случай однородных отказов, т.е. m = 1.
Пусть
1 (t ), t 0, N1, j (t ) N j (t ), N1U, j (t ) N Uj (t ), Y1, j (t ) Y j (t )
Пусть (Ω,F,F,P), F={Ft, t ≥ 0}; - стохастический базис, где
Ft ( N j (u ), N j (u )),0 u t ), j 1,..., n
Случайный процесс
U
M (t ) N (t ) Y (u )d (u )
t
0
Где N (t ) N j (t ) ; Y (t ) Y j (t ) является F мартингалом
n
n
j 1
Введем случайные процессы
и
M(t)
t
Поскольку
{Y (u ) 0}
Y (u )
0
j 1
1
, Y (t) 0
Y (t)
Y (t)
0, Y (t) 0
{Y (t)0}
{Y (t) 0}
Y (t)
dM ( u )
t
0
dN ( u )
{Y ( u ) 0} d (u )
Y ( u )
0
t
- предсказуем, то случайный процесс {M(t)}t≥0 – мартингал.
В частности отсюда следует, что
dN (u )
E
E {Y (u ) 0}d (u )
Y
(
u
)
0
0
t
t
Определение 2.1. Статистику
ˆ (t) dN (u )
0 Y (u)
t
Будем называть оценкой Нельсона-Аалена накопленной интенсивности
Рассмотрим, также, статистику
( t) {Y (u )0}d(u )
*
t
0
Следующая теорема дает некоторые свойства оценки Нельсона-Аалена.
Теорема 2.1 (об оценке Нельсона-Аалена): Пусть ( t) , t 0 Тогда
ˆ (t) - * (t)) 0, t 0
1. E(
18
2.
ˆ (t) - (t)) E(
(1 - j (u ))d(u) , и если j (u ) (u), u t , то
t
0 j1
ˆ (t) - (t)) - (1 - (u )) n d (u ) (1 - (t )) n (t )
E(
t
3.
n
0
*2 (t ) E ( n (ˆ (t ) * (t )) 2 E
t
{Y ( t ) 0}
Y (t )
0
(1 (u ))d (u ) , где Y
Y (t)
n
Замечание.
1. При j (s) ( s ), s 0 утверждение 2) теоремы доказывает
асимптотическую несмещенность оценки Нельсона-Аалена ̂ ( t)
накопленной интенсивности ( t) при любом t : (t) 0 .
2. Принимая во внимание усиленный закон больших чисел
заключаем, что
n
1
n
Y (t )
(t )
почти наверное при t : (t ) 0 .
Тогда, в силу утверждения 3) теоремы
{Y ( t )0}
(1 (u ))d (u ) n
2 (t )
Y (t )
(t ) E
2
*
3. Поскольку
t
0
ˆ (t ) * (t ))
n (
1
n
Y (u)
n
n
t
j 1 0
{Y ( u ) 0}
dM j (u ) ,
где правая часть данного равенства - нормированная сумма независимых
одинаково распределенных случайных величин с нулевым средним и
учитывая условие
n (* (t ) (t )) n
0 п.н.
естественно предположить асимптотическую нормальность оценки
Нельсона-Аалена ̂ . Исследуем дисперсию величины ̂
ˆ (t) 1 2 (t ) 2 E (
ˆ (t ) * (t ))(* (t ) E* (t )) D* (t )
D
*
n
Отметим, что
nP(Y (s) 0) n (1 - j (t)) n
0
Если j (t ) 0, j 1,... Тогда
n
j1
19
t
*
D( n (t)) E n {Y (u )0} P (Y (u ) 0) d(u )
0
2
t
n (1 P (Y (u ) 0))d(u ) P (Y (u ) 0)
0
2
t
P (Y (u ) 0)d(u ) nP (Y (u ) 0) n
0
0
Следовательно,
2
Определим
ˆ (t ) ~ 1 2 (t )
D
*
n
t
{Y (u ) 0} N (u ) 1
N (u ) 1
1
dN (u ) {Y2(u )0} 1
dN (u )
ˆ (t ) n 2
Y
(
u
)
Y
(
u
)
1
Y
(
u
)
Y
(
u
)
1
0
0
2
где Y
t
Y
N
, N В непрерывном случае данный объект выглядит
n
n
следующим образом:
ˆ (t ) n
2
t
0
{Y ( u ) 0}
Y 2 (u )
dN (u )
t
0
{Y ( u ) 0}
Y 2 (u )
dN (u )
Теорема 2.2 (об оценке дисперсии): Пусть условие независимости
цензурирования выполнено, N (t )t 0 точечный процесс с накопленной
интенсивностью (t ) , t 0 Тогда
E ˆ 2 (t ) * (t )
P (Y (u ) 1)(u )d(u )
n
0
2
t
Замечание. Если (t), t 0 , непрерывна, то E ˆ 2 (t ) *2 (t ) 0, t 0 , т.е.
при некоторых дополнительных ограничениях, рассмотренных выше, ˆ 2 (t)
асимптотически несмещенная оценка 2 (t) .
Доказательство. проведем лишь для случая с непрерывной .
Отметим, что в этом случае
{Y (u)0}
E ˆ 2 (t ) * (t )
Y (u)d(u) - dN (u )
2
n
Y
(
u
)
0
2
t
Следовательно ˆ 2 (t ) *2 (t ) - мартингал. Доказательство завершено.
20
2.3 Оценка Каплана-Мейера
Принимая во внимание соотношение S(t) exp(- (t)) введем оценку КапланаМейера по правилу S(t) exp(- (t)), t 0 . Тогда d
dS(t)
dSˆ (t )
. Пусть dˆ ˆ
.
S(t)
S (t )
Переносим Sˆ (t ) в правую часть. После интегрирования получаем
ˆ (u )
dSˆ (t ) 1 Sˆ (u )d
t
0
Тогда
N (t )
Sˆ (t ) Sˆ (t ) - Sˆ (t ) Sˆ (t )
Y (t )
Принимая во внимание ступенчатый характер функции ̂ получаем
следующее представления оценки Каплана-Мейера:
N ( s )
Sˆ (t) 1
Y ( s )
s t
Теорема 2.3 (О мартингальном представлении оценки КапланаМейера)
Пусть S(t)>0. Тогда
t ˆ
Sˆ (t ) S (t )
S (u ) dN (t )
d (u )
S (t )
S (u ) Y (t )
0
Теорема 2.4 (о состоятельности) Пусть S- абсолютно непрерывна.
Тогда для любого t [0, ) при условии сходимости по вероятности
Y (t ) n
0
Имеет место сходимость по вероятности
ˆ ( s ) ( s )
sup
0
n
и
0s t
sup Sˆ ( s ) S ( s ) sup Fˆ ( s ) F ( s ) n
0
0s t
где Fˆ ( t ) 1 Sˆ (t ), t 0
0s t
Теорема 2.5 Пусть {X (t): t ≥ 0} непрерывный справа процесс согласованный
с фильтрацией {Ft: t ≥ 0} – является мартингалом (субмартингалом,
супермартингалом), и пусть τ согласованные с Ft момент остановки, тогда
{X(t ), t 0} - тоже является мартингалом (субмартингалом,
супермартингалом)
21
3. Состоятельность оценок Нельсона-Аалена и КапланаМейера.
Определение 3.1: Пусть f - функция, определенная на интервале [a,b] где -∞
≤a<b≤∞
sup f ( s ) - супремум нормы f
a sb
sup f ( s ) g ( s ) - расстояние, индуцируемое этой нормой между двумя
a s b
функциями f и g
Следствие 3.1 (из Теоремы 1.1 неравенства Ленгляра) Пусть N будет
точечный процесс, а М = N - A – соответствующий равномерно
интегрируемый, квадратично-интегрируемый мартингал. Пусть H
согласованный непрерывный слева процесс и ограниченный справа или, в
более общем плане, предсказуемый и локально ограниченный процесс. Тогда
для любого момента остановки Т такого, что Р {Т < ∞} = 1, и любых ε,η > 0,
2
t
t 2
P sup H ( s )dM ( s )} P H ( s ) d M , M ( s )
0
t T 0
Доказательство. Пусть {τk; k = 1,2, ...} локализующая последовательность
такая, что для любого k, N(• ˄ τk), A(• ˄ τk) и H(• ˄ τk) являются процессами,
ограниченные по k (напомним, что A всегда локально ограничена), и M(• ˄ τk)
является квадратично интегрируемым мартингалом.
По теореме о моментах остановки (теорема 2.5)
где
и
EX k (t T ) Yk (t T ) 0, t 0
X k (t ) 0
Yk (t )
t k
0
t k
H ( s)dM ( s)
(4.1)
2
H 2 ( s)d M , M ( s)
При t → ∞ , Xk (t ˄ T)→Хк (Т) , по теореме о мажорируемой сходимости EXk (t
˄ T) )→EХк (Т). Следовательно, по теореме монотонной сходимости, EYk (t
˄ T) )↑EYк (Т) и EYк (Т) <∞. Таким образом, для любого k
По неравенству Ленгляра,
EX k (T ) EYk (T )
22
2
t k
T k 2
P1k P sup H ( s )dM ( s ) P H ( s )d M , M ( s ) P2 k
0
t T 0
по теореме о монотонной сходимости при k → ∞
T 2
P2 k P H ( s)d M , M ( s) P2
0
Поэтому для любого k, P1k≤ η/ ε + P2. По теореме о мажорируемой
сходимости для k → ∞
2
t
P1k P sup H ( s )dM ( s )
t T 0
Следствие доказано. □
Теорема 3.2:
1. Пусть Т время отказа- случайная величина с непрерывной функцией
распределения F (s) = P {T ≤ s} и накопленной интенсивностью
( s)
dF (v)
0 1 F (v)
s
P
Если t ϵ (0; ∞), то Y (t )
, n
Тогда
___
sup
s
и
0 s t 0
(4.2)
dN (v)
P
( s )
0, n
Y (v )
P
sup Fˆ ( s) F ( s)
0, n
0 s t
где 1 F̂ - оценка Каплана-Мейера.
2. Предположим, что распределение времени отказа может меняться с
увеличением объема выборки n, т.е. PT jn s F n ( s), j 1,..., n .
a) Если условие (4.2) выполняется, и lim sup F n (t ) 1 (4.5)
(4.4)
n
следовательно при n→ ∞
sup
dN ( v )
P
n ( s )
0
0 st 0 Y (v )
s
и
(4.3)
23
(4.6)
P
sup Fˆ ( s ) F n ( s )
0
0 s t
(4.7)
b) Если u ϵ (0; ∞) такое, что (4.2) и (4.5) справедливы для всех t <u и F
является непрерывной функцией распределения такой, что для всех t ≤ u,
lim F n (t ) F (t ) ,
n
то (4.7) справедливо при замене t на u.
(4.8)
Доказательство. Достаточно доказать 2). Начнем с 2) a). Пусть s ϵ [0, t].
Тогда
dN (v)
n
0 Y (v) (s)
s
dN (v)
n
0 Y (v) 0 I{Y (v )0}d (v)
s
I{Y ( v ) 0}d (v)
s
0
n
s
s
0
I{Y ( v ) 0}
Y (v )
dM (v) I{Y ( t ) 0}n (t )
P
При условии (4.2) и (4.5), I{Y (t ) 0}n (t )
0 , для получения (4.6) достаточно,
чтобы
s I{Y ( v ) 0}
P
sup
dM (v)
0
0 s t 0 Y (v )
2
по следствию 3.1 в неравенстве Ленгляра имеем
2
I{Y ( v ) 0} n
s I{Y ( v ) 0}
n (t )
P sup
dM (v) P
d (v) P
Y (v)
Y (t )
0 s t 0 Y (v)
Из условия (4.2) и (4.5) следует, что второе слагаемое в правой части стремится к
нулю при n→ ∞ и η> 0. Тогда условие сходимости оценки Нельсона-Аалена
выполняется.
При любом фиксированном t таком, что (4.2) и (4.5) справедливы, имеем,
Fˆ ( x) F n ( x)
P
Z
x
,
при
x
[
0
,
t
]
1
n
n
1
F
(
x
)
24
где
{1 Fˆ (v )} I{Y ( v ) 0}
Z ( x)
dM (v)
n
{
1
F
(
v
)}
Y
(
v
)
0
t
Условие (4.5) подразумевает
lim inf inf {1 F n ( s)} lim inf [1 F n (t )]
n
s[ 0 ,t ]
n
P
n
0
Следовательно, чтобы получить sup Fˆ ( s ) F ( s)
P
0
достаточно показать, что supZ ( s )
0 s t
0 st
2
По следствию 3.1
t {1 Fˆ (v )}2 I{Y ( v )0} n
2
P supZ ( s ) P
d
(
v
)
n
2
{
1
F
(
v
)}
Y
(
v
)
0 s t
0
n (t )
P
n
2
{
1
F
(
t
)}
Y
(
t
)
Из (4.2) и (4.5) следует, что второе слагаемое в правой части
предыдущего уравнения, сходится к нулю при n→ ∞ и любом η> 0. Так как ε
и η случайные величины, то (4.7) выполняется.
Пусть теперь u такая, что (4.2) и (4.5) справедливы для всех t<u, и,
кроме того, в доп. слагаемом уравнение (4.8) выполняется. Для выполнения
(2) (б) мы должны показать, что
P
sup Fˆ ( s ) F n ( s )
0, n
0 s t
или, что то же самое, для любого ε > 0
P sup Fˆ ( s ) F n ( s )
0 s u
при достаточно больших n
(4.9)
(4.10)
Для любой точки t0 <u, часть 2) а) устанавливает однородность свойств
на [0, t0], поэтому доказательство (2) (б) зависит от нахождения t0 <u, для
которых мы можем показать равномерную сходимость на [t0,u]. Поскольку
F n (u ) F n (t 0 ) F n (u ) F (u ) F (u ) F (t 0 ) F (t 0 ) F n (t 0 )
25
из непрерывности F и уравнения (4.8) следует существование точки t0, 0 <t0
<u и целого числа n' ≥ 1 такого, что
F n (u ) F n (t0 )
для любого n ≥ n'
4
В формуле. (4.7), имеется второе число n" такое, что для вех n ≥ n"
P Fˆ n (t0 ) F n (t0 )
4 2 (4.11)
Для t0 ≤ s ≤ u, неравенство
и
Fˆ (t 0 ) Fˆ ( s) Fˆ (u )
F n (t0 ) F n ( s ) F n (u )
означает, что
вследствие этого
Fˆ ( s ) F n ( s ) Fˆ (u ) F n (t0 ) Fˆ (t 0 ) F n (u )
sup Fˆ ( s) F n ( s) Fˆ (u ) F n (t0 ) Fˆ (t0 ) F n (u )
t 0 s u
Fˆ (u ) F n (u ) 2 F n (u ) F n (t0 ) Fˆ (t0 ) F n (t0 )
Если
Fˆ (u ) F n (u ) 0 по вероятности, то будет существовать третье
число n'", такое что для всех n ≥ n'"
P Fˆ n (u ) F n (u )
4 2
тогда для n ≥ max(n', n", n'")
P sup Fˆ ( s ) F n ( s )
t0 s u
2 2
Для завершения доказательства мы должны показать, что
P
Fˆ (u ) F n (u )
0 . Рассмотрим отдельно два случая F(u) = 1 и F(u) < 1. Если
n
F(u) = 1, тогда существуют t0 и n' такие, что F (t0 1) , n n Далее,
3
26
Fˆ (u ) F n (u ) 1 Fˆ (u ) 1 F n (u )
1 Fˆ (t0 ) 1 F n (t0 ) 2 1 F n (t0 ) F n (t0 ) Fˆ (t0 )
P
n
0 то существует n* n , такое
Так как P F (t0 ) Fˆ (t0 )
3
n
*
n
P
0
что n n , P F (t 0 ) Fˆ (t 0 ) и Fˆ (u ) F (u )
3
*
Допустим F (u ) 1 1
Из неравенства
Fˆ (u ) F n (u ) Fˆ (u ) Fˆ (t0 ) Fˆ (t0 ) F n (t0 )
F n (t0 ) F n (u )
(4.12)
и уравнения (4.7) и (4.8), и непрерывности F следует, что последними двумя
правыми слагаемыми, можно пренебречь. Нам нужно только показать, что
первое слагаемое стремится к нулю по вероятности, при n→∞. Допустим
существует n' такая, что n n
1 F n (t ) 1 * / 2, t [0, u ]
Тогда n n и для t0 u
dF n (t )
2
2 n
n
n
d
(
t
)
dF
(
t
)
F
(
u
)
F
(t0 )
n
*
*
t
t 1 F (t ) t
0
0
0
u
u
n
2
*
F
n
u
(u ) F (u ) F (u ) F (t 0 ) F (t 0 ) F n (t0 )
Таким образом, существует t0 и n n , такая что для n n
И так, для n n
3
d (t ) 108
u
n
t0
(4.13)
u
dN ( s)
ˆ
ˆ
ˆ
P F (u ) F (t0 ) P Y ( s )0 1 F ( s )
3
Y ( s)
3
t0
u
u n
dN ( s )
n
P Y ( s )0
d ( s ) P d ( s )
6
t0
Y ( s)
6
t0
2
u
u Y ( s )0 n
2
36
Y ( s )0
P
dM ( s) 2 P
d ( s )
36
t0 Y ( s)
3
t0 Y ( s)
27
Где последнее неравенство следует из Следствия 3.1, а последнее уравнениеиз подстановки
3
108
Мы можем предположить, что выбор t0 в (4.12) удовлетворяет
F n (t0 ) F n (u )
для n n . Поэтому
3
P
P
Fˆ n (t0 ) F n (t0 )
0, Fˆ n (u ) F n (u )
0 , при F(u)<1
P
Если F n F , тогда если Y (t )
0, n , для t [0, u ) , тогда оценка КапланаМейера Ŝ (t)- равномерно состоятельная оценка.
t
S (t ) exp ( s )ds на [0,u]
0
4. Мартингальная Центральная Предельная Теорема.
Теперь мы используем мартингальную структуру U ( n ) H i( n ) dM i( n ) ,
n
i 1
чтобы установить асимптотические результаты для последовательностей
статистик. Пусть n -размер выборки.
Будем считать набором конечномерных распределений (U 1( n ) ,...,U r ( n ) ) .
Для любых n,
{N i,(n)l : i - 1,..., n, l 1,..., r} - многомерный точечный процесс со
стохастическим базисом (, F,{Ft : t 0}, P)
(4.1)
с непрерывным компенсатором Ai(,nl ) для N i(,nl )
(4.2)
M i(,nl ) N (i ,nl ) A i(,nl ) являются квадратично интегрируемым мартингалом, M i(,nl ) ;
2
Ai(,nl ) является квадратично интегрируемым мартингалом, и M i(,nl ) M i(n,l) является
квадратично интегрируемым мартингалом, если i i или l l
Для любых i,l мы также предполагаем, что
H i(,nl ) является ограниченным Ft - предсказуемым процессом.
U (t ) H i(,nl ) ( s ) dM i(,nl ) ( s )
t
(n)
i,l
для любого ε>0
и
0
U (t ) H i(,nl ) ( s )dM i(,nl ) ( s )
n
(n)
l
U
(n)
i,l,
t
i 1 0
(t ) H i(,nl ) ( s){|H ( n ) ( s )| }dM i(,nl ) ( s)
t
i ,l
0
28
(4.3)
U (t ) U i,(n)l, (t )
n
(n)
l,
i 1
(n)
(n)
U i,(n)l , U (n)
l , U i,l, и U l, квадратично интегрируемые мартингалы. Процесс
(n)
U (n)
l, содержит все скачки процесса U l , размера не более чем ε.
U ,U
(n)
l
и
U ,U
(n)
l,
(n)
l,
(n)
l
(t ) H i,(n)l ( s ) dAi(,nl ) ( s)
n
t
i 1 0
2
(t ) H i,(n)l ( s ) {|H ( n ) ( s )| }dAi(,nl ) ( s )
n
t
i 1 0
2
i ,l
Основным результатом является асимптотическое распределение
U (n)l : l 1,..., r, при n→∞, и опирается на понятие слабой сходимости или
сходимости по распределению, случайных процессов. Когда
последовательность процессов {Хn} слабо сходится к пределу процесса X, мы
пишем X n X .
Сходимость по распределению для последовательности случайных величин,
D
записывается как X n
X . Некоторые результаты используют сходимость
L
в Lp норме или по вероятности. Мы пишем, что X n
X , когда
последовательность случайных величин {Хn} удовлетворяет
p
lim E (| X n X |2 ) 0
n
и X n X , когда
P
lim P(| X n X | ) 0
n
для любого ε>0
(n)
Переходя к пределу U l мы, чтобы упростить, сначала избавимся от
аргумента l, а затем опустим его в обозначениях. Изначально, мы будем
считать, что для каждого n существует константа C(n) <∞ (которую можно
увеличить с n до ∞) такую, что с почти наверное,
N i( n ) , A i( n ) , H i( n ) , i 1,..., n ограничены C(n)
(4.4)
Из этого следует, что, U i , U , U i, , U являются квадратичноинтегрируемыми мартингалами. Понятно, что процессы
N i(n) ( ( n ) ), A i(n) ( ( n ) ), H i(n) ( ( n ) ) удовлетворяет условию (4.4), и, что
(n)
U (n)
), U (n) слабо сходятся к тому же пределу при ( n) .
i (
Мы установим, в особых условиях, что U (n) слабо сходится к
следующему процессу.
(n)
(n)
(n)
(n)
Определение 4.1. Стандартным Винеровским или процессом
Броуновского движения называется процесс W(t),t≥0:
1. W(0)=0 и EW(t)=0 для любых t;
29
2. W(t) -процесс с независимыми приращениями;
3. W(t)-W(s)~N(0,t-s),t<s
4. W(t) имеет непрерывные траектории.
Если f измеримая неотрицательная функция и ( t) f 2 ( s)ds , тогда
t
0
fdW -
процесс, удовлетворяющий (1), (2) и (4), и
t
var f ( s )dW( s) (t )
0
(n)
Процесс U удовлетворяет условию (1) для всех n. По мартингальному
свойству, U (n) имеет некоррелированные приращения, так что (2)
справедливо при больших n. По (теореме 2.4.4 Fleming),
var{U ( n ) (t )} E U ( n ) ,U ( n ) (t )
если
P
U ( n ) ,U ( n ) (t )
(t )
для некоторой подынтегральной функции f 2, у U (n) существует дисперсия
при достаточно больших n , тогда t заменяется на (t ) . И, наконец,
(n)
(n)
U содержит все скачки в U (n) размера ε или больше, EU 0 и
var{U (t )} E U ,U
(n)
если U ,U
(n)
(n)
( n)
(n)
(t )
P
(t )
0, n для любых ε>0, выборочные траектории
должны стать гладкими при n→∞, и 4) также должно выполняться.
Мейер показал, что если U1, U2,…, Ur -являются квадратично
интегрируемыми мартингалами, принимают значение 0 в нулевой момент
времени, с непрерывными траекториями такими, что U i , U j (t ) ij i (t ) для
некоторых возрастающих непрерывных справа функций i (t ) и i (0) 0 ,
тогда { U1, U2,…, Ur } являются независимыми гауссовскими процессами,
равными нулю в нулевой момент времени, с независимыми приращениями и
var{U i (t )} i (t ) .
Ниже приводится формальная постановка результата (в частном случае
при r = 1).
Теорема 4.1. Пусть f измеримая неотрицательная функция и
( t) f 2 ( s)ds для всех t > 0. Для всех t > 0, и n→∞,
t
0
и
Тогда
P
U (n) , U (n) (t )
(t )
U , U
(n)
(n)
P
(t )
0 для любых ε>0
U (n) U fdW на D[0, ∞) и n→∞,
30
(4.5)
(4.6)
где W - броуновское движение, и D[0,∞) - пространство функций на [0,∞),
которые являются непрерывными справа, с конечными левосторонними
пределами, наделенное топологией Скорохода.
5. Категориальный данные.
5.1 Классические категориальные и из применение в анализе
данных типа времени жизни.
Категориальный план эксперимента основан на классификации
объектов исследования по группам. Распределение по группам определяется
по одной или нескольким характеристикам. В методе анализа
категориальных данных используется асимптотическая нормальность
выборочных оценок вероятностей.
Рассмотрим группу наблюдений с временем отказа T, как переменную
отклика, и z в качестве ковариаты. Предположим, что заданы две категории
времен отказа : T t1 и T t1 . В случае цензурирования справа данные не
могут быть правильно классифицированы, потому что мы не можем
определенно сказать, сколько объектов наблюдения откажут к моменту
времени t1. Различные виды стратегий классификации цензурированных к
моменту t1 в любом случае приводят к смещенности наблюдаемых частот как
оценок искомых вероятностей. Рассмотрим три возможные стратегии:
1) все объекты наблюдений, цензурированные до момента
остановки t0 удаляются из анализа;
2) все цензурированные объекты наблюдений, включая объекты без
симптомов заболевания в конечной точке, удаляются из анализа
3) все объекты наблюдений, классифицируются по времени
события (отказа или цензурирования).
Обозначим ожидаемые вероятности q i(k)|z , i 1,2, k 1,2,3.
Наблюдаемые вероятности в этом случае определяются как:
P(T U t 0 | z )
1 P (U T t0 | z )
P(T U t0 | z )
q1(2)
|z P(T t 0 | T U ; z )
P(T U | z )
(3)
(k)
q i|z P(T U t 0 ; z ) ;
q (k)
2|z 1 q1|z
q1(1)
|z P(T t 0 | {T U } {U t 0 }; z )
Предположим, что распределение времени цензурирования U не
зависит от z и имеет функцию отказа G(x) P(U x), G(0) 0 . Тогда при
независимости T и U,
31
G( x)dF ( x)
q
(1)
1|z
z
0
S z (t0 )G (t0 ) G ( x)dFz ( x)
t
q
;
(2)
1|z
Соответствующие смещения:
q
p1|z S z (t0 )G (t0 )(S z (t0 ) 1)
S z (t 0 ) (1 S z ( x))dG ( x)
0
S z (t0 )G (t0 ) G ( x)dFz ( x )
t0
G( x)dF ( x)
z
G( x)dF ( x)
;
q1(3)|z 1 G (t0 ) S x (t 0 )
t
0
z
S z (t0 )G (t0 ) G ( x )dFz ( x)
t0
0
t0
z
0
0
0
(1)
1|z
G( x)dF ( x)
t0
t
S z (t0 )
P(T U t0 )
1 P(U T t0 )
0
где p1|z Fz (t0 ) и G(x) 1 G ( x) ;
(G(x) - C)dF ( x)
t0
q
и
q
(3)
1|z
(2)
1|z
0
C
z
, где С G(x)dFz ( x )
0
p1|z Sz (t0 )G (t0 )
Заметим, что классические категориальные тесты фактически
~
применяют для H 0 : q1|1 ... q1|d
32
5.2 Категориальные тесты типа времени жизни.
Пусть 0 t1 ... t s T , тогда Si (t k ) Si (t k ) 0 для всех 1 k 2 k1 T
H 0 : S1 (t1 ) ... S d (t1 ) для всех l=1,…,s
Обозначим ij S i (t j ) . Введем параметры i ( i1 ,..., is ) . Пусть i A i ,
где A aij - (d 1) d -матрица линейно независимых сравнений, то есть
1
a
d
j 1
ij
2
0 , для всех i и rk(A) d - 1 Далее H0 может быть переписана в терминах
сравнений:
H 0 : 1 ... d 1 0
Пусть ˆij Sˆi (t j ) оценка для ij , где Ŝi - оценка Каплана-Мейера для
Si , i 1,..., d .
Используя сходимость:
Sˆi (t )
n
1 W 2 (t )
i
Si (t )
Где Wt – стандартный Винеровский процесс и i2 (t ) - некоторая
положительная неубывающая функция, тогда получаем сходимость
n ˆi1 i1 ,...,ˆis is N (0, i )
где ковариационная матрица i i:qr такая, что i:qr iq ir i2 (t q t r ), q, r 1,..., s
Мы используем ˆ i ,ˆ i:qr ˆiqˆirˆ i2 (t q t r ) , где ˆ i2 ( t) - состоятельная оценка i2 ( t)
Введем случайный вектор (11 ,...,1s ,..., d 1 ,..., ds ) и соответствующую
ему оценку ˆ (ˆ11 ,...,ˆ1s ,...,ˆd 1 ,...,ˆds ) , тогда
n (ˆ ) N (0, )
где diag(l11 ,..., l n d ) -блочно-дигональная матрица, li
n
, i 1,..., d
ni
(5.1)
Свяжем все aij диагональной матрицей Aij aij I s , где I s - единичная
матрица размера s и построим матрицу B размера (d 1) s ds из блоков Aij в
соответствующем порядке. Очевидно, что В является матрицей линейно
независимых сравнений, и нулевую гипотезу можно переписать в векторной
форме
H 0 : B 0
Принимая во внимание (5.1), для нулевой гипотезы получим
ˆ B) -1 B
где Q̂ B(B
nˆQ̂ -1ˆ (2d 1) s
33
Аналогичный тест может быть основан на оценке Нельсона-Аалена
i ( t) и i (t) log Si (t) при непрерывном Si (t ), i 1,..., d
Введем параметр k i (ki1 ,..., kis ) , где k ij i (t j ) .
Так как i Aki , i 1,..., d , где A матрица сравнений, тогда нулевая гипотеза
может быть переписана в виде
H 0 : 1 ... d 1 0
Используя функциональную предельную теорему для оценки НельсонаАалена, получаем, что
ˆ ( x) ( x ) W 2
ni
i
i
(x)
i
где i ( x ) является соответствующей функции дисперсии при i=1,…,d .
Тогда
2
n i kˆi1 ki1 ,..., kˆis kis N(0, ϒi)
где ковариационная матрица ϒi= i:qr , такая что i:qr i2 (t q t r ), q, r 1,..., s . Мы
используем ˆ i, ,ˆi2:qr (t q t r ) где ˆi2:qr ( x ) - состоятельная оценка i2:qr ( x ), i 1,..., d
Введем случайный вектор k̂ (kˆ11 ,..., , kˆ1s ,..., kˆd 1 ,..., kˆds ) , тогда
n k̂ k N(0, ϒ)
где ϒ=diag(l1ϒ1,…,lnϒd) -блок-диагональная матрица li
гипотеза может быть записана в следующем виде:
H0:Bk=0
В силу (5.2), получаем, что при нулевой гипотезе
где
ˆ B) -1 B
R̂ B(B ϒ
nkˆR̂ -1kˆ (2d 1) s
34
(5.2)
n
, i 1,..., d . Нулевая
ni
Список литературы
1) Fleming, T.R. & Harrington, D.P. (1991). Counting Processes and
2)
3)
4)
5)
6)
7)
8)
Survival Analysis. Wiley, New York
Липцер Р.Ш., Ширяев А.Н., Теория мартингалов, Наука, 1986,
512 с.
Лебедев В А. Мартингалы, сходимость вероятностных мер и
стохастические уравнения — М изд-во МАИ, 1996, 348 с.
Malov S.V. & O'Brien S.J (2013) On Survival Categorical Methods
with Applications in Epidemiology and AIDS Research. In Applied
Methods of Statistical Analysis. Applications in Survival Analysis,
Reliability and Quality Control. Proceedings of the International
Workshop AMSA'13 (Novosibirsk, September 25-27, 2013), 173–
180.
Кокс Д.Р., Оукс Д., Анализ данных типа времени жизни,
"Финансы и статистика" 1988, 192 c.
Andersen, P.K., Borgan, Ø., Gill, R.D. & Keiding, N. ,Statistical
Models Based on Counting Processes. Springer, New York. ,1993
Бородин А.Н., Лекции по «Случайным процессам», 2016
Ананьевский С.М., Невзоров В.Б. Теория вероятностей с
примерами и задачами: учеб. пособие СПбГУ, Издательство
2013г. 244 с.
35
Отзывы:
Авторизуйтесь, чтобы оставить отзыв