Санкт–Петербургский государственный университет
Прикладная математика и информатика
Вычислительная стохастика и статистические модели
Сальников Дмитрий Игоревич
Сравнение параметрических и непараметрических тестов с
помощью статистического моделирования
Бакалаврская работа
Научный руководитель:
д. ф.-м. н., профессор В. Б. Мелас
Рецензент:
к. ф.-м. н., доцент П. В. Шпилев
Санкт–Петербург
2016
Saint Petersburg State University
Applied Mathematics and Computer Science
Computational Stochastics and Statistical Models
Salnikov Dmitry Igorevich
Comparison of parametric and nonparametric tests with the
aid of stochastic simulation
Bachelor’s Thesis
Scientific Supervisor:
Professor V. B. Melas
Reviewer:
Associate Professor P. V. Shpilev
Saint Petersburg
2016
3
Оглавление
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Исследование эквивалентности перестановочных критериев . . . . . . .
Постановка задачи сравнения методов проверки гипотез с помощью сто
хастического моделирования . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
Введение
Глава 1.
1.1.
1.2.
Глава 2.
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
Постановка задачи
.
.
.
.
.
.
.
.
.
.
9
9
9
10
11
12
13
13
14
14
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
. . . . . . . . .
18
. . . . .
25
. . . . . . . . . . . . . . . . . . . . .
32
Анализ численных результатов
Нормальное распределение 𝑁 (𝜇, 𝜎)
Распределение Коши (𝑥0 , 𝛾) . . . .
Распределение Стьюдента 𝑡(𝑛, 𝑥0 ) .
Распределение Фишера 𝐹 (𝑑1 , 𝑑2 ) .
Бета-распределение 𝐵(𝛼, 𝛽) . . . .
Гамма-распределение 𝐺(𝑘, 𝜃) . . . .
Равномерное распределение 𝑈 (𝑎, 𝑏)
Распределение Вейбулла 𝑊 (𝑘, 𝜆) .
Резюме . . . . . . . . . . . . . . . .
Заключение
Список литературы
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Приложение А.
Табличные результаты мощности тестов
Приложение Б.
Графическое представление мощности тестов
Приложение В.
Реализация алгоритма
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
4
Введение
Задача сравнения двух распределений является классической задачей математи
ческой статистики и имеет большой теоретический и практический интерес. Хорошо
известно (см., например, [1]), что в случае, когда оба распределения являются нормаль
ными и имеют одинаковые дисперсии, классический тест Стьюдента(t-тест) обладает
рядом оптимальных свойств, но на практике распределения часто таковыми не являют
ся и, вообще говоря, неизвестны. При этом сильную конкуренцию t-тесту составляют
непараметрические тесты, важным классом которых являются тесты, основанные на
перестановках.
В работе представлены результаты исследования мощности четырех перестановоч
ных тестов, а так же тестов Стьюдента, Колмогорова-Смирнова и Манна-Уитни. Иссле
дования были проведены для широкого класса стандартных распределений, которые от
личались либо отдельными параметрами, либо сдвигом плотности, либо утяжелением
хвостов распределения.
Неперестановочные тесты были выбраны из следующих соображений: тест Кол
могорова-Смирнова — наиболее универсальный непараметрический тест, основанный,
в случае проверки однородности двух выборок, на сравнении эмпирических функций
распределения. Тест Манна-Уитни — непараметрический ранговый тест, позволяющий
выявлять различия распределений даже для малых объемов выборок и, по сообщениям
стандартных руководств, — наиболее мощный непараметрический тест в случае распре
делений, отличающихся только сдвигом.
Работа осуществлена в рамках темы СПбГУ 6.38.435.2015.
5
Глава 1
Постановка задачи
Рассмотрим уравнение регрессии
𝑋𝑖𝑗 (𝑡) = 𝑋𝑖 (𝑡) + 𝜀𝑖𝑗 (𝑡), 𝑖 = 1, 2, 𝑗 = 1, 2, . . . , 𝑛𝑖 , 𝑡 = 1, 2, . . . , 𝑁,
(1.1)
где 𝑋1 (𝑡) and 𝑋2 (𝑡) — неизвестные функции и 𝜀𝑖𝑗 (𝑡), 𝑗 = 1, . . . , 𝑛𝑖 — независимые слу
чайные величины, т.ч.
E[𝜀𝑖𝑗 (𝑡)] = 0, 𝑖 = 1, 2, 𝑗 = 1, . . . , 𝑛𝑖 , 𝑡 = 1, . . . , 𝑁,
(1.2)
и где 𝜀1𝑗 (𝑡) и 𝜀2𝑗 (𝑡) — независимые, и 𝜀𝑖𝑗 (𝑡) и 𝜀𝑖𝑗 (𝑡¯) для 𝑡 ̸= 𝑡¯ могут быть как угодно
зависимы.
Обозначим Δ(𝑡) = 𝑋2 (𝑡) − 𝑋1 (𝑡). Рассмотрим следующие нулевую и альтернатив
ную гипотезы:
𝑁
∑︁
𝐻0 :
Δ2 (𝑡)/𝑁 = 0,
(1.3)
𝑡=1
𝐻1 :
𝑁
∑︁
Δ2 (𝑡)/𝑁 ̸= 0,
(1.4)
𝑡=1
то есть 𝐻0 : 𝐹1 = 𝐹2 , где 𝐹1 , 𝐹2 - функции распределения общего вида по результатам
наблюдений
𝑋1 = {𝑋11 (𝑡), . . . , 𝑋1𝑛1 (𝑡)}, 𝑋2 = {𝑋21 (𝑡), . . . , 𝑋2𝑛2 (𝑡)}.
Для простоты обозначений и без потери общности предположим сбалансированность
выборок, т.е. 𝑛1 = 𝑛2 = 𝑛(в случае несбалансированной выборки аргументы очень
похожи).
В работе [2] для этой задачи были предложены критерии на основе норм 𝐿1 и 𝐿2 .
В недавней работе научного руководителя ([3]) было показано, что три метода пере
становок, основанные на норме 𝐿2 , эквивалентны между собой при достаточно слабых
предположениях о модели. Дадим достаточно подробное изложение этих результатов в
виду их важности для постановки задачи.
1.1. Исследование эквивалентности перестановочных критериев
Для 𝑡 = 1, 2, . . . , 𝑁 определим вектора
𝑍(𝑡, 𝜋0 ) = {𝑋11 (𝑡), . . . , 𝑋1𝑛 (𝑡), 𝑋21 (𝑡), . . . , 𝑋2𝑛 (𝑡)},
˜ 11 (𝑡), . . . , 𝑋
˜ 1𝑛 (𝑡), 𝑋
˜ 21 (𝑡), . . . , 𝑋
˜ 2𝑛 (𝑡)},
𝑍(𝑡, 𝜋𝑘 ) = {𝑋
(1.5)
(1.6)
6
˜ 1𝑖 = 𝑋2𝑗 , 𝑙 = 1, . . . , 𝑘,
𝑋
𝑙
𝑙
˜ 2𝑖 = 𝑋1𝑗 , 𝑙 = 1, . . . , 𝑘,
𝑋
𝑙
𝑙
˜
𝑋1𝑗 = 𝑋1𝑗 , 𝑗 ̸= 𝑖1 , . . . , 𝑖𝑘 ,
(1.7)
˜ 2𝑗 = 𝑋2𝑗 , 𝑗 ̸= 𝑗1 , . . . , 𝑗𝑘 ,
𝑋
где 𝜋𝑘 = 𝜋𝑘 (𝑠), 𝑠 = 1, 2, . . . , (𝐶𝑛𝑘 )2 – различные способы замены 𝑘 элементов из первой
половины на 𝑘 элементов из второй половины. Обозначим через 𝑍 = 𝑍(𝜋0 ) совокупность
векторов (1.5) при 𝑡 = 1, . . . , 𝑁 и определим на этом множестве три критерия 𝐾𝑖 =
𝐾𝑖 (𝑍), 𝑖 = 1, 2, 3,
𝐾1 (𝑍) =
𝐾2 (𝑍) =
𝑁 (︁
∑︁
𝑡=1
𝑛
∑︁
)︁2
˜ 1 (𝑡) − 𝑋
˜ 2 (𝑡) /𝑁,
𝑋
(︃
𝑖,𝑗=1
𝑁 (︁
∑︁
)︁2
˜ 1𝑖 (𝑡) − 𝑋
˜ 2𝑗 (𝑡) /𝑁
𝑋
)︃⧸︃
𝑛2 ,
𝑡=1
𝐾3 (𝑍) = 𝑛𝐾1 (𝑍)/𝑆 2 (𝑍),
где
𝑆 2 (𝑍) = 𝑆12 (𝑍) + 𝑆22 (𝑍),
(︃ 𝑛
)︃⧸︃
𝑁
∑︁
∑︁
˜ 1 (𝑡))2 /𝑛
𝑆12 (𝑍) =
(𝑋1𝑖 (𝑡) − 𝑋
𝑁,
𝑆22 (𝑍) =
𝑡=1
𝑖=1
(︃ 𝑛
𝑁
∑︁ ∑︁
𝑡=1
)︃⧸︃
˜ 2 (𝑡))2 /𝑛
(𝑋2 𝑖(𝑡) − 𝑋
𝑁.
𝑖=1
Мощность критерия 𝐾1 была изучена численными методами в работе [4]. Критерий 𝐾2
был введен в работе [2]. 𝐾3 является естественным обобщением классического 𝑡–критерия
и аналогичен критерию перестановок, который предложили работах [5] и [6]. Для 𝑍 =
𝑍(𝜋), 𝜋 = 𝜋𝑘 (𝑠), 𝑠 = 1, . . . , (𝐶𝑛𝑘 )2 , 𝑘 = 1, 2, . . . , 𝑛 функции 𝐾1 , 𝐾2 и 𝐾3 определяются те
ми же формулами с заменой 𝑍 = 𝑍(𝜋0 ) на 𝑍 = 𝑍(𝜋). Следующий алгоритм называется
перестановочный 𝐾𝑖 –тест :
∑︀
𝑘 2
∙ пусть 𝑟2 = 𝑛−1
𝑘=1 (𝐶𝑛 ) , и пусть 𝑟1 — число перестановок 𝜋 , для которых 𝐾𝑖 (𝑍(𝜋)) >
𝐾𝑖 (𝑍(𝜋0 ));
∙ если 𝑟𝑟21 > 𝛼, где 𝛼 заданный уровень значимости, то нулевая гипотеза не отвер
гается при заданном 𝛼–уровне;
∙ если
𝐻1 .
𝑟1
𝑟2
≤ 𝛼, то то нулевая гипотеза отвергается в пользу альтернативной гипотезы
Следующая теорема устанавливает эквивалентность всех трех перестановочных
𝐾𝑖 -критериев, так как каждый их них характеризуется одной и той же функцией мощ
ности.
7
([3]) Для модели, заданной уравнениями (1.1)-(1.2), критерии переста
новок 𝐾1 , 𝐾2 и 𝐾3 для проверки нулевой гипотезы 𝐻0 , заданной формулой (1.3), про
тив альтернативы 𝐻1 , заданной (1.4), эквивалентны для любой перестановки и для
любого произвольно заданного уровня значимости 𝛼.
Теорема 1.1
1.2. Постановка задачи сравнения методов проверки гипотез с
помощью стохастического моделирования
¯ 𝑖 — выборочное среднее, 𝑋𝑖𝑚𝑒𝑑 — медиана по 𝑖-той
Определим 4 статистики (𝑋
выборке)
¯1 − 𝑋
¯ 2 )2 ,
𝐾1 (𝑍) = (𝑋
𝐾4 = (𝑋1𝑚𝑒𝑑 − 𝑋2𝑚𝑒𝑑 )2 ,
𝑛
𝑛
∑︁
∑︁
𝐾5 = (
|𝑋1𝑖 − 𝑋1𝑚𝑒𝑑 | −
|𝑋2𝑖 − 𝑋2𝑚𝑒𝑑 |)2 ,
𝑖=1
𝑖=1
𝐾6 =
𝑛
∑︁
|𝑋1𝑖 − 𝑋2𝑗 |.
𝑖,𝑗=1
Под перестановочным 𝐾𝑖 -тестом проверки гипотезы 𝐻0 будем понимать следую
щий алгоритм:
∑︀
Пусть 𝑟2 = 𝑛𝑘=0 (𝐶𝑛𝑘 )2 и пусть 𝑟1 — число перестановок 𝜋𝑘 , для которых 𝐾𝑖 (𝑍(𝜋𝑘 )) >
𝐾𝑖 (𝑍(𝜋0 )), тогда, если 𝑟𝑟12 ≥ 𝛼 для 𝐾1 , 𝐾4 , 𝐾6 и 𝑟𝑟21 ≤ 1 − 𝛼 для 𝐾5 , где 𝛼 — заданный
уровень значимости, то нулевая гипотеза не отвергается.
В качестве альтернатив будем рассматривать тест Стьюдента(t.test), тест Колмого
рова-Смирнова(ks.test) и тест Манна-Уитни(wilcox.test). Тест Стьюдента рассматрива
ется как обладающий оптимальными свойствами при сравнении нормальных распреде
лений с одинаковыми дисперсиями. Тест Колмогорова-Смирнова — непараметрический
тест, основанный на выборочной функции распределения и, поэтому, наиболее универ
сальный из возможных тестов. Тест Манна-Уитни — непараметрический тест, основан
ный на рангах, который особенно эффективен в случае распределений, отличающихся
только сдвигом.
Введем следующее утверждение, взятое из готовящейся к публикации статьи на
учного руководителя, устанавливающее значение мощности тестов 𝐾1 и t.test для сим
метричных распределений с общим центром:
([7]) Для любых симметричных относительно одного и того же
центра функций распределения 𝐹1 , 𝐹2 для проверки нулевой гипотезы 𝐻0 , заданной
формулой (1.3), против альтернативы 𝐻1 , заданной (1.4), мощность теста 𝐾1 , а
также t-теста совпадает с уровнем значимости для любого произвольно заданного
уровня значимости 𝛼.
Предложение 1.1
8
Задача заключается в сравнительном анализе мощности рассматриваемых тестов
для следующих распределений:
∙ Нормальное распределение 𝑁 (𝜇, 𝜎)
∙ Распределение Коши 𝐶(𝑥0 , 𝛾)
∙ Распределение Стьюдента 𝑡(𝑛, 𝑥0 )
∙ Распределение Фишера 𝐹 (𝑑1 , 𝑑2 )
∙ Бета-распределение 𝐵(𝛼, 𝛽)
∙ Гамма-распределение Γ(𝑘, 𝜃)
∙ Равномерное распределение 𝑈 (𝑎, 𝑏)
∙ Распределение Вейбулла 𝑊 (𝑘, 𝜆)
∑︀
Всего возможно 𝑛𝑘=0 (𝐶𝑛𝑘 )2 вариантов замены элементов одной выборки на элемен
ты другой. Такое число перестановок затруднительно обработать, поэтому мы возьмем
лишь 1600 случайных вариантов. В работе [8] обнаружено, что мощность перестановоч
ных тестов при таком количестве перестановок близка к мощности тестов, использую
щих все перестановки.
В каждом эксперименте будем проводить по 𝑁 = 1000 испытаний с заданным уров
нем значимости 𝛼 для выборок объемом 𝑛 = {10, 30, 100}. Стандартная ошибка среднего
√
√
в 𝑁 испытаниях Бернулли не превосходит 0.5/ 𝑁 , в нашем случае 0.5/ 1000 = 0.0159.
Данная точность позволяет в полной мере оценить мощность тестов.
Введем следующее утверждение, оно понадобится нам для сравнения тестов, мощ
ности которых достаточно близки:
Пусть в 𝑁 экспериментах получено среднее значение мощность
𝑝1 по первому тесту и 𝑝2 по второму. Тогда, если 𝑁 достаточно велико и
Предложение 1.2.
𝑝2 > 𝑝1 + 3
𝑝1 (1 − 𝑝1 )
√
,
𝑁
то с вероятностью более чем 0.99% второй тест является более мощным, чем пер
вый.
Доказательство следует из предельной теоремы для последовательности испытаний
Бернулли. На практике это предложение оказывается верным уже при 𝑁 ≥ 100.
9
Глава 2
Анализ численных результатов
По умолчанию будем предполагать объем выборки равным 30. При объемах выбор
ки 10 и 100 иерархия мощностей тестов сохраняется, однако сама мощность меняется. В
рассмотренных ниже экспериментах(графические результаты которых можно увидеть
на рис. Б.0.1–Б.0.23 в Приложении Б) параметры подобраны так, что в точке наиболь
шего различия распределений мощность хотя бы одного теста была близка к единице.
2.1. Нормальное распределение
𝑁 (𝜇, 𝜎)
Рассмотрим изменение параметра сдвига 𝜇 от 0 до 1 с шагом 0.2(рис. Б.0.1), ко
торый также является теоретическим средним распределения. В этом случае следуем
ожидать, что t.test и его перестановочный аналог - тест 𝐾1 , будут оптимальны. Этот
вывод подтвердился численным экспериментом, однако 𝐾6 не уступает им в мощно
сти(согласно предложению 1.2, нельзя с 99% точностью утверждать, что 𝐾6 обладает
меньшей мощностью, чем 𝐾1 и t.test). Наименьшую мощность показал ks.test с разни
цей в одну или две десятых. Промежуточное место занимают тесты 𝐾4 , 𝐾5 и wilcox.test,
причем при значениях параметра 0.8 и 1 wilcox.test мощнее 𝐾4 и 𝐾5 с 99% вероятностью.
Рассмотрим изменение параметра масштаба 𝜎 от 1 до 5(рис. Б.0.2), являющегося
теоретическим стандартным отклонением. В данном случае математическое ожидание
не меняется и, согласно предложению 1.1, t.test и 𝐾1 бесполезны. Численный экспе
римент показал, что wilcox.test также бесполезен, а тесты 𝐾4 и 𝐾5 обладают низкой
мощностью. Эффективными в проверке данной гипотезы являются тесты 𝐾6 и ks.test,
однако ks.test значительно(вплоть до 0.4) уступает в мощности 𝐾6 .
Теперь загрязним нормальное распределение распределением Коши(рис. Б.0.3).
В результате загрязнения распределение будет выглядеть как смесь 95% нормального
распределения и 5% распределения Коши. Повторим первый эксперимент с изменением
первого параметра на загрязненном распределении. В результате мощности t.test и 𝐾1
снизились в сравнении с остальными тестами. Лидирующими стали 𝐾6 и wilcox.test, с
99% вероятностью они являются наиболее мощными для данных распределений. Таким
образом, при небольшом загрязнении нормального распределения t.test уже не является
оптимальным.
2.2. Распределение Коши
(𝑥0 , 𝛾)
Рассмотрим двухпараметрическое распределение Коши с параметром сдвига 𝑥0 и
параметром масштаба 𝛾 . У распределения Коши не существует математического ожи
дания, а плотность симметрична относительно прямой 𝑥 = 𝑥0 . Распределение Коши
10
бесконечно делимо, выборочное среднее выборки из такого распределения будет иметь
распределение Коши с теми же параметрами. Как следствие, можно ожидать маломощ
ность тестов 𝐾1 и t.test.
Рассмотрим изменение параметра сдвига(рис. Б.0.4). Согласно предложениям 1 и 3
работы [9], выборочная медиана распределения Коши сходится к нормальному распре
√ . Соответственно, при изменении
делению с центром 𝑥0 и стандартным отклонением 2𝜋𝛾
𝑛
параметра сдвига высокую мощность должен показывать тест 𝐾4 , сравнивающий меди
аны. В результате численного эксперимента установлено, что тесты 𝐾4 и 𝐾5 являются
наиболее мощными, а 𝐾1 и t.test практически бесполезны. После 𝐾4 и 𝐾5 наиболее мощ
ным является ks.test, за ним wilcox.test и, наконец, 𝐾6 . Таким образом, за исключением
тестов, сравнивающих средние(t.test и 𝐾1 ), 𝐾6 является наименее мощным. Эти выводы
подтверждены с помощью предложения 1.2 сравнением 99% доверительных интервалов
оценок мощностей.
Рассмотрим изменение параметра масштаба(рис. Б.0.5). Этот параметр отвечает
за высоту пика плотности распределения. При 𝛾 = 0 распределение вырождается в рас
пределение Дирака, сосредоточенное в точке 𝑥0 . В качестве 𝐹1 возьмем распределение
Коши с параметрами 𝐶(0, 1), в качестве 𝐹2 — 𝐶(0, 𝑠ℎ𝑖𝑓 𝑡), где 𝑠ℎ𝑖𝑓 𝑡 = {1, 3, 5, 7, 9}. Мож
но предположить, что в этом случае бесполезными будут тесты 𝐾1 и Стьюдента, а так
же 𝐾4 , так как 𝑥0 не меняется. Численный эксперимент подтвердил бесполезность 𝐾1
и t.test, а тесты 𝐾4 и 𝐾5 показали хоть и невысокую мощность, но не были бесполезны.
Самым мощным оказался 𝐾6 , за ним расположился ks.test, довольно сильно уступая
ему в мощности. wilcox.test полностью бесполезен.
2.3. Распределение Стьюдента
𝑡(𝑛, 𝑥0 )
Рассмотрим двухпараметрическое нецентральное распределение Стьюдента с чис
лом степеней свободы 𝑛 и параметром сдвига 𝑥0 . У этого распределения существуют
моменты порядка 𝑘 < 𝑛, где 𝑛 – число степеней свободы. Плотность симметрична отно
сительно прямой 𝑥 = 𝑥0 .
Рассмотрим изменение параметра сдвига(рис. Б.0.6). Выборочное среднее являет
ся состоятельной оценкой 𝑥0 . Будем рассматривать распределение с 𝑛 = 3 степенями
свободы, чтобы существовали первые два момента. 𝑥0 будем менять от 0 до 2 с шагом
0.5. Численный эксперимент показал, что с 99% вероятностью 𝐾6 и wilcox.test являются
наиболее мощными, а ks.test — наименее мощным, однако разница мощности составляет
всего 5-7%.
Рассмотрим изменение количества степеней свободы(рис. Б.0.7). При 𝑛 → ∞ рас
пределение слабо сходится к стандартному нормальному распределению, уже при 𝑛 =
30 его можно приближенно считать нормальным. При 𝑛 = 1 распределение совпадает
со стандартным распределением Коши. Будем сравнивать 𝑡(1, 0) с 𝑡(𝑠ℎ𝑖𝑓 𝑡, 0), 𝑠ℎ𝑖𝑓 𝑡 =
{1, 2, 3, 4, 5, 6}, так как при маленьких степенях свободы распределение различается луч
11
ше всего. Будем брать выборки из ста элементов для общего увеличения мощности. В
результате только 𝐾6 различает распределения, остальные тесты бесполезны. При объ
еме выборки 30 при сравнении распределений 𝑡(1, 0) и предельного при 𝑛 → ∞ 𝑁 (0, 1)
мощность 𝐾6 равна приблизительно 0.5.
2.4. Распределение Фишера
𝐹 (𝑑1 , 𝑑2 )
Случайная величина, распределенная по Фишеру, определяется как отношение
двух случайных величин, имеющих распределение хи-квадрат:
𝑌𝑖 ∼ 𝜒2 (𝑑𝑖 ), 𝑖 = 1, 2,
тогда
𝐹 =
𝐸=
𝑑2
, если 𝑑2 > 2,
𝑑2 −2
2𝑑22 (𝑑1 +𝑑2 −2)
, если
𝑑1 (𝑑2 −2)2 (𝑑2 −4)
𝑌1 /𝑑1
∼ 𝐹 (𝑑1 , 𝑑2 ).
𝑌2 /𝑑2
𝑑2 > 4,
𝐷=
Формально, математическое ожидание может быть любым числом, большим еди
ницы, однако дисперсия конечна только при математическом ожидании от 1 до 2. Ес
ли устремить оба параметра к ∞, то распределение сосредоточится в точке 𝑥 = 1. В
численных экспериментах будем брать объем выборки 𝑛 = 100, так как плотность с
изменением параметров меняется слабо.
Попробуем менять второй параметр 𝑑2 = {2, 4, 6, 8, 10} при зафиксированном пер
вом 𝑑1 = 10(рис. Б.0.8). Самыми мощными оказались 𝐾1 и 𝐾6 (с 99% вероятностью они
равномощны), остальные тесты значительно уступают этим в мощности. Среди осталь
ных тестов наиболее мощными являются t.test при 𝑑2 = {3, 4, 5} и ks.test при 𝑑2 = {6}(с
увеличением 𝑑2 математическое ожидание сходится к 1).
Теперь будем менять первый параметр, зафиксировав второй: 𝐹 (2, 10) vs 𝐹 (𝑠ℎ𝑖𝑓 𝑡, 10),
𝑠ℎ𝑖𝑓 𝑡 = {2, 4, 6, 8, 10}(рис. Б.0.9). В этом случае математическое ожидание не меняет
ся и согласно предложению 1.1 𝐾1 и t.test бесполезны. Самым мощным оказался тест
Колмогорова-Смирнова(с 99% вероятностью он самый мощный для данных распределе
ний). Среди остальных тестов наиболее мощным является 𝐾6 , уступая ks.test примерно
15% мощности. wilcox.test при 𝑑1 = {4} немного мощнее 𝐾6 , однако при больших зна
чениях параметра сильно уступает ему. 𝐾4 и 𝐾5 показывают низкую мощность, но не
бесполезны.
Зафиксируем дисперсию равной 2.82 и будем менять математическое ожидание от
1.1 до 1.5 с шагом 0.1(рис. Б.0.10). Тогда параметры будут 𝑑1 = {1, 1.46, 2.3, 4.31, 15.7},
𝑑2 = {22, 12, 8.67, 7, 6}. На графике по оси абсцисс отмечена разница средних. Самыми
мощными с 99% вероятностью оказались тесты Колмогорова-Смирнова и Манна-Уит
ни, причем, с той же вероятностью, при разнице средних меньше 0.2 wilcox.test мощнее
ks.test, а при разнице больше 2 — наоборот, ks.test мощнее wilcox.test. За ними располо
жились перестановочные тесты 𝐾4 , 𝐾5 и 𝐾6 , причем с 99% вероятностью при разнице
12
средних 0.1 и 0.2 𝐾4 и 𝐾5 мощнее 𝐾6 , а при разнице средних 0.3 и 0.4 — 𝐾6 мощнее 𝐾4
и 𝐾5 . Тесты 𝐾1 и t.test показывают низкую мощность, видимо из-за того, что средние
меняются слишком медленно(напомним, что в данном случае задача стояла изменять
математическое ожидание не меняя дисперсию с учетом того, что дисперсия существу
ет, а это возможно только если математическое ожидание лежит в интервале от 1 до
2).
2.5. Бета-распределение
𝐵(𝛼, 𝛽)
𝛼
𝐸 = 𝛼+𝛽
𝐷 = (𝛼+𝛽)2𝛼𝛽
(𝛼+𝛽+1)
В силу того, что дисперсия уменьшается с ростом параметров, интереснее рассмат
ривать небольшие их значения.
Рассмотрим бета-распределение с равными параметрами 𝐵(𝛼, 𝛼)(рис. Б.0.11, Б.0.12).
В этом случае распределение симметрично относительно математического ожидания,
при любом значении 𝛼 математическое ожидание равно 12 , причем при 𝛼 < 1 плотность
выпукла, при 𝛼 > 1 - вогнута, при 𝛼 = 1 - совпадает с плотностью равномерного на
1
(0, 1) распределения. Дисперсия по прямой 𝛼 = 𝛽 равна 8𝛼+4
и стремится к нулю при
𝛼 → +∞. При 𝛼 → 0 распределение сосредотачивается в двух точках: 0 и 1. Так как
математическое ожидание не меняется при изменении параметров, t.test и 𝐾1 бесполез
ны. Сравним мощности оставшихся тестов на распределениях 𝐵(1, 1) vs 𝐵(𝑠ℎ𝑖𝑓 𝑡, 𝑠ℎ𝑖𝑓 𝑡),
где 𝑠ℎ𝑖𝑓 𝑡 = {0.1, 0.2, 0.4, 0.6, 1, 2, 4, 6, 8, 10}. В результате численного эксперимента наи
большую мощность показали тесты 𝐾6 и ks.test, причем при 𝑠ℎ𝑖𝑓 𝑡 < 1 тест Колмо
горова-Смирнова мощнее 𝐾6 . Тесты 𝐾4 и 𝐾5 показали низкую мощность, wilcox.test
бесполезен.
Теперь рассмотрим несимметричный случай. Плотности бета-распределений 𝐵(𝛼, 𝛽)
и 𝐵(𝛽, 𝛼) симметричны относительно прямой 𝑥 = 0.5, вследствие этого мощности тестов
для симметричных параметров должны совпадать. Свойство плотности бета-распреде
ления таково, что уменьшая первый параметр мы сдвигаем плотность ближе к нулю,
уменьшая второй — к единице. Поэтому уменьшение первого параметра в каком-то
смысле эквивалентно увеличению второго. В силу этого рассмотрим следующую мо
дель: будем сравнивать 𝐵(1, 2) с 𝐵(1 + 𝑠ℎ𝑖𝑓 𝑡, 2) и с 𝐵(1, 2 + 𝑠ℎ𝑖𝑓 𝑡), 𝑠ℎ𝑖𝑓 𝑡 > 0. Первый па
раметр будем менять от 1 до 3 с шагом 0.5, второй - от 2 до 6 с шагом 1, математического
ожидания в этих случаях будут {0.33, 0.43, 0.50, 0.56, 0.60} и {0.33, 0.25, 0.20, 0.17, 0.14}
соответственно.
При изменении первого параметра(рис. Б.0.13) самыми мощными оказались тесты
𝐾6 , wilcox.test, 𝐾1 и t.test, наименее мощным — ks.test, уступая примерно 0.05 мощно
сти, что дает основания считать его менее мощными с 99% вероятностью.
При изменении второго параметра(рис. Б.0.14) тесты 𝐾1 , t.test и 𝐾6 являются
наиболее мощными, wilcox.test немного уступает им. Как и в предыдущем случае, ks.test
13
является наименее мощным с 99% вероятностью.
2.6. Гамма-распределение
𝐺(𝑘, 𝜃)
Рассмотрим двухпараметрическое гамма-распределение с математическое ожида
нием 𝑘 и дисперсией 𝑘𝜃2 . При 𝜃 = 1 распределение совпадает с экспоненциальным.
Рассмотрим изменение первого параметра(рис. Б.0.15). Будем сравнивать 𝐺(1, 2) c
𝐺(𝑠ℎ𝑖𝑓 𝑡, 2), 𝑠ℎ𝑖𝑓 𝑡 = {1, 1.25, 1.5, 1.75, 2}. Эмпирически wilcox.test оказался мощнее 𝐾6 и,
согласно предложению 1.2, можно с 99% вероятностью утверждать, что wilcox.test на
самом деле мощнее 𝐾6 . Наименее мощным оказался ks.test, однако разница мощности
ks.test и wilcox.test не превышает 0.15, остальные тесты равномощны.
При изменении второго параметра(рис. Б.0.16) наибольшую мощность показыва
ют 𝐾1 , 𝐾6 и t.test, за ними идет wilcox.test, наименее мощный - ks.test. Эти выводы
подтверждаются сравнением 99% доверительных интервалов на основании предложе
ния 1.2.
Теперь зафиксируем дисперсию равной 2 и будем менять математическое ожидание
от 1 до 3, тогда 𝑘 = {0.5, 2, 4.5, 8, 12.5}, 𝜃 = {2, 1, 0.67, 0.5, 0.4}(рис. Б.0.17). Наибольшей
мощностью с 99% вероятностью обладает wilcox.test. Тесты 𝐾4 , 𝐾5 , 𝐾6 и ks.test при
мерно равномощны и немного уступают wilcox.test в мощности, 𝐾1 и t.test наименее
мощные.
Наконец, зафиксируем математическое ожидание равным 2 и будем менять диспер
сию от 1 до 5, тогда 𝑘 = {4, 2, 1.33, 1, 0.8}, 𝜃 = {0.5, 1, 1.5, 2, 2.5}(рис. Б.0.18). Согласно
предложению 1.1, 𝐾1 и t.test бесполезны. В этом эксперименте наибольшую мощность
показывает 𝐾6 , ks.test уступает ему примерно на 7-8%(что дает основания считать 𝐾6
наиболее мощным с 99% вероятностью), остальные тесты показывают значительно мень
шую мощность.
2.7. Равномерное распределение
𝑈 (𝑎, 𝑏)
Распределение имеет константную плотность на носителе (𝑎, 𝑏). В качестве 𝐹1 возь
мем 𝑈 (0, 1) и проведем 3 эксперимента: будем сдвигать носитель распределения вправо,
расширять его в обе стороны и расширять только в право.
При сдвиге(рис. Б.0.19) наибольшей мощностью обладают тесты 𝐾1 и t.test, немно
го уступают им в мощности wilcox.test и 𝐾6 , остальные тесты имеют значительно мень
шую мощность. Можно с 99% вероятностью говорить, что 𝐾1 и t.test в этом эксперимен
та являются наиболее мощными и что wilcox.test мощнее 𝐾6 , хотя разница в мощности
чрезвычайно мала.
При расширении носителя(меняем дисперсию сохраняя математическое ожидание,
рис. Б.0.20) наибольшей мощностью обладает 𝐾6 , ему уступает ks.test в среднем на 0.4,
остальные тесты практически бесполезны.
14
При увеличении правой границы интервала(рис. Б.0.21) наиболее мощными явля
ются тесты 𝐾6 , 𝐾1 и t.test(приближенно их можно считать равномощными). Им усту
пают ks.test и wilcox.test. Наименьшей мощностью обладают тесты 𝐾4 и 𝐾5 .
2.8. Распределение Вейбулла
𝑊 (𝑘, 𝜆)
Рассмотрим двухпараметрическое распределение Вейбулла с коэффициентом фор
мы 𝑘 и коэффициентом масштаба 𝜆. Функция распределения выглядит как 𝐹 (𝑥) = 1 −
𝑘
𝑒−(𝑥/𝜆) , а математическое ожидание и дисперсия как 𝐸 = 𝜆Γ(1+ 𝑘1 ), 𝐷 = 𝜆2 Γ(1+ 𝑘2 )−𝐸 2 .
При изменении первого параметра от 1 до 5 при значении второго 3(рис. Б.0.22)
наиболее мощным является тест 𝐾6 , ks.test значительно уступает ему в мощности, 𝐾1
и t.test бесполезны, остальные тесты имеют низкую мощность.
При изменении второго параметра от 1 до 3 с шагом 0.5 при значении первого
параметра 1(рис. Б.0.23) наиболее мощными оказались тесты 𝐾1 , 𝐾6 и t.test, это под
тверждают 99% доверительные интервалы. Наименее мощным является ks.test, уступая
в мощности примерно 2 сотых. Среди оставшихся тестов wilcox.test оказался мощнее
𝐾4 и 𝐾5 .
2.9. Резюме
Согласно полученным результатам, среди рассмотренных перестановочных тестов
наибольшую мощность имеет тест 𝐾6 . При сдвиге плотности он не уступает тесту 𝐾1 ,
а тестам 𝐾4 и 𝐾5 уступает только при изменении параметра сдвига распределения
Коши(рис. Б.0.4).
𝐾6 также мощнее неперестановочных тестов за исключением ряда случаев. В тех
же случаях, когда 𝐾6 уступает неперестановочным тестам — при изменении парамет
ра сдвига распределения Коши(рис. Б.0.4), при изменении первого параметра распре
деления Фишера и при изменении математического ожидания без изменения диспер
сии распределения Фишера(рис. Б.0.9, Б.0.10), при одновременном уменьшении обоих
параметров бета-распределения(рис. Б.0.11), при изменении первого параметра гамма
распределения и при изменении математического ожидания без изменения дисперсии
гамма-распределения(рис. Б.0.15, Б.0.17) — разница в мощности не превышает две де
сятых. Особенно велико преимущество теста 𝐾6 в случае симметричных распределений
с общим центром(рис. Б.0.2, Б.0.5, Б.0.7, Б.0.12, Б.0.18, Б.0.20).
Табличные результаты мощности тестов вы можете увидеть в Приложении А, туда
включено большинство рассмотренных выше экспериментов. Они получены для выбо
рок объемом 𝑛 = {10, 30, 100} для лучшего среди перестановочных тестов — 𝐾6 , и
неперестановочных тестов.
Графические результаты представлены в приложении Б, они иллюстрируют все
описанные в этой главе эксперименты. Параметр 𝑠ℎ𝑖𝑓 𝑡 — фиктивная переменная, обо
15
значающая изменение одного из параметров распределения(смотри заголовки над гра
фиками). Если под осью абсцисс написано 𝑚𝑒𝑎𝑛 𝑑𝑖𝑓 𝑓 𝑒𝑟𝑒𝑛𝑐𝑒 это значит, что по оси абс
цисс отложено изменение математического ожидания при неизменной дисперсии, если
написано 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑖𝑓 𝑓 𝑒𝑟𝑒𝑛𝑐𝑒 — изменение дисперсии при неизменном математическом
ожидании.
С помощью таблиц можно посмотреть на полученные точные значения мощности
тестов, в то время как графические результаты направлены на сравнительный их ана
лиз.
16
Заключение
Стохастическое моделирование является универсальным методом исследования,
который позволяет оценивать эффективность статистических процедур в случаях, ко
гда это не удается сделать аналитическими методами.
В работе были реализованы алгоритм и программа для численного исследования
мощности перестановочных тестов и классических тестов Стьюдента, Колмогорова
Смирнова и Манна-Уитни для решения задачи проверки гипотезы о равенстве двух
распределений. Полученные результаты представлены в виде таблиц мощностей и с
помощью графиков. Таблицы мощностей позволяют увидеть точные результаты моде
лирования, а графики — наглядно сравнить мощности тестов.
Опираясь на полученные численные результаты можно заключить, что тест, осно
ванный на сумме модулей разностей элементов двух выборок, в большинстве случаев
превосходит по мощности все другие рассмотренные тесты. Особенно велико преиму
щество этого теста, если центры сравниваемых распределений совпадают.
Среди неперестановочных тестов тест Колмогорова-Смирнова является наиболее
универсальным, его разумно использовать в случае, когда нет никакой априорной ин
формации о распределениях. В случае только сдвига плотности он уступает в мощности
тесту Манна-Уитни в среднем 10% мощности, однако при отсутствии сдвига преимуще
ство теста Колмогорова-Смирнова очень велико.
17
Список литературы
1. Леман Э. Проверка статистических гипотез. — M. : Наука, 1979. — 408 с.
2. Sirsky M. On the Statistical Analysis of Functional Data Arasing from Designed
Experiments : Ph. D. thesis / M. Sirsky ; University of Manitoba. — 2012.
3. New insights on permutation approach for hypothesis testing on functional data /
L. Corain, V. Melas, A. Pepelyshev, L. Salmaso // Advances in Data Analysis and
Classification. — 2013. — P. 1–18.
4. Statistical methods for comparative phenomics using high-throughput phenotype
microarrays / J. Sturino, I. Zorych, B. Mallick et al. // The International Journal of
Biostatistics. — 2010. — Vol. 6. — P. 3–4.
5. Cox D., Lee J. Pointwise testing with functional data using the Westfall-Young randomization method // Biometrika. — 2008. — Vol. 95. — P. 621–634.
6. Ramsay J., Hooker G., Graves S. Functional Data Analysis with R and Matlab. — 2009.
7. Мелас В.Б., Сальников Д.И., Гудулина А.О. Численное сравнение перестановочных
и классических методов проверки статистических гипотез // Вестник СПбГУ, сер.1,
вып.3. — готовится к публикации.
8. Keller-McNulty S., Higgins J. Effect of tail weight and outliers on power and type-I error
of robust permutation tests for location // Communications in Statistics - Simulation
and Computation. — 1987. — Vol. 16. — P. 17–35.
9. Некоторые оценки параметров распределения Коши / Е.Д. Галкина, С.В. Лещева,
Н.С. Лукичев, В.Е. Рыков // Труды НГТУ им. Р.Е. Алексеева №3. — 2015.
10. Edgington E. S. Approximate randomization tests // The Journal of Psychology. —
1969. — Vol. 72. — P. 143–149.
11. Good P. I. Resampling Methods: A Practical Guide to Data Analysis. — 3 edition. —
Birkhauser, 2006.
18
Приложение А
Табличные результаты мощности тестов
Таблица А.1: Мощность тестов для выборок размера 𝑛 = 10
Distr
F1
F2
Normal
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Normal
(0, 1)
95% Normal
5% Cauchy
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Cauchy
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Cauchy
(0, 1)
Beta
(2, 2)
(2, 2)
(1.8, 2)
(1.6, 2)
(1.4, 2)
(1.2, 2)
Beta
(2, 2)
(2, 2)
(2, 1.8)
(0,
(0,
(0,
(0,
(0,
(0,
(0,
(0,
(0,
(0,
(0,
1)
2)
3)
4)
5)
6)
1)
2)
3)
4)
5)
𝐾6
0.056
0.209
0.593
0.905
0.987
0.048
0.135
0.321
0.543
0.688
0.795
0.051
0.198
0.546
0.849
0.96
0.056
0.121
0.199
0.383
0.521
0.049
0.095
0.168
0.262
0.333
0.056
0.073
0.11
0.166
0.25
0.055
0.073
t.test
ks.test
wilcox.test
0.05
0.18
0.552
0.9
0.985
0.012
0.053
0.237
0.588
0.854
0.037
0.151
0.519
0.857
0.973
0.05
0.047
0.053
0.058
0.048
0.051
0.015
0.018
0.058
0.088
0.11
0.125
0.046
0.04
0.064
0.068
0.071
0.075
0.051
0.153
0.448
0.762
0.879
0.014
0.047
0.206
0.509
0.794
0.049
0.146
0.436
0.794
0.944
0.022
0.034
0.065
0.121
0.184
0.015
0.042
0.11
0.229
0.38
0.044
0.083
0.182
0.324
0.457
0.02
0.022
0.023
0.02
0.019
0.013
0.02
0.036
0.039
0.06
0.036
0.049
0.044
0.058
0.065
0.054
0.055
0.094
0.139
0.216
0.008
0.013
0.025
0.044
0.056
0.038
0.05
0.076
0.121
0.187
0.047
0.054
0.014
0.01
0.044
0.037
19
(2, 1.6)
(2, 1.4)
(2, 1.2)
0.104
0.148
0.249
0.086
0.12
0.208
0.025
0.037
0.07
0.07
0.098
0.192
Gamma
(2, 2)
(2, 2)
(1.8, 2)
(1.6, 2)
(1.4, 2)
(1.2, 2)
0.055
0.069
0.119
0.19
0.35
0.038
0.051
0.093
0.146
0.273
0.011
0.023
0.026
0.052
0.115
0.039
0.047
0.076
0.153
0.292
Gamma
(2, 2)
(2, 2)
(2, 1.8)
(2, 1.6)
(2, 1.4)
(2, 1.2)
0.056
0.065
0.112
0.185
0.344
0.044
0.05
0.088
0.144
0.285
0.011
0.015
0.029
0.038
0.096
0.038
0.043
0.077
0.129
0.261
Fisher
(1, 4)
(1,
(2,
(3,
(4,
(5,
(6,
4)
4)
4)
4)
4)
4)
0.05
0.09
0.111
0.128
0.12
0.138
0.02
0.027
0.042
0.056
0.041
0.056
0.014
0.029
0.044
0.068
0.05
0.081
0.041
0.068
0.108
0.152
0.135
0.167
Fisher
(1, 6)
(1,
(1,
(1,
(1,
(1,
(1,
6)
5)
4)
3)
2)
1)
0.049
0.082
0.074
0.098
0.106
0.276
0.027
0.035
0.028
0.033
0.024
0.026
0.012
0.011
0.009
0.022
0.01
0.039
0.044
0.056
0.044
0.068
0.048
0.109
Fisher
(6, 6)
(6,
(5,
(4,
(3,
(2,
(1,
6)
5)
4)
3)
2)
1)
0.053
0.068
0.072
0.098
0.132
0.336
0.031
0.036
0.034
0.032
0.03
0.024
0.017
0.02
0.016
0.016
0.021
0.046
0.038
0.044
0.043
0.04
0.043
0.048
Student
(1, 0)
(1, 0)
(1, 0.2)
(1, 0.4)
(1, 0.6)
(1, 0.8)
(1, 1)
0.051
0.106
0.129
0.21
0.324
0.425
0.02
0.035
0.042
0.063
0.122
0.171
0.01
0.029
0.026
0.052
0.135
0.205
0.035
0.086
0.083
0.171
0.284
0.392
Student
(1, 0)
(1, 0)
(2, 0)
(3, 0)
0.047
0.098
0.114
0.029
0.03
0.029
0.012
0.014
0.008
0.044
0.049
0.039
20
(4, 0)
(5, 0)
(6, 0)
Uniform
(0, 1)
Weibull
(1, 3)
(0,
(0.1,
(0.2,
(0.3,
(0.4,
0)
0.1)
0.2)
0.3)
0.4)
(1, 3)
(1, 2.5)
(1, 2)
(1, 1.5)
(1, 1)
0.078
0.114
0.116
0.022
0.028
0.03
0.012
0.017
0.017
0.036
0.052
0.058
0.046
0.1
0.293
0.549
0.807
0.061
0.095
0.287
0.557
0.822
0.01
0.019
0.063
0.166
0.377
0.05
0.08
0.239
0.476
0.734
0.048
0.074
0.162
0.336
0.627
0.038
0.047
0.126
0.241
0.507
0.01
0.013
0.04
0.089
0.23
0.029
0.043
0.103
0.227
0.485
Таблица А.2: Мощность тестов для выборок размера 𝑛 = 30
Distr
F1
F2
Normal
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Normal
(0, 1)
(0, 1)
(0, 1.5)
(0, 2)
(0, 2.5)
(0, 3)
(0, 3.5)
95% Normal
5% Cauchy
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Cauchy
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Cauchy
(0, 1)
(0, 1)
(0, 2)
𝐾6
0.052
0.457
0.958
0.999
1
0.055
0.141
0.475
0.824
0.945
0.992
0.045
0.421
0.924
0.999
1
0.043
0.138
0.403
0.647
0.874
0.056
0.192
t.test
ks.test
wilcox.test
0.046
0.481
0.966
0.999
1
0.043
0.32
0.874
0.999
1
0.045
0.448
0.963
0.999
1
0.054
0.041
0.036
0.05
0.051
0.058
0.032
0.072
0.183
0.347
0.512
0.664
0.048
0.052
0.053
0.067
0.068
0.065
0.05
0.335
0.765
0.884
0.929
0.053
0.297
0.819
0.993
1
0.063
0.405
0.922
0.999
1
0.021
0.037
0.082
0.128
0.224
0.033
0.185
0.557
0.859
0.976
0.043
0.185
0.518
0.78
0.945
0.025
0.02
0.04
0.098
0.068
0.05
21
(0, 3)
(0, 4)
(0, 5)
0.407
0.618
0.777
0.015
0.015
0.018
0.206
0.362
0.489
0.051
0.065
0.07
Beta
(2, 2)
(2, 2)
(1.8, 2)
(1.6, 2)
(1.4, 2)
(1.2, 2)
0.053
0.09
0.141
0.297
0.527
0.054
0.089
0.146
0.288
0.532
0.036
0.048
0.095
0.191
0.379
0.054
0.082
0.142
0.286
0.531
Beta
(2, 2)
(2, 2)
(2, 1.8)
(2, 1.6)
(2, 1.4)
(2, 1.2)
0.053
0.068
0.142
0.314
0.542
0.054
0.07
0.139
0.302
0.543
0.032
0.043
0.099
0.225
0.401
0.051
0.066
0.137
0.302
0.536
Gamma
(2, 2)
(2, 2)
(1.8, 2)
(1.6, 2)
(1.4, 2)
(1.2, 2)
0.052
0.106
0.228
0.459
0.754
0.051
0.089
0.215
0.42
0.705
0.033
0.063
0.162
0.331
0.631
0.046
0.108
0.247
0.49
0.779
Gamma
(2, 2)
(2, 2)
(2, 1.8)
(2, 1.6)
(2, 1.4)
(2, 1.2)
0.053
0.068
0.219
0.472
0.77
0.058
0.07
0.205
0.489
0.79
0.043
0.051
0.124
0.309
0.578
0.056
0.064
0.191
0.443
0.727
Fisher
(1, 4)
(1,
(2,
(3,
(4,
(5,
(6,
4)
4)
4)
4)
4)
4)
0.05
0.085
0.157
0.173
0.212
0.252
0.026
0.037
0.052
0.051
0.054
0.069
0.029
0.141
0.31
0.399
0.49
0.577
0.042
0.178
0.322
0.401
0.444
0.485
Fisher
(1, 6)
(1,
(1,
(1,
(1,
(1,
(1,
6)
5)
4)
3)
2)
1)
0.049
0.048
0.057
0.1
0.234
0.741
0.035
0.035
0.036
0.05
0.086
0.094
0.04
0.037
0.043
0.037
0.066
0.213
0.051
0.053
0.049
0.056
0.095
0.258
Fisher
(6, 6)
(6,
(5,
(4,
(3,
(2,
6)
5)
4)
3)
2)
0.057
0.066
0.092
0.177
0.464
0.043
0.042
0.054
0.089
0.133
0.029
0.032
0.045
0.073
0.142
0.049
0.055
0.051
0.057
0.047
22
(1, 1)
0.902
0.091
0.466
0.062
(1, 0)
(1, 0.2)
(1, 0.4)
(1, 0.6)
(1, 0.8)
(1, 1)
0.057
0.093
0.185
0.385
0.602
0.733
0.02
0.033
0.07
0.143
0.231
0.298
0.043
0.072
0.188
0.395
0.64
0.806
0.043
0.112
0.251
0.475
0.73
0.887
0)
0)
0)
0)
0)
0)
0.046
0.124
0.238
0.284
0.323
0.333
0.011
0.023
0.023
0.019
0.014
0.016
0.03
0.039
0.049
0.044
0.047
0.057
0.037
0.04
0.06
0.042
0.044
0.051
0)
0.1)
0.2)
0.3)
0.4)
0.044
0.209
0.702
0.964
0.999
0.038
0.253
0.772
0.981
1
0.032
0.118
0.423
0.832
0.984
0.037
0.25
0.724
0.955
0.997
0.053
0.103
0.335
0.703
0.987
0.043
0.093
0.321
0.707
0.984
0.027
0.054
0.177
0.464
0.881
0.045
0.089
0.274
0.608
0.95
Student
(1, 0)
Student
(1, 0)
(1,
(2,
(3,
(4,
(5,
(6,
Uniform
(0, 1)
(0,
(0.1,
(0.2,
(0.3,
(0.4,
Weibull
(1, 3)
(1, 3)
(1, 2.5)
(1, 2)
(1, 1.5)
(1, 1)
Таблица А.3: Мощность тестов для выборок размера 𝑛 = 100
Distr
F1
F2
Normal
(0, 1)
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
Normal
(0, 1)
(0, 1)
(0, 1.3)
(0, 1.6)
(0, 1.9)
(0, 2.2)
(0, 2.5)
95% Normal
5% Cauchy
(0, 1)
(0, 1)
(0.5, 1)
𝐾6
0.047
0.92
1
1
1
0.053
0.21
0.74
0.985
0.999
1
0.056
0.889
t.test
ks.test
wilcox.test
0.053
0.94
1
1
1
0.036
0.821
0.999
1
1
0.047
0.929
1
1
1
0.051
0.048
0.045
0.051
0.053
0.049
0.035
0.089
0.345
0.687
0.913
0.988
0.058
0.043
0.049
0.054
0.074
0.064
0.041
0.63
0.048
0.802
0.058
0.897
23
(1, 1)
(1.5, 1)
(2, 1)
1
0.999
1
0.853
0.902
0.936
1
1
1
1
1
1
(0, 1)
(0.5, 1)
(1, 1)
(1.5, 1)
(2, 1)
0.052
0.264
0.789
0.988
0.995
0.03
0.033
0.072
0.13
0.207
0.035
0.53
0.982
1
1
0.054
0.485
0.958
0.997
1
0.044
0.495
0.898
0.974
0.987
0.025
0.015
0.026
0.016
0.016
0.045
0.348
0.855
0.983
0.998
0.049
0.043
0.058
0.069
0.05
Cauchy
(0, 1)
Cauchy
(0, 1)
Beta
(2, 2)
(2, 2)
(1.8, 2)
(1.6, 2)
(1.4, 2)
(1.2, 2)
0.055
0.126
0.401
0.746
0.969
0.051
0.135
0.409
0.772
0.967
0.034
0.079
0.273
0.621
0.922
0.048
0.125
0.4
0.772
0.968
Beta
(2, 2)
(2, 2)
(2, 1.8)
(2, 1.6)
(2, 1.4)
(2, 1.2)
0.056
0.12
0.371
0.745
0.967
0.052
0.132
0.391
0.756
0.962
0.042
0.081
0.267
0.638
0.918
0.054
0.122
0.373
0.754
0.964
Gamma
(2, 2)
(2, 2)
(1.8, 2)
(1.6, 2)
(1.4, 2)
(1.2, 2)
0.043
0.203
0.587
0.937
0.998
0.048
0.187
0.557
0.907
0.989
0.031
0.161
0.516
0.866
0.995
0.052
0.209
0.641
0.952
0.999
Gamma
(2, 2)
(2, 2)
(2, 1.8)
(2, 1.6)
(2, 1.4)
(2, 1.2)
0.048
0.178
0.587
0.921
0.996
0.044
0.194
0.635
0.94
0.998
0.024
0.107
0.389
0.816
0.984
0.045
0.174
0.556
0.907
0.994
Fisher
(1, 4)
(1,
(2,
(3,
(4,
(5,
(6,
4)
4)
4)
4)
4)
4)
0.054
0.156
0.392
0.581
0.735
0.811
0.046
0.039
0.053
0.057
0.06
0.062
0.036
0.493
0.864
0.97
0.989
0.994
0.046
0.446
0.719
0.845
0.896
0.93
Fisher
(1, 6)
(1, 6)
0.053
0.048
0.032
0.045
(0,
(0,
(0,
(0,
(0,
1)
2)
3)
4)
5)
24
(1,
(1,
(1,
(1,
(1,
5)
4)
3)
2)
1)
0.062
0.086
0.223
0.68
1
0.05
0.079
0.177
0.384
0.21
0.037
0.052
0.059
0.167
0.84
0.05
0.068
0.07
0.228
0.74
(6,
(5,
(4,
(3,
(2,
(1,
6)
5)
4)
3)
2)
1)
0.046
0.075
0.201
0.613
0.971
1
0.04
0.067
0.142
0.359
0.532
0.229
0.034
0.047
0.078
0.198
0.669
0.999
0.038
0.059
0.053
0.048
0.039
0.064
0.048
0.168
0.463
0.813
0.958
0.988
0.024
0.05
0.123
0.232
0.362
0.439
0.049
0.192
0.576
0.918
0.995
1
0.055
0.252
0.658
0.957
0.998
1
0)
0)
0)
0)
0)
0)
0.04
0.494
0.816
0.894
0.946
0.967
0.026
0.02
0.022
0.015
0.019
0.028
0.038
0.059
0.096
0.106
0.149
0.159
0.045
0.051
0.053
0.05
0.044
0.058
0)
0.1)
0.2)
0.3)
0.4)
0.041
0.622
0.996
1
1
0.043
0.693
0.998
1
1
0.024
0.363
0.977
1
1
0.043
0.665
0.993
1
1
0.055
0.214
0.78
0.997
1
0.05
0.237
0.801
0.999
1
0.037
0.11
0.559
0.959
1
0.056
0.178
0.687
0.986
1
Fisher
(6, 6)
Student
(1, 0)
Student
(1, 0)
(1,
(2,
(3,
(4,
(5,
(6,
Uniform
(0, 1)
(0,
(0.1,
(0.2,
(0.3,
(0.4,
Weibull
(1, 3)
(1, 0)
(1, 0.2)
(1, 0.4)
(1, 0.6)
(1, 0.8)
(1, 1)
(1, 3)
(1, 2.5)
(1, 2)
(1, 1.5)
(1, 1)
25
Приложение Б
Графическое представление мощности тестов
1.0
0.6
0.2
Power
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.0
0.2
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1
2
3
shift
Рис. Б.0.1. Нормальное распределение
5
Рис. Б.0.2. Нормальное распределение
1.0
N(0, 1) vs N(shift, 1)
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.2
Power
4
shift
0.0
Power
N(0, 1) vs N(0, shift)
0.4
1.0
N(0, 1) vs N(shift, 1)
0.0
0.2
0.4
0.6
0.8
1.0
shift
Рис. Б.0.3. Загрязненное нормальное распре
деление
26
1.0
0.6
0.8
K_4
K_5
K_6
ks.test
0.0
0.0
0.2
0.4
Power
0.6
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.2
Power
Cauchy(0, 1) vs Cauchy(0, shift)
0.4
1.0
Cauchy(0, 1) vs Cauchy(shift, 1)
0.0
0.5
1.0
1.5
2.0
2
4
shift
Рис. Б.0.4. Распределение Коши
1.0
1.5
2.0
Рис. Б.0.6. Распределение Стьюдента
K_4
K_5
K_6
wilcox.test
ks.test
0.0
0.2
0.4
0.6
0.8
1.0
shift
Power
1.0
0.8
0.6
0.4
0.2
0.0
Power
t(1, 0) vs t(shift, 0)
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.5
8
Рис. Б.0.5. Распределение Коши
t(3, 0) vs t(3, shift)
0.0
6
shift
1
2
3
4
5
6
shift
Рис. Б.0.7. Распределение Стьюдента
27
1.0
0.6
0.2
Power
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.0
0.2
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.0
2
3
4
5
6
2
4
6
shift
Рис. Б.0.8. Pаспределение Фишера
Рис. Б.0.9. Распределение Фишера
1.0
F(1, 22) vs F(d1, d2)
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.2
Power
8
shift
0.0
Power
F(2, 10) vs F(shift, 10)
0.4
1.0
F(10, 2) vs F(10, shift)
0.0
0.1
0.2
0.3
0.4
mean difference
Рис. Б.0.10. Распределение Фишера
10
28
1.0
0.6
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.0
0.0
0.2
0.4
Power
0.6
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.2
Power
Beta(1, 1) vs Beta(shift, shift)
0.4
1.0
Beta(1, 1) vs Beta(shift, shift)
0.2
0.4
0.6
0.8
1.0
2
4
shift
Рис. Б.0.11. Бета-распределение
8
10
Рис. Б.0.12. Бета-распределение
1.0
1.5
2.0
2.5
shift
Рис. Б.0.13. Бета-распределение
3.0
0.6
0.4
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.2
Power
0.8
0.0
0.2
0.4
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.0
0.6
0.8
1.0
Beta(1, 2) vs Beta(1, shift)
1.0
Beta(1, 2) vs Beta(shift, 2)
Power
6
shift
2
3
4
5
shift
Рис. Б.0.14. Бета-распределение
6
29
1.0
0.6
Power
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.0
0.0
0.2
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.2
Power
G(1, 2) vs G(1, shift)
0.4
1.0
G(1, 2) vs G(shift, 2)
1.0
1.2
1.4
1.6
1.8
2.0
2
3
4
shift
Рис. Б.0.15. Гамма-распределение
1.0
1.0
1.5
mean difference
Рис. Б.0.17. Гамма-распределение
2.0
0.6
0.4
0.2
Power
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.0
0.6
0.4
0.2
0.0
Power
0.8
1.0
G(4, 0.5) vs G(k, th)
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.5
6
Рис. Б.0.16. Гамма-распределение
G(0.5, 2) vs G(k, th)
0.0
5
shift
0
2
4
6
variance difference
Рис. Б.0.18. Гамма-распределение
8
30
1.0
0.6
0.2
Power
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.0
0.2
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.0
0.0
0.1
0.2
0.3
0.4
0.0
0.2
0.4
shift
Рис. Б.0.19. Равномерное распределение
0.8
1.0
Рис. Б.0.20. Равномерное распределение
1.0
U(0, 1) vs U(0, 1 + shift)
0.4
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.2
Power
0.6
shift
0.0
Power
U(0, 1) vs U(−shift, 1 + shift)
0.4
1.0
U(0, 1) vs U(shift, 1 + shift)
0.0
0.2
0.4
0.6
0.8
1.0
shift
Рис. Б.0.21. Равномерное распределение
31
1.0
0.6
0.8
K_1
K_4
K_5
K_6
t.test
wilcox.test
ks.test
0.2
0.0
0.2
0.4
Power
0.6
0.8
K_4
K_5
K_6
wilcox.test
ks.test
0.0
Power
W(1, 3) vs W(1, shift)
0.4
1.0
W(1, 3) vs W(shift, 3)
1
2
3
4
5
shift
Рис. Б.0.22. Распределение Вейбулла
1.0
1.5
2.0
2.5
3.0
shift
Рис. Б.0.23. Распределение Вейбулла
32
Приложение В
Реализация алгоритма
Задача была рассмотрена для различных распределений.
Рассмотрим на примере нормального распределения с изменяющимся средним ре
ализацию алгоритма на языке R.
Объявим функцию, моделирующую один эксперимент, принимающую три пара
метра - размер выборки 𝑛, среднее 𝑠ℎ𝑖𝑓 𝑡 и уровень значимости 𝑎:
1
power . test <- function (n , shift , a = 0.05) {
Промоделируем 2 выборки из нормального распределения объемом n с общей диспер
сией 𝜎 2 = 1 и посчитаем их медианы для сокращения вычислений:
2
3
4
5
x <- rnorm (n , mean = 0, sd = 1)
y <- rnorm (n , mean = shift , sd = 1)
x. m <- median (x)
y. m <- median (y)
Вычислим начальную статистику перестановочных критериев:
6
7
8
9
stat . K_1
stat . K_4
stat . K_5
stat . K_6
<<<<-
( mean (x ) - mean (y )) ^ 2
( x.m - y .m) ^ 2
( sum ( abs (x - x. m) + abs (y - y. m ))) ^ 2
sum ( sapply (1: n , function (i ){ sum ( abs (x - y[i ])) }))
Далее с помощью стандартной функции sample() генерируем перестановки.
sample(c(x, y)) генерирует случайную перестановку совместной выборки. Выделив
из общей совокупности x и y, вычисляем статистики перестановочных критериев:
10
11
perm . test = function (x , y) {
z <- sample (c (x , y ))
12
13
14
x. perm <- z [1: n]
y. perm <- z [( n + 1):(2 * n )]
15
16
17
x. m <- median (x. perm )
y. m <- median (y. perm )
18
19
20
21
22
23
perm . stat .K _1 <perm . stat .K _4 <perm . stat .K _5 <perm . stat .K _6 <function ( i ){
( mean (x. perm ) - mean (y . perm )) ^ 2
(x .m - y.m ) ^ 2
( sum ( abs (x. perm - x .m) + abs (y . perm - y. m ))) ^ 2
sum ( sapply (1: n ,
sum ( abs (x . perm - y. perm [i ])) }))
24
25
list ( perm . stat .K_1 , perm . stat .K _4, perm . stat .K_ 5, perm . stat . K_ 6)
33
}
26
Прогоним функцию perm.test() 1600 раз:
many . perm . stat = replicate (1600 , perm . test (x , y ))
27
Получим p-значение для тестов, p =
p. K_1
p. K_4
p. K_5
p. K_6
28
29
30
31
<<<<-
𝑟1
,
𝑟2
где 𝑟2 = 1600:
mean ( many . perm . stat [1 ,]
mean ( many . perm . stat [2 ,]
mean ( many . perm . stat [3 ,]
mean ( many . perm . stat [4 ,]
>
>
>
>
stat .K_ 1)
stat .K_ 4)
stat .K_ 5)
stat .K_ 6)
Проверяем, была ли отвергнута нулевая гипотеза для каждого критерия, возвращаем
результат и завершаем функцию:
power . K_1
power . K_4
power . K_5
power . K_6
32
33
34
35
<<<<-
if
if
if
if
(p .K_ 1
(p .K_ 4
(p .K_ 5
(p .K_ 6
<
<
>
<
a) 1
a) 1
1 -a)
a) 1
else 0
else 0
1 else 0
else 0
36
return (c ( power .K_ 1, power .K _4, power . K_5, power .K_ 6))
37
38
}
Положим m = 1000 и будем моделировать выборки x и y m раз. Тогда мощность тестов
равна:
39
40
41
m <- 1000
tmp <- replicate (m , power . test ())
print ( mean ( tmp [1 ,]) , mean ( tmp [2 ,]) , mean ( tmp [3 ,]) , mean ( tmp [4 ,]))
Отзывы:
Авторизуйтесь, чтобы оставить отзыв