Санкт-Петербургский государственный университет
Прикладная математика и информатика
Вычислительная стохастика и статистические модели
Григорьева Ирина Владимировна
Канонический
анализ категориальных данных с приложением в
маркетинге
Бакалаврская работа
Научный руководитель:
к. ф.-м. н., доцент Н. П. Алексеева
Рецензент:
исследователь, ВШЭ И. Б. Смирнов
Санкт-Петербург
2016
Saint Petersburg State University
Applied Mathematics and Computer Science
Computational Stochastics and Statistical Models
Grigorieva Irina Vladimirovna
Canonical analysis of categorical data with application in
marketing
Bachelor’s Thesis
Scientific Supervisor:
Associate Professor N. P. Alekseeva
Reviewer:
Researcher I. B. Smirnov
Saint Petersburg
2016
Содержание
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.
Прикладная задача . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.
Цель работы и постановка математической задачи . . . . . . . . . . . . .
6
3.
Исходные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
Глава 1.
Методы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.1.
Канонический анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.2.
Энтропия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.3.
Коэффициенты неопределенности . . . . . . . . . . . . . . . . . . . . . .
14
1.4.
Факторный анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
Метод главных компонент (𝑘 ≥ 2) . . . . . . . . . . . . . . . . . .
17
1.5.
Дисперсионный анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.6.
Алгоритм быстрого перечисления точек грассманиана . . . . . . . . . . .
20
1.6.1.
Векторная параметризация грассманиана . . . . . . . . . . . . . .
20
1.6.2.
Отношение линейного порядка . . . . . . . . . . . . . . . . . . . .
21
1.6.3.
Алгоритм быстрого перечисления точек грассманиана FGEA . .
22
Работа с данными . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
Множество признаков «До» и один «После» . . . . . . . . . . . . . . . .
25
2.1.1.
Исследование оценок экспертов . . . . . . . . . . . . . . . . . . .
25
2.1.2.
Качество оценивания выживаемости экспертами . . . . . . . . . .
27
2.1.3.
Изолированный анализ качественных признаков «До» . . . . . .
29
2.1.4.
Поиск наилучшего подмножества с помощью коэффициента неопре
1.4.1.
Глава 2.
2.1.
2.2.
деленности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
Множества признаков «До» и «После» . . . . . . . . . . . . . . . . . . . .
35
2.2.1.
Перебор подмножеств и поиск наиболее связанных с помощью
коэффициента неопределенности . . . . . . . . . . . . . . . . . . .
35
2.2.2.
Частотный способ поиска номинативных представителей . . . . .
36
2.2.3.
Метод поиска номинативных представителей, основанный на уда
2.2.4.
лении признаков . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
Факторный анализ для поиска номинативных представителей . .
54
3
2.3.
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4
Введение
В данной работе рассматривается задача исследования зависимости между дву
мя множествами признаков, а именно: между различными комбинациями начальных
и итоговых признаков базы данных, полученной от исследователя. Производится по
иск связей между множествами, где в качестве меры зависимости рассматривается
коэффициент неопределенности. Для расширения исходных множеств используются
алгебраические методы: алгоритм быстрого перечисления точек грассманиана. Труд
ности анализа: сложная итоговая характеристика, задачу нельзя решить напрямую,
интерпретация полученных связей. Отличие моей работы от других: поиск не только
наибольших связей между множествами, но и самых устойчивых симптомов, в смыс
ле уменьшения количества значимых связей и снижения уровней зависимости при их
исключении из совокупностей, названных номинативными представителями. Задача на
хождения «сильных» связей между наборами признаков важна в реальной жизни, пото
му что на основе полученных результатов принимаются решения в той или иной сфере
жизни. Например, ежегодно проходит большое количество конкурсов для молодых уче
ных и жюри не должно ошибаться в выборе победителей.
1. Прикладная задача
Прошел конкурс «Инновации в Образовании», на который в 2014 году прислали
много заявок.
Были получены данные, которые состоят из трех блоков:
∙ Первый блок — это информация из 552 заявки на конкурс «Инновации в образо
вании».
∙ Второй блок — это оценки экспертов к каждой из заявок. Эксперт мог отметить,
что заявка «бракованная» и не выставлять подробных оценок, в противном слу
чае — оценивал по нескольким критериям.
∙ Третий блок — это анкета, которую участники заполняли через год. На нее отве
тило 240 человек. Они могли указать, продолжают ли работу над проектом или
уже забросили. Те, кто продолжают, отвечали на ряд вопросов.
5
Возникает прикладная задача:
Найти признаки«До», которые оказывают самое сильное влияние на дальнейшее раз
витие проекта.
2. Цель работы и постановка математической задачи
Целью работы является исследование зависимости между двумя наборами качествен
ных признаков.
Номинальные признаки представлены категориями, для которых не определен ни
какой другой способ сравнения, кроме как буквальное совпадение или несовпаде
ние.
Имеется набор итоговых характеристик и исходный набор признаков. База данных (за
явки на участие в конкурсе) разделена на период «До» и «После» и выбраны только
номинальные признаки.
Введем несколько необходимых определений [1]:
Симптомом ранга 𝑘 называется ∀ линейная комбинация вида 𝑋𝜏 = 𝐴𝜏 𝑋(mod 2), где
вектор 𝑋 = (𝑋1 , . . . , 𝑋𝑚 ) с компонентами, принимающими значения 1 и 0,
𝜏 = (𝑡1 , . . . , 𝑡𝑘 ) ⊆ (1, 2, . . . , 𝑚) 𝑘-подмножество из 𝑚 натуральных чисел,
вектор-строка 𝐴𝜏 = (𝑎1 , . . . , 𝑎𝑚 ) с компонентами
⎧
⎪
⎨1, 𝑗 ∈ 𝜏
𝑎𝑗 =
⎪
⎩0, иначе
Компоненты вектора 𝑋 являются тривиальными симптомами единичного ранга 𝑋𝑖 , 𝑖 =
1, . . . , 𝑚. Симптом нулевого ранга, то есть со всеми нулевыми коэффициентами, явля
ется вырожденным 𝑋∅ и принимает значение 0 с вероятностью 1.
Симптом — это новый признак, отражающий взаимодействие исходных признаков. Он
может нести в себе информацию, не содержащуюся в исходных признаках по отдельно
сти. Таким образом, симптомы позволяют исследовать взаимодействие бинарных при
знаков без увеличения размерности.
6
Пусть имеется 𝑘 + 1 ≥ 0 симптомов 𝑋0 , . . . , 𝑋𝑘 .
Синдромом 𝑘-го порядка называется совокупность 2𝑘+1 − 1 симптомов вида
𝛽1 𝑋0 + . . . + 𝛽𝑘 𝑋𝑘 (mod 2),
где 𝛽𝑖 ∈ F2 не равны нулю одновременно.
Номинативный представитель симптом наименьшего ранга, без которого нельзя
получить значимые связи между множествами признаков.
Математическая задача: Поиск подмножеств признаков «До» и «После», связанных
наилучшим образом, и номинативных представителей этих множеств.
Используемые методы:
1. Канонический анализ.
2. Коэффициент неопределенности.
3. Факторный анализ.
∙ Исследование оценок экспертов.
∙ Редукция размерности.
4. Дисперсионный анализ.
∙ Качество оценивания выживаемости экспертами.
5. Алгоритм быстрого перечисления точек грассманиана Ананьевской П.В [2].
7
3. Исходные данные
Таблица 1. Признаки «До» (X).
𝑂𝑆
Операционная система с которой подавалась заявка, 1 —
Windows, 2 — Mac OS, 3 — Linux.
𝐿𝑂𝐶𝐴𝑇 𝐼𝑂𝑁
Город из которого подавалась заявка, 1 — Москва, 2 — Санкт
Петербург, 3 — другой российский город, 4 — город СНГ, 5 —
другой город.
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁
Входит ли дошкольное образование в сферу проекта, 0 — нет,
1 — да.
𝑃 𝑅𝐼𝑀 𝐴𝑅𝑌 _𝑆𝐶𝐻𝑂𝑂𝐿
Входит ли начальное образование в сферу проекта, 0 — нет, 1 —
да.
𝑀 𝐼𝐷𝐷𝐿𝐸_𝑆𝐶𝐻𝑂𝑂𝐿
Входит ли среднее образование в сферу проекта, 0 — нет, 1 —
да.
𝐻𝐼𝐺𝐻_𝑆𝐶𝐻𝑂𝑂𝐿
Входит ли старшая школа в сферу проекта, 0 — нет, 1 — да.
𝑈 𝑁 𝐼𝑉 𝐸𝑅𝑆𝐼𝑇 𝑌
Входит ли высшее образование в сферу проекта, 0 — нет, 1 —
да.
𝐸𝑋𝑇 𝑅𝐴𝐶𝑈 𝑅𝑅𝐼𝐶𝑈 𝐿𝐴𝑅
Входит ли дополнительное образование в сферу проекта, 0 —
нет, 1 — да.
𝑃 𝑅𝑂𝐹 𝐸𝑆𝑆𝐼𝑂𝑁 𝐴𝐿
Входит ли профессиональное образование в сферу проекта, 0 —
нет, 1 — да.
𝐹 𝐴𝑀 𝐼𝐿𝑌
Входит ли семейное образование в сферу проекта, 0 — нет, 1 —
да.
𝑂𝑇 𝐻𝐸𝑅
Входит ли иное образование в сферу проекта, 0 — нет, 1 — да.
𝑊 𝐸𝐵_𝑆𝐼𝑇 𝐸
Наличие веб-сайта,0 — нет, 1 — да.
𝑆𝐸𝑋
Половой состав команды, 1 — только мужчины, 2 — только жен
щины, 3 — смешанный состав.
𝑇 𝐸𝐴𝐶𝐻𝐸𝑅
Есть ли в команде преподаватель, 0 — нет, 1 — да.
𝐸𝑁 𝑇 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅
Есть ли в команде предприниматель, 0 — нет, 1 — да.
𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌
Есть ли в команде сотрудник организации, 0 — нет, 1 — да.
8
В таблице 1 расшифровка наименований первого множества — признаки «До».
К признакам «До» относится оценка успешности проекта экспертами — 𝐽𝑢𝑟𝑦𝑆𝑒𝑐𝑡𝑖𝑜𝑛
(табл. 2).
Таблица 2. 𝐽𝑢𝑟𝑦𝑆𝑒𝑐𝑡𝑖𝑜𝑛.
𝐽𝑈 𝑅𝑌
Эксперт, Разные числа соответствуют разным экспер
там.
𝐽𝑈 𝑅𝑌 _𝑂𝑉 𝐸𝑅𝐴𝐿𝐿
Общая оценка экспертом, 0 - далее не рассматривать,
1 — рассматривать в общем порядке, 2 — обратить
особое внимание.
𝐽𝑈 𝑅𝑌 _𝑁 𝑂𝑉 𝐸𝐿𝑇 𝑌
Новизна и оригинальность идеи, От 1 до 5, 5 — лучше
всего.
𝐽𝑈 𝑅𝑌 _𝐼𝑀 𝑃 𝑂𝑅𝑇 𝐴𝑁 𝐶𝐸
Актуальность решаемых проблем, От 1 до 5, 5 — луч
ше всего.
𝐽𝑈 𝑅𝑌 _𝑅𝐸𝐿𝐸𝑉 𝐴𝑁 𝐶𝐸
Целесообразность используемых механизмов, От 1 до
5, 5 — лучше всего.
𝐽𝑈 𝑅𝑌 _𝑆𝐶𝐴𝐿𝐴𝐵𝐼𝐿𝐼𝑇 𝑌
Возможность тиражирования, От 1 до 5, 5 — лучше
всего.
9
Второе множество признаков — признаки «После» (Y) (табл. 3, табл. 4).
Таблица 3. Признаки «После» (Y).
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑆𝐼𝑇 𝐸
Был запущен сайт, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑃 𝑈 𝐵𝐿𝐼𝐶𝐴𝑇 𝐼𝑂𝑁
Публикации в СМИ о проекте, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑆𝑇 𝐴𝐹 𝐹
Наняты новые сотрудники, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑃 𝐼𝐿𝑂𝑇
Прошел запуск пилота проекта, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑃 𝑅𝑂𝐷𝑈 𝐶𝑇 𝐼𝑂𝑁
Запущено производство, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝐵𝑅𝐴𝑁 𝐶𝐻
Открылось новое отделение/представительство, 0 —
нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑃 𝐴𝑅𝑇 𝑁 𝐸𝑅𝑆
Привлечены новые партнеры, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝑆𝑈 𝑃 𝑃 𝑂𝑅𝑇
Получена административная поддержка, 0 — нет, 1 —
да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝐼𝑁 𝐶𝑂𝑀 𝐸
Увеличилась выручка, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝐺𝑅𝐴𝑁 𝑇
Получен грант, 0 — нет, 1 — да.
𝐸𝑉 𝐸𝑁 𝑇 𝑆_𝐼𝑁 𝑉 𝐸𝑆𝑇 𝑀 𝐸𝑁 𝑇
Привлечены инвестиции, 0 — нет, 1 — да.
10
Таблица 4. Признаки «После» (Y): Насколько команда была вовлечена в следующие активно
сти.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝐸𝑉 𝐸𝑁 𝑇 𝑆
Посещение тематических мероприятий, 0 — ни
когда, 1 — однократно, 2 — несколько раз, 3 —
регулярно.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝑂𝑁 𝐿𝐼𝑁 𝐸
Прохождение онлайн-курсов, 0 — никогда, 1 —
однократно, 2 — несколько раз, 3 — регулярно.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝐿𝐼𝑇 𝐸𝑅𝐴𝑇 𝑈 𝑅𝐸
Чтение специальной литературы, 0 — никогда,
1 — однократно, 2 — несколько раз, 3 — регу
лярно.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝑅𝐸𝑆𝐸𝐴𝑅𝐶𝐻
Поиск исследований, подтверждающих потен
циал проекта, 0 — никогда, 1 — однократно, 2 —
несколько раз, 3 — регулярно.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝐶𝑂𝑀 𝑃 𝐸𝑇 𝐼𝑇 𝑂𝑅𝑆
Поиск аналогичных проектов, 0 — никогда, 1 —
однократно, 2 — несколько раз, 3 — регулярно.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝑀 𝐸𝑁 𝑇 𝑂𝑅𝑆
Общение с экспертами и менторами, 0 — нико
гда, 1 — однократно, 2 — несколько раз, 3 —
регулярно.
𝐴𝐶𝑇 𝐼𝑉 𝐼𝑇 𝐼𝐸𝑆_𝐶𝑂𝑀 𝑃 𝐸𝑇 𝐼𝑇 𝐼𝑂𝑁 𝑆
Участие с проектом в конкурсах, 0 — никогда,
1 — однократно, 2 — несколько раз, 3 — регу
лярно.
𝑇 𝐸𝐴𝑀 _𝑆𝐸𝑋
Пол ключевых членов команды, 1 — все мужчи
ны, 2 — все женщины, 3 — мужчины и женщи
ны.
𝑇 𝐸𝐴𝑀 _𝑇 𝑂𝑃 _𝑀 𝑆𝐶
Количество ключевых участников команды за
кончивших ведущий вуз Москвы, 0 — ни одного,
1 — один, 2 — больше одного.
𝑇 𝐸𝐴𝑀 _𝑇 𝑂𝑃 _𝑆𝑃 𝐵
Количество ключевых участников команды за
кончивших ведущий вуз Санкт-Петербурга, 0 —
ни одного, 1 — один, 2 — больше одного.
11
𝑇 𝐸𝐴𝑀 _𝑇 𝑂𝑃 _𝑃 𝑅𝑂𝑉 𝐼𝑁 𝐶𝐸
Количество ключевых участников команды за
кончивших ведущий вуз не Москвы и Петербур
га, 0 — ни одного, 1 — один, 2 — больше одного.
𝐹 𝑂𝑅𝐸𝐼𝐺𝑁
Количество ключевых участников команды
имеющих заграничных опыт, 0 — нет, 1 — да.
𝐼𝑆_𝐸𝐷𝑈 𝐶𝐴𝑇 𝐼𝑂𝑁
Есть ли среди ключевых участников команды
специалист в области образование и педагогика,
0 — нет, 1 — да.
𝐼𝑆_𝐸𝐶𝑂𝑁 𝑂𝑀 𝐼𝐶𝑆
Есть ли среди ключевых участников команды
специалист в области экономика и управление,
0 — нет, 1 — да.
𝐼𝑆_𝑀 𝐴𝑇 𝐻
Есть ли среди ключевых участников команды
специалист в области математика, программи
рование, технические науки, 0 — нет, 1 — да.
𝐼𝑆_𝐻𝑈 𝑀 𝐴𝑁 𝐼𝑇 𝐼𝐸𝑆
Есть ли среди ключевых участников команды
специалист в области гуманитарные и социаль
ные науки, 0 — нет, 1 — да.
𝐼𝑆_𝑁 𝐴𝑇 𝑈 𝑅𝐴𝐿
Есть ли среди ключевых участников команды
специалист в области естественные науки, 0 —
нет, 1 — да.
𝐼𝑆_𝐶𝑈 𝐿𝑇 𝑈 𝑅𝐸
Есть ли среди ключевых участников команды
специалист в области культура и искусство, 0 —
нет, 1 — да.
12
Глава 1
Методы
1.1. Канонический анализ
Канонический анализ позволяет определить взаимосвязь между двумя совокуп
ностями признаков, характеризующих объекты [3]. Например, можно изучить зависи
мость между различными неблагоприятными факторами и появлением определенной
группы симптомов заболевания, или взаимосвязь между двумя группами синдромов
больного.
Корреляция это степень зависимости между 𝜉 = (𝜉1 , . . . , 𝜉𝑛 ) и 𝜂 = (𝜂1 , . . . , 𝜂𝑛 ). Она
выражается через коэффициент корреляции
∑︀𝑛
¯
¯)
𝑖=1 (𝜉𝑖 − 𝜉)(𝜂𝑖 − 𝜂
, всегда | R | ≤ 1.
R(𝜉, 𝜂) = √︁∑︀
√︀
∑︀
𝑛
𝑛
2
2
¯
¯)
𝑖=1 (𝜉𝑖 − 𝜉)
𝑖=1 (𝜂𝑖 − 𝜂
Если признаки независимые, то R = 0.
Обычные коэффициенты корреляции используются для выявления линейной зависи
мости между двумя признаками 𝑋 и 𝑌 . Если нужно выявить зависимость между 𝑋0
и 𝑋1 , . . . , 𝑋𝑝 , то в качестве характеристики этой зависимости рассматривается множе
ственный коэффициент корреляции, равный коэффициенту корреляции R(𝑋0 , 𝑋ˆ0 ), где
𝑋ˆ0 = 𝛽0 + 𝛽1 𝑋1 + . . . + 𝛽𝑝 𝑋𝑝 наилучшее линейное предсказание 𝑋0 .
Эта концепция была обобщена на случай связи между множествами признаков, харак
теризующих объекты.
Канонический анализ является обобщением множественной корреляции как меры свя
зи между одной переменной и множеством других переменных. [4]
Задача здесь состоит в том, чтобы найти такие нормированные линейные комбинации:
𝑈1 = 𝛽10 + 𝛽11 𝑋1 + . . . + 𝛽1𝑟 𝑋𝑟 ,
𝑉1 = 𝛼10 + 𝛼11 𝑋𝑟+1 + . . . + 𝛼1𝑠 𝑋𝑟+𝑠 ,
таким образом, чтобы каноническая корреляция R = cor(𝑈1 , 𝑉1 ) была максимальной
(т.е надо найти весовые коэффициенты таким образом, чтобы каноническая корреляция
была максимальной).
13
Проблема:
1. Выбор метрики.
2. Перебор синдромов.
3. Поиск синдромов признаков «До» и «После», связанных наилучшим образом.
Метрика величина, которая измеряет связь между двумя наборами признаков.
В качестве метрики используется коэффициент неопределенности.
1.2. Энтропия
⎛
Пусть задана случайная величина 𝜉 = ⎝
Энтропия H(𝜉) = −
∑︀𝑘
𝑖=1
𝑥1 · · ·
𝑝1 · · ·
𝑥𝑘
𝑝𝑘
⎞
⎠
𝑝𝑖 log2 𝑝𝑖 .
Наименьшее значение энтропия принимает, когда случайная величина постоянна. Если
𝜉 = 𝑐, то H(𝜉) = 0 – неопределенности нет. Наибольшее значение H принимает в случае,
1
когда 𝜉 имеет равномерное распределение , т. е 𝑝𝑖 = : H(𝜉) = log2 𝑘.
𝑘
Энтропия характеризует степень неопределенности и является информационной харак
теристикой случайной величины.
1.3. Коэффициенты неопределенности
Пусть задан набор из 𝑙 дискретных случайных векторов
𝑋 (𝑠) = (𝑋1 (𝑠) , . . . , 𝑋𝑚𝑠 (𝑠) ), 𝑠 = 1, . . . , 𝑙.
Мерой зависимости двух случайных векторов может быть выбран односторонний или
двусторонний коэффициент неопределенности Тейла [4]:
Односторонний коэффициент неопределенности между двумя векторами 𝑋 (𝑟) и 𝑋 (𝑠)
вычисляется по формуле
J0 (𝑋 (𝑟) |𝑋 (𝑠) ) =
(H(𝑋 (𝑟) ) + H(𝑋 (𝑠) ) − H(𝑋 (𝑟) , 𝑋 (𝑠) ))100%
,
H(𝑋 (𝑠) )
(1.1)
J0 (𝑋 (𝑠) |𝑋 (𝑟) ) =
(H(𝑋 (𝑟) ) + H(𝑋 (𝑠) ) − H(𝑋 (𝑟) , 𝑋 (𝑠) ))100%
,
H(𝑋 (𝑟) )
(1.2)
14
где H(𝑋 (𝑟) , 𝑋 (𝑠) ) — энтропия вектора (𝑋1 (𝑟) , . . . , 𝑋𝑚𝑟 (𝑟) , 𝑋1 (𝑠) , . . . , 𝑋𝑚𝑠 (𝑠) ).
Энтропия распределения случайного вектора 𝑋 = (𝑋1 ...𝑋𝑚 )T вычисляется по формуле:
𝑚
H(𝑋) = −
𝑞
∑︁
𝑝𝑖 log2 𝑝𝑖 ,
𝑖=1
где 𝑝𝑖 = P(𝑋 = (𝑞1 , . . . , 𝑞𝑚 )).
Двусторонний коэффициент неопределенности может быть задан следующим образом:
J(𝑋 (𝑟) , 𝑋 (𝑠) ) = 2
H(𝑋 (𝑟) ) + H(𝑋 (𝑠) ) − H(𝑋 (𝑟) , 𝑋 (𝑠) )
.
H(𝑋 (𝑟) ) + H(𝑋 (𝑠) )
(1.3)
Заметим, что односторонний и двусторонний коэффициенты неопределенности пред
ставляют собой нормализованные версии совместной информации
I(𝑋 (𝑟) , 𝑋 (𝑠) ) = H(𝑋 (𝑟) ) + H(𝑋 (𝑠) ) − H(𝑋 (𝑟) , 𝑋 (𝑠) ), являющейся, в свою очередь, одной из
наиболее известных мер независимости.
Запишем коэффициенты (1.1), (1.2) и (1.3) таким образом:
J0 (𝑋 (𝑟) |𝑋 (𝑠) ) =
I(𝑋 (𝑟) , 𝑋 (𝑠) )
100%,
H(𝑋 (𝑠) )
J0 (𝑋 (𝑠) |𝑋 (𝑟) ) =
I(𝑋 (𝑟) , 𝑋 (𝑠) )
100%,
H(𝑋 (𝑟) )
J(𝑋
=
(𝑟)
I(𝑋 (𝑟) , 𝑋 (𝑠) )
,𝑋 ) = 2
=
H(𝑋 (𝑟) ) + H(𝑋 (𝑠) )
(𝑠)
H(𝑋 (𝑠) )
H(𝑋 (𝑟) )
(𝑠)
(𝑟)
J
(𝑋
|𝑋
)
+
J0 (𝑋 (𝑟) |𝑋 (𝑠) ).
0
H(𝑋 (𝑟) ) + H(𝑋 (𝑠) )
H(𝑋 (𝑟) ) + H(𝑋 (𝑠) )
Статистика J(𝑋 (𝑟) , 𝑋 (𝑠) ) является симметричной и измеряет количество информации
в переменной 𝑋 (𝑟) относительно переменной 𝑋 (𝑠) или в переменной 𝑋 (𝑠) относительно
переменной 𝑋 (𝑟) . Статистики J0 (𝑋 (𝑟) |𝑋 (𝑠) ) и J0 (𝑋 (𝑠) |𝑋 (𝑟) ) выражают направленную за
висимость: показывают, сколько информации об 𝑋 (𝑠) дает знание 𝑋 (𝑟) и наоборот.
Значение совместной информации и коэффициентов неопределенности достигает нуля
в случае независимости 𝑋 (𝑟) и 𝑋 (𝑠)
Было доказано утверждение:
15
Утверждение 1. Пусть 𝑥𝜏𝑖 — симптомы 𝑖 = 1, . . . , 𝑛, ⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩
и 𝑦 — синдромы. Односторонние коэффициенты неопределенности:
J1 = J0 (⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩|𝑦) =
H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + H(𝑦) − H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦)
,
H(𝑦)
H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + H(𝑦) − H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦)
.
J˜1 = J0 (⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩|𝑦) =
H(𝑦)
1. Если симптомы 𝑥𝜏1 , . . . , 𝑥𝜏𝑛 независимы, то J1 −J˜1 > 0,
2. Если симптомы 𝑥𝜏1 , . . . , 𝑥𝜏𝑛 и 𝑦 независимы, то J1 −J˜1 = 0.
Доказательство:
H(𝑦)(J1 −J˜1 ) = H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + H(𝑦) − H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦) − (H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) +
H(𝑦)−H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦)) = −(H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩)−H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩))+(H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦)−
H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦)) =
Прибавим и отнимем H(𝑥𝜏1 ):
= −(H(𝑥𝜏1 ) + H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) − H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩)) + (H(𝑥𝜏1 ) + H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦) −
H(⟨𝑥𝜏1 , 𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦)) = − I(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + I(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦), где I —совмест
ная информация.
1) Если 𝑥𝜏1 , . . . , 𝑥𝜏𝑛 независимы ⇒ I(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) = 0.
2) Если 𝑥𝜏1 , . . . , 𝑥𝜏𝑛 и 𝑦 независимы ⇒ I(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) = 0 и I(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦) =
H(𝑥𝜏1 ) + H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + H(𝑦) − H(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) − H(𝑥𝜏1 , 𝑦) − H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦) +
H(𝑥𝜏1 , ⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩, 𝑦) = H(𝑥𝜏1 ) + H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + H(𝑦) − H(𝑥𝜏1 ) − H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) −
H(𝑥𝜏1 ) − H(𝑦) − H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) − H(𝑦) + H(𝑥𝜏1 ) + H(⟨𝑥𝜏2 , . . . , 𝑥𝜏𝑛 ⟩) + H(𝑦) = 0, что и.т.д.
1.4. Факторный анализ
Задачей факторного анализа является объединение большого количества призна
ков, которыми характеризуется объект, в меньшее количество искусственно построен
ных на их основе факторов, чтобы полученная в итоге система факторов была наиболее
удобна с точки зрения содержательной интерпретации.[4]
Методы факторного анализа различают в зависимости от подходов для нахождения
коэффициентов значения факторов. В работе использовался метод главных компонент.
Он основан на определении минимального числа факторов, которые вносят наибольший
вклад в дисперсию данных. Они называются главными компонентами.
16
1.4.1. Метод главных компонент (𝑘 ≥ 2)
Идея: Заменить 𝑘-ую случайную величину при наименьшей потери информативности
на 𝑚-ую (𝑚 < 𝑘).
Эффективность любого выбора зависит от того, в какой степени эти 𝑚 линейных функ
ций дают возможность реконструировать или восстановить 𝑘 первоначальных величин.
Один из методов реконструкции этой первоначальной случайной величины состоит в
построении ее наилучшего предиктора на основе 𝑚 линейных функций.
Наилучший выбор линейных функций: первые 𝑚 главных компонент.
Пусть 𝑋1 , ..., 𝑋𝑘 — признаки.
Первой главной компонентой 𝑌1 называется сохраняющая расстояние между точками
линейная комбинация исходных признаков
𝑌1 = 𝛼11 𝑋1 + ... + 𝛼𝑘1 𝑋𝑘 ,
где коэффициенты 𝛼11 , ..., 𝛼𝑘1 выбираются таким образом, чтобы дисперсия D(𝑌11 ) = 𝜆1
была максимальной, т.е по 𝑌1 индивиды отличаются наибольшим образом.
Вторая главная компонента также является линейной комбинацией исходных призна
ков:
𝑌2 = 𝛼12 𝑋1 + ... + 𝛼𝑘2 𝑋𝑘 ,
где коэффициенты 𝛼12 , ..., 𝛼𝑘2 выбираются таким образом,что компоненты 𝑌1 и 𝑌2 некор
релированы, а дисперсия D(𝑌2 ) = 𝜆2 является максимальной из всех линейных комби
наций, некоррелированных с 𝑌1 , то есть вторая компонента должна нести наибольшую
новую информацию, не имеющую отношения к первой главной компоненте. Аналогично
строятся остальные главные компоненты:
𝑌𝑗 =
𝑘
∑︁
𝛼𝑖𝑗 𝑋𝑖 , 𝑗 = 1..𝑘.
(1.4)
𝑖=1
Суммарная дисперсия остается неизменной:
𝑉 = D(𝑋1 ) + ... + D(𝑋𝑘 ) = 𝜆1 + ... + 𝜆𝑘 .
Значимость главных компонент (1.4) определяется долей объясняемой ими дисперсии,
𝜆𝑖
равной 100%.
𝑉
𝑌𝑖
Факторами называются нормированные главные компоненты √ .
𝜆𝑖
17
1.5. Дисперсионный анализ
Задачей дисперсионного анализа является изучение влияния одного или несколь
ких факторов на рассматриваемый признак.
Целью дисперсионного анализа является проверка значимости различия между сред
ними в разных группах с помощью сравнения дисперсий этих групп. Разделение общей
дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную разли
чием между группами, с дисперсией, вызванной внутригрупповой изменчивостью.
Однофакторный дисперсионный анализ используется в тех случаях, когда в распоря
жении имеется выборка, которая разбивается на 𝑟 групп.[5]
Требуется проверить гипотезу о равенстве средних:
𝐻0 : 𝜇1 = 𝜇2 = . . . = 𝜇𝑟
𝐻1 : не все средние равны.
При истинности нулевой гипотезы, оценка дисперсии, связанной с внутригрупповой
изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. При ложно
сти — значимо отклоняться.
Для проверки этой гипотезы используется критерий Фишера.
Пусть 𝑥𝑖𝑘 — 𝑖-ый элемент (𝑖 = 1...𝑛𝑘 ) 𝑘 выборки, где 𝑛𝑘 — число данных в 𝑘 выборке.
Тогда 𝑥¯𝑘 — выборочное среднее 𝑘 — выборки определяется по формуле
𝑥¯𝑘 =
1 ∑︀𝑛𝑘
𝑥𝑖𝑘 .
𝑛𝑘 𝑖=1
Общее среднее вычисляется по формуле 𝑥¯ =
∑︀𝑚 ∑︀𝑛𝑘
𝑘=1
𝑖=1
𝑥𝑖𝑘 , где 𝑛 =
∑︀𝑚
𝑘=1
𝑛𝑘 .
Основное тождество дисперсионного анализа имеет следующий вид: 𝑄 = 𝑄1 + 𝑄2 , где
𝑄1 –– сумма квадратов отклонений выборочных средних 𝑥¯𝑘 от общего среднего 𝑥¯ (сум
ма квадратов отклонений между группами);
𝑄2 –– сумма квадратов отклонений наблюдаемых значений 𝑥𝑖𝑘 от выборочной средней
𝑥¯𝑘 (сумма квадратов отклонений внутри групп);
𝑄 –– общая сумма квадратов отклонений наблюдаемых значений 𝑥𝑖𝑘 от общего среднего
𝑥¯.
Расчет этих сумм квадратов отклонений осуществляется по следующим формулам:
18
𝑄=
𝑛𝑘
𝑚 ∑︁
∑︁
𝑛𝑘
𝑚 ∑︁
∑︁
2
(𝑥𝑖𝑘 − 𝑥¯) =
𝑘=1 𝑖=1
𝑄1 =
𝑚
∑︁
𝑘=1 𝑖=1
2
(𝑥¯𝑘 − 𝑥¯) =
𝑘=1
𝑄2 =
𝑛𝑘
𝑚 ∑︁
∑︁
(𝑥𝑖𝑘 )2 − 𝑛(¯
𝑥) 2 ,
𝑚
∑︁
𝑛𝑘 (𝑥¯𝑘 )2 − 𝑛(¯
𝑥)2 ,
𝑘=1
(𝑥𝑖𝑘 − 𝑥¯𝑘 )2 =
𝑘=1 𝑖=1
𝑛𝑘
𝑚 ∑︁
∑︁
(𝑥𝑖𝑘 )2 −
𝑘=1 𝑖=1
𝑚
∑︁
𝑛(𝑥¯𝑘 )2 .
𝑘=1
В качестве критерия необходимо воспользоваться критерием Фишера:
𝐹 =
𝑄1 /(𝑚 − 1)
.
𝑄2 /(𝑛 − 𝑚)
Если расчетное значение критерия Фишера будет меньше, чем табличное значение
𝐹𝜆;𝑚−1;𝑛−𝑚 –– нет оснований считать, что независимый фактор оказывает влияние на
разброс средних значений, в противном случае, независимый фактор оказывает суще
ственное влияние на разброс средних значений (𝜆 –– уровень значимости, обычно для
задач 𝜆 = 0.05).
19
1.6. Алгоритм быстрого перечисления точек грассманиана
1.6.1. Векторная параметризация грассманиана
Грассманиан (многообразиe Грассмана) совокупность всевозможных гиперпространств
фиксированной размерности некоторого векторного пространства над произволь
ным полем.
Векторная параметризация грассманиана над конечным полем является модификацией
классического клеточного разложения и позволяет решить задачу быстрого перечисле
ния точек этого многообразия.[2]
Линейно независимые вектора 𝑋1 , . . . , 𝑋𝑚 над конечным полем F𝑞 — базис 𝑚-мерного
пространства 𝑉𝑚 = (F𝑞 )𝑚 , т.е ∀𝑋𝜏 ∈ 𝑉𝑚 : 𝑋𝜏 = 𝑎1 𝑋1 +. . .+𝑎𝑚 𝑋𝑚 , где 𝑎𝑖 ∈ F𝑞 , 𝜏 = {𝑎𝑖 }𝑎𝑖 ̸=0 .
Рассмотрим набор линейно независимых векторов (𝑋𝜏1 , . . . , 𝑋𝜏𝑘 ) как базис, образующий
𝑘-мерное подпространство 𝑉𝑘 пространства 𝑉𝑚 . Всевозможные 𝑘-мерные подпростран
ства образуют грассманиан Gr𝑞 (𝑘, 𝑚), точкой которого является одно 𝑘-мерное подпро
странство.
Зафиксируем полный флаг ℱ на пространстве 𝑉𝑚 :
𝑉0 = {0} ⊂ 𝑉1 = ⟨𝑋1 ⟩ ⊂ . . . ⊂ 𝑉𝑚 = ⟨𝑋1 , . . . , 𝑋𝑚 ⟩.
Введем несколько определений, чтобы сформулировать теорему, на которой будет ос
новываться алгоритм:
Отношение линейного порядка Бинарное отношение 𝑣 ≺ 𝑤 на множестве векторов
пространства 𝑉𝑚 :
1. рефлексивность: ∀𝑣 ∈ 𝑉𝑚 𝑣 ≺ 𝑣;
2. транзитивность: ∀𝑢, 𝑣, 𝑤 ∈ 𝑉𝑚 𝑢 ≺ 𝑣 и 𝑣 ≺ 𝑤 ⇒ 𝑢 ≺ 𝑤;
3. антисимметричность: ∀𝑣, 𝑤 ∈ 𝑉𝑚 𝑣 ≺ 𝑤 и 𝑤 ≺ 𝑣 ⇒ 𝑣 = 𝑤;
4. ∀𝑣, 𝑤 ∈ 𝑉𝑚 если 𝑣 ≺ 𝑤 или 𝑤 ≺ 𝑣.
Отношение линейного порядка 𝑣 ≺ 𝑤 на 𝑉𝑚 согласовано с флагом ℱ, если для
∀𝑖 𝑣 ∈ 𝑉𝑖 , 𝑤 ∈ 𝑉𝑚 ∖𝑉𝑖 ⇒ 𝑣 ≺ 𝑤.
20
Зададим такую векторную параметризацию грассманиана Gr𝑞 (𝑘, 𝑚), с помощью кото
рой будет удобно перечислять всевозможные его точки (единообразно выделим един
ственный базис (𝑋𝜏1 , . . . , 𝑋𝜏𝑘 ) в каждом 𝑘-мерном подпространстве).
Теорема 1 (о векторной параметризации, Ананьевская П. В.) Для пространства 𝑉𝑚 ,
полного флага ℱ и согласованного с ним отношения линейного порядка отображение
(𝑋𝜏1 , . . . , 𝑋𝜏𝑘 ) ↦−→ ⟨𝑋𝜏1 , . . . , 𝑋𝜏𝑘 ⟩
устанавливает биекцию между наборами векторов 𝑋𝜏1 , . . . , 𝑋𝜏𝑘 ∈ 𝑉𝑚 такими, что
1. для 𝑋𝜏𝑖 = 𝑎𝑖1 𝑋1 + . . . + 𝑎𝑖𝑚 𝑋𝑚 имеет место (𝑎𝑖1 , . . . , 𝑎𝑖𝑚 ) = (𝑎𝑖1 , . . . , 𝑎𝑖𝑠 , 1, 0, . . . , 0),
где 𝑠 ≤ 𝑚.
2. 𝑋𝜏𝑖 ≺ 𝑋𝜏𝑗 при 𝑖 ≤ 𝑗,
3. для всех 𝑋𝜏𝑗 , 𝑖 ≤ 𝑗 выполнено 𝑎𝑗(𝑠𝑖 +1) = 0,
и 𝑘- мерными подпространствами 𝑉𝑚 .
1.6.2. Отношение линейного порядка
Зададим отношение линейного порядка на множестве векторов пространства 𝑉𝑚 .
Основное условие на это отношение: согласованность с флагом ℱ.
Лексикографическим порядком ⪰𝑙 на F𝑚
𝑞 называется отношение линейного поряд
ка, если для ∀ (𝑎1 , . . . , 𝑎𝑚 ), (𝑎′ 1 , . . . , 𝑎′ 𝑚 ) ∈ F𝑚
𝑞 верно правило
(𝑎1 , . . . , 𝑎𝑚 ) ⪰𝑙 (𝑎′ 1 , . . . , 𝑎′ 𝑚 ) ⇐⇒
𝑚
∑︁
𝑎𝑖 𝑞 𝑖−1 ≥
𝑖=1
𝑚
∑︁
𝑎′ 𝑖 𝑞 𝑖−1 .
𝑖=1
Обобщенным порядком Грея ⪰𝑔 называется отношение линейного порядка, если
(𝑎1 , . . . , 𝑎𝑚 ) ⪰𝑔 (𝑎′ 1 , . . . , 𝑎′ 𝑚 ) тогда и только тогда, когда
(𝑎1 ⊕ 𝑎2 ⊕ . . . ⊕ 𝑎𝑚 , . . . , 𝑎𝑚−1 ⊕ 𝑎𝑚 , 𝑎𝑚 ) ⪰𝑙 (𝑎′1 ⊕ 𝑎′2 ⊕ . . . ⊕ 𝑎′𝑚 , . . . , 𝑎′𝑚−1 ⊕ 𝑎′𝑚 , 𝑎′𝑚 ),
где суммы считаются по модулю 𝑞.
Лексикографический порядок и обобщенный порядок Грея согласованы с флагом ℱ.
Преимущество обобщенного порядка Грея состоит в том, что каждая следующая стро
ка (𝑎1 , . . . , 𝑎𝑚 ) отличается от предыдущей (𝑎′ 1 , . . . , 𝑎′ 𝑚 ) прибавлением 1 (по модулю 𝑞)
ровно к одному из 𝑎′𝑖 .
21
1.6.3. Алгоритм быстрого перечисления точек грассманиана FGEA
Алгоритм основан на векторной параметризации грассманиана и ориентирован
на сокращение количества операций для построения каждой следующей точки за счет
использования обобщенного кода Грея и соответствующего ему отношения линейного
порядка.
Для того, чтобы перечислить все точки грассманиана Gr𝑞 (𝑘, 𝑚), т.е. все возможные
𝑘-мерные векторные подпространства пространства 𝑉𝑚 , достаточно перебрать базисы
этих подпространств ( всевозможные наборы 𝑋𝜏1 , . . . , 𝑋𝜏𝑘 ). Однако при таком подходе
все подпространства будут учтены по нескольку раз, например наборы (𝑋1 , 𝑋2 , . . . , 𝑋𝑘 )
и (𝑋1 + 𝑋2 , 𝑋2 , . . . , 𝑋𝑘 ) задают одно и то же подпространство. Поэтому требуется опи
сать некоторую процедуру, позволяющую избежать повторений такого рода.
Все векторы 𝑋𝜏𝑖 являются линейными комбинациями линейно независимых векторов
𝑋1 , . . . , 𝑋𝑚 , существуют единственные наборы коэффициентов 𝑎𝑖1 , . . . , 𝑎𝑖𝑚 ∈ F𝑞 :
𝑋𝜏𝑖 = 𝑎𝑖1 𝑋1 + . . . + 𝑎𝑖𝑚 𝑋𝑚 .
Таким образом, есть взаимно однозначное соответствие между наборами векторов 𝑋𝜏1 , . . . , 𝑋𝜏𝑘
и матрицами коэффициентов 𝐴 = {𝑎𝑖𝑗 }𝑘,𝑚
𝑖,𝑗 .
Согласно теореме о векторной параметризации, для того, чтобы перечислить все точки
грассманиана ровно по одному разу, достаточно рассматривать только наборы коэффи
циентов (𝑎𝑖𝑗 ), обладающие следующими свойствами:
1. для ∀ 𝑖 найдется индекс 𝑠𝑖 : (𝑎𝑖1 , . . . , 𝑎𝑖𝑚 ) = (𝑎𝑖1 , . . . , 𝑎𝑖𝑠𝑖 , 1, 0, . . . , 0).
2. 𝑎𝑖𝑗 = 0, если найдется индекс 𝑙: 𝑙 > 𝑖 и 𝑠𝑙 < 𝑗.
3. 𝑎𝑖(𝑠𝑗 +1) = 0 для 𝑖 ̸= 𝑗.
Другими словами, матрица 𝐴 должна иметь вид:
𝑋1
⎡
𝑋𝜏1
𝑋𝜏2
..
.
𝑋𝜏𝑖
..
.
𝑋𝜏𝑘
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
*
...
...
...
𝑋𝑠
... * 1 0 ... 0 0 0 ... 0
0
...
...
0 ... 0 0 0 ...
𝑋𝑚
0
*
..
.
... * 0
. . . .. ..
. .
* ...
.. . .
.
.
*
..
.
1
..
.
0 ...
.. . .
.
.
0
..
.
0
..
.
0 ... 0 0 0 ...
..
.
0
..
.
*
..
.
... * 0
. . . .. ..
. .
* ...
.. . .
.
.
*
..
.
0
..
.
* ...
.. . .
.
.
*
..
.
1
..
.
0 ... 0 0 0 ...
..
.
0
..
.
*
... * 0 * ... * 0 * ... *
0
* ... * 1 0 ...
0
22
⎤
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
Следовательно, для эффективного перечисления точек грассманиана достаточно уметь
перебирать все матрицы 𝐴 указанного вида. Для этого будут последовательно форми
ровать вектора 𝑋𝜏𝑖 , т.е. строки матрицы 𝐴.
С вычислительной точки зрения, для перебора векторов 𝑋𝜏𝑖 наиболее эффективно ис
пользовать упорядочивание, соответствующее обобщенному порядку Грея.
Алгоритм представлен в следующем виде:
Цикл 1 Для заданного набора 𝑋 (1) = (𝑋1 , . . . , 𝑋𝑚 ):
a) в порядке кодирования Грея перебираем все наборы (𝑎11 , . . . , 𝑎1𝑚 ), формируя
последовательно на каждой итерации цикла
(1)
(𝑋𝜏1 )𝑖𝑡𝑒𝑟1 = (𝑋𝜏1 )𝑖𝑡𝑒𝑟1 −1 + 𝑎1𝑡 𝑋𝑡 ,
где 𝑎1𝑡 – единственный элемент отличающий текущий набор от предыдущего, а
(1)
𝑋𝑡
= 𝑋𝑡 .
б) для текущего вектора (𝑋𝜏1 )𝑖𝑡𝑒𝑟1 и соответствующего ему набора коэффициентов
(𝑎11 , . . . , 𝑎1𝑠1 , 1, 0, . . . , 0) определяем максимальный номер 𝑗1 = 𝑠1 + 1 : 𝑎1(𝑗1 +1) = 0.
Цикл 2 Вычеркиваем из набора 𝑋 (1) вектор 𝑋𝑗1 и для набора
𝑋(2) = (𝑋1 , . . . , 𝑋𝑗1 −1 , 𝑋𝑗1 +1 , . . . , 𝑋𝑚 ) :
a) в порядке кодирования Грея перебираем все наборы (𝑎21 , . . . , 𝑎2(𝑚−1) ), начи
ная с набора (0, . . . , 0, 1, 0, . . . , 0), где единица стоит на 𝑗1 -месте, и формируя
последовательно на каждой итерации
(2)
(𝑋𝜏2 )𝑖𝑡𝑒𝑟2 = (𝑋𝜏2 )𝑖𝑡𝑒𝑟2 −1 + 𝑎2𝑡 𝑋𝑡 ,
(2)
где 𝑋𝑡
– вектор, стоящий на месте 𝑡 в наборе 𝑋 (2) .
б) для текущего вектора (𝑋𝜏2 )𝑖𝑡𝑒𝑟2 и соответствующего ему набора коэффици
ентов (𝑎21 , . . . , 𝑎2𝑠2 , 1, 0, . . . , 0) определяем максимальный номер 𝑗2 = 𝑠2 + 1 :
𝑎2(𝑗2 +1) = 0.
...
Цикл k Вычеркиваем из набора 𝑋 (1) вектора 𝑋𝑗1 , 𝑋𝑗2 , . . . , 𝑋𝑗(𝑘−1) и для на
бора
̂︀𝑗1 , . . . , 𝑋
̂︀𝑗
𝑋(𝑘) = (𝑋1 , . . . , 𝑋
, . . . , 𝑋𝑚 ) :
(𝑘−1)
23
a) в порядке кодирования Грея перебираем все наборы (𝑎𝑘1 , . . . , 𝑎𝑘(𝑚−(𝑘−2)) ),
начиная с набора (0, . . . , 0, 1, 0, . . . , 0), где единица стоит на 𝑗(𝑘−1) + 2 −
𝑘-месте, и формируя последовательно
(𝑘)
(𝑋𝜏𝑘 )𝑖𝑡𝑒𝑟𝑘 = (𝑋𝜏𝑘 )𝑖𝑡𝑒𝑟𝑘 −1 + 𝑎𝑘𝑡 𝑋𝑡 ,
(𝑘)
где 𝑋𝑡
– вектор, стоящий на месте 𝑡 в наборе 𝑋 (𝑘) .
б) Составляем базис подпространства из текущих векторов:
(𝑖𝑡𝑒𝑟)
𝑉𝑘
= ⟨(𝑋𝜏1 )𝑖𝑡𝑒𝑟1 , . . . , (𝑋𝜏𝑘 )𝑖𝑡𝑒𝑟𝑘 ⟩
конец k-го цикла
конец 2-го цикла
конец 1-го цикла
24
Глава 2
Работа с данными
2.1. Множество признаков «До» и один «После»
2.1.1. Исследование оценок экспертов
Рассмотрена 𝐽𝑢𝑟𝑦𝑆𝑒𝑐𝑡𝑖𝑜𝑛 — секция, которая содержит оценки экспертов для каж
дого проекта. Оценка ставилась экспертом после ознакомления с анкетой проекта.
Оценок – признаков достаточно много, хотелось бы уменьшить количество переменных,
обобщив их, используя факторный анализ.
Был проведен факторный анализ в 𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑎 7 для четырех признаков
𝐽𝑈 𝑅𝑌 _𝑁 𝑂𝑉 𝐸𝐿𝑇 𝑌 , 𝐽𝑈 𝑅𝑌 _𝐼𝑀 𝑃 𝑂𝑅𝑇 𝐴𝑁 𝐶𝐸, 𝐽𝑈 𝑅𝑌 _𝑅𝐸𝐿𝐸𝑉 𝐴𝑁 𝐶𝐸,
𝐽𝑈 𝑅𝑌 _𝑆𝐶𝐴𝐿𝐴𝐵𝐼𝐿𝐼𝑇 𝑌 .
Рассмотрим получившиеся факторы и их нагрузки (табл. 2.1).
Таблица 2.1. Факторы.
Видно, что достаточно интерпретировать первый фактор. Первый фактор теснее всего
связан с 𝐽𝑈 𝑅𝑌 _𝐼𝑀 𝑃 𝑂𝑅𝑇 𝐴𝑁 𝐶𝐸 — актуальность решаемых проблем и
𝐽𝑈 𝑅𝑌 _𝑅𝐸𝐿𝐸𝑉 𝐴𝑁 𝐶𝐸 — целесообразность используемых механизмов. Фактор новиз
ны и удобства, а новизна и удобство противоположны: либо делается что-то новое, либо
хорошо делается старое.
Далее проверялось, можно ли считать, что эксперты примерно одинаково оценивают
каждый проект по этим четырем признакам, т.е если высокая оценка за актуальность,
то высокие оценки и по другим критериям. Для первого фактора:
25
Рис. 2.1. Диаграмма размаха для 𝐹 𝑎𝑐𝑡𝑜𝑟1 и 𝐽𝑈 𝑅𝑌 .
По диаграмме на рис. 2.1 видно, что одни эксперты занижают (те, у которых фак
тор наверху), а другие завышают. Чем больше первый фактор, тем больше эксперт
занижает. В общем эксперты оценивают достаточно адекватно, т.е можно соединить 4
признака в одну оценку.
Второй фактор тоже немаловажен. На рис. 2.2 видно, что есть эксперты, который за
вышают 𝐽𝑈 𝑅𝑌 _𝑁 𝑂𝑉 𝐸𝐿𝑇 𝑌 и 𝐽𝑈 𝑅𝑌 _𝐼𝑀 𝑃 𝑂𝑅𝑇 𝐴𝑁 𝐶𝐸, а занижают
𝐽𝑈 𝑅𝑌 _𝑅𝐸𝐿𝐸𝑉 𝐴𝑁 𝐶𝐸 и 𝐽𝑈 𝑅𝑌 _𝑆𝐶𝐴𝐿𝐴𝐵𝐼𝐿𝐼𝑇 𝑌 , т.е эксперт завышает оценку тому
проекту, который удовлетворяет его предпочтениям.
26
Рис. 2.2. Диаграмма размаха для 𝐹 𝑎𝑐𝑡𝑜𝑟2 и 𝐽𝑈 𝑅𝑌 .
Благодаря этой диаграмме можно «вытащить» неадекватных экспертов. Видно,
что это эксперт номер 8 и номер 15.
2.1.2. Качество оценивания выживаемости экспертами
Рассмотрен признак 𝐽𝑈 𝑅𝑌 _𝑂𝑉 𝐸𝑅𝐴𝐿𝐿 — общая оценка эксперта (3 группы) и два
получившихся фактора.
Произведено сравнение в трех группах:
0 — далее не рассматривать,
1 — рассматривать в общем порядке,
2 — обратить особое внимание,
т.е 0 — проект отвергается, 1 или 2 — принимается во внимание.
Был проведен однофакторный дисперсионный анализ.
В табл. 2.2 основные результаты анализа: суммы квадратов, степени свободы, значения
27
Таблица 2.2. Однофакторный дисперсионный анализ.
𝐹 -критерия, уровни значимости.
Для удобства исследования значимые эффекты (𝑝<0.05) выделены красным цветом.
𝐹 𝑎𝑐𝑡𝑜𝑟1 получился значимым, т.е он влияет на разделение по группам.
Необходимо проверить, хорошо прогнозируют эксперты или нет. Были ли они правы в
своих предсказаниях? Рассмотрены два качественных признака 𝐽𝑈 𝑅𝑌 _𝑂𝑉 𝐸𝑅𝐴𝐿𝐿 —
оценка эксперта и 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 — Продолжают ли работу над проектом (0 — нет, 1 —
да).
С помощью статистики хи-квадрат проверена гипотеза о наличии взаимосвязи между
двумя качественными признаками:
Зависимости нет, можно сделать вывод, что эксперты не определяют выживет проект
или нет.
Был рассмотрен признак выжил/не выжил проект 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 и 𝐹 𝑎𝑐𝑡𝑜𝑟1, 𝐹 𝑎𝑐𝑡𝑜𝑟2. По
лучено, что факторы не влияют на успешность проекта. Итог не прогнозируется экс
пертами (табл. 2.3).
Таблица 2.3. Дисперсионный анализ 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 и 𝐹 𝑎𝑐𝑡𝑜𝑟1, 𝐹 𝑎𝑐𝑡𝑜𝑟2.
28
2.1.3. Изолированный анализ качественных признаков «До»
Изучается влияние блока информации «До» на итоговую характеристику 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 —
Продолжают ли работу над проектом (0 — нет, 1 — да).
Были найдены зависимости с помощью критерия Хи-квадрат и упорядочены по убы
ванию влияния те признаки, которые имеют связь с 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 (чем меньше 𝑝, тем
больше влияние)(табл. 2.4).
Таблица 2.4. Связь 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 с признаками «До».
𝐴𝐺𝐸
𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 2.2e – 16 — сколько лет работают над
проектом.
𝑊 𝐸𝐵.𝑆𝐼𝑇 𝐸
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 1.706e – 05 — наличие веб-сайта.
𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.001957 — есть ли в команде сотрудник
организации.
𝐹 𝐴𝑀 𝐼𝐿𝑌
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.006592 — входит ли семейное образова
ние в сферу проекта.
𝑇 𝐸𝐴𝐶𝐻𝐸𝑅
𝑝−𝑣𝑎𝑙𝑢𝑒 = 0.0068 — есть ли в команде преподаватель.
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁
𝑝 − 𝑣𝑎𝑙𝑢e = 0.02128 — входит ли дошкольное образо
вание в сферу проекта.
Таким образом получены признаки, каждый из которых (в одиночку) оказывает влия
ние на итоговую характеристику.
2.1.4. Поиск наилучшего подмножества с помощью коэффициента
неопределенности
Необходимо найти подмножество признаков, которое наибольшим образом связано с
итоговой характеристикой 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸.
(Наложено ограничение на кол-во элементов в подмножестве: не более трех признаков).
Назовем его номинативным представителем множества признаков «До» для упрощен
ной задачи поиска связи между одним признаком «После» и множеством «До».
29
Были посчитаны коэффициенты неопределенности и выделены связанные с 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸
подмножества (табл. 2.5, табл. 2.6 и табл. 2.7).
Таблица 2.5. Подмножества, состоящие из одного признака.
𝐴𝐺𝐸
J= 36.95242
Таблица 2.6. Подмножества, состоящие из двух признаков.
𝑂𝑆 + 𝐴𝐺𝐸
J=28.93851
𝐿𝑂𝐶𝐴𝑇 𝐼𝑂𝑁 + 𝐴𝐺𝐸
J=24.45135
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝐴𝐺𝐸
J=29.56132
𝑃 𝑅𝐼𝑀 𝐴𝑅𝑌.𝑆𝐶𝐻𝑂𝑂𝐿 + 𝐴𝐺𝐸
J=26.53827
𝑀 𝐼𝐷𝐷𝐿𝐸.𝑆𝐶𝐻𝑂𝑂𝐿 + 𝐴𝐺𝐸
J=25.26018
𝐻𝐼𝐺𝐻.𝑆𝐶𝐻𝑂𝑂𝐿 + 𝐴𝐺𝐸
J=25.41795
𝑈 𝑁 𝐼𝑉 𝐸𝑅𝑆𝐼𝑇 𝑌 + 𝐴𝐺𝐸
J=25.1947
𝐸𝑋𝑇 𝑅𝐴𝐶𝑈 𝑅𝑅𝐼𝐶𝑈 𝐿𝐴𝑅 + 𝐴𝐺𝐸
J=25.12047
𝑃 𝑅𝑂𝐹 𝐸𝑆𝑆𝐼𝑂𝑁 𝐴 + 𝐴𝐺𝐸
J=25.47822
𝐹 𝐴𝑀 𝐼𝐿𝑌 + 𝐴𝐺𝐸
J=27.65472
𝑂𝑇 𝐻𝐸𝑅 + 𝐴𝐺𝐸
J=28.85889
𝑊 𝐸𝐵.𝑆𝐼𝑇 𝐸 + 𝐴𝐺𝐸
J=25.82245
𝑆𝐸𝑋 + 𝐴𝐺𝐸
J=21.33207
𝑇 𝐸𝐴𝐶𝐻𝐸𝑅 + 𝐴𝐺𝐸
J=26.05954
𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=29.41551
𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌 + 𝐴𝐺𝐸
J=26.36016
𝐴𝐺𝐸 + 𝑇 𝐸𝐴𝑀.𝑁 𝑈 𝑀
J=26.82852
Таблица 2.7. Подмножества, состоящие из трех признаков.
𝑂𝑆 + 𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝐴𝐺𝐸
30
J=24.45471
𝑂𝑆 + 𝑃 𝑅𝐼𝑀 𝐴𝑅𝑌.𝑆𝐶𝐻𝑂𝑂𝐿 + 𝐴𝐺𝐸
J=22.1477
𝑂𝑆 + 𝐹 𝐴𝑀 𝐼𝐿𝑌 + 𝐴𝐺𝐸
J=22.97665
𝑂𝑆 + 𝑂𝑇 𝐻𝐸𝑅 + 𝐴𝐺𝐸
J=23.79405
𝑂𝑆 + 𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=24.13174
𝑂𝑆 + 𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌 + 𝐴𝐺𝐸
J=22.09018
𝑂𝑆 + 𝐴𝐺𝐸 + 𝑇 𝐸𝐴𝑀.𝑁 𝑈 𝑀
J=22.68196
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝑃 𝑅𝐼𝑀 𝐴𝑅𝑌.𝑆𝐶𝐻𝑂𝑂𝐿 + 𝐴𝐺𝐸
J=22.69849
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝐹 𝐴𝑀 𝐼𝐿𝑌 + 𝐴𝐺𝐸
J=23.36680
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝑂𝑇 𝐻𝐸𝑅 + 𝐴𝐺𝐸
J=23.62842
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝑇 𝐸𝐴𝐶𝐻𝐸𝑅 + 𝐴𝐺𝐸
J=22.15628
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=24.45947
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌 + 𝐴𝐺𝐸
J=22.15707
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 + 𝐴𝐺𝐸 + 𝑇 𝐸𝐴𝑀.𝑁 𝑈 𝑀
J=22.77684
𝑃 𝑅𝐼𝑀 𝐴𝑅𝑌.𝑆𝐶𝐻𝑂𝑂𝐿 + 𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=22.32812
𝐹 𝐴𝑀 𝐼𝐿𝑌 + 𝑂𝑇 𝐻𝐸𝑅 + 𝐴𝐺𝐸
J=22.5581
𝐹 𝐴𝑀 𝐼𝐿𝑌 + 𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=23.20166
𝑂𝑇 𝐻𝐸𝑅 + 𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=23.8796
𝑂𝑇 𝐻𝐸𝑅 + 𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌 + 𝐴𝐺𝐸
J=22.02824
𝑂𝑇 𝐻𝐸𝑅 + 𝐴𝐺𝐸 + 𝑇 𝐸𝐴𝑀.𝑁 𝑈 𝑀
J=22.47287
𝑊 𝐸𝐵.𝑆𝐼𝑇 𝐸 + 𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸
J=22.16894
𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌 + 𝐴𝐺𝐸
J=22.48607
𝐸𝑁 𝑅𝐸𝑃 𝑅𝐸𝑁 𝐸𝑈 𝑅 + 𝐴𝐺𝐸 + 𝑇 𝐸𝐴𝑀.𝑁 𝑈 𝑀
J=23.14652
Рассмотрим таблички (для наглядности), в которых указано, сколько раз встреча
ются признаки «До» в подмножествах и с какими коэффициентами неопределенности
(табл. 2.8, табл. 2.9 и табл. 2.10).
31
Таблица 2.8. Подмножества, состоящие из одного признака.
Таблица 2.9. Подмножества, состоящие из двух признаков.
32
Таблица 2.10. Подмножества, состоящие из трех признаков.
Можно сделать вывод, что 𝐴𝐺𝐸 является «номинативным представителем». При
его добавлении к другим признакам, получаем подмножества, влияющие на итого
вую характеристику 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸. Посмотрим на таблицу сопряженности 2.11 𝐴𝐺𝐸 и
𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸 , чтобы узнать, какие проекты на самом деле выживают:
Таблица 2.11. Таблица сопряженности 𝐴𝐺𝐸 и 𝑆𝑈 𝑅𝑉 𝐼𝑉 𝐸.
AGE\SURVIVE
не выжил
выжил
0
312
0
1
0
145
2
35
0
3
12
0
4
48
0
Получилось, что выживают только проекты «1», т.е над которыми работали от 1 до 2
лет.
Было проверено, насколько хорошо признаки в подмножествах зависимы с помощью
33
критерия Хи-квадрат:
В подмножествах, состоящих из двух признаков, нет зависимости между признаками,
а в подмножествах, состоящих из трех признаков, она есть.
Получились ковариационные триады.
Ковариационные триады — это недавнее изобретение. Ими занимался Юрий Белоусов
под руководством Алексеевой Н. П.. Про парные ковариации событий упоминается в
книге [6].
Рассмотрим, что это такое на примере бинарных признаков.
Пусть имеются три бинарных признака 𝑋1 , 𝑋2 , 𝑋3 . Соответственно обозначим через
𝐴1 , 𝐴2 , 𝐴3 события, связанные с «успехами» 𝑋𝑖 = 1, 𝑖 = 1, 2, 3. Будем рассматривать
ситуацию, при которой имеют место парные отрицательные ковариации
P(𝐴𝑖 𝐴𝑗 ) − P(𝐴𝑖 ) P(𝐴𝑗 ) < 0, 𝑖, 𝑗 = 1, 2, 3
и положительная тройная ковариация
P(𝐴1 𝐴2 𝐴3 ) − P(𝐴1 ) P(𝐴2 ) P(𝐴3 ) > 0.
Нетрудно убедиться в том, что в таком случае
P(𝐴1 𝐴2 | 𝐴3 ) = P(𝐴1 𝐴2 𝐴3 ) > P(𝐴1 ) P(𝐴2 ) P(𝐴3 ) > P(𝐴1 𝐴2 ) P(𝐴3 )
и для любой комбинации
P(𝐴𝑖 𝐴𝑗 | 𝐴𝑘 ) > P(𝐴𝑖 𝐴𝑗 )
условная вероятность произведения двух событий оказывается больше безусловной, т.е
вероятность при добавлении третьего условия стала намного больше и 𝐴3 выступает
катализатором (одно условие, увеличивающее вероятность).
34
2.2. Множества признаков «До» и «После»
2.2.1. Перебор подмножеств и поиск наиболее связанных с помощью
коэффициента неопределенности
Теперь будет решаться более сложная задача анализа связи между двумя множе
ствами признаков «До» и «После».
Рассмотрим признаки «До» (𝑋𝑚 , 𝑚 = 6):
𝐴𝐺𝐸 — Сколько лет Вы уже работаете над проектом, где
1) 𝐴𝐺𝐸1 — (1 — «до 2 лет», 0 — иначе),
2) 𝐴𝐺𝐸2 — (1 — «до 2 до 5 лет», 0 — иначе),
3) 𝐴𝐺𝐸3 — (1 — «от 5 лет», 0 — иначе),
4) 𝑊 𝐸𝐵.𝑆𝐼𝑇 𝐸 — Наличие веб-сайта,
5) 𝑇 𝐸𝐴𝐶𝐻𝐸𝑅 — Есть ли в команде преподаватель,
6) 𝑃 𝑅𝑂𝐹 𝐸𝑆𝑆𝐼𝑂𝑁 𝐴𝐿 — Входит ли профессиональное образование в сферу проекта.
Рассмотрим признаки «После» (𝑌𝑛 , 𝑛 = 5):
1) 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝑃 𝑈 𝐵𝐿𝐼𝐶𝐴𝑇 𝐼𝑂𝑁 — Публикации в СМИ о проекте,
2) 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝑃 𝐴𝑅𝑇 𝑁 𝐸𝑅𝑆 — Привлечены новые партнеры,
3) 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝐺𝑅𝐴𝑁 𝑇 — Получен грант,
4) 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝐼𝑁 𝑉 𝐸𝑆𝑇 𝑀 𝐸𝑁 𝑇 — Привлечены инвестиции,
5) 𝐹 𝑂𝑅𝐸𝐼𝐺𝑁 — Есть ли в команде ключевые участники, имеющие заграничных опыт.
Найдены подмножества по алгоритму быстро перечисления точек грассманиана 𝑋𝑘 , 𝑌𝑘
«До» и «После» размерности 𝑘 = 1 и 𝑘 = 2.
dim(𝑋𝑘 ) = 1: количество найденных симптомов 2𝑚 − 1 = 26 − 1 = 64 − 1 = 63.
dim(𝑌𝑘 ) = 1: количество найденных симптомов 2𝑛 − 1 = 25 − 1 = 31.
dim(𝑋𝑘 ) = 2: количество найденных синдромов 651.
dim(𝑌𝑘 ) = 2: количество найденных синдромов 155.
Выделены наиболее связанные подмножества, в качестве метрики используется одно
сторонний коэффициент неопределенности:
Для 𝑋𝑘 и 𝑌𝑘 , 𝑘 = 1: 36 штук.
Для 𝑋𝑘 и 𝑌𝑘 , 𝑘 = 2: 740 штук.
35
2.2.2. Частотный способ поиска номинативных представителей
Построены таблицы частот 2.12, 2.13, 2.14 и 2.15 (сколько раз какой признак встреча
ется в подмножествах):
Таблица 2.12. Частота признаков 𝑋 в подмножествах 𝑋𝑘 , 𝑘 = 1.
name frequency
X(1)
18
X(2)
18
X(3)
18
X(4)
0
X(5)
0
X(6)
0
Таблица 2.13. Частота признаков 𝑋 в подмножествах 𝑋𝑘 , 𝑘 = 2.
name frequency
X(1)
556
X(2)
556
X(3)
556
X(4)
512
X(5)
348
X(6)
324
36
Таблица 2.14. Частота признаков 𝑌 в подмножествах 𝑌𝑘 , 𝑘 = 1.
name frequency
Y(1)
32
Y(2)
12
Y(3)
16
Y(4)
18
Y(5)
12
Таблица 2.15. Частота признаков 𝑌 в подмножествах 𝑌𝑘 , 𝑘 = 2.
name frequency
Y(1)
740
Y(2)
180
Y(3)
507
Y(4)
483
Y(5)
268
Симптомы, из которых состоят наиболее связанные подмножества dim(𝑋𝑘 ) = 1 и
dim(𝑌𝑘 ) = 1 (табл. 2.16, табл. 2.17):
Таблица 2.16. Частота симптомов 𝑋1 .
37
Таблица 2.17. Частота симптомов 𝑌1 .
Синдромы, из которых состоят подмножества dim(𝑋𝑘 ) = 2 и dim(𝑌𝑘 ) = 2 (табл. 2.19,
табл. 2.18):
Таблица 2.18. Частота синдромов 𝑌2 .
38
Таблица 2.19. Частота синдромов 𝑋2 .
Поиск номинативных представителей:
По таблицам 2.13, 2.16 можно заметить, что признаки 𝐴𝐺𝐸1, 𝐴𝐺𝐸2, 𝐴𝐺𝐸3 образуют
номинативный представитель множества «До».
По таблицам 2.15, 2.18 видно, что признак Y(1) –𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝑃 𝑈 𝐵𝐿𝐼𝐶𝐴𝑇 𝐼𝑂𝑁 входит в
номинативный представитель множества «После».
Посмотрим на информативность симптомов.
Были посчитаны и упорядочены по возрастанию энтропии симптомов в значимых под
множествах размерности 1(табл. 2.20, табл. 2.21).
39
Таблица 2.20. Энтропии симптомов в значимых подмножествах 𝑋𝑘 , 𝑘 = 1.
name
entropy
X(2)
0.5486287
X(1)+X(3)
0.5486287
X(1)
0.6542118
X(2)+X(3)
0.6542118
Таблица 2.21. Энтропии симптомов в значимых подмножествах 𝑌𝑘 , 𝑘 = 1.
name
entropy
Y(4)+Y(5)
0.394731
Y(1)+Y(2)
0.5014441
Y(1)+Y(3)+Y(4)+Y(5) 0.5175828
Y(1)+Y(3)
0.5228691
Y(1)+Y(2)+Y(4)
0.5281098
Y(2)
0.5384569
Y(1)+Y(2)+Y(3)+Y(4) 0.5384569
Y(1)+Y(3)+Y(4)
0.5384569
Y(1)+Y(2)+Y(4)+Y(5) 0.5384569
Y(1)+Y(4)+Y(5)
0.5384569
Y(1)+Y(3)+Y(5)
0.5536501
Y(1)+Y(2)+Y(3)
0.5733185
Y(1)+Y(4)
0.5781336
Y(1)+Y(5)
0.5923414
Y(1)
0.6197248
Рассмотрим во всех найденных подмножествах энтропии симптомов/синдромов и
найдем минимальные (табл. 2.22, табл. 2.23 и табл. 2.24). Симптомы с маленькой энтро
пией означают, что признаки, образующие их, совпадают.
40
Таблица 2.22. Минимальные энтропии симптомов 𝑋𝑘 , 𝑘 = 1.
name
entropy
X(1)+X(2)
0.249882
X(3)
0.249882
Таблица 2.23. Минимальные энтропии симптомов 𝑌𝑘 , 𝑘 = 1.
name
entropy
Y(3)
0.2416273
Y(4)
0.1983736
Y(3)+Y(4)
0.2817615
Таблица 2.24. Минимальные энтропии синдромов 𝑋𝑘 , 𝑘 = 2.
name
entropy
X(1)+X(2) and X(3) 0.249882
У синдромов подмножеств 𝑌𝑘 , 𝑘 = 2 энтропия не близка к нулю.
41
Для наглядности были построены графики, где по оси 𝑥 отложена энтропия симп
томов/синдромов, из которых состоят наиболее связанные подмножества, а по оси 𝑦 —
частота появления симптомов/синдромов в этих подмножествах (рис. 2.3, 2.4, 2.5, 2.6).
Рис. 2.3. Двумерный график симптомов 𝑋1 .
Рис. 2.4. Двумерный график синдромов 𝑋2 .
42
Рис. 2.5. Двумерный график симптомов 𝑌1 .
Рис. 2.6. Двумерный график синдромов 𝑌2 .
43
Теперь посмотрим на двумерные графики, на которых изображены точками все
симптомы в значимых подмножествах 𝑋𝑘 , 𝑌𝑘 , 𝑘 = 2 (рис. 2.7 и 2.8).
Рис. 2.7. Двумерный график симптомов, из которых состоят синдромы 𝑋2 .
Рис. 2.8. Двумерный график симптомов, из которых состоят синдромы 𝑌2 .
44
2.2.3. Метод поиска номинативных представителей, основанный на
удалении признаков
Рассмотрим связанные подмножества 𝑋𝑘 𝑌𝑘 , 𝑘 = 2, получившиеся из исходных мно
жеств 𝑋, 𝑌 . Будем удалять симптомы, которые содержатся в 𝑋𝑘 , из этих подмножеств,
оставляя неизменными 𝑌𝑘 , получим 𝑋˜𝑘 . Проделаем аналогичные действия с симптома
ми, входящими в подмножества 𝑌𝑘 .
Рис. 2.9. До удаления симптома 𝑥𝑟 .
Рис. 2.10. После удаления симптома 𝑥𝑟 .
Сравним коэффициенты неопределенности J и J̃ между подмножествами до удаления
симптома 𝑋𝑘 , 𝑌𝑘 и между 𝑋˜𝑘 , 𝑌𝑘 . В ходе анализа были получены следующие таблицы
(табл. 2.25, табл. 2.26 и табл. 2.27 ):
Расшифровка таблиц:
names — симптомы,
entr — энтропия симптомов,
freq_X — частоты встречаемости симптомов в значимых подмножествах,
without_X — сколько значимых подмножеств останется после удаления симптома,
means_J — среднее значение разности коэффициентов неопределенности между под
множествами до удаления симптома и после,
freq_Y — частоты признаков 𝑌 , в подмножествах 𝑌𝑘 , которые связаны с 𝑋𝑘 , содер
жащими этот симптом.
45
Таблица 2.25. Таблица статистик для 𝑋𝑘 , 𝑘 = 2.
По таблице 2.25 и 2.26 видно, что нельзя удалить симптомы X(1), X(2)+X(3) и
X(1)+X(3), иначе теряем значимые подмножества. При удалении X(1) остаются связи,
за счет X(2), при удалении X(2)+X(3) остаются связи, за счет X(1).
Нельзя удалять признак Y(1), потому что он сильнее всего связан с симптомами из 𝑋𝑘 .
По этой же таблице можно обнаружить, что признаки Y(3) и Y(4) тоже достаточно
часто встречаются в значимых подмножествах с симптомами из 𝑋𝑘 .
Рассмотрев таблицу 2.27, получаем, что нельзя удалить симптомы Y(1), Y(1)+Y(3),
Y(1)+Y(4), иначе теряем значимые подмножества.
46
Таблица 2.26. Таблица статистик для 𝑋𝑘 , 𝑘 = 2.
Таблица 2.27. Таблица статистик для 𝑌𝑘 , 𝑘 = 2.
47
Рассмотри набор, состоящий из коэффициентов неопределенности J до удаления
симптома из 𝑋𝑘 , и набор, состоящий из J̃ после удаления симптома. Необходимо узнать,
как изменился набор коэффициентов неопределенности: уменьшился, увеличился.
Теоретически получаем (утверждение 1), если удаляемый симптом не зависит от дру
гих симптомов в подмножестве, то разность между коэффициентами неопределенности
должна быть больше нуля, а если удаляемый симптом еще не зависит от связанного с
ним подмножества 𝑌𝐾 , то разность между коэффициентами неопределенности должна
быть равна нулю.
Проверим на практике:
Для каждого симптома 𝑥𝑟 , который проверяется на номинативного представителя, есть
набор разностей коэффициентов неопределенности (J −J̃)𝑖 𝑖 = 1, . . . , 𝑝, где 𝑝 — число
значимых подмножеств, которые содержат 𝑥𝑟 и из которых можно удалить этот симп
том. Для оценки изменения J̃ используется критерий знаков. Он дает возможность
установить, на сколько однонаправленно изменяются значения коэффициентов неопре
деленности при повторном измерении после удаления.
Проверяется гипотеза H0 : вероятность успеха и неудачи одинакова,
Альтернатива H1 : вероятность успеха больше, чем 0.5.
Критерий реализован на языке R: binom.test(𝑥,𝑛,𝑎𝑙𝑡𝑒𝑟𝑛𝑎𝑡𝑖𝑣𝑒), где 𝑥 — число успехов,
𝑛 — число испытаний, 𝑎𝑙𝑡𝑒𝑟𝑛𝑎𝑡𝑖𝑣𝑒 — альтернативная гипотеза. Успехом будем считать
уменьшение J̃, т.е в качестве 𝑥 берем количество положительных значений J −J̃. Резуль
таты представлены в табл. 2.28.
Для всех наборов (J −J̃)𝑖 , где 𝑖 = 1, . . . , 𝑝, 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05, поэтому отвергаем гипотезу
H0 . Можно сделать вывод, что при удалении любого симптома из 𝑋𝑘 , J̃ становится
меньше коэффициента неопределенности J до удаления.
48
Таблица 2.28. Критерий знаков для симптомов 𝑋𝑘 , 𝑘 = 2.
Воспользуемся критерием Вилкоксона для зависимых выборок [5], чтобы ответить
на вопрос, значимы изменения J̃ или нет.
Проверяется гипотеза H0 : выборки однородны,
Альтернатива H1 : есть статистически значимое различие между выборками.
Критерий реализован на языке R: wilcox.test(𝑥,𝑦,𝑝𝑎𝑖𝑟𝑒𝑑), где 𝑥 — J, 𝑦 — J̃, 𝑝𝑎𝑖𝑟𝑒𝑑 =TRUE —
парный тест.
Результаты представлены в табл. 2.29.
Для всех наборов (J −J̃)𝑖 , где 𝑖 = 1, . . . , 𝑝, 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05, поэтому отвергаем гипотезу
H0 . Можно сделать вывод, что набор J̃ статистически значимо уменьшается по сравне
нию с исходным J, при удалении любого симптома из 𝑋𝑘 .
49
Таблица 2.29. Тест Вилкоксона для симптомов 𝑋𝑘 , 𝑘 = 2.
Проделаем аналогичные действия для симптомов 𝑌𝑘 : будем удалять каждый симптом
𝑦𝑟 из 𝑌𝑘 , при фиксированном 𝑋𝑘 , и проверять их на номинативных представителей. В
этом случае доказанное утверждение 1 не работает, поэтому разность J и J̃ может быть
любого знака.
Для каждого симптома 𝑦𝑟 , который проверяется на номинативного представителя, есть
набор разностей коэффициентов неопределенности (J −J̃)𝑖 𝑖 = 1, . . . , 𝑝, где 𝑝 — число
значимых подмножеств, которые содержат 𝑦𝑟 и из которых можно удалить этот симп
том. Для оценки изменения J̃ используется критерий знаков.
Получено (табл. 2.30), что только для наборов (J −J̃)𝑖 , соответствующих симптомам
Y(1), Y(1)+Y(3), Y(1)+Y(3)+Y(4), Y(1)+Y(4) и Y(1)+Y(2)+Y(4), 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05 и
отвергается гипотеза H0 . Можно сделать вывод, что при удалении любого из этих симп
томов, J̃ становится меньше коэффициента неопределенности J до удаления.
50
Таблица 2.30. Критерий знаков для симптомов 𝑌𝑘 , 𝑘 = 2.
name
p.value
Y(1)
1.07486017721073e-137
Y(1)+Y(3)
3.04374439692552e-17
Y(1)+Y(3)+Y(4) 5.16987882845644e-26
Y(1)+Y(4)
3.1047478687811e-08
Y(1)+Y(2)+Y(4) 0.00390625
Воспользуемся критерием Вилкоксона для зависимых выборок, чтобы ответить
на вопрос, значимы изменения J̃ или нет. По таблице 2.31 видно, что для всех наборов
(J −J̃)𝑖 , где 𝑖 = 1, . . . , 𝑝, 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05, поэтому отвергаем гипотезу H0 .
Можно сделать вывод, что набор J̃ статистически значимо уменьшается по сравнению
с исходным J, при удалении любого из симптомов Y(1), Y(1)+Y(3), Y(1)+Y(3)+Y(4),
Y(1)+Y(4) и Y(1)+Y(2)+Y(4). Набор J̃ статистически значимо увеличивается по срав
нению с исходным J, при удалении оставшихся симптомов: Y(3), Y(2)+Y(3), Y(4),
Y(3)+Y(4), Y(5), Y(4)+Y(5), Y(2), Y(2)+Y(4), Y(3)+Y(5), Y(3)+Y(4)+Y(5), Y(1)+Y(5),
Y(2)+Y(3)+Y(5), Y(1)+Y(3)+Y(5), Y(1)+Y(4)+Y(5), Y(2)+Y(3)+Y(4).
Таблица 2.31. Тест Вилкоксона для симптомов 𝑌𝑘 , 𝑘 = 2.
51
Рассмотрим рис. 2.11 и рис. 2.12, на которых изображены ящики с усами для
каждого удаляемого симптома из 𝑋𝑘 (затем из 𝑌𝑘 ), чтобы сравнить средние значения
разностей (J −J̃) для этих симптомов. В номинативный представитель войдут симпто
мы с самыми высокими средними, а симптомы с небольшими средними значениями
можно удалить из рассмотрения.
Рис. 2.11. Диаграмма размаха для разности коэффициентов неопределенности до удаления
симптома из 𝑋2 и после.
Симптомы 𝑋𝑘 с самым большим средним значением разностей коэффициентов неопре
деленности до удаления симптома и после удаления:
№24 — X(2)+X(3),
№32 — X(1),
№40 — X(1)+X(3),
№16 — X(2),
№41 — X(1)+X(2).
52
Рис. 2.12. Диаграмма размаха для разности коэффициентов неопределенности до удаления
симптома из 𝑌2 и после.
Симптомы 𝑌𝑘 с самым большим средним значением разностей коэффициентов
неопределенности до удаления симптома и после удаления:
№13 — Y(1),
№15 — Y(1)+Y(4),
№17 — Y(1)+Y(3),
№20 — Y(1)+Y(2)+Y(4),
№19 — Y(1)+Y(3)+Y(4).
53
2.2.4. Факторный анализ для поиска номинативных представителей
Проведем факторный анализ, используя таблицы 2.25, 2.26 и 2.27, чтобы найти
устойчивые симптомы, в смысле уменьшения количества значимых связей и снижения
уровней зависимости при их исключении из совокупностей.
Таблица 2.32. Матрица факторных нагрузок для симптомов 𝑋𝑘 , 𝑘 = 2.
По таблице 2.32 видно, что нужно строить график по 2 и 3 компонентам, т.к они наи
более информативные (means_J — среднее значение разности коэффициентов неопреде
ленности между подмножествами до удаления симптома и после, freq.X_without.X —раз
ность между числом значимых подмножеств до удаления симптома и после , entr — эн
тропия симптомов). Для того, чтобы симптом входил в номинативный представитель
нужно, чтобы means_J, freq.X_without.X и entr были наибольшими, поэтому берем
симптомы, попадающие в верхний правый угол получившегося графика на рис. 2.13.
Образуют устойчивые решения: X(1) и X(2)+X(3).
Рис. 2.13. График значений Comp.2 и Comp.3.
54
Аналогичные рассуждения для симптомов, состоящих из 𝑌 .
Таблица 2.33. Матрица факторных нагрузок для симптомов 𝑌𝑘 , 𝑘 = 2.
По таблице 2.33 видно, что нужно строить график по 2 и 3 компонентам. Чем больше
значение Comp.3, тем меньше means_J, freq.X_without.X и больше entr. Берем симп
томы, попадающие в правую часть получившегося графика на рис. 2.14. Образуют
устойчивые решения: Y(1) и Y(1)+Y(4).
Рис. 2.14. График значений Comp.2 и Comp.3.
55
Были получены и упорядочены наиболее связанные сочетания 𝑋𝑘 и 𝑌𝑘 𝑘 = 1, где
в качестве меры зависимости рассматривается коэффициент неопределенности. Среди
этих решений выделены устойчивые (табл. 2.34):
Таблица 2.34. Наиболее связанные подмножества 𝑋𝑘 и 𝑌𝑘 , 𝑘 = 1.
56
2.3. Заключение
Таким образом, были получены следующие результаты:
Для множества признаков «До» и одного признака «После»:
1. Проведен факторный анализ для секции, содержащей оценки экспертов. Получи
лось, что эксперты оценивают достаточно адекватно.
2. Итог (выжил проект или нет) не прогнозируется экспертами.
3. Получены признаки блока информации «До», каждый из которых (в одиночку)
оказывает влияние на итог:
𝐴𝐺𝐸,
𝑊 𝐸𝐵.𝑆𝐼𝑇 𝐸,
𝐼𝑁 𝐷𝑈 𝑆𝑇 𝑅𝑌 ,
𝐹 𝐴𝑀 𝐼𝐿𝑌 ,
𝑇 𝐸𝐴𝐶𝐻𝐸𝑅,
𝐾𝐼𝑁 𝐷𝐸𝑅𝐺𝐴𝑅𝑇 𝐸𝑁 .
4. Выделены подмножества признаков «До», наиболее связанные с выживаемостью
проектов.
5. Выживают проекты, над которыми работали от 1 до 2 лет.
6. Найден номинативный представитель: признак 𝐴𝐺𝐸. При его добавлении к дру
гим признакам, получаются подмножества, влияющие на итоговый признак.
Для множества признаков «До» и множества «После»:
1. Написана программа для оптимального поиска подмножеств признаков, основан
ная на алгоритме быстрого перечисления точек грассманиана.
2. Произведен канонический анализ. Получены наилучшие связи между подмноже
ствами, в качестве меры зависимости рассматривается коэффициент неопределен
ности.
3. Сформулировано и доказано утверждение 1.
57
4. Реализован частотный способ поиска номинативных представителей.
5. Реализован метод поиска номинативных представителей, основанный на удалении
признаков.
6. Получены номинативные представители обоих множеств 𝑋 и 𝑌 при помощи ме
тодов многомерной статистики (табл. 2.35 и табл. 2.36):
X(1) —𝐴𝐺𝐸1 (до 2 лет работают над проектом),
X(2)+X(3) — взаимодействие 𝐴𝐺𝐸2 и 𝐴𝐺𝐸3 (от 2 лет работают над проектом),
Y(1) — 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝑃 𝑈 𝐵𝐿𝐼𝐶𝐴𝑇 𝐼𝑂𝑁 (Публикации в СМИ о проекте),
Y(1)+Y(4) — взаимодействие 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝑃 𝑈 𝐵𝐿𝐼𝐶𝐴𝑇 𝐼𝑂𝑁 и 𝐸𝑉 𝐸𝑁 𝑇 𝑆.𝐼𝑁 𝑉 𝐸𝑆𝑇 𝑀 𝐸𝑁 𝑇
(Публикации в СМИ о проекте + привлечены инвестиции).
Таблица 2.35. Таблицы сопряженности номинативных представителей двух множеств 𝑋 и 𝑌 ,
Chi-square: 𝑝.𝑣𝑎𝑙𝑢𝑒<2.2e-16.
58
Таблица 2.36. Таблицы сопряженности номинативных представителей двух множеств 𝑋 и 𝑌 ,
Chi-square: 𝑝.𝑣𝑎𝑙𝑢𝑒<2.2e-16.
В дальнейшем планируется:
1. Изучить значимость включения компонент в симптом.
59
Литература
1. Алексеева Н. П. Анализ медико-биологических систем. Реципрокность, эргодич
ность, синонимия. — Санкт-Петербург : Изд-во С.-Петерб. ун-та, 2012. — 184 с.
2. Ананьевская П. В. Исследование конечно-линейных статистических моделей. Опти
мизация и избыточность : дис. на соискание ученой степени кандидата физико-мате
матических наук / П. В. Ананьевская ; Санкт-Петербургский гос. университет. —
Санкт-Петербург, 2013. — 142 с.
3. Рао С. Р. Линейные статистические методы и их применение. — М. : Наука, 1968.
4. Алексеева Н. П. Учебное пособие по прикладной статистике. Часть 2. Многомерные
методы. — Санкт-Петербург, 2014.
5. Ермаков М. С., Сизова А. Ф., Товстик Т. М. Учебное пособие: Элементы математи
ческой статистики. — Санкт-Петербург : Изд-во С.-Петерб. ун-та, 2001. — 148 с.
6. Воробьев О. Ю. Эвентология. — Красноярск : Сиб. фед. ун-т, 2007.
60
Отзывы:
Авторизуйтесь, чтобы оставить отзыв