САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
КАФЕДРА УПРАВЛЕНИЯ МЕДИКО-БИОЛОГИЧЕСКИМИ СИСТЕМАМИ
Большаков Иван Павлович
Выпускная квалификационная работа бакалавра
Оценка классического течения инфаркта
миокарда при наличии заболевания легких
Направление 010300
Фундаментальная информатика и информационные технологии
Научный руководитель,
кандидат физ.-мат. наук,
доцент
Платонов А.В.
Санкт-Петербург
2016
Оглавление
Введение ................................................................................................................... 3
Постановка задачи................................................................................................... 5
Обзор литературы.................................................................................................... 8
Глава 1. Краткое описание математического аппарата ..................................... 10
1.1 Дисперсионный анализ................................................................................ 10
1.1.1 Однофакторный дисперсионный анализ ............................................. 10
1.1.2 Проверка распределения выборки на нормальность ......................... 12
1.1.3. Проверка на равенство дисперсий ...................................................... 15
1.2 Непараметрические методы сравнения ..................................................... 16
1.3 Дискриминантный анализ ........................................................................... 18
1.3.2 Пошаговый дискриминантный анализ ................................................ 20
1.3.3 Классификация ....................................................................................... 24
1.3.3.1 Расстояние Махалонобиса ................................................................. 25
Глава 2. Решение поставленной задачи .............................................................. 27
2.1 Однофакторный дисперсионный анализ и непараметрические методы
сравнения для фактора «Исход» ....................................................................... 27
2.2 Однофакторный дисперсионный анализ и непараметрические методы
сравнения для фактора «Осложнения» ............................................................ 32
2.3 Дискриминантный анализ для фактора «Осложнения»........................... 34
Выводы ................................................................................................................... 45
Заключение ............................................................................................................ 47
Список литературы ............................................................................................... 48
Приложения ........................................................................................................... 52
2
Введение
Первое место по числу смертей на планете занимают заболевания
сердца и сосудов. С разными вариациями ишемической болезни сердца
сталкиваются каждый год миллионы людей. Инфаркт миокарда (ИМ) –
самый распространенный вариант данного заболевания.
ИМ является болезнью, которая приводит к таким последствиям, как
инвалидность, кардинальная смена образа жизни и даже смерти. Проблема
высокой смертности (примерно 30 процентов заболевших), к сожалению, не
обходит стороной и развитые страны. Частота ИМ зависит от возраста и
половой принадлежности человека: к примеру, заболевание встречается в 5
раз чаще у мужчин, чем у женщин, а 80% случаев ИМ приходится на возраст
от 40 до 65 лет [1].
В последние годы при наблюдении клинической картины заболевания
обнаружилось учащение случаев смертельных исходов у пациентов молодого
и
среднего
возраста,
особенно
у
мужской
части
населения
[2,3].
Осложненные формы болезни гораздо чаще наблюдаются у молодых
заболевших [4]. Нередко эти осложнения приводят к появлению хронической
сердечной недостаточности, которая ведет к потере трудоспособности, риску
инвалидности и смертельным исходам после перенесенной болезни.
Примерно половина молодых людей с данным заболеванием умирает до
госпитализации. Все это говорит о том, что ИМ протекает у молодых
пациентов «злокачественно» [5].
Это ставит проблему профилактики и лечения ИМ, а также выявления
ранних стадий сердечной недостаточности в разряд приоритетных для
здравоохранения и военно-медицинской службы, особенно у мужчин
молодого и среднего возраста. В данном вопросе может помочь аппарат
математической статистики.
3
Все чаще и чаще в настоящее время специалисты в области статистики
принимают участие в процессе планирования и анализа результатов
клинической картины пациентов. Возрастает роль анализа в связи с тем, что
в случае многих болезней жизнь и здоровье человека зависит от скорости и
качества поставленного диагноза, от быстрого и надлежащего процесса
лечения. В связи с этим, нельзя пренебрегать таким мощным средством
математического аппарата, как статистические методы, особенно в случае
смертельно опасных для людей заболеваний, таких как ИМ.
Проводя статистические исследования, можно увидеть, какие факторы
(характеристики пациента, его привычки, перенесенные заболевания)
способствуют
развитию
сердечно-сосудистой
недостаточности,
какое
лечение наиболее эффективно, какие факторы ведут к летальному исходу и
от чего зависит тот или иной тип осложнений. Все эти критерии, учитывая
серьезность болезни, очень важны и актуальны. В данном направлении уже
были получены некоторые положительные результаты [6, 7]. К примеру,
было выяснено, что активный образ жизни и отказ от курения ведет к
значительному снижению количества острых форм ИМ. Поэтому продолжать
статистические исследования в указанной области необходимо.
В данной работе для выявления статистических зависимостей и
закономерностей были применены дисперсионный и дискриминантный
анализ, а также непараметрические методы сравнения. Все виды анализа
были реализованы в статистическом пакете STATISTICA. Кроме этого, была
написана
программа
на
языке
C#,
реализующая
прогнозирование
осложнений болезни с помощью классифицирующих функций, полученных
на этапе дискриминантного анализа.
4
Постановка задачи
Дана медицинская база данных, содержащая информацию о 1040
пациентах, перенесших инфаркт миокарда. Каждая запись содержит факторы
различного типа: качественные, количественные, порядковые. Все факторы
пронумерованы и имеют название.
В связи с критической ситуацией течения болезни и частого
возникновения осложнений среди молодых пациентов мужского пола,
необходимо выделить в базе данных только мужчин до 60 лет.
Для того чтобы решить вопрос о связи заболеваний легких и инфаркта
миокарда необходимо разбить выделенных мужчин на три группы: с
заболеванием легких (фактор № 99 признак 2), с заболеванием легких
(фактор № 99 признак 3) и без заболевания легких (фактор № 99 признак 1).
После группировки были получены следующие результаты:
общее число мужчин до 60 лет в медицинской базе: 533 человека;
число людей в группе без заболевания легких (99_1): 411 человек;
число людей в группе c заболеванием легких (99_2): 5 человек;
число людей в группе c заболеванием легких (99_3): 117 человек;
В связи с малой численностью группы (99_2) и невозможностью
корректно провести какой-либо вид анализа в данной группе, оптимально
будет объединить группы (99_2) и (99_3) в одну группу – группу людей с
заболеванием легких в принципе (будем обозначать ее в дальнейшем 99_23).
Ее численность составляет 122 человека.
Далее в каждой из образовавшихся двух групп необходимо выделить
наиболее значимые количественные факторы (всего 59 штук), влияющие на:
1. параметр «исход» (фактор № 10 в базе; выжил – 1; умер – 2);
5
2. параметр «возникновение осложнений» (фактор № 20 в базе; 1 неосложненный ИМ, 2 - осложненный ИМ).
Для наглядности список количественных переменных и некоторые
сведения о них (общее число, среднее значение, минимум, максимум и
дисперсия) для пациентов без заболевания легких представлены ниже в
таблице 1.
Табл.1. Количественные переменные и сведения о них. Группа без заболевания легких
Обобщая
вышесказанное,
задача
состоит
в
выявлении
тех
количественных факторов, которые оказывают наибольшее влияние на исход
и осложненные формы болезни при инфаркте миокарда. Это позволит
определить причины смертельных случаев данной болезни и тяжелых
осложнений, которые часто к ним приводят.
6
Кроме этого, необходимо провести данный анализ в двух группах
пациентов, тем самым выяснив разницу клинического течения болезни у
больных с заболеванием легких и без подобного заболевания.
По результатам анализа, в каждой из групп желательно построить
функцию
прогнозирования
исхода
и
осложнений
для
поступивших
пациентов, чтобы врачи могли в кратчайшие сроки поставить правильный
диагноз и назначить качественное лечение.
Данную задачу можно решить различными способами (например,
используя аппарат нейронных систем, систем нечеткого вывода и т.д.). В
связи с тем, что параметры «Исход» и «Осложнения» (зависимые
переменные) имеют качественный формат, а независимые переменные,
которые необходимо проанализировать – количественный формат, то в
данной работе для решения поставленной задачи рассмотрены такие средства
математической статистики, как дисперсионный и дискриминантный анализ.
7
Обзор литературы
Среди болезней системы кровообращения лидирующую позицию по
числу смертей занимает ишемическая болезнь сердца (ИБС) и ее острая
форма – инфаркт миокарда (ИМ) [8].
В связи с серьезностью подобного рода болезни, и высокой
актуальностью ее анализа, ведутся многочисленные исследования. Например,
к настоящему времени выяснено, что такие факторы, как употребление
алкоголя, наркотических веществ, курение, физическая активность, пищевые
привычки, проживание в загрязненных районах и некоторые другие влияют
на возникновение ИМ [9].
Также, в международном исследовании было
выяснено, что двумя наиболее важными из них во всех регионах мира
являются курение и ненормальное соотношение аполипопротеинов B и A-1
[10].
В России за период с 1990 г. по настоящее время наибольшие рост
смертельных случаев от сердечно-сосудистых заболеваний зарегистрирован
среди мужчин 20-60 лет [11]. Кроме этого, у людей молодого возраста
отмечено внезапное начало болезни ИМ. Часто это обуславливает позднюю
госпитализацию пациентов и позднее начало лечения, тем самым являясь
причиной осложнений болезни [12]. Другие исследования последних лет
также показали, что болезнь ИМ с каждым годом «омолаживается» и
увеличение смертности происходит, главным образом, среди мужчин
молодого и среднего возраста [3, 13]. Мужской пол является доказанным
фактором риска заболевания. При исследовании пациентов до 40 лет доля
мужчин среди них составила 89%-100% [14].
В исследованиях на предмет возникновения ИМ у мужчин молодого
возраста наиболее значимыми факторами оказались курение, артериальная
гипертензия, сахарный диабет, наследственная отягощенность ИБС [15].
Также было доказано, что малоподвижный образ жизни и курение прямо
8
пропорционально увеличивает риск смерти среди пациентов мужского пола
[16].
В
результате
учета
выявленных
факторов
риска,
больничная
смертность от ИМ существенно снизилась с 1994 г. по 2006 г. Однако, среди
мужчин до 55 лет это снижение было наименьшим – 33,3% [17]. В настоящее
время, несмотря на возросшие возможности диагностики и лечения
сердечно-сосудистых заболеваний, уменьшить заболеваемость и смертность
среди таких пациентов пока не удается [1, 11].
Таким образом, несмотря на большое число исследований в данной
области, количество осложненных форм ИМ и смертность среди мужчин
молодого и среднего возраста остаются высокими, поэтому исследовать
факторы риска в данном возрастном сегменте мужской части населения
необходимо. Кроме этого, необходима детализация факторов в зависимости
от заболевания легких; также недостаточно исследована роль факторов в
развитии осложнений ИМ. Все это говорит о высокой актуальности данной
работы, где для нахождения зависимостей используются статистические
методы. Сами дисперсионный и дискриминантный методы, используемые в
работе, описаны в [18, 19]. В [20, 21] описываются правила и способы
математико-статистической обработки данных. База [22] содержит примеры
применения статистических методов к медицине, которые показывают
возможности пакета STATISTICA.
9
Глава 1. Краткое описание математического аппарата
1.1 Дисперсионный анализ
1.1.1 Однофакторный дисперсионный анализ
Целью дисперсионного анализа является ответ на вопрос: «Как связаны
между собой количественные и качественные переменные?». Качественные
переменные выступают в роли признаков-факторов, а количественные – в
роли признаков-результатов. В зависимости от количества таких признаков
выделяют различные виды дисперсионного анализа. В данной работе будем
рассматривать однофакторный дисперсионный анализ (одна зависимая и
одна независимая переменная) [18,23,24,25].
В данном виде анализа с помощью сравнения дисперсий проверяется
значимость различия между средними значениями двух или более подгрупп
общей
выборки.
Сначала
формулируется
нулевая
гипотеза.
Она
предполагает, что все средние значения равны между собой. Это значит, что
исследуемый фактор не оказывает никакого влияния на исследуемую
величину. В таком случае разброс данных внутри подгрупп должен быть не
меньше, чем разброс данных между этими подгруппами.
Итак, пусть имеется выборка величины n. Задан фактор, который
может принимать m значений. Тогда вся выборка разобьется на m подгрупп,
соответствующих разным значениям фактора. Пусть
подгруппы,
(
подгруппе выборки,
i-е
значение
в
k-й
Найдем выборочное среднее в
;
каждой подгруппе
̅̅̅
– величина k-й
∑
10
и общее среднее
̅
∑∑
Основное тождество дисперсионного анализа имеет следующий вид:
,
где
общая дисперсия,
межгрупповая дисперсия,
внутригрупповая дисперсия. Расчет дисперсий проводится по следующим
формулам:
̅
∑∑
∑
∑∑
̅̅̅
̅
̅̅̅
∑
̅̅̅
̅
∑∑
∑∑
Построим корреляционное отношение
̅
∑
̅̅̅
по формуле:
Его значение находится в пределах от 0 до 1. Близость данной величины к 0
говорит об отсутствии влияния независимой переменной на зависимую, в то
время как близость к 1 указывает на наличие такого влияния.
Для проверки гипотезы о равенстве средних пользуемся критерием
Фишера [24]. Находим значение F-статистики:
11
и если вычисленное значение этой статистики будет больше, чем
критическое табличное значение
(см., например, [23, с. 238]). то
тогда есть основания считать, что независимый фактор оказывает влияние на
разброс средних значений (нулевая гипотеза отклоняется), в противном
случае, влияние одной переменной на другую не находит подтверждения.
Здесь
уровень значимости. Степень свободы для межгрупповой
дисперсии составляет m – 1, а для внутригрупповой дисперсии
Табличное критическое значение
n – m.
определяется с помощью
количества степеней свободы и соответствующего уровня значимости (по
умолчанию 5%).
Для
возможности
проведения
дисперсионного
анализа должны
выполниться следующие условия:
1) результирующая переменная внутри каждой группы имеет нормальное
распределение
(при
незначительных
отклонениях
от
нормального
распределения дисперсионный анализ все же может быть применен);
2) подгруппы имеют равные дисперсии;
3) m 2, т.е. число подгрупп должно быть не менее двух;
4)
2,
т.е. число значений в каждой подгруппе должно быть не
менее двух.
1.1.2 Проверка распределения выборки на нормальность
Среди методов для проверки распределения выборки на нормальность
можно выделить такие, как критерий Шапиро-Уилка, t – тест, критерий
Колмогорова-Смирнова и т.д. (см., например, [26]). Также можно построить
гистограмму и визуально убедиться в нормальности распределения. В пакете
STATISTICA это достаточно просто сделать: для выбранной переменной
12
имеется возможность построить гистограмму и применить указанные выше
критерии. Глядя на гистограмму, не всегда легко сказать, что данные
распределены нормально, но, если объем выборки достаточно велик, форма
выборочного
нормальное
распределения
распределение),
приближается
даже
если
к
нормальной
распределение
(«почти»
исследуемых
переменных не является нормальным. Этот важный принцип основывается
на центральной предельной теореме (см., например, [21, с. 238]).
В пакете STATISTICA присутствует улучшенная версия алгоритма
Шапиро-Уилка, которая позволяет его применять при больших выборках (до
2000 наблюдений). Отметим, что данный критерий является самым
эффективным методом проверки на нормальность распределения, поэтому
рассмотрим именно его.
Критерий Шапиро-Уилка основан на оптимальной несмещѐнной
оценке
дисперсии
к
еѐ
обычной
оценке
методом
максимального
правдоподобия. Статистика критерия имеет следующий вид:
[∑
где
]
общее число наблюдений
̅
∑
т.е. ̅ – выборочное среднее,
i-е значение в выборке,
̅
∑
выборочная дисперсия. Коэффициенты
можно посмотреть в статистических таблицах (см.,
,
например, [26, с.236]).
Критические значения
статистики находятся также из таблицы
(см. [26]). Если вычисленное значение статистики меньше критического, то
нулевая
гипотеза
отклоняется
на
13
уровне
значимости
Уровень
согласованности с нулевой гипотезой о нормальности распределения можно
получить по формуле:
(
где коэффициенты
)
также можно взять из статистических таблиц (см.
[26, с.239]).
Чем ближе вычисляемая статистика
к 1, тем меньше вероятность
ошибочно принять гипотезу о нормальности распределения.
Стоит сказать, что классическая реализация критерия Шапиро-Уилка
имеет ограниченную применимость. При n>100 использование таблицы с
коэффициентами
становится неудобным. В связи с этим
была предложена модификация данного критерия [27]. Чтобы применять
критерий Шапиро-Уилка без помощи таблиц, была выведена полезная
аппроксимация. Для уровня значимости α = 0,05 предлагается статистика
(
)
где
{∑
(
[ ]
)}
[
Если
]
то нулевая гипотеза отклоняется.
14
1.1.3. Проверка на равенство дисперсий
В данной работе использовался один из критериев на проверку
равенства дисперсий – критерий Левена, который является аналогом tкритерия Стьюдента, критерия Бартлетта, критерия Фишера и других [26,
28].
Критерий Левена проверяет m выборок на наличие равных дисперсий.
Данный критерий отличает малая чувствительность к отклонениям от
нормального распределения.
Нулевая гипотеза формулирует равенство дисперсий у m выборок:
.
а конкурирующая с ней гипотеза:
,
предполагает, что по крайней мере для одной пары индексов
условие не выполняется.
Пусть
– количество наблюдений в i -ой выборке,
общее количество наблюдений,
∑
j-е наблюдение в i-ой выборке.
Критерий Левена имеет следующего вида статистику:
∑
∑
где
̅
∑
̅
̅
один из вариантов:
̅ – среднее значение по i-ой выборке);
1.
|
̅|
2.
|
̃ | ( ̃ – медиана в i-ой выборке);
3.
|
̅| ̅
̅ – среднее
усечѐнное среднее в i-ой выборке);
по i-й выборке, ̅ − общее среднее
15
по всем группам.
В каждом из трех указанных вариантов выбора величин
устойчивость критерия Левена рассмотрена с разных углов. Случай с
выборочными средними присутствовал изначально в работе Левена. Позже,
Браун и Форсайт ввели в
данный критерий использование усеченных
средних и выборочных медиан [29]. При введении усеченного среднего,
критерий устойчив к отклонениям в сторону распределения Коши, а в
варианте с выборочными медианами − к асимметрии закона. В случае
симметричных и умеренно отличающихся распределений критерий имеет
наибольшую мощность при использовании выборочного среднего.
Нулевая гипотеза критерия отклоняется, если
где
− табличное критическое значение F-распределения с
и
степенями свободы и уровнем значимости
(см., например, [23, с.
238]).
1.2 Непараметрические методы сравнения
Непараметрические критерии применяются в тех случаях, когда вид
распределения
неизвестен
или
предположения
о
нормальности
распределения и равенстве дисперсий весьма неточны. Они основываются на
использовании рангов и частот и не включают в расчет параметры
вероятностного распределения.
В данной работе был выбран один из самых известных и самых
распространенных методов непараметрического сравнения двух выборок –
U- критерий Манна-Уитни [30].
Критерий
объема
и
Манна-Уитни
применяется
и проверяет гипотезу
для
сравнения
выборок
о том, что выборки имеют равные
16
средние и медианы, то есть что выборки получены из однородных
генеральных совокупностей.
Статистика U-критерия выражается следующим образом. Все значения
из обеих выборок расположим в виде вариационного ряда (порядке
возрастания). Каждому элементу ряда присвоим ранг, который определяется
номером данного элемента в ряду.
В случае совпадения по величине нескольких наблюдений, ранг
каждого будет равен среднему арифметическому их номеров. Последний
элемент в составленном ряду должен иметь ранг
Пусть
.
— сумма рангов первой выборки,
— сумма рангов второй
выборки. Вычислим значения :
После подсчета, должно выполняться условие
За
выборочное
наименьшее из
,
значение
статистики
U
критерия
принимаем
. Полученное значение U-критерия сравниваем с
табличным критическим значением U при заданной численности групп и
соответствующим уровнем значимости. Если полученное значение U не
больше критического, то нулевая гипотеза отклоняется, и статистическая
значимость различий в группах принимается.
Для возможности применения критерия должны выполниться условия:
17
1. в каждой из выборок должно быть не менее 3 наблюдений
(допускается, чтобы в одной выборок было 2 значения, но во второй
тогда не менее 5);
2. совпадающих по значениям наблюдений должно быть как можно
меньше.
1.3 Дискриминантный анализ
Дискриминантный анализ – это статистический метод, позволяющий
изучать различия между несколькими группами. Эта теория объединяет в
себе
несколько
статистических
процедур:
методы
классификации
наблюдений по группам и методы интерпретации межгрупповых различий
[19, 25, 31].
Интерпретация результатов дает ответ на вопрос « Можно ли отличить
один класс от другого, используя данный набор характеристик?»; говорит о
том, насколько хорошо эти характеристики могут провести различия и
выявить наиболее информативные из них.
Методы классификации позволяют получить функции, которые
помогают определить, к какой группе относится объект. Эти функции,
зависящие от значений характеристик, называются дискриминантными (ДФ).
А характеристики, применяемые для отличия одной группы от другой,
называются
находящиеся
дискриминантными
в
линейной
переменными
зависимости
с
(ДП).
другими,
Характеристики,
не
являются
создания
«модели»,
информативными и исключаются.
Дискриминантный
анализ
используют
для
позволяющей лучше всего определить к какой совокупности принадлежит
элемент. В рамках этой теории используют два термина: «в модели» - для
описания параметров, которые используются для классификации; и «вне
модели»
для описания неиспользуемых параметров.
18
Дискриминантный
анализ
можно
применять
при
выполнении
следующего ряда предположений:
1. наблюдаемые величины (измеряемые характеристики объекта) имеют
нормальное распределение (следует заметить, что умеренные отклонения от
этого предположения не являются критическими);
2. дисперсии и ковариации наблюдаемых переменных в разных классах
однородны (отличие между классами имеется только в средних); умеренные
отклонения от этого предположения также допустимы;
3. в модели дискриминантного анализа должно быть:
а) не менее двух классов;
б) по крайней мере, два объекта в каждом классе;
в) любое число дискриминантных переменных при условии, что оно не
превосходит число объектов за вычетом двух;
Также стоит упомянуть о значениях толерантности. Толерантность
является
мерой
избыточности
переменной.
переменной вычисляется как
где
Значение
толерантности
– множественная корреляция
переменной с остальными. Если переменная почти полностью избыточна
(т.е. значение толерантности для неѐ приближается к нулю), то матрица
задачи
является
плохо
обусловленной.
В
случае,
когда
данное
предположение верно, дискриминантный анализ не применим. Чтобы
избежать ситуации с плохо обусловленной матрицей, нужно использовать
пошаговый
дискриминантный
анализ.
Переменные,
со
значением
толерантности ниже установленного уровня, включаться в модель не будут.
19
1.3.2 Пошаговый дискриминантный анализ
Пошаговый дискриминантный анализ – метод анализа зависимостей, в
котором переменные в модель вводятся последовательно. На каждом шаге
изучаются все переменные, из них выбирается самая значимая (вносящая
наибольший вклад в дискриминацию между группами). Эта переменная
включается в модель на данном шаге, а на следующем происходит поиск
новой переменной для включения среди оставшихся вне модели [19, 25].
Пусть имеется p переменных, g групп и
объектов в группе k; n –
общее количество наблюдений. Основной целью дискриминации является
нахождение
такой
линейной
комбинации
переменных,
которая
бы
оптимально разделила рассматриваемые группы:
(1.3.2.1)
где
– значение линейной комбинации для m-го объекта в группе k;
значение i-ой ДП для m-го объекта в группе k;
–
неизвестные
коэффициенты, выбираемые таким образом, чтобы центры кластеров групп
максимально возможно отличались друг от друга. Такая линейная
комбинация ДП называется канонической дискриминантной функцией
(КДФ). Такие функции должны быть некоррелированы между собой. Общее
количество КДФ не должно превышать числа ДП и, по крайней мере, должно
быть на 1 меньше количества групп.
Соотношение (1.3.2.1) задает математическое преобразование pмерного пространства ДП в q-мерное пространство КДФ (где q –
максимальное число функций).
Для получения коэффициентов КДФ используется статистический
критерий различения групп. Чем меньше рассеивание объектов группы
20
относительно их центроида и больше расстояние между центрами кластеров,
тем лучше будет происходить классификация. Наилучшая КДФ f для
дискриминации
данных
находится
через
максимизацию
отношения
межгрупповой дисперсии к внутригрупповой.
Оценим информацию, характеризующую степень различия между
объектами по всему пространству точек, определяемому переменными групп.
Для этого вычисляется матрица попарных произведений и сумм квадратов
{
}. Она характеризует расположение объектов в пространстве,
определяемом переменными. Элементы этой матрицы находятся по
следующей формуле:
∑
̅
̅̅̅̅
∑
∑
̅ (
̅)
(1.3.2.2)
̅̅̅̅
∑
Выражение в скобках в формуле (1.3.2.2) – это отклонения значений
переменных от общего среднего. Элементы, стоящие на диагонали матрицы
T определяют сумму квадратов отклонений дисперсий ДП от общего
среднего для этих ДП. Остальные элементы матрицы – это суммы
произведений отклонения по одной переменной на отклонение по другой.
Если разделить матрицу T на
то получим ковариационную матрицу.
Для измерения степени разброса объектов внутри групп рассмотрим
матрицу
{
}, которая отличается от
{
} только тем, что ее
элементы определяются векторами средних для отдельных групп, а не
вектором средних для общих данных. Элементы матрицы
как:
21
определяются,
̅̅̅̅ (
∑∑
̅̅̅̅)
Если центроиды групп окажутся равными, то элементы матриц
совпадут. Если же центроиды групп различны, то разница
и
будет
определять межгрупповую сумму квадратов и попарных произведений.
Элементы матрицы
} определяются как
{
.
Матрицы W и B содержат информацию о зависимостях как между
группами,
так
и
внутри
групп.
Тогда
нахождение
коэффициентов
дискриминантных функций сводится к решению задачи о собственных
значениях и векторах. Решим следующего вида систему:
∑
∑
∑
∑
…
∑
где
– собственное число B,
∑
– собственные вектора B,
Для построения КДФ система (1.3.2.3) решается относительно
и
Количество получаемых нетривиальной решений этой системы уравнений
равно q. Каждое из таких решений имеет свое значение
и определяет одну КДФ. Компоненты
и свой вектор
вектора
используются для вычисления q дискриминантных функций
(1.3.2.1) коэффициенты каждой из которых имеют вид:
22
√
,
= ∑
Коэффициенты
̅̅̅
приводят значения дискриминантной функции
к
стандартной форме. Это означает, что соответствующие дискриминантные
значения по совокупности наблюдений будут иметь нулевое среднее и
единичное внутригрупповое стандартное отклонение.
Такие функции будут находиться на каждом шаге. На первом шаге в
модель будет введена та переменная, КДФ которой будет более значимой.
Для этого проверяется нулевая гипотеза о равенстве центроидов во всех
группах. Если дискриминантная функция статистически значимая, то эта
гипотеза должна быть отвергнута. Эта гипотеза проверяется с помощью
статистики F-включение:
̅̅̅
∑
где ̅̅̅
̅̅̅̅
̅̅̅̅̅ , ̅
̅̅̅
̅
̅̅̅ ,
̅̅̅
},
̅
; а также с
помощью коэффициента лямбда Уилкса:
значения
которого
будут
находиться
в
интервале
от
0
(полная
дискриминация) до 1 (нет дискриминации). На каждом следующем шаге
будут высчитываться КДФ с использованием переменных из модели с
каждой не из неѐ. С какой переменной не из модели лямбда Уилкса будет
меньше, а F- включение больше, та и будет включена в модель на этом шаге.
23
После того, как вид дискриминантных функций определяется,
происходит процедура классификации.
1.3.3 Классификация
Классификация – это процесс принятия решения: указанный объект
«принадлежит к» или «очень похож» на данную группу. Такое решение
принимается на основе информации, содержащейся в дискриминантных
переменных [19].
Для классификации в пошаговом дискриминантном анализе с
включением применяется линейная комбинация, максимизирующая различия
между классами, и вместе с этим минимизирующая дисперсию внутри
классов. Такая линейная комбинация для каждой группы, называется
классифицирующей функцией:
где
значение i-й переменной,
– значение функции для группы k;
коэффициенты регрессии, которые необходимо найти;
член.
Объект
относится
к
группе
с
наибольшим
–
– постоянный
значением
.
Коэффициенты для классифицирующих функций находятся по следующим
формулам:
∑
где
– элементы матрицы
̅̅̅̅
. Постоянный член
формуле:
24
находится по
̅̅̅̅
∑
1.3.3.1 Расстояние Махалонобиса
Более наглядным способом классификации является измерение
расстояний между объектом и каждым из центроидов групп, чтобы затем
отнести объект в ближайшую группу. Однако, когда переменныеизмерены в
разных
единицах,
коррелированы,
имеют
различные
стандартные
отклонения, сложно определить понятие «расстояния». Индийский статистик
Махалонобис предложил обобщенную меру расстояния, которая устраняет
эти трудности [19]. Она записывается в следующей форме:
|
где
|
̅̅̅̅ (
∑∑
̅̅̅̅)
– квадрат расстояния от точки
до центроида
класса k;
(данный объект)
. После вычисления
класса классифицируем объект в группу с наименьшим
для каждого
. Это будет группа,
профиль которой по дискриминантным переменным больше похож на
профиль данного объекта.
Если предположить, что каждый объект должен относиться к одной из
групп, то можно вычислить вероятность его принадлежности к каждому из
классов:
|
|
∑
|
25
Сумма этих вероятностей, часто называемых апостериорными, по всем
группам равна 1. Объект принадлежит к той группе, для которой
апостериорная вероятность максимальна, что эквивалентно использованию
наименьшего расстояния. В данной формуле под символом
понимается
априорная вероятность, т.е. вероятность принадлежности объекта k–ому
классу до учета экспериментальных данных.
Для
корректного
применения
функции
классификации
стоит
использовать две выборки: анализируемую, которая используется для
вычисления функции и проверочную – для проверки результатов расчета на
основании первой выборки. Такую процедуру называют кросс-проверкой.
26
Глава 2. Решение поставленной задачи
2.1 Однофакторный дисперсионный анализ и
непараметрические методы сравнения для фактора «Исход»
Рассмотрим влияние количественных факторов,
перечисленных в
постановке задачи на фактор № 10 (Исход) в группе 99_1 (без заболевания
легких).
Для начала определим количественные переменные, которые не могут
быть рассмотрены в дисперсионном анализе, исходя из ограничений,
представленных в параграфе 1.1.1. Рассмотрим число наблюдений в каждой
из двух групп для всех количественных переменных (проверим четвертое
ограничение в 1.1.1).Например, в таблице 2.1.1 можно видеть число
наблюдений для факторов № 178 (Ca),№ 179 (Mg):
Табл. 2.1.1. Число наблюдений по уровню калия и магния для двух групп
Из данной таблицы видно, что в одной из групп число наблюдений меньше
двойки, поэтому такие переменные мы рассматривать для дисперсионного
анализа (ANOVA) не можем. Полный список неподходящих переменных по
четвертому ограничению: Ca, Mg, Мочев. к-та, КДРпж1, ПП1, VE1,VA1,
VE/VA1, IVRT1.
Для оставшихся количественных факторов продолжим исследование,
которое подробно рассмотрим на примере влияния переменной «ИМТ» (на
переменную «Исход»).
27
Проведем
сначала
проверку
на
нормальность
распределения
переменной «ИМТ» с помощью критерия Шапиро-Уилка и построения
гистограммы (см. рисунок. 2.1.1) и выведем график, который изображает
зависимость ожидаемых нормальных частот значений признака от их
реальных частот. Очевидно, что если между наблюдаемым и ожидаемым
распределениями нет никакой разницы, точки на этом графике выстроятся
строго вдоль прямой (рисунок 2.1.2):
Рис. 2.1.1. Гистограмма для фактора «ИМТ»
Рис. 2.1.2. График ожидаемых и реальных частот. Фактор «ИМТ»
28
Статистика Шапиро-Уилка W близка к 1, но достигнутый уровень
согласия с нулевой гипотезой (распределение нормальное) p=0,00000. Таким
образом, нельзя с уверенностью утверждать, что распределение нормальное.
Но, как уже было отмечено ранее, дисперсионный анализ устойчив к
небольшим отклонениям от стандартных предположений.
Кроме того, на рисунке 2.1.2 точки достаточно плотно выстраиваются
вдоль теоретически ожидаемой прямой, что еще раз подтверждает
нормальность распределения данных.
Проверим теперь гипотезу о равенстве дисперсий с помощью теста
Левена. Получим следующие результаты (см. таблицу 2.1.2):
Табл.2.1.2. Проверка на равенство дисперсий. Тест Левена. Переменная «ИМТ»
MS Error, MS Effect – средние значения суммы квадратов, F – выборочное
значение F-статистики, p – вычисленный уровень согласованности с нулевой
гипотезой.
Как видно из таблицы 2.1.2, гипотеза о равенстве дисперсий
принимается на уровне значимости p=0,114660 (это больше чем 0,05,
поэтому считаем, что проверку на равенство дисперсий данная переменная
прошла).
Проведем однофакторный дисперсионный анализ для переменной
«ИМТ» (см. таблицу 2.1.3):
Табл.2.1.3. ANOVA для «ИМТ»
29
Из таблицы 2.1.3 можно сделать вывод, что средние двух выборок не
отличаются, значение уровня значимости p=0,30071, поэтому можно сказать,
что ИМТ не влияет исход. На рисунке 2.1.3 также можно видеть
предполагаемую разницу между средними:
Рис.2.1.3. Разница между средними. «Исход» и «ИМТ»
Для тех переменных, для которых не выполняется ограничение на
нормальность
распределения
и
на
равенство
дисперсий,
требуется
перепроверить данные с помощью непараметрических методов сравнения. В
качестве такого метода был выбран критерий Манна-Уитни.
Проводя исследование над переменными, которые не прошли
ограничения ANOVA, получаем результаты теста Манна-Уитни – таблицу
2.1.4 и сводную таблицу 2.1.5:
30
Табл.2.1.4. Результаты теста Манна-Уитни
Табл.2.1.5. Сводная таблица. ANOVA + тест Манна Уитни
31
В столбце «Вывод» скобки, содержащие «+» или « », стоят в тех ячейках,
которые соответствуют переменным, не прошедшим ограничения на
равенство дисперсий. Знак «+» означает что тест Манна-Уитни изменил
«решение»
дисперсионного
анализа
(« »
не
изменил).
В
столбце
«Окончательный вердикт» сначала выведены те переменные, которые
влияют на «Исход». Их оказалось 11.
Аналогично рассмотрим результаты влияния количественных факторов
на фактор № 10 (Исход) в группе 99_23 (с заболеванием легких).
Только 7 переменных удовлетворили условию 4 из пункта 1.1.1.
Такими переменными оказались АДмакс, АДмин, АДсист, АДдиаст, ЧСС,
ИСПСН1,ИндНор1. Все они удовлетворяют требованиям нормального
распределения и равенства дисперсий.
В итоге из них оказала влияние на «Исход» лишь одна: ИСПСН1.
2.2 Однофакторный дисперсионный анализ и
непараметрические методы сравнения для фактора
«Осложнения»
Рассмотрим
влияние
количественных
факторов
на
фактор
№ 20 (Осложнения) в группе 99_1 (без заболевания легких).
Проводя аналогичные рассуждения и исследования как в пункте 2.1,
получаем следующие результаты (табл.2.2.1):
32
Табл. 2.2.1. Сводная таблица для фактора «Осложнения»
33
В данной таблице столбец «Влияние теста Манна-Уитни» содержит значения
только для тех переменных, которые не удовлетворили условию равенства
дисперсий. Значение в этом столбце соответствует результату теста.
В столбце «Окончательный вывод» мы можем видеть 13 влияющих на
«Осложнения» количественных переменных.
Аналогично рассмотрим влияние количественных факторов на фактор
№ 20 (Осложнения) в группе 99_23 (с заболеванием легких).
В итоге получаем, что в данной группе на параметр № 20 (Осложнения)
оказали влияние 18 факторов: Адсист (110), Аддиаст (111), ЧСС (140),
Creatin (174), КДР1 (187), КСР1 (188), КДО1 (193), КСО1 (194), ИСПСН1
(213), ЛПОНП (169), ЛП1 (186), ФВ1 (195), ФУ1 (197), VE1 (198), VA1 (199),
IVRT1 (201), ИндНор1 (222), ОТС1 (223). В скобках указаны номера
переменных в исходной базе данных пациентов.
2.3 Дискриминантный анализ для фактора «Осложнения»
Рассмотрим применение дискриминантного анализа к поставленной
задаче. Необходимо проверить, какие переменные являются наиболее
значимыми при прогнозировании осложнений после инфаркта миокарда в
двух случаях: у пациентов с заболеваниями легких и без подобного
заболевания.
Результаты, полученные после применения дисперсионного анализа
(ANOVA) и список факторов, влияющих на параметр «Осложнения» (№ 21)
можно найти в параграфе 2.2. Именно их будем рассматривать в данном виде
анализа. Предположения, необходимые для применения дискриминантного
анализа отдельно проверять не будем, так как идентичные проверки были
выполнены на этапе ANOVA.
34
Сначала рассмотрим группу 99_1 (пациенты без заболевания легких).
Занесем во вкладку дискриминантного анализа в программном пакете
STATISTICA все 13 факторов, выявленные на предыдущем этапе работы. В
силу условий, высказанных в пункте 2.1, будем использовать пошаговый
дискриминантный анализ с включением (Forward).
Установленные параметры для значений толерантности и F-включения
можно увидеть на рисунке 2.3.1:
Рис. 2.3.1. STATISTICA. Дискриминантный анализ. Установка параметров
Дополнительным условием было обозначено, чтобы результаты выводились
для каждого шага. Это обеспечит большую наглядность и понимания
анализа.
В общем случае анализ будет проводиться до тех пор, пока не
произойдет одно из четырех событий:
все переменные введены или отброшены;
достигнуто максимально установленное число шагов;
не осталось переменных вне модели, имеющих уровень
значимости F, большее чем значение F-включить;
следующая переменная имеет значение толерантности меньше
заданного (0,01).
35
Результат после первого шага представлен на рисунке 2.3.2:
Рис 2.3.2. Первый шаг пошагового дискриминантного анализа с включением
Видно, что на первом шаге в модель была введена переменная ФУ1, а
статистика Лямбда-Уилкса начала уменьшаться (на этом шаге она равна
0,71), следовательно дискриминация увеличивается. На каждом шаге также
можно просмотреть переменные вне модели вместе с их показателями, в
частности значение толерантности.
Аналогично проведем следующие шаги анализа. На рисунке 2.3.3
можно увидеть результаты после финального шага:
Рис.3.1.3. Результаты после заключительного шага
36
Всего получилось 8 шагов. Статистика Лямбда-Уилкса в конечном итоге
достигла отметки 0,578.
Посмотрим на переменные, которые оказались в модели (таблица
2.3.1):
Табл. 2.3.1. Переменные, включенные в модель
Красным цветом выделены значимые переменные. Их оказалось 4:
ИндНор1, КСР1, АДсист, АДдиаст. Присутствие остальных переменных,
кроме перечисленных, не так важно для дискриминации, поэтому дальше
используем только значимые (см. табл. 2.3.2):
Табл. 2.3.2. Повторение процедуры дискриминантного анализа для значимых переменных
Все переменные оказались значимы. Наиболее значима оказалась переменная
КСР1.
37
Проводим
дискриминантные
анализ
далее.
функции,
Построим
предварительно
классифицирующие
расставив
и
априорные
вероятности равными друг другу (обе по 0,5). Коэффициенты для
классифицирующих функций содержатся в таблице 2.3.3:
Табл. 2.3.3. Процедура классификации. Коэффициенты
Получаем две классифицирующие функции. Для первой группы
(неосложненный инфаркт миокарда):
8,0369*(КСР1) + 0,7633*(ИндНор1) +0,2670*(АДсист) +0,0886*
(АДдиаст) -39,7573.
Для второй группы (осложненный инфаркт миокарда):
Процент правильного прогноза представлен в таблице 2.3.4:
Табл. 2.3.4.Процент правильного прогноза
С помощью построенных классифицирующих функций удалось
правильно спрогнозировать 73% из имеющихся наблюдений, в том числе
82,89% в группе (Осложнения, 1) и 64,83% в группе (Осложнения, 2).
38
Теперь построим дискриминантную функцию (так как группы две, то
ДФ будет одна) (табл. 2.3.5):
Табл. 2.3.5. Коэффициенты дискриминантной функции
Тогда дискриминантная функция имеет вид:
f=
Посмотрим на среднее значение данной ДФ для двух групп (таблица
2.3.6):
Табл. 2.3.6.Среднее значение дискриминантной функции для двух групп
Можно задать некоторый порог -0,7504 < с < 0,799142 и считать, что
если R > c, то наблюдение принадлежит второй группе, если R < c, то первой.
Чем правее выберем с, тем лучше будет «угадываться» 1-ая группа, и тем
хуже 2-ая, и наоборот. Если взять с за середину отрезка, соединяющего
центры двух групп, то результаты дискриминации совпадут с результатами,
даваемыми классификационными функциями при априорных вероятностях
0,5 и 0,5.
По классифицирующим функциям и проценту правильного прогноза
заметим, что процент «угадывания» в двух группах не сбалансирован (82% и
64%). Причем ошибка угадывания чаще происходит во второй группе (с
39
осложнениями), что может грозить тем, что пациенту с осложнением болезни
выдаст диагноз «без осложнений». Данное статистическое исследование
напрямую связано со здоровьем и жизнью пациентов, поэтому такая
погрешность недопустима. В связи с этим, сбалансируем процент
угадывания, путем расстановки априорных вероятностей как 0,4 и 0,6
соответственно в первой и второй группах. В таком случае получим
следующие результаты (таблица 2.3.7 и 2.3.8):
Табл.2.3.7. Сбалансированный процент прогнозирования
Табл. 2.3.8. Обновленные коэффициенты классифицирующих функций
Общий процент угадывания немного снизился, но был достигнут баланс в
группах.
Также в таблице 2.3.9 можно посмотреть классификацию случаев
обучающей
выборки.
Неправильно
угаданные
варианты
помечены
звездочкой. В таблице 2.3.10 указаны квадраты расстояния Махаланобиса.
Случай относится к группе, до которой расстояние Махаланобиса
минимально
40
Табл. 2.3.9. Классификация случаев выборки
Табл. 2.3.10. Квадраты расстояния Махаланобиса
Аналогично рассмотрим группу 99_23(пациенты с заболеванием
легких). Изначально имеем 18 факторов. Значимыми оказались лишь три
(таблица 2.3.11):
41
Табл. 2.3.11. Значимые факторы для группы с заболеванием легких
При априорных вероятностях 0,5 и 0,5 получаем следующий процент
прогноза (таблица 2.3.12) и следующие коэффициенты классифицирующих
функций (таблица 2.3.13), а также единственную дискриминантную функцию
(таблица 2.3.14):
Табл. 2.3.12. Процент прогнозирования для второй группы
42
Табл. 2.3.13. Коэффициенты классифицирующих функций для второй группы
Табл. 2.3.14. Коэффициенты дискриминантной функции для второй группы
После этапов проведения дискриминантного анализа, построения
классифицирующих функций для параметра № 20 «Осложнения», было
реализовано приложение на языке C# с пользовательским интерфейсом для
прогнозирования осложнений у поступивших пациентов. Описание данной
программы и результаты ее работы можно найти в Приложении А.
Дискриминантный анализ для параметра «Исход» не был применен в
связи с тем, что исходная база данных в данной переменной содержит резко
различающиеся по количеству признаки, а именно количество выживших
43
пациентов
резко
превалирует
над
умершими.
Кроме
этого,
число
смертельных исходов в каждой из групп слишком мало, чтобы применять
такой инструмент, как дискриминантный анализ. В связи с этим, выявленные
после ANOVA переменные не прошли ограничения, указанные в параграфе
1.3 (конкретно ограничения 2 и 3).
44
Выводы
В результате данной работы на основе базы пациентов с помощью
дисперсионного
анализа,
дискриминантного
анализа
непараметрических
в
среде
методов
STATISTICA
были
сравнения
и
установлены
зависимости между количественными факторами и интересующими нас
переменными. Причем сделано это было в двух группах – у пациентов с
заболеваниями легких и у пациентов без данного заболевания. Это позволило
выяснить некоторые закономерности, объясняющие разницу в группах и
связь между заболеванием легких и ИМ.
В обеих группах для переменной «Осложнения» был проведен
дисперсионный и дискриминантный анализ в совокупности, в частности
найдены особо влияющие факторы на наличие осложнений, построены
дискриминантные
и
классифицирующие
функции,
позволяющие
производить прогнозирование в дальнейшем.
В первой группе (без заболевания легких) наибольшее влияние
оказывает фактор КСР1. Кроме этого, значимое влияние оказывают
ИндНор1, АДсист, АДдиаст.
Во второй группе (с заболеванием легких) наибольшее влияние
оказывает переменная ФУ1. Кроме нее, оказывают влияние такие факторы,
как ИндНор1 и ЧСС.
В итоге выяснилось, что в этих двух группах общий значимый фактор
лишь один – ИндНор1. Остальные же факторы абсолютно разные, причем в
первой группе значимы оказались четыре переменные, а во второй лишь три.
Кроме того, надо заметить, что во второй группе намного лучший результат в
плане успешного процента квалификации (84% против 71%).
45
На основе данных результатов с целью удобства дальнейшего
прогнозирования осложнений была написана программа с пользовательским
интерфейсом, реализующая найденные классифицирующие функции.
Для переменной «Исход» в обеих группах был проведен лишь
дисперсионный
анализ
и
непараметрические
методы
сравнения.
Дискриминантный анализ не был реализован в связи с недостатком
количества данных в исходной базе пациентов. В данном случае можно
опираться на результаты ANOVA, либо провести дискриминантный анализ с
другой подобной базой данных, которая позволит это сделать.
Обобщая вышесказанное, можно сказать, что цели, описанные в
постановке задачи, были достигнуты.
46
Заключение
В данной работе была проведено исследование клинической картины
такого серьезного заболевания, как инфаркт миокарда. Данное исследование
позволило
выявить
у
мужчин
молодого
и
среднего
возраста
те
количественные факторы, которые оказывают влияние на одни из самых
важных характеристик данной болезни: смертность и наличие острых
осложнений. Ведь именно люди этого возраста наиболее «беззащитны» перед
этой
болезнью,
именно
в
этом
возрастном
сегменте
возникает
злокачественное течение болезни и высокий процент смертельных исходов.
Кроме этого, было проведен анализ течения болезни с учетом заболевания
легких пациента, что позволит лучше изучить связь инфаркта миокарда с
легочными заболеваниями.
Проделанная работа должна помочь постановке правильного диагноза,
вовремя предоставленного качественного лечения пациентам с инфарктом
миокарда. Учитывая серьезность заболеваний сердца (в частности ИМ) и
неутешительную статистику смертности в результате таких болезней,
быстрое и правильное диагностирование и лечение просто необходимо.
Проведенная работа и полученные выводы могут найти продолжение в
виде исследования также качественных и порядковых факторов, влияющих
на течение заболевания; в виде сравнения полученных в данной работе
результатов с результатами, полученными в других статистических пакетах;
в медицинских системах автоматического принятия решений и т.д. Ведь чем
больше и шире охватить доступные инструменты анализа, тем точнее и
качественнее возможно произвести диагностику и лечение сердечных
заболеваний, а значит увеличить вероятность сохранения здоровья и жизни
пациентов.
47
Список литературы
1.
Оганов Р.Г., Масленникова Г.Я. Профилактика сердечно-сосудистых
заболеваний реальный путь улучшения демографической ситуации в России
// Кардиология. – 2007. – Т. 47,№1. – С.4-7.
2.
Оганов Р.Г., Масленникова Г.Я. Смертность от сердечно-сосудистых и
других неинфекционных заболеваний среди трудоспособного населения
России // Кардиоваскуляр. терапия и профилактика. – 2002. – Т. 1, №3. –
С. 4-8.
3.
Яковлев В.А., Чепель А.И. Ишемическая болезнь сердца: учеб. пособие
для слушателей I, VI факультетов и клинич. ординаторов: Ч. 1. СПб.:
ВМедА., 2003. – 52 с.
4.
Меньшикова И.Г., Лоскутова Н.В., Афонькин А.Н. и др. Факторы риска
и особенности лечения инфаркта миокарда у лиц молодого возраста //
Актуальные проблемы кардиологии в Приамурье: тез. докл. науч.практ.конф. – Благовещенск, 1997. – С. 23-25.
5.
Зяблов Ю.И., Округин С.А., Орлова С.Д. Острые коронарные
катастрофы у лиц до 40 лет: результаты 10-летнего наблюдения в Томске
(1988-1997) по программе ВОЗ «Регистр острого инфаркта миокарда» //
Кардиология. – 1999. – Т. 39, №11. – С. 47-50.
6.
Уускюла
М.М.,
Ламп
К.М.
Ноозла
С.А.
Изучение
причин
заболеваемости острым инфарктом миокарда в молодом возрасте //
Многофакторная профилактика ИБС: тез. докл. Всесоюз. симпоз. – Томск,
1989. – С. 150.
7.
Bosetti C., Negri E., Tavani A. et al. Smoking and acute myocardial
infarction among women and men: a case–control study in Italy // Prev. Med. –
1999. – Vol. 29, №5. – P.343–348.
8.
Бойцов С.А. Методологические основы Российского многоцентрового
эпидемиологического исследования острой ИБС (Резонанс) /С.А. Бойцов,
48
С.С. Якушин, Р.А. Лиферов и др. //Материалы III Национального 117
конгресса терапевтов «Новый курс: консолидация усилий по охране здоровья
нации» (г. Москва, 5-7 октября 2008 г.).- 2008.- С.25-26.
9.
Беленков Ю. Н., Привалова Е. В., Каплунова В. Ю., Хмелькова Е. В.,
Чекнева Н. С., Черноусов А. Ф., Хоробрых Т. В., Ветшев Ф. П. Роль
экстракардиальных факторов в течении ишемической болезни сердца,
нарушений ритма и проводимости сердца // Кардиология и сердечнососудистая хирургия. - 2009. – № 4. – C. 8-17.
10.
Yusuf S., Hawken S., Ounpuu S. et al. On behalf of the INTERHEART
Study Investigators. Effect of potentially moldable risk factors associated with
myocardial infarction in 52 countries (the INTERHEART study): case-control
study // Lancet. – 2004. – Vol. 364, №9438. – P. 937–952.
11.
Чазов
Е.И.
Проблемы
первичной
и
вторичной
профилактики
сердечно-сосудистых заболеваний // Терапевт. арх. – 2002. – Т. 74, №9. – С.
5-8.
12.
Скрибник Э.Я. Редкие варианты инфаркта миокарда у больных
молодого возраста // Клинич. медицина. – 1991. – Т. 69, №11. – С. 32-35.
13.
Cole J. H., Miller J. I., Sperling L. S., Weintraub W.S. Long-term follow-
up of coronary artery disease presenting in young adults // J. Am. Coll. Cardiol. –
2003. – Vol. 41, №4. – P.521-528.
14.
Панова Т.Н., Копылова Н.А. Особенности лечения инфаркта миокарда
в молодом возрасте // Вопросы диагностики и лечения внутренних и
инфекционных болезней: (по материалам 77 науч.-практ. конф. сотрудников
АГМА). – Астрахань, 2000. – Т. 1. – С. 26-30.
15.
Гонохова Л.Г., Быканова Л.В., Кутенких Е.В. и др. Структура
факторов
риска
сердечно-сосудистых
трудоспособного возраста
заболеваний
у
мужчин
// Материалы 9-го Всерос. науч.-образоват.
форума «Кардиология 2007». – М.: Б.и., 2007. – С. 57-59.
49
16.
D'Agostino R. B., Grundy S., Sullivan L.M., Wilson P. Validation of the
Framingham coronary heart disease predictions scores: results of multiple ethnic
group investigations // JAMA. – 2001. – Vol. 286, №2. – P. 180-187.
17.
Vaccarino V., Parsons I., Peterson E. D. Sex differences in mortality after
acute myocardial infarction: changes from 1994 to 2006 // Arch. Intern. Med. –
2009. – Vol. 169, № 19. – P. 1767-1774.
18.
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика:
Исследование зависимостей - М.: Финансы и статистика, 1985. 488 c.
19.
Дж.-О. Ким,
Ч.
У. Мюллер,
У.
Р.
Клекка.
«Факторный,
дискриминантный и кластерный анализ», Издательство: Финансы и
статистика, 1989. 216 с.
20.
Юнкеров В.И., Григорьев С.Г. Математико-статистическая обработка
данных медицинских исследований. – СПб.: ВМедА, 2002. 266 с.
21.
Гланц С. Медико-биологическая статистика – М.: Практика, 1998.459 с.
22.
База
примеров
статистических
решений
StatSoft.
URL:
http://www.statsoft.ru/solutions/
23.
Болч Б., Хуань К.Дж. Многомерные статистические методы для
экономики – М.: Статистика, 1979. 317 с.
24.
Ллойд Э., Ледерман У. Справочник по прикладной статистике. Том 1.
М.: Финансы и статистика, 1989. 510 с.
25.
Афифи А., Эйзенс С. Статистический анализ. Подход с использованием
ЭВМ – М.: Мир, 1982. 488 с.
26.
Кобзарь А.И. «Прикладная математическая статистика. Для инженеров
и научных работников», М.: Физматлит, 2006. 816 с.
27.
Shapiro S., Francia R. S. An approximate analysis of variance test normality
// JASA. 1972. V. 67, №337. P. 215-216.
28.
Levene H. Robust Tests for the Equality of Variance // Contributions to
Probability and Statistics, ed. I. Olkin, Palo Alto, CA: Stanford University
Press, 1960. P. 278 -292.
50
29.
Brown M.B., Forsythe A.B. Robust Tests for Equality of Variances //
Journal of the American Statistical Association, 69, 1974. 364 -367.
30.
Закс Л. Статистическое оценивание. М.: Статистика, 1976. – 598 с.
31.
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д.
Прикладная статистика: Классификация и снижение размерности. – М.:
Финансы и статистика, 1989. 607 с.
51
Приложение А
Программа для прогнозирования осложнений на основе
дискриминантного анализа
По результатам проведения дискриминантного анализа – нахождения
наиболее влияющих факторов и построения классифицирующих функций
для параметра № 20 «Осложнения» было реализовано приложение для
прогнозирования осложнений у поступивших пациентов. В основу прогноза
приложения
положены
классифицирующие
функции,
полученные
в
параграфе 2.3 для каждой из двух групп (с заболеванием легких и без него).
Программа
принимает
на
вход
значения
влияющих
факторов,
соответствующих группе пациента, а на выход выдает прогноз по развитию у
данного пациента осложнений инфаркта миокарда.
Программа реализована в программной среде Visual Studio 2015 на
языке C# и имеет пользовательский интерфейс, поэтому подойдет для
использования врачом-специалистом.
Скриншоты вида и работы программы представлены на рисунках 1,2,3:
52
Рис.1. Общий вид программы
Рис.2. Пациент без заболевания легких. Прогноз: без осложнений
Рис.3. Пациент с заболеванием легких. Прогноз: осложненный ИМ
53
Отзывы:
Авторизуйтесь, чтобы оставить отзыв