МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ
ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение
высшего образования
«Санкт-Петербургский государственный университет аэрокосмического
приборостроения»
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
на
Программные пакеты и статистические методы в постановке
тему
медицинского
диагноза
выполне
на
Алдохиной Юлией Александровной
фамилия, имя, отчество студента в творительном падеже
по специальности
01.03.02
Прикладная математика и
информатика
код
наименование специальности
наименование специальности
по направлению
подготовки/
специальности
03
Прикладная математика и
информатика
код
наименование направленности
в наукоемком производстве
наименование направленности
Студент группы
М611
номер
Ю.А. Алдохина
подпись, дата
инициалы, фамилия
Оглавление
ВВЕДЕНИЕ.............................................................................................4
1. СОВРЕМЕННЫЕ ПРОГРАММНЫЕ ПАКЕТЫ, ИСПОЛЬЗУЕМЫЕ ДЛЯ
РЕШЕНИЯ ЗАДАЧ В МЕДИЦИНЫ............................................................7
1.1. MSEXCEL............................................................................................7
1.2. STATISTICA........................................................................................9
1.3. SPSS STATISTICS..............................................................................10
1.4. SAS VISUAL ANALYTICS..................................................................12
1.5. STATA................................................................................................13
1.6. RAPIDMINER....................................................................................14
1.7. ВЫВОД К ПЕРВОЙ ГЛАВЕ.............................................................16
2. ТЕХНОЛОГИЯ РЕШЕНИЯ ЗАДАЧ ДИАГНОСКИ С ИСПОЛЬЗОВАНИЕМ
RAPIDMINER........................................................................................17
2.1. ЗАДАЧА КЛАССИФИКАЦИИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА
17
2.2. КЛАСТЕРНЫЙ АНАЛИЗ.................................................................21
2.3. ПОСТРОЕНИЕ ДЕРЕВА РЕШЕНИЙ................................................24
2.4. ВЫВОД К ВТОРОЙ ГЛАВЕ.............................................................28
3. ЧИСЛЕННЫЙ ЭКСПЕРИМЕНТ С ИСПОЛЬЗОВАНИЕМ
ПРОГРАММНОГО ПАКЕТА RAPIDMINER.............................................30
3.1. ИСХОДНЫЕ ДАННЫЕ И ИХ ЗАГРУЗКА........................................30
3.2. ТЕХНОЛОГИЯ РЕШЕНИЯ ЗАДАЧИ КЛАСТЕРНОГО АНАЛИЗА32
a) K-medoids.................................................................................................. 32
b) K-means..................................................................................................... 37
c) X-means..................................................................................................... 41
d) Сравнение алгоритмов..........................................................................45
3.3. ТЕХНОЛОГИЯ ПОСТРОЕНИЯ ДЕРЕВА РЕШЕНИЙ......................46
3.4. ВЫВОД К ТРЕТЬЕЙ ГЛАВЕ............................................................53
ЗАКЛЮЧЕНИЕ......................................................................................55
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ...........................................58
ПРИЛОЖЕНИЕ A..................................................................................62
ВВЕДЕНИЕ
Принятие правильного решения становится ключевым
фактором для успешного достижения наших целей во всех
областях
практической
деятельности.
Способов
найти
правильное решение столько же, сколько и людей, которые
должны его принять. Можно ожидать, что вновь принятые
решения станут лучше и надежнее, но для отдельных лиц и
групп, которые должны принимать решения, это на самом
деле становится все более и более сложным, поскольку они
просто не могут обрабатывать огромные объемы данных. И
там возникает необходимость в хорошей технике поддержки
принятия
решений.
Она
должна
иметь
возможность
обрабатывать эти огромные объемы данных и помогать
экспертам принимать решения легче и надежнее. Таким
образом, эксперт может решить, является ли предложенное
решение подходящим или нет.
Потребность в системе анализа совпала с появлением
интеллектуального анализа данных - процесса обнаружения
знаний,
который
представлял
собой
смесь
машинного
обучения, экспертных систем, статистики и т. д. Такая
система
показала
лучшее
понимание
процесса
и
предсказания будущего. Основной целью интеллектуального
анализа данных является извлечение скрытых знаний из
очень
больших
наборов
данных,
которые
невозможно
наблюдать с помощью простого статистического анализа.
Интеллектуальный анализ данных, также называемый
обнаружением
знаний
в
базах
4
данных,
в
области
компьютерных
наук,
представляет
обнаружения
интересных
взаимосвязей
в
и
больших
собой
полезных
объемах
процесс
моделей
данных,
а
и
также
предоставляет лучше понять зависимость между атрибутами
выборки в большом наборе данных и интерпретировать
процессы подсистемы, создавать законы и предсказания
поведения
соответствующей
подсистемы.
Эта
область
объединяет инструменты из статистики и искусственного
интеллекта (такие как нейронные сети и машинное обучение)
с управлением баз данных для анализа больших цифровых
коллекций, известных как наборы данных. Процесс извлекает
информацию
высокого
качества,
которую
можно
использовать для выработки выводов на основе отношений
или структуры данных.
Интеллектуальный анализ данных является результатом
использования реализованных алгоритмов в программном
обеспечении для удовлетворения потребностей медицинской
науки в каждом разделе с построением аналитических
моделей,
категоризации,
информационного
прогноза
(прогнозирования) и представления.
В
настоящее
время
все
интенсивнее
развиваются
статистические методы и программные пакеты в биологии и
экологии [10], географии [12, 15], психологии [8], социологии
[3],
бизнесе
торговля),
(страхование,
банковское
государственной
дело,
безопасности
розничная
(обнаружение
преступников и террористов) и т.д.
На актуальность темы указывают такие факторы, как
сокращение времени, необходимого для постановки диагноза,
который
позволяет
медицинским
5
работникам
лучше
расставить
приоритеты
в
случае
пациента.
Интеллектуальный анализ данных и глубокое обучение могут
анализировать гораздо больше факторов и случаев, чем
работник. Чтобы быть более точным, мы можем использовать
его
для
исследования
медицинской
генома,
визуализации.
интеллектуального
разработки
Устройства
анализа
данных
лекарств,
на
основе
могут
изучать,
анализировать большие объемы информации и принимать
решения гораздо быстрее, чем люди.
Важной целью исследований в области диагностической
медицины
является
оценка
и
сравнение
точности
диагностических тестов, которые служат двум целям:
1) предоставление достоверной информации о состоянии
пациента и
2) формированию плана лечение пациента на основе
установленного диагноза.
Как следует из вышеизложенного, здесь существенные
продвижения
могут
применения
быть
получены
интеллектуального
осуществляемого
с
помощью
именно
анализа
современных
за
счет
данных,
программных
средств.
Целью
данного
исследования
является
оценка
возможности эффективного использования алгоритмов для
прогнозирования пациентов при поступлении в больницу,
что,
в
свою
очередь,
открывает
и
возможности
прогнозировать необходимое лечение для пациентов, а также
обеспечить необходимые меры для пациентов с травмами,
которые находятся до входа в критическую ситуацию. Для
реализации цели должны быть решены следующие задачи:
6
исследование
возможности
применения
статистического методакластерного анализа
исследование возможности применения алгоритма
построения дерева решений
Объектом
исследования
являются
медицинские
данные пациентов одной из поликлиник г. Котлас.
Предметом исследования являются статистические
программные пакеты.
1.
СОВРЕМЕННЫЕ ПРОГРАММНЫЕ ПАКЕТЫ,
ИСПОЛЬЗУЕМЫЕ ДЛЯ РЕШЕНИЯ ЗАДАЧ В
МЕДИЦИНЫ
В настоящее время существует достаточно большой
выбор программ и программных пакетов, которые использует
современная медицина при решении как оперативных, так и
относительно
долговременных
задач достаточно
задач.
широк.
программные пакеты используются для
Так,
Диапазон
этих
например,
решения
различных задач, как: построение баз данных;интерпретации
7
медицинских
данных;
контроль
качества
(оценить
эффективность лечения);анализ тенденций заболеваемости,
статистических
данных
о
пациентах
и
информации
об
использовании;информация о состоянии здоровья населения
и постановки диагноза.
Рассмотрим
основные
программные
средства,
распространенные в медицинской практике.
1.1. MSEXCEL
В данное время существует большое множество отраслей
и предприятий, нуждающихся в аналитики, но стоимость и
чрезмерная сложность данного программного обеспечения
часто вынуждает отказаться от идеи построения собственной
аналитической системы и отдается предпочтение MS Excel.
Для изучения MS Excel, как статистический пакет, в
медицине были рассмотрены учебные пособия Шеламова М.
А. «Использование программы Excel в
медико-биологических
данных»
[17]
работе с
иКорсунова
базой
Е.С.,
Тишакова К.Д. «Применение пакета STATISTICA и MS EXCEL
для обработки биомедицинской информации» [2].
MicrosoftExcel
программа
для
(MS
сбора
Excel)
-
данных
широко
и
используемая
статистического
анализа.Excel наиболее часто используемая электронная
таблица
для
ПК.
Программа
легко
доступна
без
дополнительных затрат для всех, кто пользуется настольным
компьютером. Многие компьютеры часто поставляются с уже
загруженным
Excel.
Так
же
он
может
быть
полезной
платформой для ввода и ведения данных исследований. Excel
довольно прост в освоении и использовании. Исследователи
8
могут использовать простые статистические и графические
функции Excel, чтобы помочь лучше понять их данные.
Функции, которые имеет MSExcel: импорт и работу с
данными;
выявление,
классификация
и
представление
данных; установление границ и проверка гипотез; проверка
среднего
данных
значения;
и
проверка
шаблонов;
пространственный
анализ;
визуализация
интерпретация
дисперсии; анализ текста и многое другое.
Excelвесьма
удобен
для
ввода
данных
и
быстрой
обработки строк и столбцов перед статистическим анализом.
Однако
включая
эта
программа
меньшее
имеет
количество
много
функций,
ограничений,
которые
можно
использовать для анализа, и ограниченное количество ячеек
по сравнению со специализированными статистическими
программами.
Одним из наиболее известных задокументированных
недостатков
Excelявляется
алгоритмов.
В
основном
его
это
набор
вычислительных
касается
вычислительных
алгоритмов для базовой статистики. Перечислим основные
недостатки:
Excel использует плохие алгоритмы, чтобы найти
стандартное отклонение;
Excel
не
обрабатывает
связанные
наблюдения
правильно при ранжировании;
расчеты регрессии часто ошибочны из-за плохих
алгоритмов.
Кроме того, Excel обычно отображает гораздо больше
цифр, чем нужно (естественно для восприятия).
9
Регрессия в Excelимеет следующий ряд трудностей с
регрессионными процедурами:
не относится к моделям с нулевым перехватом;
иногда получает отрицательные суммы квадратов;
не
справляется
с
мультиколлинеарностью
правильно;
вычисляет
стандартизированные
остатки
неправильно;
отображает нормальные вероятностные графики,
которые полностью неверны;
делает выбор переменных очень сложным.
1.2. STATISTICA
Линейка продуктов StatSoft представляет собой набор
аналитических
программных
продуктов
STATISTICA.
STATISTICA предоставляет наиболее полный набор процедур
анализа данных, управления данными, визуализация данных,
интеллектуальный
анализ
данных,
машинное
обучение,
процедуры анализа текста. Его методы включают в себя
широкий выбор методов прогностического моделирования,
кластеризации,
программной
классификации
платформе.
и
исследования
Аналитические
в
одной
возможности
STATISTICA дополняются множеством уникальных функций,
в том числе:
• Запросы к базам данных;
• Визуализация данных.
Графические средства в STATISTICA сочетают в себе
чрезвычайно
широкий
выбор
научных
и
технических
диаграмм (со встроенными аналитическими средствами) с
10
возможностями настройки, рисования и мультиграфического
управления,
которые
обычно
присутствуют
только
в
специально предназначенных графических программах и
программах для рисования. STATISTICA предлагает сотни
типов 2- и 3-мерных графических дисплеев, в том числе 2- и
3-мерные троичные графы, специальные 4-мерные графы,
многомерные графы, матрицы графиков, спектральные 2- и 3
трехмерные
графы,
составные
графы
и
многие
другие
специализированные процедуры. Кроме того, гибкие и очень
простые в использовании средства позволяют настраивать
совершенно новые типы графиков и постоянно добавлять их в
меню или плавающие панели инструментов.
Исследователь
классификации
и
может использовать
методы
различные
регрессионного
виды
анализа,
реализованные в пакете STATISTICA, в том числе:
Классификация и регрессия;
Автоматизированная нейронная сеть;
Общая классификация и регрессия с помощью
деревьев;
Общая модель CHAID;
Случайный лес (Randomforest) др.
Комплексные реализации специализированных методов
для
анализа
данных
используются
в
различных
сферах(например, интеллектуальный анализ данных; бизнес,
социальные науки и биомедицинские исследования [13]).
Одним из главных преимуществ программы STATISTICA
является
широкий
множественная
анализ
таблиц,
спектр
регрессия,
алгоритмов
(автокорреляции,
аппроксимация,
вычисление
11
графический
экстремумов,
подгонка
распределений,
байесовский
анализ
и
т.д.),
вторым
по
важности преимуществом это высокая точность расчетов.
Также эта программа имеет и ряд недостатков, таких
как:
использование пакета STATISTICA требует больших
знаний
теории
«Теория
вероятности
и
математическая
статистика»;
относительно сложный интерфейс.
1.3. SPSS STATISTICS
SPSS
- сокращение от «Статистический пакет для
социальных
наук».SPSS
Statisticsиспользуется
исследователями рынка, исследователями здравоохранения,
исследовательскими
структурами,
компаниями,
исследователями
в
государственными
области
образования,
маркетинговыми организациями и многими другими для
обработки и анализа данных обследований, например, в
области
медицины
ролинейропротекции
использовалась
в
для
терапии
нахождения
гипертонической
энцефалопатии.
Это программное обеспечение является одним из самых
популярных
статистических
пакетов,
которые
могут
выполнять очень сложные манипуляции и анализ данных при
выполнении относительно простых инструкций. SPSS может
брать
данные
практически
из
любого
типа
файлов
и
использовать их для создания табличных отчетов, диаграмм и
графиков
статистики
распределений
и
проведения
и
тенденций,
комплексного
анализа.
12
описательной
статистического
Это программное обеспечение широко использовалось
исследователями для проведения количественного анализа с
момента его разработки в 1960-х годах Норманом Х. и
сотрудничестве с К. ХадлайХаллом и Дейлом Бентом.
Программное обеспечение SPSS может считывать и
записывать данные из других статистических пакетов, баз
данных и электронных таблиц.
Есть много статистических методов, которые можно
использовать в SPSS, а именно:
прогнозирование
определения
кластерный
групп,
разнообразных
включая
анализ,
такие
факторный
данных
методологии,
анализ,
для
как
дисперсионный
анализ и т. д.;
описательные статистические данные, в том числе
методологии
SPSS,
представляют
собой
статистические
данные о частотах, перекрестных таблицах и описательных
соотношениях, которые очень полезны;
кроме
того,
двумерная
статистика,
включая
методологии, такие как дисперсионный анализ (ANOVA),
средние значения, корреляционные и непараметрические
тесты и т. д.;
прогноз числового результата, такой как линейная
регрессия.
Преимущества данного пакета:
более
легкий
доступ,
управление
и
анализ
практически любого типа данных;
надежные
результаты
испытаний и процедур;
13
с
широким
спектром
отчет о результатах в простых для понимания
форматах.
Основныминедостатками
SPSS
являются:
нельзя
использовать для анализа очень большой набор данных и
высокая цена.
1.4. SAS VISUAL ANALYTICS
SAS («Система статистического анализа») - это набор
статистического программного обеспечения, разработанный
институтом SAS для управления данными, расширенной
аналитики,
многомерного
анализа,
бизнес-аналитики,
уголовного расследования и прогнозной аналитики.
SAS программный комплекс, который может добывать,
изменять, управлять и извлекать данные из различных
источников, а также выполнять статистический анализ. Он
не только предоставляет организациям все необходимые
инструменты для мониторинга, но также предоставляет
мощную
аналитику
и
отчеты
для
лиц,
принимающих
решения, для принятия обоснованных решений.
SAS VisualAnalytics помогает анализировать большие
данные
предприятия
информацию
и
настолько
генерировать
простым
из
способом,
них
что
мощную
бизнес-
пользователи сами могут сделать вывод из всего этого
процесса, таким образом снимая с ИТ-команды эту нагрузку.
Этот инструмент позволяет компаниям выявлять тенденции,
выявлять корреляцию между данными, выявлять выбросы,
осознавать исключения, выявлять причину таких изменений
и предлагать новые идеи и идеи, о которых они не знали.
Преимущества:
14
пользователи
могут
применять
возможности
аналитики SAS к огромным объемам данных;
позволяет
информационные
создавать
панели
на
визуальные
основе
отчеты
обычных
таблиц
и
и
графиков;
простое создание моделей и исследование данных.
Недостатки:
недостаток эффективности в подготовке данных и
управлении данными;
требуется ручная работа в прогнозировании;
пользовательский
интерфейс
не
является
достаточно удобным.
1.5. STATA
Stata
-
это
пакет
статистического
программного
обеспечения общего назначения, созданный в 1985 году
компанией
работают
StataCorp.
в
экономики,
области
Большинство
исследований,
социологии,
его
пользователей
особенно
политологии,
в
области
биомедицины
и
эпидемиологии.
Возможности
Stata
включают
управление
данными,
статистический анализ, графику, моделирование, регрессию
и пользовательское программирование.
Эта программа включает в себя импорт и управление
наборами данных, очистку и подготовку данных, создание и
управление
переменными,
создание
описательной
статистики и значимых графиков, отличную встроенную
поддержку моделирования структурных уравнений, а также
центральные количественные методы, такие как линейные и
15
бинарные
логистические
Дополнительная
гарантирует,
правильные
регрессии,
информация
что
эти
о
методы
результаты,
и
сопоставления.
диагностических
дают
тестах
действительные
и
соответствующие академическим
стандартам.
Преимущества:
имеет различные пакеты дополнений, такие как
скрытый кластерный анализ, пространственные модели AR,
нелинейные
многоуровневые
модели,
модели
конечных
смесей, пороговая регрессия и т. д.;
обеспечивают расширенное моделирование выбора;
предлагает
широкий
спектр
статистических
анализов;
хорошая система поддержки;
надежные оценки и тесты, методы продольных
данных, многомерный временной ряд.
Недостатки:
очень мало литературы на русском языке по работе
в программном пакете Stata;
несколько ограниченная графика;
не такой гибкий, как программы статистического
анализа.
1.6. RAPIDMINER
RapidMiner [21] - это среда для машинного обучения,
интеллектуального
прогнозной
анализа
аналитики
данных,
и
анализа
текста,
бизнес-аналитики.
Проект
RapidMiner был начат в 2001 году Ральфом Клинкенбергом,
ИнгоМиерсвой
и
Саймоном
16
Фишером
из
отдела
искусственного
интеллекта
Технического
университета
Дортмунда.
С 2007 года RapidMiner был значительно расширен и
стал одним из наиболее важных инструментов для анализа и
анализа данных. Он интенсивно используется на вводных
курсах и в академических целях в университетах по всему
миру. RapidMiner также используется в промышленных целях
многими
компаниями
различных
задач
и
консультантами
таких
как:
для
обнаружение
решения
спама
[1],
определение типа дефекта поверхности в нержавеющих
стальных
пластинах
пользовательских
[5],
определение
групп
путем
и
создание
обработки
данных
использования сайтов [11], поиск управляющих компаний
[14] и т.д..
RapidMiner - это централизованное решение с очень
мощным
и
надежным
интерфейсом,
графическим
позволяющим
пользовательским
пользователям
создавать,
предоставлять и поддерживать прогностическую аналитику.
Помимо
предоставления
истинной
прогностической
аналитики, пакет приложений RapidMiner также включает
интеграцию данных, преобразование, машинное обучение и
интеграцию
приложений.
Благодаря
такому
унифицированному подходу RapidMiner ускоряет процесс
обучения,
улучшает
стандартизацию
и
упрощает
обслуживание и расширяемость, что значительно повышает
производительность и эффективность.
Программное
обеспечение
программированияJava
и
написано
запускает
так
на
языке
называемые
процессы. Процесс в основном представляет собой XML-файл,
17
сгенерированный
пользователем
последовательность
операторами.
задач,
Более
500
и
содержащий
которые
операторов
представлены
уже
включены
в
программное обеспечение. Их функциональные возможности
охватывают основные аспекты анализа данных, такие как
загрузка
и
преобразование
данных,
предварительная
обработка и визуализация данных, моделирование и оценка
моделей,
прогнозную
аналитику
и
статистическое
моделирование.
Комбинируя
основные
этих
задачи
операторов,
машинного
можно
выполнять
обучения,
такие
как
интеллектуальный анализ данных, анализ текста, анализ
временных рядов и прогнозирование, веб-анализ, а также
анализ настроений и анализ мнений.
Обзор преимуществ RapidMiner:
RapidMiner предлагает надежный и очень мощный
интегрированный набор инструментов и функций, каждый
компонент которого представляет собой удобный интерфейс,
который помогает пользователям добиться значительного
повышения
производительности
с
самого
начала.
Его
инструмент визуального конструктора рабочих процессов
предлагает
пользователям
простую
в
использовании
визуальную среду, которая позволяет им проектировать,
создавать
и
развертывать
аналитические
процессы,
визуальные презентации и модели без проблем;
система упрощает доступ к данным и управление
ими, позволяя получать, загружать и оценивать все виды
данных, включая тексты, изображения и аудиодорожки.
18
RapidMiner позволяет вам структурировать их так, чтобы вам
и вашей команде было легко их понять;
позволяет создавать модели и планы, чтобы вы
могли извлекать критическую статистику и информацию, на
которой вы будете основывать свои решения и стратегии.
1.7. ВЫВОД К ПЕРВОЙ ГЛАВЕ
В
настоящей
известных,
и
главе
был
получивших
проведен
широкое
обзор
наиболее
распространение,
статистических программных пакетов.
Рассмотрены пакеты программного обеспечения для
статистического
анализа
данных,
такие
как:
MSExcel,
STATISTICA, SPSS Statistics, SAS VisualAnalytics, Stata и
RapidMinerStudio.
В
результате
проведенного
анализа
имеющихся
на
настоящий момент программных средств, для решения задач
прикладной математической статистики для целей медицины
можно сделать следующие выводы:
1. Предлагаемая линейка программных пакетов решает
практически весь спектр задач
прикладной статистики,
возникающих в практической медицинской деятельности.
2.
Программный
является
наиболее
пакет
RAPIDMINER,
эффективным
несомненно,
средством
решения
задачоперативной медицинской практики – диагностики и
прогнозирования.
19
2.
ТЕХНОЛОГИЯ РЕШЕНИЯ ЗАДАЧ ДИАГНОСКИ
С ИСПОЛЬЗОВАНИЕМ RAPIDMINER
В настоящей главе мы рассмотрим ряд специфических
задач прикладной математической статистики, решение
которых, с одной стороны, естественным образом
определяется задачами и потребностями медицинской
оперативной практики, а с другой стороны, наиболее удобно
осуществимо в рамках программного пакета RAPIDMINER.
2.1. ЗАДАЧА КЛАССИФИКАЦИИ
ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА
Классификация - это процесс прогнозирования
классазаданных точек данных. Нередко задача
классификации на языке математической статистики
формулируется как задача разделения смеси распределений.
В последнем случае она называется кластерным анализом
или кластеризацией (см. раздел 2.2).Классификационное
прогнозирующее моделирование - это задача приближения
функции отображения (f) от входных переменных (х) к
дискретным выходным переменным (y).
Задачи интеллектуального анализа данных делятся на
две большие группы: прогнозирующие и описательные.
Задачи прогнозирования связаны с построением модели,
которая
может
использоваться
для
прогнозирования
поведения анализируемой системы в ситуации, которая ранее
не наблюдалась.
Целью решения описательных задач является поиск
скрытых закономерностей в данных, их описание и вывод
правил, которые могут быть использованы в будущем для
20
повышения эффективности работы. Поэтому эту группу задач
также
называют
задачами
структурированного
интеллектуального анализа данных.
В
настоящее
время
в
задачах
интеллектуального
анализа данных обычно используются различные варианты
классификации, показанные на рис. 1.
Рис.1. Классификация задач анализа данных
В рамках задач
разделения
классификации решается проблема
определенного
определенный
набор
набора
классов.
данных
на
Решение
заранее
задачи
классификации позволяет не только изучить существующие
данные, но и позволяет прогнозировать будущее поведение
системы.
По количеству классов, на которые делится входная
выборка,
необходимо
различать
проблемы
бинарной
и
полинарной классификации. С двоичной классификацией во
входной выборке выделяются только два класса (точнее, один
21
класс
и
все
остальное).
С
помощью
полинарной
классификации входная выборка делится на три или более
классов.
Практическим применением методов классификации в
медицине
является
определение
(доброкачественная
или
вида
опухоли
злокачественная),
груди
клиническое
исследование о сердечной недостаточности.
Решение проблемы построениярегрессии включает в
себя
выявление
взаимосвязи
между
независимыми
(входными) переменными и зависимыми (выходными). Суть
решения
сводится
к
выводу
математической
формулы
эвристическим или аналитическим способом, выражающим
взаимосвязь между входными и выходными данными.
М.
Какимото
[25]
предложил
использовать
анализ
логической регрессии для извлечения правил отношений и
изучения взаимосвязи функций мозга с движением пальцев и
человеческой речью.
Целью
решения
аппроксимация
задачи
прогнозирования
(определение)
значений
является
некоторых
показателей в будущем на основе заданных значений в
прошлом и настоящем.
Один из классических примеров в медицине, «Маска
Гиппократа»,
надвигающейся
описывает
смерти,
процедуру
основанную
прогнозирования
на
наблюдении
отличительных признаков и симптомов, которые он выявил
[22].
Целью
решения
задачи
анализа
временных
рядов
является прогнозирование будущих значений определенного
22
набора данных, где значение выходной переменной зависит
не только от прошлых значений переменной, но и от
времени.
Характерной
особенностью
временных
рядов
является равномерное распределение входных данных во
времени. Анализ временных рядов является своего рода
проблемой
регрессии,
но
поскольку
он
использует
конкретные входные данные и методы принятия решений, он
выделяется в отдельный класс задач.
Модели анализа временных рядов были использованы
для характеристики механизмов почечной ауторегуляции и
для выявления взаимодействия между различными ритмами
регуляции
потока
использовались
медицинской
нефронного
давления.
изучении
тенденций
при
помощи.
Временные
ряды
Они
в
также
оказании
повсюду
в
нефрологии, и их анализ может привести к открытию ценных
знаний.
Давайте перейдем к задачам описательной группы.
При решении проблемы кластеризации(см. раздел 2.2)
необходимо
найти
закономерности
в
массиве
входных
данных, чтобы выделить несколько зон (кластеров) в нем и
распределить
данные
по
кластеризации
напоминает
проблему
существенным
отличием
том,
в
этим
кластерам.
что
Задача
классификации,
сами
классы
с
не
определены заранее. Для решения проблемы кластеризации
используются алгоритмы обучения без учителя.
Методы кластеризации часто используются для анализа
массивов генетической информации. В работе [27] была
выполнена кластеризация массива, содержащего ДНК 86
23
видов опухолей груди. Было получено два кластера. В первый
кластер вошли опухоли, дающие рецидив в 34 % случаев, во
второй — в 70 %. Первый кластер условно можно назвать
«плохо прогнозируемыми опухолями», а второй — «хорошо
прогнозируемыми
опухолями».
Далее
эта
информация
использовалась для повышения точности прогнозирования
развития опухолей.
Поиск
правил
ассоциации
позволяет
устанавливать
связи и связи между переменными в больших базах данных.
Ассоциативные
правила
позволяют
нам
находить
закономерности среди связанных событий, то есть они дают
возможность ответить на вопрос: «С какой вероятностью
связаны события A и B?» Последовательность возникновения
событий не имеет значения.
Методы
поиска
ассоциативных
правил
находят
применение в медицинской диагностике, например, правила
базы знаний из экспертной системы, используемой для
диагностики
заболеваний
сердца,
проверяются
с
использованием правила ассоциации.
Последовательный анализ шаблонов. В отличие от
поиска ассоциативных
паттернов
правил, последовательный
подразумевает
идентификацию
анализ
причинно-
следственных правил, то есть учитывает фактор времени и
позволяет
ответить
на
вопрос:
«С
какой
вероятностью
возникновение события A влечет за собой событие B?»
Обычно
предполагается,
что
события
описываются
дискретными значениями, что отличает эту задачу от задачи
анализа временных рядов.
24
Например,
в
последовательность
медицине
белка
и
были
проанализированы
классификация
белка
по
шаблонам, то есть они извлекали последовательные образцы
белков, которые затем использовались для классификации
неизвестных белков [23].
2.2. КЛАСТЕРНЫЙ АНАЛИЗ
В области интеллектуального анализа данных изучение
кластеров
является
популярным
способом
обнаружения
и
хорошо
интересных
изученным
результатов
среди
огромной базы данных.
К примеру, многомерная классификация данных находит
широкое
применение
в
медицинских
исследованиях
и
психологии. Так, В.А. Альбахели в исследовании проводит
кластерный анализ работы медицинской техники с целью
повышения качества диагностики заболеваний с помощью
МРТ.
В работе
исследование
В.П.
Пономарева
показателей
крови
и И.Ю. Белоглазовой
больных
проведено
на
основе кластерного и факторного видов анализа. Применение
кластерного анализа для обработки данных психологических
исследования
показано
теоретико-методические,
применения
этого
развития
методики
совершенствования
вида
в
работе.
а
также
анализа,
Автор
рассматривает
прикладные
предлагает
классификации
алгоритмов
анализа
вопросы
варианты
и
пути
данных,
реализуемых в современных пакетах прикладных программ
[18].
Кластерный анализ - это многомерный метод, целью
которого является классификация выборки субъектов (или
25
объектов) на основе набора измеряемых переменных в ряде
различных групп, так что похожие предметы помещаются в
одну
группу.
Кластерный
анализ
также
называется
классификационным анализом или числовой таксономией. В
кластерном
анализе
нет
никакой
предварительной
информации о членстве в группе или кластере ни для одного
из объектов.
Кластерный
анализ
направлен
на
обнаружение
естественного разделения объектов. Другими словами, он
группирует наблюдения, которые похожи на однородные
подмножества.
Эти
подклассы
могут
выявить
закономерности, связанные с изучаемым явлением. Функция
расстояния используется для оценки доступности сходства
между объектами и широким разнообразием алгоритмов
кластеризации, основанных на различных концепциях. Меры
подобия сначала вычисляются между наблюдениями и между
кластерами, когда наблюдения начинают группироваться в
кластеры.
Несколько
метрик,
таких
как
евклидово
и
Махаланобиса расстояние [9], могут использоваться для
вычисления сходства. Евклидово расстояние рассматривает
каждую переменную как одинаково важную при расчете
расстояния.
Альтернативный
подход
заключается
в
масштабировании вклада отдельных переменных в значение
расстояния
переменной.
в
соответствии
Этот
подход
с
изменчивостью
иллюстрируется
каждой
расстоянием
Махаланобиса, которое является мерой расстояния между
каждым
наблюдением
в
многомерном
облаке
точек
и
центром тяжести облака.Кроме того, возможны несколько
стратегий слияния, которые приводят к различным шаблонам
26
кластеризации. Поэтому результаты кластеризации являются
несколько субъективными, поскольку они в значительной
степени зависят от выбора пользователей.
Существует
множество
алгоритмов
кластеризации,
такие как: иерархическая кластеризация, кластеризация на
основе центроидов (например, k-means) и даже нечеткие
методы, в которых один объект может в различной степени
принадлежать
алгоритм
более
вы
центральным
ни
в
чем
использовали
подходе
параметров),
одному
на
является
кластеру.
для
бы
кластеризации,
выбор
которых
Какой
функций
будет
(или
основана
кластеризация.Рассмотрим несколько из них: k-means, kmediods и x-means.
Кластеризация k-means является наиболее популярным
методом. Алгоритм k-means определяет набор из k кластеров
и
присваивает
каждому
примеру
точное
количество
кластеров. Кластеры состоят из похожихпримеров. Сходство
между примерами основано на измерении расстояния между
ними.
Кластер в алгоритме k-means определяется положением
центра в n-мерном пространстве из n атрибутов. Эта позиция
называется центроид.
Алгоритм
k-means
начинается
с
k
точек,
которые
рассматриваются как центроид k потенциальных кластеров.
Эти начальные точки являются либо положением k случайно
выбранных примеров входных данных, либо определяются
эвристикой k-means ++, если для определения хороших
начальных значений задано значение true.
27
Все примеры присваиваются к ближайшему кластеру
(ближайший определяется типом меры). Затем центроиды
кластеров
пересчитываются
путем
усреднения
по
всем
примерам одного кластера. Предыдущие шаги повторяются
для новых центроидов до тех пор, пока центроиды не
перестанут двигаться или не будет достигнут допустимый
максимум количества шагов оптимизации.
Процедура повторяется максимальное время прогонов с
каждым разным набором начальных точек. Поставляется
набор
кластеров
с
минимальной
суммой
квадратов
расстояний всех примеров до соответствующих центроидов.
Алгоритм
кластеризации
k-means
чувствителен
к
выбросам, поскольку среднее значение легко зависит от
экстремальных значений.
Работа
алгоритмакластеризации
k-medoids.
Предполагая, что мы используем евклидово расстояние или
нечто подобное в качестве меры, мы можем определить
центр тяжести кластера как точку, для которой каждое
значение атрибута является средним значением значений
соответствующего атрибута для всех точек в кластере.
Центроид кластера всегда будет одной из точек в кластере. В
этом главное отличие алгоритма k-means и k-medoids. В
алгоритме
k-meansцентроид
кластера
часто
будет
воображаемой точкой, а не частью самого кластера, которую
мы можем взять, чтобы отметить его центр.
Основным недостатком алгоритмов k-medoid является
то, что он не подходит для кластеризации несферических
(произвольных форм) групп объектов. Это потому, что он
основан на минимизации расстояний между немедоидными
28
объектами и медоидом (центром кластера) - вкратце, он
использует
компактность
в
качестве
критерия
кластеризации, а не связности.
Он может получить разные результаты для разных
прогонов одного и того же набора данных, поскольку первые
k медоиды выбираются случайным образом.
В
статистике
и
интеллектуальном
анализе
данных
кластеризация x-means представляет собой разновидность
кластеризации
кластеров
k-means,
путем
которая
многократной
уточняет
попытки
назначения
разделения
и
сохранения наилучших результирующих разбиений, пока не
будет
достигнут
какой-либо
критерий,
такого
как
байесовский информационный критерий.
Основное
преимущество
кластеризации
перед
классификацией состоит в том, что она адаптируется к
изменениям
и
помогает
выделить
полезные
функции,
которые отличают разные группы.
Так же кластерный анализ широко используется в
других сферах помимо медицины таких как:
анализ текстовых документов [16];
анализ внутренних затрат на научные исследования
и разработки по субъектам Российской Федерации [7];
классификация регионов по уровню инновационного
развития [4];
изучение
экономической
деятельности
судостроительных и судоремонтных предприятий [6].
2.3. ПОСТРОЕНИЕ ДЕРЕВА РЕШЕНИЙ
29
Решения играют важную роль и в медицине, особенно в
медицинских
поддержки
диагностических
принятия
процессах.
решений,
Системы
помогающие
врачам,
становятся очень важной частью принятия медицинских
решений, особенно в тех ситуациях, когда решение должно
приниматься
эффективно
и
надежно.
Поскольку
для
выполнения таких задач следует рассматривать простые
концептуальные модели принятия решений с возможностью
автоматического обучения, деревья решений являются очень
подходящим
кандидатом.
В
1997
году
органы
здравоохранения штата Сан-Паулу Бразилии разработала
кампанию
вакцинации
против
кори
на
основе
модели
принятия решений, которая использует нечеткую логику
[28]. Выбранная стратегия массовой вакцинации осуществила
и изменила естественный ход эпидемии в этом состоянии.
Авторы построилимодель с использованием дерева решений
и сравнил его с моделью нечеткой логики.В 2001 году Куо и
Чанг
рассмотрели
и
классифицировали
результаты
ультразвуковых исследований у пациентов с раком молочной
железы на основе дерева решений [26]. Также деревья
решений использовались в выявление сигналов о возможных
побочных реакциях на лекарства были показаны Джонсом
[24].
Дерево решений – это инструмент поддержки принятия
решений, который использует древовидную диаграмму или
модель решений и их возможных последствий, включая
случайные исходы событий, затраты ресурсов и полезность.
Это один из способов отображения алгоритма, который
содержит только условные операторы управления [20].
30
Дерево
обучения
решений
под
классификации
–
это
непараметрический
наблюдением,
и
регрессии.
Это
метод
используемый
древовидный
для
граф,
в
которой каждый внутренний узел представляет «тест» для
атрибута (например, подбрасывание монеты вверх или вниз),
каждая
ветвь
конечный
представляет
узел
результат
представляет
метку
теста,
а
класса
каждый
(решение
принимается после вычисления всех атрибутов) [20].
Цель
состоит
в
том,
чтобы
создать
модель
классификации, которая прогнозирует значение целевого
атрибута (часто называемого классом или меткой) на основе
нескольких входных атрибутов. В RapidMiner атрибут с ролью
метки прогнозируется оператором дерева решений. Каждый
внутренний узел дерева соответствует одному из входных
атрибутов. Количество ребер номинального внутреннего узла
равно количеству возможных значений соответствующего
входного атрибута. Исходящие ребра числовых атрибутов
помечены
непересекающимися
листовой
узел
представляет
учитывая
значения
входных
диапазонами.
значение
атрибутов,
Каждый
атрибута
label,
представленных
путем от корня до листа. Это описание можно легко понять,
изучив прилагаемый пример процесса на рис.1.
31
Рис.1. Пример дерева решений
Деревья
решений
создаются
путем
рекурсивного
разбиения. Рекурсивное разбиение означает многократное
разбиение по значениям атрибутов. В каждой рекурсии
алгоритм выполняет следующие шаги:
• Атрибут A выбран для разделения. Правильный выбор
атрибутов для разделения на каждом этапе имеет решающее
значение
для
создания
полезного
дерева.
Атрибут
выбирается в зависимости от критерия выбора, который
может быть выбран параметром критерия.
• Примеры сортируются в подмножества, по одному для
каждого
значения
атрибута.
В
атрибута
случае
A
числовых
в
случае
номинального
атрибутов
подмножества
формируются для непересекающихся диапазонов значений
атрибутов.
• Дерево возвращается с одним ребром или ветвью для
каждого
поддерево
подмножества.
или
Каждая
значение
ветвь
метки,
имеет
дочернее
полученное
рекурсивного применения одного и того же алгоритма.
32
путем
Обычно рекурсия останавливается, когда все примеры
или экземпляры имеют одинаковое значение метки, то есть
подмножество
является
чистым.
Или
рекурсия
может
прекратиться, если большинство примеров имеют одно и то
же значение метки.
Сила дерева решений заключается в том, что оно
используется для определения атрибутов данных, которые
наиболее откровенно отражают классификацию записей для
соответствующих
возможных
результатов.
На
первом
разделении находится атрибут, который является наиболее
показательным индикатором классификации членства, а на
следующем разделении отражаются другие данные после
сегментирования данных из предыдущего разделения. Таким
образом,
этот
процесс
повторяющимся,
причем
является
каждое
последовательным
разбиение
влияет
и
на
последующее. В зависимости от настроек предварительного
сокращения, применяемых к деревьям решений, деревья
могут
разрешаться
в
пределах
одного
или
нескольких
уровней. В зависимости от данных, может быть, а может и
нет дерево решений, которое выводится из него.
Дерево
решений
один
из
самых
простых
типов
визуализации данных, который можно интерпретировать из
процесса машинного обучения, потому что его процессы
достаточно прозрачны, а кульминация визуализации данных
показывает взаимосвязь данных довольно легко читаемым и
интерпретируемым человеком способом. Дерево решений
информирует
исследователя,
какие
атрибуты
наиболее
связаны с определенными классификациями. Исходя из этой
33
информации, исследователь может выдвинуть гипотезу из
наблюдений для более глубокого понимания.
В результате дерево принятия решений является одним
из
наиболее
используемых
популярных
в
алгоритмов
интеллектуальном
классификации,
анализе
данных
и
машинном обучении.
Из-за
своей
простоты
древовидные
диаграммы
используются в широком спектре отраслей и дисциплин
решая такие задачи, как:
оценка
возможностей
расширения
бренда
для
бизнеса с использованием исторических данных о продажах;
определение вероятных покупателей продукта с
использованием демографических данных для обеспечения
ограниченного рекламного бюджета;
оптимизации
ремонтных
программ
предприятий
электроэнергетики РФ [19].
2.4. ВЫВОД К ВТОРОЙ ГЛАВЕ
По результатам второй главы можно сделать следующие
выводы:
1.
Рассмотрены
задачи
классификации
интеллектуального анализа, применяемые в медицине. Эти
задачи
позволяют
использоваться
анализируемой
построить
для
системы
модели,
которые
прогнозирования
в
ситуации,
которая
могут
поведения
ранее
не
наблюдалась; использовать поиск скрытых закономерностей
в данных, их описание и вывод правил, которые могут быть
использованы в будущем для повышения эффективности
работы.
34
2. В результате проведенного анализа типов задач
математической статистики, решение которых осуществимо в
рамках
использования
наиболее
программного
интересной
медицинской
построения
опирается
с
практики,
дерева
на
точки
пакета
зрения
несомненно,
решений,
решение
оперативной
является,
которая
задачи
RapidMiner,
в
задача
свою
очередь
кластеризации.
Более
подробно рассмотрены и описаны кластерный анализ и
деревья решений.
3.
Уникальность
RapidMiner
в
единственным
том
и
на
настоящий
состоит,
широко
что
момент
он
распространенным
пока
пакета
является
программным
продуктом, решающим эту последовательность задач. При
этом
он
надежный
обладает
и
удобным
очень
интерфейсом
мощный
и
предлагает
интегрированный
набор
инструментов и функций, который помогает пользователям
добиться значительного повышения производительности с
самого начала. Его инструмент визуального конструктора
рабочих процессов предлагает пользователям простую в
использовании визуальную среду, которая позволяет им
проектировать,
создавать
и
развертывать
процессы и модели без проблем.
35
аналитические
3.
ЧИСЛЕННЫЙ ЭКСПЕРИМЕНТ С
ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ПАКЕТА
RAPIDMINER
Задачей настоящей главы является проработка и
демонстрация решения задач кластеризации и построения
дерева решений на реальных медицинских данных, с целью
исследования возможностей программного пакета
RapidMiner в решении актуальных задач, непосредственно
возникающих и имеющих важное значение в оперативной
медицинской практике. Начнем с описания исходных
данных.
3.1. ИСХОДНЫЕ ДАННЫЕ И ИХ ЗАГРУЗКА
36
Рассмотрим в качестве исходных данных 49 пациентов
различных возрастных категорий, 24 мужчин и 25 женщин в
таблице A.1. Пациенты распределились на 9 групп:
1 группа – заболевание АГ 1 степени (3 пациента),
2 группа – заболевание АГ 1 степени на фоне почечной
недостаточности (10 пациентов),
3 группа – заболевание АГ 1 степени на фоне сердечной
недостаточности (6 пациентов),
4 группа – заболевание АГ 2 степени (6 пациентов),
5 группа – заболевание АГ 2 степени на фоне почечной
недостаточности (8 пациентов),
6 группа – заболевание АГ 2 степени на фоне сердечной
недостаточности (4 пациентов),
7 группа – заболевание АГ 3 степени (4 пациента),
8 группа – заболевание АГ 3 степени на фоне почечной
недостаточности (7 пациентов),
9 группа – заболевание АГ 3 степени на фоне сердечной
недостаточности (1 пациент).
При обследовании пациентов:
измерялись
температура,
систолическое(верхнее)
давление, диастолическое (нижнее) давление, пульс;
проводились анализы на креатинин, СКФ, холестерин,
СОЭ, глюкозу.
Количественные показатели гипертонии
статистический анализ сведены в табл. 1.
Таблица 1 – Показатели гипертонии
37
и
их
Имя
Тип
Миниму
Максим
Среднее
данных
м
ум
значени
е
А
polynomi
Диагноз
nal
polynomi
Пол
Возраст
Температур
nal
integer
integer
real
0
20
35,5
1
80
37,5
50
36,592
а
Систолическ integer
117
250
166,449
ое давление
Диастоличе
78
138
102,714
integer
ское
давление
Пульс
integer
78
129
107,653
Креатинин
integer
34
148
98,347
СКФ
integer
40
125
87,898
Холестерин real
3,6
6,5
4,757
СОЭ
integer
2
52
17,633
Глюкоза
real
4,1
6,7
5,282
Вышеперечисленные входные данные загружаются в
репозиторий. В результате загрузки задается тип численных
(real,
integer)
и
качественных
(polinominal)
представленных на рис.2:
Рис.2. Пример ввода типа данных
38
данных,
В качестве атрибутов (label) выбираются: заболевание
АГ 1 степени, заболевание АГ 1 степени на фоне почечной
недостаточности,
сердечной
заболевание
недостаточности,
заболевание
АГ
недостаточности,
сердечной
2
заболевание
АГ
недостаточности,
3
1
степени
заболевание
степени
недостаточности,
заболевание
АГ
АГ
АГ
степени
заболевание
АГ
2
на
фоне
2
степени
заболевание
на
фоне
степени,
почечной
АГ
на
3
на
фоне
3
степени
фоне
степени,
почечной
на
фоне
сердечной недостаточности.
3.2. ТЕХНОЛОГИЯ РЕШЕНИЯ
ЗАДАЧИКЛАСТЕРНОГО АНАЛИЗА
Цель
кластеризации:
во-первых,
кластеризация
стремится разделить элементы данных на ряд групп, так что
элементы в одной группе больше похожи на другие элементы
в той же группе; во-вторых, он направлен на то, чтобы
предметы в одной группе отличались от предметов в другой
группе.
a) K-medoids
Компьютерная
модель
кластерного
анализа
использованием k-medoids представлена на рис.3:
Рис.3. Компьютерная модель кластерного анализа с
использованием k-medoids
39
с
Схемасостоитиз
4
операторов:
Retrive,
Normalize,
Clustering и Performance.
Оператор Retrieve может получить доступ к хранимой
информации в хранилище и загрузить ее в процесс. В Retrive
загружаются в репозиотрий исходные данные из программы
MSExcel.
ОператорNormalize нормализует значения выбранных
атрибутов.
Нормализация
масштабирования
значений,
используется
чтобы
они
для
соответствовали
определенному диапазону. Регулировка диапазона значений
очень важна при работе с атрибутами разных единиц и шкал.
Нормализация полезна для сравнения атрибутов, которые
различаются по размеру.
Оператор
Clustering
выполняет
кластеризацию,
используя алгоритм k-medoids. Кластеризация связана с
группированием объектов, которые похожи друг на друга и
не похожи на объекты, принадлежащие другим кластерам.
Кластеризация
алгоритмом
k-medoids
является
кластеризации,
то
есть
эксклюзивным
каждый
объект
назначается точно одному из набора кластеров.
Оператор
Performance
используется
производительности. Предоставляет
критериев
эффективности. Эти
для
список
критерии
оценки
значений
эффективности
определяются автоматически, чтобы соответствовать типу
задачи обучения.
Результат
На рис.4 представлена модель кластера:
40
Рис.4. Модель кластера с использованием алгоритма kmedoids
Диагнозы, разделенные на кластеры алгоритмом kmedoids, показаны в таблице 2:
Таблица 2 – Состав кластеров с использованием алгоритма
k-medoids
Cluster 0
Cluster 1
Cluster 2
Cluster 3
Cluster 4
АГ 3 степени
на фоне
сердечной
недостаточнос
ти
АГ 1 степени
АГ 3 степени
на фоне
почечной
недостаточнос
ти
АГ 3 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 3 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
АГ 1 степени
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 3 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
АГ 3 степени
АГ 3 степени
АГ 3 степени
41
АГ 2 степени
АГ 2 степени
Cluster 0
Cluster 1
Cluster 2
Cluster 3
Cluster 4
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
Продолжение таблицы 2
Cluster 5
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
Cluster 6
АГ 2 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 3 степени на
Cluster 7
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 2 степени на
фоне сердечной
недостаточности
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
42
Cluster 8
АГ 1 степени
АГ 2 степени
АГ 2 степени
АГ 2 степени на
фоне почечной
недостаточности
Cluster 5
Cluster 6
фоне почечной
недостаточности
Cluster 7
Cluster 8
Программой RapidMiner в сформированный cluster_0 (1
пациент) отобраны 1 пациент с диагнозом АГ 3 степени на
фоне сердечной недостаточности. Cluster_1 (5 пациентов)
состоит из 1 пациента с диагнозом АГ 1 степени, 1 пациента
с АГ 2 степени на фоне почечной недостаточности, 1
пациента с АГ 3 степени на фоне почечной недостаточности,
1 пациента с АГ 2 степени и 1 пациента с АГ 3 степени.
Cluster_2 (5 пациентов) состоит из 2 пациентов с диагнозом
АГ 3 степени, 1 пациента с АГ 2 степени и 2 пациента с АГ 3
степени на фоне почечной недостаточности. Cluster_3 (11
пациентов) состоит из 5 пациентов с диагнозом АГ 2 степени
на фоне почечной недостаточности, 1 пациента с АГ 3
степени на фоне почечной недостаточности и 5 пациентов с
АГ 1 степени на фоне почечной недостаточности. Cluster_4 (3
пациентов) состоит из 2 пациентов с диагнозом АГ 2 степени
и 1 пациента с АГ 1 степени. Cluster_5 (2 пациент) состоит из
1 пациента с диагнозом АГ 2 степени на фоне сердечной
недостаточности и 1 пациента с диагнозом АГ 1 степени на
фоне сердечной недостаточности. Cluster_6 (10 пациентов)
состоит из 1 пациента АГ 2 степени на фоне почечной
недостаточности, 4 пациентов с АГ 2 степени на фоне
почечной недостаточности и 5 пациентов АГ 1 степени на
фоне почечной недостаточности. Cluster_7 (8 пациентов)
состоит из 3 пациентов с диагнозом АГ 2 степени на фоне
сердечной недостаточности и 5 пациентов с АГ 1 степени на
фоне сердечной недостаточности. И cluster_8 (4 пациента)
состоит из 2 пациентов с диагнозом АГ 2 степени, 1 пациента
43
с АГ 2 степени на фоне почечной недостаточности и 1
пациента с АГ 1 степени.
График отличий кластеров, построенный в программе
RapidMiner представлен на рис.5.
Рис.5. График отличий кластеров с использованием
алгоритма x-means
Этот график показывает, что для пациентов, которые
входят в cluster_0, характерно повышены систолическое и
диастолическое давления; в cluster_1 пониженное значение
СОЭ
и
зрелый
возраст;
пониженнойглюкозой;
СКФ;
cluster_4
пациент
cluster_3
отличается
cluster_2
отличается
отличается
пониженным
пониженнымитемпературой
и
холестерином; в cluster_5 отличительным значением будет
пониженное диастолическое давление, повышенные пульс и
холестерин; cluster_6 отличается повышеннымкреатинином и
ранним возрастом; в cluster_7 повышенныеСКФ и СОЭ,
пониженные систолическое давление и креатинин.
После
результатов,
которые
мы
получили,
нужно
определить количество совпадений объектов кластерного
анализа с использованием алгоритмаk-medoids. Cluster_0
44
содержит 100% совпаденийобъектов; cluster_1 – 14%; cluster
_2 – 75%; cluster _3 – 62%; cluster_4 – 33%; cluster _5 – 25%;
cluster _6 – 50%; cluster _7 – 83%; cluster _8 – 33% совпадений.
Существует эмпирическое правило – устойчивая группировка
должна сохраняться при изменении методов кластеризации:
к примеру, в случае если итоги кластерного анализа имеют
долю совпадений больше 70% с группировкой по методу kmedoids, то предположение об устойчивости принимается.
Количество совпадений объектов кластерного анализа в
программной среде RapidMiner в общем случае составляет
41,66%, что считается признаком плохой кластеризации.
b)K-means
Компьютерная
модель
кластерного
анализа
использованием k-meansпредставлена на рис.6:
Рис.6. Компьютерная модель кластерного анализа с
использованием k-means
Оператор Clustering выполняет кластеризацию,
используя алгоритм k-means.
Результат:
На рис.7 представлена модель кластера:
45
с
Рис.7. Модель кластера с использованием алгоритма k-means
Диагнозы, разделенные на кластеры алгоритмом kmeans, показаны в таблице 3:
Таблица 3 – Состав кластеров с
использованиемалгоритмаk-means
Cluster 0
АГ 1 степени
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
АГ 2 степени
Cluster 1
АГ 2 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 2 степени
на фоне
почечной
недостаточнос
ти
Cluster 2
АГ 2 степени
Cluster 3
АГ 1 степени
АГ 3 степени
АГ 2 степени
АГ 3 степени
АГ 2 степени
АГ 3 степени
АГ 2 степени
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
АГ 1 степени
на фоне
почечной
недостаточнос
ти
46
Cluster 4
АГ 3 степени
на фоне
сердечной
недостаточнос
ти
Cluster 0
АГ 3 степени
Cluster 1
Cluster 2
Cluster 3
АГ 2 степени
на фоне
почечной
недостаточнос
ти
Cluster 4
Продолжение таблицы3
Cluster 5
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
Cluster 6
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
Cluster 7
АГ 1 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне сердечной
недостаточности
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 1 степени на
фоне почечной
недостаточности
Cluster 8
АГ 3 степени на
фоне почечной
недостаточности
Программой RapidMiner в сформированный cluster_0 (7
пациентов) отобраны 3 пациента с диагнозом АГ 2 степени на
фоне почечной недостаточности, 2 пациента с АГ 2 степени,
1 пациента с АГ 3 степени и 1 пациент АГ 1 степени.
Cluster_1 (6 пациентов) состоит из 2 пациентов с диагнозом
АГ 2 степени на фоне почечной недостаточности и 4
пациентов с АГ 1 степени на фоне почечной недостаточности.
47
Cluster_2 (4 пациента) состоит из 3 пациентовс диагнозом АГ
3 степени и 1 пациента с АГ 2 степени. Cluster_3 (7
пациентов) состоит из 3 пациентов с диагнозом АГ 2 степени,
2
пациентов
с
АГ
1
степени
на
фоне
почечной
недостаточности, 1 пациента с АГ 1 степени на фоне
почечной недостаточности и 1 пациента с АГ 2 степени на
фоне
почечной
недостаточности.
Cluster_4
(1
пациента)
состоит из 1 пациента с диагнозом АГ 3 степени на фоне
сердечной недостаточности. Cluster_5 (6 пациентов) состоит
из 6 пациентов с диагнозом АГ 3 степени на фоне почечной
недостаточности. Cluster_6 (10 пациентов) состоит из 6
пациентов АГ 1 степени на фоне сердечной недостаточности
и
4
пациента
недостаточности.
АГ
2
Cluster_7
степени
(7
на
фоне
пациентов)
сердечной
состоит
из
5
пациентов с диагнозом АГ 1 степени на фоне почечной
недостаточности и 2 пациентов с АГ2 степени на фоне
почечной недостаточности. И cluster_8 (1 пациент) состоит из
1 пациента с диагнозом АГ 3 степени на фоне почечной
недостаточности.
График отличий кластеров, построенный в программе
RapidMiner представлен на рис.8.
48
Рис.8. График отличий кластеров с использованием
алгоритма x-means
Этот график показывает, что для пациентов, которые
входят в cluster_0, характерно повышенная температура и
зрелый возраст; в cluster_1 ранним возрастом; пациент
cluster_2
отличается
повышеннойтемпературой
и
пониженной глюкозой; cluster_3 отличается пониженным
СОЭ; cluster_4 отличается повышеннымипульсом, СОЭ и
низким креатинином; в cluster_5 отличительным значением
будет
повышенный
повышенной
креатинин;
cluster_6
глюкозой;
отличается
в
cluster_7
пониженнымидиастолическим давлением и систолическим
давлением;
cluster_8
отличается
повышенными
систолическим давлением и диастолическим давлением.
После
результатов,
которые
мы
получили,
нужно
определить количество совпадений объектов кластерного
анализа
с
использованием
алгоритмаk-means.
Cluster_0
содержит37,5% совпаденийобъектов; cluster_1 – 0%; cluster _2
– 75%; cluster _3 – 50%; cluster_4 – 100%; cluster _5 – 85%;
cluster _6 – 100%; cluster _7 – 50%; cluster _8 – 0% совпадений.
49
Существует эмпирическое правило – устойчивая группировка
должна сохраняться при изменении методов кластеризации:
к примеру, в случае если итоги кластерного анализа имеют
долю совпадений больше 70% с группировкой по методу kmeans, то предположение об устойчивости принимается.
Количество совпадений объектов кластерного анализа в
программной среде RapidMiner в общем случае составляет
55,28%, что считается признаком плохой кластеризации.
c) X-means
Компьютерная
модель
кластерного
анализа
с
использованием x-means представлена на рис.9:
Рис.9.Компьютерная модель кластерного анализа с
использованием x-means
ОператорX-Means реализует алгоритм кластеризации с
использованием x-means, опубликованный Дэном Пеллегом и
Эндрю Муром [29].
X-Means - это алгоритм кластеризации, который
определяет правильное количество центроидов на основе
эвристики. Он начинается с минимального набора
центроидов, а затем итеративно эксплуатируется, если
использование большего количества центроидов имеет смысл
50
в соответствии с данными. Если кластер разделен на два
подкластера, определяется байесовским информационным
критерием, который компенсирует компромисс между
точностью и сложностью модели.
Результат:
На рис.10 представлена модель кластера:
Рис.10. Модель кластера с использованием алгоритма xmeans
Диагнозы, разделенные на кластеры алгоритмом xmeans, показаны в таблице 4:
Таблица 4 – Состав кластеров с
использованиемалгоритмаx-means
Cluster 0
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
Cluster 1
АГ 3 степени
на фоне
сердечной
недостаточнос
ти
Cluster 2
АГ 2 степени
на фоне
сердечной
недостаточнос
ти
АГ 2 степени
на фоне
сердечной
недостаточнос
ти
АГ 2 степени
на фоне
сердечной
недостаточнос
ти
АГ 2 степени
на фоне
51
Cluster 3
АГ 1 степени
Cluster 4
АГ 3 степени
АГ 3 степени
АГ 3 степени
Cluster 0
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ 1 степени
на фоне
почечной
недостаточнос
ти
АГ2 степени
на фоне
почечной
недостаточнос
ти
Cluster 1
Cluster 2
сердечной
недостаточнос
ти
Cluster 3
Cluster 4
Продолжение таблицы 4
Cluster 5
АГ 1 степени на
фоне почечной
недостаточности
АГ 3 степени
АГ 2 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 1 степени
Cluster 6
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 2 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
АГ 1 степени на
фоне сердечной
недостаточности
Cluster 7
АГ 2 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 3 степени на
фоне почечной
недостаточности
АГ 2 степени на
фоне почечной
недостаточности
АГ 3 степени на
52
Cluster 8
АГ 1 степени на
фоне почечной
недостаточности
АГ 2 степени
АГ 1 степени
АГ 2 степени
АГ 2 степени
АГ 2 степени
АГ 2 степени
АГ 2 степени
Cluster 5
Cluster 6
Cluster 7
фоне почечной
недостаточности
Cluster 8
Программой RapidMiner в сформированный cluster_0 (9
пациентов) отобраны 8 пациентов с диагнозом АГ 1 степени
на фоне почечной недостаточности и 1 пациент АГ 2 степени
на фоне почечной недостаточности. Cluster_1 (1 пациент)
состоит из 1 пациента с диагнозом АГ 3 степени на фоне
сердечной недостаточности. Cluster_2 (4 пациента) состоит
из 4 пациентов с диагнозом АГ 2 степени на фоне сердечной
недостаточности. Cluster_3 (1 пациент) состоит из 1 пациента
с диагнозом АГ 1 степени. Cluster_4 (3 пациента) состоит из 3
пациентов с диагнозом АГ 3 степени. Cluster_5 (8 пациент)
состоит из 1 пациента с диагнозом АГ 1 степени на фоне
почечной недостаточности, 1 пациента с диагнозом АГ 3
степени, 1 пациента с диагнозом АГ 1 степени и 5 пациентов
с
диагнозом
недостаточности.
АГ
2
степени
Cluster_6
(6
на
фоне
пациентов)
почечной
состоит
из
5
пациентов АГ 1 степени на фоне сердечной недостаточности
и
1
пациента
недостаточности.
АГ
2
степени
Cluster_7
на
(9пациентов)
фоне
сердечной
состоит
из
7
пациентов с диагнозом АГ 3 степени на фоне почечной
недостаточности и 2 пациентов с АГ2 степени на фоне
почечной недостаточности. И cluster_8 (8 пациентов) состоит
из 6 пациентов с диагнозом АГ 2 степени, 1 пациента с АГ 1
степени на фоне почечной недостаточности и 1 пациента с
АГ 1 степени.
График отличий кластеров, построенный в программе
RapidMiner представлен на рис.11.
53
Рис.11. График отличий кластеров с использованием
алгоритма x-means
Этот график показывает, что для пациентов, которые
входят
в
cluster_0,
характерно
низкие
значениясистолического давления, диастолическое давление
и холестерина; в cluster_1 высокие значения СОЭ, пульс,
температура, низкий креатинин и юный возраст; пациент
cluster_2 отличается повышенным холестерином; cluster_3
отличается
от
всего
cluster_4
отличается
давлением
и
остального
низкой
повышенными
диастолическим
температурой;
систолическим
давлением;
в
cluster_5
отличительным значением будет зрелый возраст; cluster_6
отличается повышенной глюкозой; в cluster_7 повышенный
креатинин; cluster_8 отличается пониженной СОЭ.
После
результатов,которые
мы
получили,
нужно
определить количество совпадений объектов кластерного
анализа с использованием алгоритма
x-means. Cluster_0
содержит 80% совпаденийобъектов; cluster_1 – 100%; cluster
_2 – 100%; cluster _3 – 33%; cluster_4 – 75%; cluster _5 – 62%;
cluster _6 – 83%; cluster _7 – 100%; cluster _8 – 100%
54
совпадений. Существует эмпирическое правило – устойчивая
группировка должна сохраняться при изменении методов
кластеризации: к примеру, в случае если итоги кластерного
анализа имеют долю совпадений больше 70% с группировкой
по методу k средних, то предположение об устойчивости
принимается. Количество совпадений объектов кластерного
анализа в программной среде RapidMiner в общем случае
составляет 72,55%, что считается признаком качественной
кластеризации.
d)Сравнение алгоритмов
В
таблицах
5
и
6
сравнение
трех
кластеров
с
использованием алгоритмов k-means, k-medoids и x-means.
Сравнение сделано с точки зрения среднего расстояние
между кластерами, генерируемыми каждым алгоритмом.
Таблица 5 – Сравнение алгоритмов
Кластер
cluster_0
cluster_1
cluster_2
cluster_3
cluster_4
cluster_5
cluster_6
cluster_7
cluster_8
k-means
-3.321
-3.632
-2.280
-4.723
-0.000
-4.064
-4.249
-4.633
-0.000
k-medoids
-0.000
-2.502
-4.845
-5.194
-0.833
-2.093
-5.141
-3.387
-1.551
x-means
-5.278
-0.000
-3.173
-0.000
-1.907
-4.147
-2.935
-5.074
-4.395
Таблица 6 – Сравнение алгоритмов с точки зрения
среднего расстояния в кластере
Avg.
k-means
-3.807
55
k-medoids
-3.720
x-means
-4.031
withincentroiddi
stance
Расстояние между каждым кластером можно наблюдать
из результатов в таблице 5 и 6, которые показывают
результаты от каждого алгоритма кластеризации k-means, kmedoids и x-means в терминах среднего расстояния между
кластерами,
генерируемыми
ими.Также
вспомним
совпадение объектов у алгоритмов k-means – 55,28%, kmedoids – 41,66% и x-means – 72,55%, которые мы получили.
У k-means и k-medoids очень маленькая разница между
кластерами в соответствии с средним расстоянием.
Таким образом, можно сделать вывод, что алгоритмxmeans показал хорошие результаты по сравнению с другими
двумя
алгоритмами,
он
кластеризовал
данные
с
-4.031
средним расстоянием в каждом кластере и совпадение
объектов кластера больше 70%.
3.3. ТЕХНОЛОГИЯ ПОСТРОЕНИЯДЕРЕВА
РЕШЕНИЙ
Цель
состоит
в
том,
чтобы
создать
модель
классификации, которая прогнозирует значение метки на
основе нескольких входных атрибутов. Каждый внутренний
узел дерева соответствует одному из входных атрибутов.
Количество
ребер
внутреннего
узла
равно
количеству
возможных значений соответствующего входного атрибута.
Каждый листовой узел представляет значение метки с
учетом значений входных атрибутов, представленных путем
от корня до листа.
56
Основная компьютерная модель классификации дерева
решений и анализа данных представлена на рис. 12.
Рис.12. Основная компьютерная модель дерево решений
Схема
состоит
из
двух
операторов:
Retrieve
и
CrossValidation. В операторе CrossValidation создана другая
схема,
разделенная
подпроцессе
подпроцессе
на
два
используется
подпроцесса:
оператор
тестирования
в
обучающем
DecisionTree,
операторы
а
ApplyModel
в
и
Performance.
Оператор Retrieve может получить доступ к хранимой
информации в хранилище и загрузить ее в процесс. В Retrive
загружаются в репозиотрий исходные данные из программы
MSExcel.
Оператор
перекрестную
CrossValidation
проверку,
то
выполняет
есть
простую
случайным
образом
разбивает ExampleSet (пример набора) на два подпроцесса:
обучающий подпроцесс и подпроцесс тестирования. Этот
оператор
выполняет
производительности
разделенную
оператора
проверку
обучения
для
оценки
(обычно
для
невидимых наборов данных). Он в основном используется для
оценки того, насколько точно модель (усвоенная конкретным
оператором обучения) будет работать на практике.
Вложенные
подпроцессы
представлены на рис.13:
57
оператора
CrossValidation
Рис.13. Компьютерная модель процесса оператора
CrossValidation
Оператор DecisionTree создает модель дерева решений,
которую
можно
использовать
для
классификации
и
регрессии. Дерево решений – это древовидная совокупность
узлов,
предназначенная
для
принятия
решения
о
принадлежности значений к классу или оценке числового
целевого
значения. Каждый
разделения
для
одного
классификации
это
принадлежащие
разным
разделяет
их,
узел
конкретного
правило
чтобы
представляет
атрибута. Для
разделяет
классам,
для
уменьшить
правило
значения,
регрессии
ошибку
оно
оптимальным
способом для выбранного критерия параметра.
Критерии может иметь одно из следующих параметров:
information_gain:
атрибутов,
наименьшей
а
для
вычисляются
разделения
энтропией. Этот
энтропии
используется
метод
имеет
всех
один
тенденцию
с
к
выбору атрибутов с большим количеством значений.
gain_ratio: вариант получения информации, который
регулирует усиление информации для каждого атрибута,
чтобы обеспечить широту и однородность значений атрибута.
58
gini_index:
распределениями
задает
при
мера
неравенства
характеристик
необходимости
между
метки. Индекс
Джини,
добавления,
создает
меру
разветвления дерева по бинарному разделению.
accuracy:
атрибут
выбран
для
разделения,
что
максимизирует точность всего дерева.
less_square:
который
для
минимизирует
разделения
квадратное
выбран
атрибут,
расстояние
между
средними значениями в узле по отношению к истинному
значению.
Оператор
дерева
решений
принимает
только
полиномиальные, числовые и биномиальные атрибуты, а
также биномиальные и полиномиальные метки (целевые
атрибуты).
Оператор ApplyModel делает построение модели дерева
решений.
Оператор
Performance
используется
производительности. Предоставляет
критериев
эффективности. Эти
для
список
критерии
оценки
значений
эффективности
определяются автоматически, чтобы соответствовать типу
задачи обучения.
Результат.
В
результате
построения
дерева
решений
с
использование пакета RapidMiner была получена модель,
представленная на рис.14.
59
Рис. 14. Дерево решений в виде графа
В текстовом представлении можно увидеть сводку по
дереву, а также конфиденциальность ветвей:
Tree
Систолическое(верхнее) давление > 159.500
|
Креатинин, оль/л > 103
|
|
Систолическое(верхнее) давление > 178: АГ 3 степени на фоне почечной
недостаточности {АГ 3 степени на фоне почечной недостаточности=7, АГ 1
степени на фоне почечной недостаточности=0, АГ 2 степени на фоне сердечной
недостаточности=0, АГ 1 степени на фоне сердечной недостаточности=0, АГ2
степени на фоне почечной недостаточности=0, АГ 3 степени=0, АГ 1 степени=0,
АГ 2 степени=0, АГ 3 степени на фоне сердечной недостаточности=0}
|
|
Систолическое(верхнее) давление ≤ 178: АГ2 степени на фоне почечной
недостаточности {АГ 3 степени на фоне почечной недостаточности=0, АГ 1
степени на фоне почечной недостаточности=0, АГ 2 степени на фоне сердечной
недостаточности=0, АГ 1 степени на фоне сердечной недостаточности=0, АГ2
степени на фоне почечной недостаточности=8, АГ 3 степени=0, АГ 1 степени=0,
АГ 2 степени=0, АГ 3 степени на фоне сердечной недостаточности=0}
|
Креатинин, оль/л ≤ 103
|
|
Систолическое(верхнее) давление > 181.500: АГ 3 степени {АГ 3
степени на фоне почечной недостаточности=0, АГ 1 степени на фоне почечной
недостаточности=0, АГ 2 степени на фоне сердечной недостаточности=0, АГ 1
степени на фоне сердечной недостаточности=0, АГ2 степени на фоне почечной
недостаточности=0, АГ 3 степени=4, АГ 1 степени=0, АГ 2 степени=0, АГ 3
степени на фоне сердечной недостаточности=1}
|
|
Систолическое(верхнее) давление ≤ 181.500
|
|
|
Креатинин, оль/л > 66: АГ 2 степени {АГ 3 степени на фоне
почечной недостаточности=0, АГ 1 степени на фоне почечной недостаточности=0,
АГ 2 степени на фоне сердечной недостаточности=0, АГ 1 степени на фоне
сердечной недостаточности=0, АГ2 степени на фоне почечной недостаточности=0,
АГ 3 степени=0, АГ 1 степени=0, АГ 2 степени=6, АГ 3 степени на фоне
сердечной недостаточности=0}
|
|
|
Креатинин, оль/л ≤ 66: АГ 2 степени на фоне сердечной
недостаточности {АГ 3 степени на фоне почечной недостаточности=0, АГ 1
степени на фоне почечной недостаточности=0, АГ 2 степени на фоне сердечной
недостаточности=4, АГ 1 степени на фоне сердечной недостаточности=0, АГ2
степени на фоне почечной недостаточности=0, АГ 3 степени=0, АГ 1 степени=0,
АГ 2 степени=0, АГ 3 степени на фоне сердечной недостаточности=0}
Систолическое(верхнее) давление ≤ 159.500
|
Креатинин, оль/л > 101: АГ 1 степени на фоне почечной недостаточности
{АГ 3 степени на фоне почечной недостаточности=0, АГ 1 степени на фоне
60
почечной недостаточности=10, АГ 2 степени на фоне сердечной
недостаточности=0, АГ 1 степени на фоне сердечной недостаточности=0, АГ2
степени на фоне почечной недостаточности=0, АГ 3 степени=0, АГ 1 степени=0,
АГ 2 степени=0, АГ 3 степени на фоне сердечной недостаточности=0}
|
Креатинин, оль/л ≤ 101
|
|
Креатинин, оль/л > 64: АГ 1 степени {АГ 3 степени на фоне почечной
недостаточности=0, АГ 1 степени на фоне почечной недостаточности=0, АГ 2
степени на фоне сердечной недостаточности=0, АГ 1 степени на фоне сердечной
недостаточности=0, АГ2 степени на фоне почечной недостаточности=0, АГ 3
степени=0, АГ 1 степени=3, АГ 2 степени=0, АГ 3 степени на фоне сердечной
недостаточности=0}
|
|
Креатинин, оль/л ≤ 64: АГ 1 степени на фоне сердечной
недостаточности {АГ 3 степени на фоне почечной недостаточности=0, АГ 1
степени на фоне почечной недостаточности=0, АГ 2 степени на фоне сердечной
недостаточности=0, АГ 1 степени на фоне сердечной недостаточности=6, АГ2
степени на фоне почечной недостаточности=0, АГ 3 степени=0, АГ 1 степени=0,
АГ 2 степени=0, АГ 3 степени на фоне сердечной недостаточности=0}
Примеры построенных деревьев решений с
различными критериями приведены в табл. 7.
Таблица 7– точность деревев решений
Критерий
построения
gain_ratio
information_gai
n
gini_index
accuracy
Точность
построени
я
90.00%
88.00%
Количес
тво
листьев
8
8
Количес
тво
ветвей
16
16
Количес
тво
узлов
8
8
Корень
дерева
90.00%
8
14
7
88.00%
8
16
7
Систоличес
кое
давление
Систоличес
кое
давление
Креатинин
Креатинин
В соответствии с построенной таблицей точности можно
предположить, что оптимальным является дерево решений с
критерием построения gain_index. Второй столбец точности в
таблице 2 показывает измерения. Для этого атрибута все
полученные результаты имеют высокую точность, и
обученная модель может быть использована для прогнозов.
На рис. 15 показана точность модели для дерева
решений и точность маркировки данных составляет 90% с
критерием gain_index:
61
Рис.15. Оценка точности моделис критериемgain_index
Точность – это проверка на соответствие исходных
данных, а также проверка на внутреннюю достоверность на
основе исходных данных.
Таким образом, с точностью 90% разделены входные
данные на 9 выборок: АГ 3 степени на фоне почечной
недостаточности (6 пациентов), АГ 1 степени на фоне
почечной недостаточности (10 пациентов), АГ 2 степени на
фоне сердечной недостаточности (3 пациента), АГ 1 степени
на фоне сердечной недостаточности (6 пациентов), АГ 2
степени на фоне почечной недостаточности (7 пациентов), АГ
3 степени (4 пациента), АГ 1 степени (3 пациента), АГ 2
степени (5 пациентов), АГ 3 степени на фоне сердечной
недостаточности (0 пациентов).
Верно распознает АГ 3 степени на фоне почечной
недостаточности в 85,71%, АГ 1 степени на фоне почечной
недостаточности в 100%, АГ 2 степени на фоне сердечной
недостаточности в 75%, АГ 1 степени на фоне сердечной
недостаточности в 100%, АГ 2 степени на фоне почечной
недостаточности в 87,5%, АГ 3 степени в 100%, АГ 1 степени
в 100%, АГ 2 степени в 83,33%, АГ 3 степени на фоне
сердечной недостаточности в 0%. Верно предсказывает АГ 3
62
степени на фоне почечной недостаточности в 85,71%, АГ 1
степени на фоне почечной недостаточности в 100%, АГ 2
степени на фоне сердечной недостаточности в 75%, АГ 1
степени на фоне сердечной недостаточности в 85,71%, АГ 2
степени на фоне почечной недостаточности в 87,5%, АГ 3
степени в 80%, АГ 1 степени в 100%, АГ 2 степени в 100%, АГ
3 степени на фоне сердечной недостаточности в 0%.
В основе рис. 15 создадим таблицу 8 ошибок.
После
проведенного
анализа
(рис.
15),
видно,
что
диагноз гипертонии прогнозируются у6+10+3+6+ 7+ 4+3+5+0=44
пациентов, не точно поставлена степень и выраженность
диагноза
у
степени
на
1+1+1+1+1=5пациентов.Прогнозируемый
фоне
почечной
недостаточности
есть
АГ
2
у
1
пациента, а дерево решений распознает его как АГ 3 степени
на фоне почечной недостаточности, но и распознанный АГ 2
на фоне почечной недостаточности есть у 1 пациента с
прогнозируемым
АГ
3
степени
на
фоне
почечной
недостаточности. Прогнозируемый АГ 1 степени на фоне
сердечной
недостаточности
распознанным
АГ
2
есть
степени
у
на
1
пациента
фоне
с
сердечной
недостаточности. Распознанный АГ 2 степени есть у 1
пациента с прогнозируемым АГ 2 степени на фоне сердечной
недостаточности. Также распознанный АГ 3 степени на фоне
сердечной
недостаточности
прогнозируемым
АГ
3
есть
степени.
у
Из
1
пациента
результатов
с
можно
сделать вывод, что мы получаем 1+1+1=3 пациента имеют
предполагаемый
диагноз,
но
классификации дерево решений.
63
не
распознаются
методом
Таблица 8 – Таблица диагностики сопряженности
дерева решений с параметром gain_index
Параметр
Предлагаемый
Итог
Дерево решений –
диапазон
есть
нет
44
0
44
есть
Дерево решений –
нет
Итог
2
3
5
46
3
49
3.4. ВЫВОД К ТРЕТЬЕЙ ГЛАВЕ
По
результатам
третьей
главы
можно
сделать
следующие выводы:
1.
В
исследованиях
использованы
k-mean,
кластерного
k-medoids
и
анализа
были
X-meansалгоритмы
кластеризации с использованием инструмента RapidMiner.
Эти
три
алгоритмы
производительности
кластеризации
были
применены
каждого алгоритма
медицинских
для
оценки
с точки зрения
данных,
результаты
сравнивались с каждым алгоритмом, сравнение показала, что
лучше использовать с точки зрения кластеризации алгоритм
x-means.
Совпадение объектов у алгоритмов k-means – 55,28%, kmedoids – 41,66% и x-means – 72,55%, которые мы получили.
У k-means и k-medoids очень маленькая разница между
кластерами в соответствии с средним расстоянием.
Таким образом, можно сделать вывод, что алгоритм xmeans показал хорошие результаты по сравнению с другими
двумя
алгоритмами,
он
кластеризовал
64
данные
с
-4.031
средним расстоянием в каждом кластере и совпадение
объектов кластера больше 70%.
2.
В исследовании построения дерева решений мы
получаем
оптимальное
дерево
решений
с
критерием
gain_index, где точность построения дерева 90% . Проведя
анализ, видно, что диагноз гипертонии прогнозируется у 44
пациентов, не точно поставлена степень у 5 пациентов из
них 3 пациента имеют предполагаемый диагноз, но не
распознаются методом классификации дерево решений.
3.
Благодаря этим исследованиям, мы выяснили, что:
Полученные результаты кластерного анализа позволяют
сформировать
решение,
обобщить
собранные
разработать соответствующие рекомендации.
данные
и
Кроме того,
кластерный анализ в отличие от большинства математикостатистических
методов
не
накладывает
никаких
ограничений на вид рассматриваемых объектов, и позволяет
рассматривать множество исходных данных практически
произвольной природы.
Метод
дерева
решений
статистическим
инструментом
прогнозирования,
интерпретации
является
для
и
мощным
классификации,
обработки
данных,
который имеет несколько потенциальных применений в
медицинских исследованиях. Использование моделей дерева
решений для описания результатов исследований имеет
следующие преимущества:
•
Упрощает
сложные
отношения
между
входными
переменными и целевыми переменными, разделяя исходные
входные переменные на значимые подгруппы.
65
• Легко понять и интерпретировать.
• Устойчив к выбросам.
ЗАКЛЮЧЕНИЕ
С
быстрым
увеличением
численности
населения,
существует значительное количество роста заболеваний,
связанных
со
здоровьем.
Некоторые
заболевания
тесно
связаны с симптомами, которые создают врачам сложность
прогнозировать
появляется
которая
точные
техника
помогает
в
заболевания
сразу.
интеллектуального
прогнозировании
исследование
Вот
анализа
данных,
заболевания.
сосредоточено
где
Это
на
исследованиинесколькихметодах и их алгоритмов.
В
результате
проделанной
работы
проведено
исследованиенаиболее известных, и получивших широкое
распространение,
статистических
программных
пакетов.Рассмотрены пакеты программного обеспечения для
статистического
анализа
данных,
такие
как:
MSExcel,
STATISTICA, SPSS Statistics, SAS VisualAnalytics, Stata и
RapidMinerStudio.
66
В
результате
проведенного
анализа
имеющихся
на
настоящий момент программных средств, для решения задач
прикладной математической статистики для целей медицины
можно сделать следующие выводы:
1. Предлагаемая линейка программных пакетов решает
практически весь спектр задач
прикладной статистики,
возникающих в практической медицинской деятельности.
2.
Программный
является
наиболее
пакет
RAPIDMINER,несомненно,
эффективным
средством
решения
задачоперативной медицинской практики – диагностики и
прогнозирования.
Рассмотрены задачи классификации интеллектуального
анализа. Эти задачи позволяют построить модели, которые
могут
использоваться
анализируемой
для
системы
в
прогнозирования
ситуации,
поведения
которая
ранее
не
наблюдалась; использовать поиск скрытых закономерностей
в данных, их описание и вывод правил, которые могут быть
использованы в будущем для повышения эффективности
работы медицинских учреждений.
Более подробно рассмотрены и описаны кластерный
анализ и построение дерева решений.
В ходе работы выполнены поставленные задачи, а
именно:
исследование
возможности
применения
статистического метода кластерного анализа.В
исследованиях
кластерного
использованы
алгоритмы
k-means,
с
анализа
k-medoids
использованием
и
были
x-means
инструмента
RapidMiner. Эти три алгоритма были применены
67
для оценки производительности каждого алгоритма
с точки зрения кластеризации медицинских данных.
Результаты сравнивались с каждым алгоритмом с
точки зрения среднего значения и совпадения
объектов. В результате исследования мы получили,
что алгоритм x-means показал лучший результат по
сравнению
с
другими
кластеризовал
расстоянием
объектов
двумя
данные
в
с
каждом
кластера
алгоритмами,
-4.031
кластере
больше
70%,
и
что
он
средним
совпадение
считается
признаком хорошей кластеризации.
исследование возможности применения алгоритма
построения дерева решений. Это исследование
является
попыткой
использовать
функции
инструмента RapidMiner для анализа данных и
представить некоторые из возможностей, которые
предлагаются для анализа данных и было создано
для того, чтобы представить деревья решений как
один из инструментов современных возможностей
машинного обучения (интеллектуального анализа
данных). Следуя из таблицы точности, мы получаем
оптимальное
дерево
решений
с
критерием
gain_index, где точность построения дерева 90%.
Проведя анализ, видно, что диагноз гипертонии
прогнозируется
у
44
пациентов,
не
точно
поставлена степень у 5 пациентов из них 3 пациента
имеют
предполагаемый
распознаются
методом
решений.
68
диагноз,
классификации
но
не
дерево
На
основании
проведенного
исследования
можно
заключить, что на настоящий момент RapidMinerявляется
наиболее
эффективным
продуктом
оперативной медицинской практики.
69
в
решении
задач
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
Литература
1.
Дресвянский
Д.В.
О
применении
методов
интеллектуального анализа данных в задаче обнаружения
спама / Д.В. Дресвянский, Е.С. Семёнкин // Электронный
сборник материалов международной конференции студентов,
аспирантов и молодых ученых «Проспект свободный – 2015»
посвященной 70-летию великой победы. 2015.С.22-24.
2.
Корсунова Е.С. Применение пакета STATISTICA и
MS EXCEL для обработки биомедицинской информации/ Е.С.
Корсунова, К.Д. Тишакова // Технические науки: тенденции,
перспективы и технологии развития. / Сборник научных
трудов
по
итогам
международной
научно-практической
конференции. № 4. г. Волгоград, 2017. 64 с.
3.
Крыштановский А.О.Анализ
социологических
данных с помощью пакета SPSS [Текст]: учеб, пособие для
вузов / А. О. Крыштановский Москва: ВШЭ, 2006.с. 225—
281.
4.
Мальцева А.А. Классификация регионов по уровню
инновационного развития на основе кластеризации / А.А.
Мальцева,
А.Л.
государственного
Баскакова
//
университета.
Вестник
Серия:
Тверского
Экономика
и
управление. 2015. № 4. С. 167-176.
5.
Мамонтов
интеллектуального
классификации
Д.Ю.
Применение
анализа
повреждений
данных
стальных
методов
для
пластин
задачи
/
Д.Ю.
Мамонтов, Е.С. Семёнкин //Электронный сборник материалов
70
международной
конференции
студентов,
аспирантов
и
молодых ученых «Проспект свободный – 2015» посвященной
70-летию великой победы. 2015.С.36-38.
6.
Неслухов
регрессионного
Д.С.
Использование
анализа
деятельности
в
изучении
судостроительных
предприятий
/
Д.С.
и
Неслухов
//
кластерного
и
экономической
судоремонтных
Интернет-журнал
«НАУКОВЕДЕНИЕ», 2016Том 8, №4.
7.
Овсянников А.О. Анализ
научные
исследования
и
внутренних
разработки
по
затрат
на
субъектам
Российской Федерации при помощи кластерного анализа
RapidMiner
/
А.О.
Овсянников
//
Научно-практический
электронный журнал Аллея Науки. 2018. №6(22).
8.
анализа
Орестова В.Р., Применение статистического пакета
данных
SPSS
Statistics
в
психологических
исследованиях на примере факторного анализа / В. Р.
Орестова, А. А. Бастрон // История и архивы. – 2017. – №2.– С.
38-51.
9.
Пичугин Ю.А. О классификации летних режимов
погоды в Санкт-Петербурге / Ю.А. Пичугин // Метеорология и
гидрология. 2000. № 5. С. 31–39.
10. Сиделев, С. И. Математические методы в биологии
и экологии: введение в элементарную биометрию: учебное
пособие / С. И. Сиделев; Яросл. гос. ун-т им. П. Г. Демидова. –
Ярославль: ЯрГУ, 2012. – 140 с.
11. Сылова С.Д. Создание групп для маркетинговых
целей из данных использования веб-сайта / С.Д. Сылова //
Вестник Удмуртского университета. Математика. Механика.
Компьютерные науки 2017. Т. 27, вып. 3. С. 470-478.
71
12. Третьяков
прикладных
А.С.
Статистические
географических
методы
исследованиях:
в
Учебно-
методическое пособие / А.С. Третьяков; науч. ред. проф. И.Г.
Черванев – Х.: Шрифт, 2004. – 96 с.
13. Трухачева
Н.
В.
Математическая
статистика
в
медико-биологических исследованиях с применением пакета
Statistica. / Н.В. Трухачева. М.: ГЭОТАР-Медиа, 2012.384 с.
14. Ульянов
Е.А.
Кластеризация
паевых
инвестиционных фондов по прибыльности/ Е.А. Ульянов, Д.Ш.
Бесаев // Научно-практический электронный журнал Аллея
Науки. 2018.№6.
15. Филандышева
географии:
Л.
Б.
Статистические
учебно-методическое
пособие
/
методы
в
Л.
Б.
Филандышева, Е. С. Сапьян; отв. ред. А.В. Пучкин; Том. гос.
ун-т. - Томск : Издательский Дом Томского государственного
университета, 2015. – 164 с.
16. Чернышова
интеллектуального
Г.Ю.
анализа
Применение
данных
для
методов
кластеризации
текстовых документов. / Г.Ю. Чернышова, А.Н. Овчинников //
Информационная
безопасность
регионов:
научно-
практический журнал. 2015. №4 (21). – С.5-12.
17. Шеламова, М. А. Использование программы Excel в
работе с базой медико-биологических данных: учеб.-метод.
пособие / М. А. Шеламова // Минск : БГМУ, 2011. –С.56.
18. Шубат О. М. Кластерный анализ в исследовании
социально-экономических
анализа
/
О.
М.
Шубат,
процессов:
А.
П.
опыт
Караева
критического
//
Проблемы
моделирования социальных процессов: Россия и страны АТР :
материалы
Второй
всероссийской
72
научно-практической
конференции с международным участием — Владивосток :
Дальневост. федерал. ун-т, 2016. — С. 325-328.
19. Эльрих Ю. Применение метода «дерево решений» в
целях
оптимизации
ремонтных
программ
предприятий
электроэнергетики РФ/ Ю. Эльрих, Э. Петровский // РИСК:
Ресурсы, информация, снабжение, конкуренция, 2012. – № 1.
– С. 385-388.
Интернет-ресурсы
20. Википедия – свободная энциклопедия [Электронный
ресурс].
- https://ru.wikipedia.org/wiki/Дерево_решений
.
-
(дата обращения: 21.03.2020).
21. RapidMiner
[Электронный
ресурс].
URL:
https://rapidminer.com/ (дата обращения: 17.03.2020).
Иностранные источники
22.
Lloyd GER. Hippocratic Writings. / J. Chadwick, N.W.
Mann, Trans // London: Penguin Books, 1983.pp. 223.
23. Exarchos TP. Mining sequential patterns for protein
fold recognition. / T.P. Exarchos, C. Papaloukas, C. Lampros, D.I.
Fotiadis // Biomed Inform. 2008.pp.165–179.
24. Jones J.K. The role of data mining technology in the
identification of signals of possible adverse drug reactions: value
and
limitations,
current
therapeutic
research-clinical
and
experimental. / J.K. Jones // 2001vol. 62, num. 9.pp. 664-672.
25. Kakimoto M. Data Mining from Functional Brain Image
/ M. Kakimoto, C. Morita, H. Tsukimoto // Proceedings of the
International
Workshop
on
Multimedia
Data
Mining
(MDM/KDD'2000), in conjunction with ACM SIGKDD Conference.
Boston, 2000.pp. 91-97.
73
26. Kuo W.J. Data mining with decision trees for diagnosis
of breast tumor in medical ultrasonic images. / W.J. Kuo, R.F.
Chang, D.R. Chen, C.C. Lee //Breast Cancer Res Treat, 2001.
66(1) pp.51–57.
27. Laura J. van’t Veer. Gene expression profiling predicts
clinical outcome of breast cancer / Laura J. van’t Veer, Hongyue
Dai, Marc J. Van De Vijver et al. // Nature. 2002.V. 415. № 6871.
pp. 530–536.
28. Ohno-Machado L. Decision trees and fuzzy logic: A
comparison of models for the selection of measles vaccination
strategies in Brazil. / L. Ohno-Machado, R. Lacson, E. Massad //
Journal of the American medical informatics association: Suppl.,
2000. pp. 625-629.
29. Pelleg Dan. Accelerating Exact k-means Algorithms
with Geometric Reasoning / Dan Pelleg, Andrew Moore //
Carnegie Mellon University, Pittsburgh, 1999 pp. 277-281.
74
ПРИЛОЖЕНИЕ A
Таблица A.1
Пол
Возра
ст
Температ
ура
Диастоличе
ское
(нижнее)
давление
110
Пуль
с
Креатин
ин,
ммоль/л
СКФ,
мл/м
ин
Холестер
ин,
ммоль/л
37
Систоличе
ское
(верхнее)
давление
180
Пациент
_1
0
55
Пациент
_2
0
Пациент
_3
4
СОЭ
,
мм/
ч
9
Глюкоз
а,
ммоль/
л
5,2
120
140
50
34
37,5
158
91
103
144
43
5,1
5
5
1
68
36,6
161
109
93
49
119
5,9
44
6,3
Пациент
_4
1
25
37,4
150
98
119
115
67
3,8
20
4,5
Пациент
_5
1
47
36,2
141
91
91
36
121
6,5
52
6,7
Пациент
_6
1
27
36,6
164
104
117
124
70
3,9
20
5,7
Пациент
_7
1
67
36,5
140
93
94
108
46
4,1
19
4,9
75
Диагноз
АГ 3 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 2 степени на
фоне сердечной
недостаточност
и
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне сердечной
недостаточност
и
АГ2 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне почечной
недостаточност
Пациент
_8
0
54
36
200
115
115
90
111
4,6
3
5
и
АГ 3 степени
Пациент
_9
1
63
36,8
157
95
128
94
124
4,9
12
5,1
АГ 1 степени
Пациент
_10
1
38
35,8
169
106
91
133
47
5,2
11
5,9
Пациент
_11
0
47
37,1
158
91
100
41
113
6,4
46
6,3
Пациент
_12
1
64
37,4
176
102
98
134
89
4
13
4,6
Пациент
_13
1
51
36
198
113
111
143
66
3,9
7
5,9
Пациент
_14
1
60
36,8
164
107
122
146
41
3,7
17
4,1
Пациент
_15
0
74
36,1
155
96
116
34
113
5,9
29
6,7
Пациент
_16
1
51
35,5
167
104
99
52
114
6,5
42
6,4
Пациент
_17
0
62
36,8
250
138
91
107
50
5
10
5,1
АГ2 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне сердечной
недостаточност
и
АГ2 степени на
фоне почечной
недостаточност
и
АГ 3 степени на
фоне почечной
недостаточност
и
АГ2 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне сердечной
недостаточност
и
АГ 2 степени на
фоне сердечной
недостаточност
и
АГ 3 степени на
фоне почечной
76
Пациент
_18
0
60
37,4
152
92
124
117
44
3,8
12
4,2
Пациент
_19
0
31
35,9
140
99
96
136
78
5
9
5,3
Пациент
_20
0
71
35,6
184
114
112
67
113
4,4
19
4,4
недостаточност
и
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 3 степени
Пациент
_21
0
35
36,4
179
109
110
79
119
3,9
4
5,2
АГ 2 степени
Пациент
_22
1
32
35,6
147
96
97
89
118
4,3
15
4,9
АГ 1 степени
Пациент
_23
1
68
37,4
168
106
116
139
84
4
3
5,1
Пациент
_24
0
40
36,8
209
116
122
143
78
3,6
11
5,3
Пациент
_25
0
53
37,3
177
102
108
94
117
4,8
20
5,3
АГ2 степени на
фоне почечной
недостаточност
и
АГ 3 степени на
фоне почечной
недостаточност
и
АГ 2 степени
Пациент
_26
0
20
36,8
141
98
118
122
52
3,7
13
4,2
Пациент
_27
0
47
37,2
164
105
103
54
124
6,1
46
6,5
77
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 2 степени на
фоне сердечной
недостаточност
Пациент
_28
0
57
35,9
147
94
129
142
66
4,3
20
5
Пациент
_29
0
61
36,4
196
112
104
147
76
5,2
10
5,7
Пациент
_30
1
25
36,8
191
121
95
117
43
4
15
5,5
Пациент
_31
1
80
37,1
169
103
120
111
60
4,6
16
4,8
Пациент
_32
1
23
37
156
95
100
114
70
3,6
2
4,3
Пациент
_33
0
57
36,6
171
101
118
125
46
5,2
17
4,7
Пациент
_34
1
64
37,5
205
118
112
128
78
4,7
6
5,1
Пациент
_35
0
40
36,5
160
100
109
41
125
6,3
51
6,6
Пациент
_36
0
32
35,8
152
93
90
36
116
6,5
30
6,1
78
и
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 3 степени на
фоне почечной
недостаточност
и
АГ 3 степени на
фоне почечной
недостаточност
и
АГ2 степени на
фоне почечной
недостаточност
и
АГ 1 степени на
фоне почечной
недостаточност
и
АГ2 степени на
фоне почечной
недостаточност
и
АГ 3 степени на
фоне почечной
недостаточност
и
АГ 2 степени на
фоне сердечной
недостаточност
и
АГ 1 степени на
фоне сердечной
недостаточност
и
Пациент
_37
1
61
37,3
170
109
119
91
117
4
19
5,1
АГ 2 степени
Пациент
_38
0
28
36,9
201
134
120
35
117
6,3
50
6,3
Пациент
_39
0
65
36,7
140
99
114
37
121
5,9
46
6,3
Пациент
_40
0
30
36
189
114
113
69
117
5,2
19
4,3
АГ 3 степени на
фоне сердечной
недостаточност
и
АГ 1 степени на
фоне сердечной
недостаточност
и
АГ 3 степени
Пациент
_41
0
20
36,9
166
106
104
113
48
4,6
4
5,4
Пациент
_42
0
52
37
169
105
93
87
117
4,4
6
5,7
Пациент
_43
1
75
35,6
147
98
119
148
69
5,1
10
5,4
Пациент
_44
1
41
36,4
171
104
96
78
111
4,4
2
4,3
Пациент
_45
1
47
36,4
155
90
122
41
116
6,4
25
6,3
Пациент
_46
1
74
36,7
195
113
115
79
117
4,4
3
4,9
79
АГ2 степени на
фоне почечной
недостаточност
и
АГ 2 степени
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 2 степени
АГ 1 степени на
фоне сердечной
недостаточност
и
АГ 3 степени
Пациент
_47
1
65
35,7
163
105
97
99
112
3,7
13
4,4
АГ 2 степени
Пациент
_48
1
59
36,6
159
95
118
110
40
4,6
8
5,9
Пациент
_49
0
61
36,7
151
98
96
87
114
3,9
17
5
АГ 1 степени на
фоне почечной
недостаточност
и
АГ 1 степени
80
Отзывы:
Авторизуйтесь, чтобы оставить отзыви хорошего настроения
удачи
успехов в конкурсе
Наверное было затрачено много времени и труда на работу
Продолжай свое исследование
Админам респект
Красиво написанная работа
Так держать
Молодец
Интересная работа!