САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
КАФЕДРА ТЕХНОЛОГИИ ПРОГРАММИРОВАНИЯ
Сун Мин
Магистерская диссертация
Обнаружение и классификация рака с помощью
микроскопических изображений образцов биопсии
Направление 010300
Фундаментальная информатика и информационные технологии
Магистерская программа «Технологии баз данных»
Научный руководитель,
доктор физ.-мат. наук,
профессор
Андрианов С.Н.
Санкт-Петербург
2016
Содержание
Содержание.................................................................................................... 2
Введение.........................................................................................................4
Актуальность темы............................................................................... 4
Состояние исследования микроскопического изображения биопсии
........................................................................................................................... 6
Цель данного исследования..................................................................7
Практическая значимость исследования.............................................7
Задачи данного исследования..............................................................7
Глава 1. Постановка и формализация задачи..............................................9
Глава 2. Методы анализа изображения раковых клеток..........................10
2.1 Сегментация цветного изображения...............................................10
Сегментация цветного изображения рака желудка..........................10
Оттенки серого патологического изображения................................11
Метод Оцу и быстрый алгоритм выбора порогов Оцу....................12
Алгоритм k-means............................................................................... 15
Алгоритм сегментации по водоразделам (WaterShed).....................18
Принцип алгоритма.............................................................................18
Традиционное математическое описание водораздельного
преобразования.............................................................................................. 18
Водораздел Сегментация на основе расстояния преобразования. .20
2.2 Извлечения признаков микроскопическое изображение клеток. .23
Функция представления изображения и способ описания.............24
Описание характеристики изображения............................................... 27
Описание особенности формы раковых клеток...............................31
Глава 3 основные средства......................................................................... 39
Вывод............................................................................................................43
Заключение.................................................................................................. 44
Список литературы..................................................................................... 46
Приложение................................................................................................. 47
3
Введение
Актуальность темы
На современном этапе развития человечества онкологические
заболевания являются одной из основных причин заболеваемости и
смертности во всем мире — С ростом заболеваемости и смертности, рак
является ведущей причиной смерти по всему мир и в Китае, что является
серьезной проблемой общественного здравоохранения. Из-за огромного
населения Китая, на данный момент, которое составляет 1,37 миллиардов
человек, и ужасающего состояния загрязнения окружающей среды в
Китайской Народной Республике[1], каждый год заболевает три тысячи
миллионов человек, что составляет весомую часть от всех жителей
республики.
О такие статистике свидетельствует ежегодный отчет о
распространении онкологических заболеваний на территории страны.
В настоящее время, большинство врачей для диагностики
онкологических заболеваний используют, визуальные методы диагностики,
что с помощью определённых приборов, помогает им выявить наличие
пораженных клеток, в их число входят такие методы[2], как:
Биопсия – это самый распространённый метод диагностирования раковых
клеток, который включает в себя, исследование с использованием полой
иглы, и других хирургических приборов, которые помогают отделить
частицы ткани, которые вызвали подозрение у врача и рассмотреть их более
детально, для постановления более точного диагноза.
Компьютерная томография – это более современный метод диагностирования
рака, который включает в себя послойный рентген. При помощи компьютера,
который управляет съемкой, строится трехмерное изображение, которое
позволяет разглядеть даже самые маленькие пораженные клетки.
Следующем методом диагностики является эндоскопия – это исследование
полых органов при помощи эндоскопического гибкого зонда, который
позволяет высветить внутренность органа и при необходимости удалить
4
полипы.
Компьютерная томография с использованием магнитных колебаний – этот
метод схож по принципу с обычной томографией, но в отличие от рентгена
используется магнитное поле, которое обладает большим проникающим
действием, что обеспечивает более надежную диагностику.
Также, не мало важными считаются методы диагностики такие как,
маммография, которая является частью томографии, сонография, где
используют для диагностики звуковые колебания, сцинтиграфия, где
используется радиоактивные вещества.
Все эти методы позволяют более точно диагностировать онкологические
заболевания, но, к сожалению, на современном этапе развития социума, такие
методы не являются достаточными, клетки мутируют, что в значительной
степени затрудняет диагностику и распознавание заболевания.
Но также такого методы такого рода, имеют ряд отрицательных моментов,
такие как,
(1) Результаты исследования носят строго субъективный
характер;
(2) Неэффективность, постановка диагноза иногда является
неверной;
(3) Присутствует человеческий фактор, например, усталость.
(4) В средних или маленьких городах Китая из-за неравномерного
распределения медицинских ресурсов некоторые врачи не
имеют клинического опыта и знаний, что также сказывается
на постановке диагноза.
Эти недостатки будут влиять на точность диагностического анализа и
решения, как было отмечено американским учеными – существует
необходимость компьютерной диагностики (САПР), чтобы уменьшить
нагрузку на специалистов в процессе постановки диагнозов, и более
серьёзного диагностирования более сложных случаев.
5
Обзор методов анализа микроскопических изображений
биопсии
С использованием компьютера сбор, обработка и хранение
микроскопического изображения медицинской биопсии является актуальным
направлением исследования медицинских работников в восьмидесятых и
начале девяностых годов прошлого века. С быстрым развитием
компьютерных технологий, люди связываю т вычислительную мощность
компьютера с субъективной способностью диагностики самим врачом, в то
же время компьютер может сделать как и медицинские эксперты, он четко
распознаёт все типы клеток и быстро выявляет соответствующий диагноз,
что в значительной степени повышает эффективность и точность
клинической диагностики[3].
Использование четырех различных классификаторов, обученных на 25мерным вектором признаков, повышает производительности в 98% на 737
изображениях. Аналогично в работах [4], [5], [6] предлагается система
диагностики для рака молочной железы, на основе информации об ядрах
сегментации цитологического изображения. При использовании различных
моделей машинного обучения, такие как нейронные сети и метод опорных
векторов, утверждается об уровне диагностической точности в пределах от
76% до 94% на наборе из 92 изображений. Чжан [7] предложил каскадный
подход с опцией отказа. На первом уровне каскада, автор предлагает решать
простые случаи, в то время как сложные направляются на второй уровень, где
выполняется более тщательная диагностика, а также используется система
классификации. Они оценивают при помощи метода, который был предложен
Израильским технологическим институтом, который состоит из 361
изображений (40 ×). При этом методе достоверность данных составляет 97%.
Cao [8] представил классификацию методов гистологии изображений
на основе особенностей текстуры и с помощью Adaboost-BP максимальную
точность классификации, которая была получена, равно 91,5%.
6
Цель данного исследования
Предложить структуру автоматического обнаружения и классификации
рака для микроскопического изображения биопсии с использованием
клинически значимых и биологически интерпретируемых особенностей.
Практическая значимость исследования
Применение технологии компьютерной обработки изображений для
микроскопического исследования и распознавания изображений, необходимо,
для того чтобы уменьшить интенсивность труда врача при «чтении» биопсии,
а также для того, чтобы
повысить точность постановки диагноза.
Традиционные методы идентификации предполагают исключительно
обнаружение раковых клеток в желудке под микроскопом, при помощи опыта
каждого врача онколога, а функция распознавания клеток рака желудка не
имеют количественных параметров в качестве эталона, полностью зависит от
опыта врача, в результате чего скорость распознавания не высока. Для
быстрого и точного количественного анализа клеток, они должны быть
охарактеризованы и выделены определёнными признаками клеточной
морфологии, а также измерены для выявления больных клеток.
Так называемое выделение признаков является количественным
описанием клеток, оно играет очень важную роль в процессе идентификации
клетки, и непосредственно влияет на точность распознавания. Из-за своей
морфологической сложности рак желудка можно выделить, используя
признаки, одновременно извлекая их различными способами, таким образом,
ключевым моментом является поиск характеристики, которая могла бы
выделять признаки и могла бы быть реализована в качестве универсального
критерия характеристических параметров. Основываясь на большом
количестве биопсии желудочных клеток, изображениях, и медицинских
книгах, можно создать основную базу для эффективной классификации.
Например, можно использовать как характеристические параметры
компьютерного распознавания раковых клеток периметр, площадь,
округлость.
7
Задачи данного исследования
1. Сглаживание изображений с помощью фильтра шумов
изображения, для улучшения качества изображения, для тонкой
сегментации клеток в области перекрытия.
2. Для получения признака микроскопических изображений
биопсии, требуется анализ контура, и обнаружение как можно
большей информации о клетке.
3. Для выделения значимых показателей структур, будет
использоваться подход, который включает в себя ограниченное
адаптивное уравнивание гистограммы.
4. Для сегментации фоновых клеток, предлагается комплексный
алгоритм k-средних алгоритм и алгоритм сегментации по
водоразделам (WaterShed).
5. На этапе выделения признаков, предлагается, извлечь различные
биологически интерпретируемые и клинически значимые формы,
а также особенности, основанные на морфологии из
сегментированных изображений. К ним относятся периметр,
площадь, прямоугольность, округлость и эксцентриситет.
6. Наконец, используется метод BP_Adaboost для классификации
изображений в нормальных условиях, так как он работает лучше,
по сравнению с другими широко используемыми методами
обратного распространения ошибки для данной задачи.
8
Глава 1. Постановка и формализация задачи
Основная цель данной работы заключается в разработке структуры и
программного инструмента для автоматического обнаружения и
классификации рака по микроскопическим изображениям биопсии с
помощью вышеуказанных клинически значимых и биологически
интерпретируемых особенностей. В данной диссертации в разделе
сегментации изображения основное внимание уделяется комплексному
алгоритму, включающему k-средних алгоритм и алгоритм сегментации по
водоразделам (WaterShed). Еще используя внедрение метода BP_Adaboost для
классификации изображений, для повышения точности предсказания
нейронной сети, что имеет большую практическую ценность.
Остальная часть работы структурирована следующим образом. В Главе
2 описывает соответствующие работы с представлением методов и моделей.
В Главе 3 описывает основные средства и соответствующее программное
обеспечение. В Главе 4 описываются результаты и проводится обсуждение. И
наконец, Глава 5 описывается результаты, полученные в процессе подготовки
работы.
9
Глава 2. Методы анализа изображения раковых
клеток
2.1 Сегментация цветного изображения
При анализе изображений возникает необходимость их сегментации, то
есть разделение пикселей изображений на группы по некоторым признакам[].
Целью же процесса сегментации является упрощение или изменение
полученного изображения, для более продуктивного последующего
анализирования. Сегментация помогает более чётко выделить границы
объекта, что значительно упрощает их интерпретацию.
Результатом сегментации является изображение, которое разделено на
множество сегментов, сегменты же в свою очередь разделены на пиксели,
которые схожи между собой некоторыми особенностями, это может быть
цвет или яркость.
Для получения информации о желаемых признаках изображения в
стадии анализа, обработки изображения, а также распознавания изображения,
должны сначала пройти стадию сегментации изображений. Сегментация
изображения является одной из основных технологий компьютерного зрения,
которая является ключевым моментом от процесса обработки изображений
до анализа изображений. Качество сегментации изображения оказывает
непосредственное влияние на выделение признаков, распознавание образов и
точность измерений и восприятия, и является ключевым шагом в анализе
изображений, а также является ключевым фактором в научноисследовательской деятельности.
Сегментация цветного изображения рака желудка
Сегментация цветного изображения состоит из видов текстур регионов
и может быть трудной задачей, а именно в моменте вычисления точного поля
текстуры и определения оптимального количества областей сегментации
изображения, если оно содержит подобные и / или необычные текстуры
10
полей. Многими методами можно решать проблему сегментации
изображении, например методы с использованием гистограммы, методы,
основанные на кластеризации и методы разрастания областей и так далее.
В данной работе, изображение обрабатывается с помощью HE
(hematoxylin-eosin staining) витражного окрашенного изображения клеток
тканей желудка, один вариант — это преобразовать гистологическое
изображение в оттенки серого и двоичное изображение, которое компьютер
может обработать и распознавать. Второй вариант - с помощью метод
сегментации цветного изображения, например алгоритм K-средних (метод kmeans).
Рис. 1. Окраска гематоксилином и эозином.
Оттенки серого патологического изображения
Как и в оттенках серого, здесь содержится только информацию о
яркости, патологическое изображение не содержит информацию о цвете
изображения, значение яркости можно разделить на 256 уровней. Бинарное
изображение можно получить через выбор порога обработки изображения.
Преобразование цветного изображения в оттенки серого. Изображения
обычно представлены в цветовом пространстве RGB, RGB цветовое
пространство является наиболее распространенной цветовой системой,
11
каждый пиксель представлен своими компонентами RGB. RGB изображение
преобразуется в черно-белое изображение, нам нужно вычислить значение
каждого цвета градацией.
Gray = R*0.299 + G*0.587 + B*0.114
Цветное изображение, в соответствии с приведенной выше формулой,
может быть преобразовано в черно-белое изображение.
Рис. 2. Преобразование цветного изображения черно-белое.
Метод Оцу и быстрый алгоритм выбора порогов Оцу
Метод Thresholding [9] представляет собой простой и эффективный
метод сегментации изображений, который использует один или несколько
пороговых уровней серого, изображение делится на несколько частей,
принцип сегментации – пиксели похожего цвета в одном объекте. Наиболее
важной особенностью этого метода является простота вычисления. Основная
проблема технологии сегментации - как правильно выбрать порог, наиболее
распространенный и простой способ основан на гистограмме.
П у с т ь и з о б р а ж е н и е п о д е л е н о н а у р о в н и L=[ 0,1 ,⋯ L−1 ]
L=[ 0,1 ,⋯ L−1 ] , Число пикселей на уровне i
i
обозначается ni
общее число пикселей обозначается N =n1 +n2+⋯+nL
ni , а
N =n1+n2 +⋯+nL ,
Вероятность уровня серого
pi =
L−1
ni
, pi ≥ 0, ∑ pi=1
N
0
(1)
В методе с двумя уровнями, пиксели изображения разделены на два
12
к л асс а C 1
[ t +1 ,⋯ L−1 ]
с уровнями серого [ 0,1 ,⋯ t ]
где t
и C2
с уровнями серого
–порогом. Вероятности серого уровня распределение
на двух классов
t
w 1= Pr ( C 1 ) =∑ P i
(2)
i=1
L−1
w 2= Pr ( C 2 )= ∑ P i
(3)
i=t +1
Среднее значение серого обозначается C 1 и C 2
t
u1=∑ i P i /w 1
(4)
i=0
L−1
u2 = ∑ i P i /w 2
(5)
i=t +1
общее среднее уровней серых обозначается uT
(6)
uT =w 1 u1+w 2 u2
дисперсии класса обозначается
t
σ 1=∑ ( i−u1 ) P i / w 1
2
2
(7)
i=0
L−1
σ = ∑ ( i−u2 ) P i / w 2
2
2
2
(8)
i=t +1
Внутри- -class дисперсии
M
σ =∑ w k σ k
2
w
2
(9)
k −1
дисперсия между-класса
2
2
σ 2B =w 1 ( u1 −ur ) +w 2 ( u2 −ur )
(10)
общая дисперсия уровней Грея
2
2
2
(11)
σ r ¿ σ w +σ B
Метод Оцу выбирает оптимальный порог t , c помощью вычисления
максимизации между классом-дисперсии
{
}
{
}
t =arg max { σ 2B ( t ) } =arg min { σ 2w ( t ) }
0≤ t ≤ L−1
0≤ t ≤ L−1
(12)
Метод Оцу может быть расширен до многоуровневого метода
пороговой. Пусть всего M −1 порог [ t 1 ,t 2 , ⋯t M −1 ]
разделили пиксели на
13
классы M = {С 1 , С 2 ,⋯С M } изображении,
{
}
{
2
2
σ B ( t 1 , t 2 ,⋯ t M −1 ) } =arg min {σ w ( t 1 ,t 2 , ⋯t M −1 ) }
{t 1 ,t 2 , ⋯t M −1}=arg 0 ≤max
{
t ≤ L−1
0 ≤t ≤ L−1
}
(13)
где
tj
w j=
∑
i=t j− 1+1
pi
(14)
tj
u j=
∑
i=t j −1+1
tj
2
j
σ =
∑
i=t j−1+1
ip i /w j
2
( i−u j ) P i /w j
(15)
(16)
M
σ B =∑ w j ( u j−uT )
2
2
(17)
j−1
M
σ =∑ w j σ j
2
w
2
(18)
j−1
После того, как было проведено много исследований, сравнивая
результаты, можем делать вывод, метод Оцу (Otsu's method) результат
сегментации в ошибке классификации пиксельной частоты и делится лучшей
однородности области производительности, алгоритм сегментации Оцу
имеет преимущества в случае сегментации изображений, мы используем
улучшенный алгоритм Оцу для сегментации изображения клетки рака
желудка с предварительной обработкой [10].
14
Рис. 3. Otsu technique T=145
Рис. 4. Fast Otsu technique T=143 [11]
Алгоритм k-means
Алгоритм K-средних(метод k-means)[12], это алгоритм кластеризации,
который был изобретен математиком Гуго Штейнгаузом, одновременно с
Стартом Ллойдом, но данный метод стал популярным только после работ
Маккуина.
Суть метода заключается в том, что он стремится
15
минимизировать суммарное квадратное отклонение точек кластеров от
центра самих этих кластеров.
На каждой интеграции центров кластеров перевычисляется центры
масс, которые были получены раннее, затем векторы разбиваются на
кластеры вновь, согласно концепции, по которой они выбирают центр
который оказался ближе всего по выбранной ими метрике. Алгоритм является
завершенным тогда, когда не произошло изменение центра масс каждого
кластера
Основная идея K- средних алгоритма
1. Случайно выбрать k объектов данных из общего количества n,
означает в качестве исходных центров кластеров K-алгоритма.
2. На основе принципа минимального расстояния, каждой выборки
{|x−C i|} , x ∈ DataSet , i ∈1,2 , ⋯k
данных набор выборок х, D i =min
❑
,
разделить выборок x на близком классе.
3. Использовать среднее значение каждого новообразованных
кластера для обновления центра в новом кластерном
4. Если изменяется значение кластерных центров, вернуться к шагу
2, чтобы продолжить вычислять среднее значение текущего
класса в качестве нового центра кластера; Если новый центр
кластера не изменяется, то вычисление останавливается,
сохранить ток класс означает, как кластеризация центра;
5. получаем никаких изменений средней категорий K является ли
кластерные центры K мы спрашиваем, что классы K, которые мы
хотим разделить класс.
Лучший критерий функции
пусть выброки M = { x i∨x ∈ R , i=1,2, ⋯, n } е с т ь n
выборки, каждая
точка x i является вектором, который характеризуется d-вектором набора
данных. С помощью алгоритма K-средних точки данных n делиться на
классы K , состоящие из новых наборов данных C {C k∨k=1,2 , ⋯, K } , пусть
μk
это каждый центр кластера C k
, определение расстояния между
16
точкой x i набора данных M и центром кластера μk
√∑
d
D ( x i , μk ) =
j =1
(19)
2
( xij −μk ) ( xi ∈ c k )
тогда, сумма евклидового расстояния между точкой в разграниченном
кластере C k и центром μk данного кластера
M ( c k ) = ∑ D ( x i , μk )
(20)
xi ∈ ck
в виде вычисления суммы евклидового расстояния между точкой k
под-кластера и множеством кластеров C . тогда выполнить статистики
каждого подкласса в множестве кластера, получаем сумму евклидово
расстояния между каждыми точками набора данных μk
и центром
разграниченного кластера, это Лучший критерий функции
K
K
J= S ( x i ) =∑ M ( C k ) =∑
k =1
K
n
K
n
∑ D ( xi , μk )=∑ ∑ λ i D ( xi , μk )=∑ ∑ λ i‖xi−μ k‖2
k =1 x i ∈ ck
k =1 i=1
k =1 i=1
(21)
И
{
λi= 1 , if x i ∈ c k . Тогда видно, чтобы получать лучший критерий
0 ,if x i ∉ c k
минимума функции J , необходимо положить равной нулю производную от
каждого центра кластера, тога получаем минимальное значение
n
J ,
n
∂J
∂
=
∑ ( x −μ )2=−2 ∑ ( xi−μ k ) =0 ( min imum )
∂ μ k ∂ μk i=1 i k
i=1
(22)
n
То гд а
μk =
1
∑x
S
| k| i =1 i
, только J
будет минимальным значением
функции, этот центра кластера является средним значением всех выборок
каждого класса, эффект кластеризации является лучшим
Производительность алгоритма
Несколько моментов о преимуществах:
(1) Идея алгоритма является наиболее простой и простота реализации,
нужно меньше всего времени для обработки больших массивов данных;
(2) для обработки больших массивов данных, алгоритм кластеризации
имеет некоторую масштабируемость и своевременность. Его сложность
17
O(n*k*t), где n является общим количеством элементов в наборе данных, k
представляет количество кластеров, t есть число итераций процесса
кластеризации. Обычно K << п, т << п;
(3) Когда кластеризуются данные интенсивного или непрерывного
типа, если для кластеризации использовать расстояние между классами, то
разница между ними гораздо более очевидна, получаются лучшие результаты
классификации.
Рис. 5. K=3 результат сегментации изображении
Алгоритм сегментации по водоразделам (WaterShed)
Алгоритм сегментации изображения по водоразделам (водоразделов,
также известный как разделительная линия / ватерлинии) алгоритм
сегментации изображения[13][14], это основанный на областях метод
18
математической морфологии, широко используемый в последние годы.
Алгоритм является классической технологией сегментации с помощью
использования математической морфологии, генерированные результаты
сегментации более стабильны. Алгоритм сегментации по водоразделам был
введен в 1979 С. Беукэром и К. Лэнтуеджуло, в области обработки
изображений для анализа простого бинарного изображения; в результате
научно-исследовательской работы Beucher, Винсент и др., была установлена
теория алгоритма сегментации по водоразделам, и с начала 1980-х годов этот
алгоритм широко используется для отработка полутонового сегментации
изображений.
Принцип алгоритма
Основная идея состоит из размещения водного источника в каждом
лакальном минимуме в области, чтобы затопить все область при источниках и
построить барьеры, когда различные водные источники встречаются.
Получающийся набор барьеров составляет водораздел области.
Традиционное математическое описание водораздельного
преобразования
Перед тем как дать строгое математическое определение алгоритм
водораздела, давайте рассмотрим понятие геодезической геодезического
расстояния и пораженной области:
В множестве A
есть две точки, геодезическое расстояние d A ( x , y )
является минимальной длиной всех путей, соединяющих эти две точки x y
:
d A ( x , y ) =inf { I ( R ) } ,
R
это путь связывающий x , y
Пусть В это подмножество А, В и Геодезическое расстояние между
точкой х в множестве:
d A ( x , B ) =min d A ( x , y )
y ∈B
Пусть B=Bi ∈ A , i=1,2 ,⋯, k ; ∀ i , Bi
геодезическая зона влияния множества B
(23)
это компоненты связности B ,
в множестве A
определяется
19
как :
¿
i Z A ( B i ) ={ x ∈ A∨∀ j [ 1 , k ] d A ( X , B i ) <d A ( x , B j ) }
(24)
Множество i Z A ( B ) является объединением геодезических зон влияния
соединяемых компонентов B т.е.
I Z A ( B )=¿i=1 ¿ k i Z A ( B i )
Дополнение множества i Z A ( B )
в множестве A
(25)
называется SKIZ
(скелет с помощью зон влияния):
(26)
SKI Z A ( B )= A/ I Z A ( B )
Таким образом, математическое описание:
Пусть функция g
в области D g
является изображением, которое
будет обрабатываться. Изображение пороговое максимальное и минимальное,
соответственно hmax=max ( g ) , hmin=min ( g ) .
h
Множе ство [ D g ] представляет собой пороговую функцию g :
h
[ Dg ] = { x ∈ D g∨g ( x ) ≤ h } .
Reg Min ( g )= { x локальный минимум , g ( x ) ≤ h } .
Полуводный бассейн g
X h , Xh
max
min
{
(т.е. область водораздела) состоит из
, получается в результате следующей итерации:
X h+1 =Reg Minh+1 ( f ) IZ [ D ] ( X h ) , ∀ h ∈ [ hmin , hmin−1 ]
h+1
g
X h =[ D g ]
h min
max
Водоразделом функции g
называют дополнение множества X h
max
,
соответствует самой низкой точке изображения Глобального, Итерационный
процесс соответствует разливу воды, устанавливание поля между водой
бассейна водосбора, является процессом записи геодезической зоны влияния
точечного скелета, все разграничительные линии соответствую водоразделу
функции g .
Сегментация по водоразделу на основе расстояния
преобразования
Принципами сегментации по водоразделу на основе расстояния
преобразования являются: во-первых, с помощью расстояния трансформации
клетки различной информации о местоположении пикселя в различной серой
20
информации, повторное с использованием адаптивное алгоритм двоичного
водоразделом различать пиксели различной природы, а затем отметить
граничную точку, граница будет разделена клетки на отдельную клетку.
Расстояние преобразование арифметических операций для бинарного
изображения, бинарное изображение будет преобразовано в черно-белое
изображение. В этом черно-белом изображении, оттенки серого каждого
пикселя — это расстояние от того пикселя до ближайшего фона.
Теоретически, для расчета кратчайшего расстояния пикселя к фону пиксели,
требуется выполнить глобальную операцию изображения действий, то есть
вычисляется расстояние между этим пикселем и всеми фоновыми пикселями,
а затем принимается минимум. Если размер цифрового изображения был
очень мал, в противном случае будет массивный расчет. В практическом
применении алгоритм с помощью расстояния преобразования должен
исходить из соседних пикселей, каждый рассчитывает только минимальное
расстояние с несколькими местными соседними пикселями, в соответствии с
принципами Глобального расстояния из локального расстояния
масштабируется наложения изображения до и после двух сканирований,
окончательно приближенного изображения расстояния. Исходя из
приведенного выше принципа, в практике использования алгоритма
расстояния преобразования в произвольных размеров для преобразования,
выполняется просто и быстро, рассчитанное расстояние разумное
приближение к истинному расстоянию евклидовой геометрии.
В двумерном случае алгоритм расстояния преобразования в
произвольных размеров, дает шаблон, похожий на свертку, в процессе
работы, подобно свертку движения во всем изображении. Сначала пусть фон
серого бинарного изображения устанавливается в 0, мишень (ячейка)
градация устанавливается в 1, а затем сделанное изображение сканируется
дважды для слева направо, сверху вниз; как только центр шаблона
перемещается в заданное положение, каждый элемент шаблонна на его
соответствующее значение пикселя изображения в положении суммы, в
21
результате получается набор из двух, и их используют вместо минимального
значения значений пикселов изображения в центре шаблона.
* 5
11
11
11 7 5 7 11
5 *
11 7
5 7
11
11 * 11
Вперед
назад
Рис. 6. 5 × 5 template pair used in chamfer algorithm realizing two-dimensional
distance transformation
Разница между расстоянием с помощью расчет шаблона с 5 × 5
матрицы и реальном геометрическом расстоянием, как правило,
рассчитывается на 1,96% - 2,02%. Конечно можно используя шаблоны более
высокого порядка,
каждый раз надо рассматривать пиксели большей
окрестности, такие как шаблон 7 × 7, но это повышает точность не на много,
примерно между 1,28% ~ 1,97%. С учетом пробелов и эффективности
вычислений, выбираем 5 × 5 шаблона, расчетное расстояние в 5 раз
превышает евклидово расстояние. * Представляет центр шаблона.
шаги по реализации алгоритма Сегментации по Водоразделу на основе
расстояния преобразования:
1.
бинаризация изображения
2.
Операция расстояние преобразования для бинарного изображения
с использованием 5 × 5 шаблонов фаски и сохранение
изображения в оттенках серого, подсчитывание высокого уровеня
серого изображения G max ;
3.
Сегментация с использованием алгоритма водораздела
сегментации
Во-первых, установить массив флаг, значений каждого элемента
массива (значение по умолчанию равно 0), в свою очередь, представитель
флаг каждого пикселя изображения, установить начальный порог
22
Сегментирование F =G max , отмечены начальные объекты частиц, следуя
снижение порога каждый раз, алгоритм выполняется в отмеченный круг.
затем выполнятся пересечение всего пикселей изображения, когда расстояния
пиксели F, определить, является ли новая частица:
a) Если марка окрестности этого пикселя вокруг 20 являются '0', а
затем переведен (б) суждения, в противном случае идти (с) суд.
b) Если марка окрестности этого пиксель вокруг 48 являются '0’, это
была бы новая частица, семена плюс один, в это время значение
числа семян, присвоенных марка пикселя; если не полностью в
'0', и это уже помечены частицы в расширенной области, значение
марка не равно '0' присваивается марка пикселя;
c) Если эта марка окрестности вокруг 8 пикселя одинаковы, и тех же
частиц, то это значение марки пикселя присваивается той же
окрестности около 8, в противном случае пиксель будет точкой
границы, и значение пикселя присваивается значению '0'.
Повторив шаги (3) содержание, до F значение будет 0.
4.
В соответствии с вышеизложенным после раскола для того,
чтобы показать более ясно, анти-цвет и определение порога
(порог 255 в это время, так как с помощью значений пикселей
изменений в клеточной адгезии и задние достопримечательности
находятся в 255, то значения пикселей меньше, чем 255 клеток)
результаты
Рис. 7. Водораздел гряда линии
Рис. 8. результат Сегментация
23
изображения на основе отметки расстояния
2.2 Извлечения признаков микроскопическое
изображение клеток
Для того, чтобы выполнять идентифицирование микроскопического
изображения, основываясь на компьютерный технологий, сначала нужно
установить характеристики изображения раковых клеток, таких как
периметр, площадь, глубина, округлость характеристик вблизи особенностей
изображения, компьютер может быть идентифицированы, следовательно, в
этой главе желудочных клеток аденокарциномы в выделения признаков
изображения, чтобы сделать конкретное описание.
Обзор изображения
особенность изображения, характеризующее основные атрибуты или
характеристики, характеристики изображения могут быть либо
естественного, который человеческой визуальной особенность, может быть
идентифицирована, его можно определить с помощью определенных
характеристик человека. Анализ изображений является основой
распознавания элементов изображений, только приобретает черты
изображения на основании описанного, чтобы иметь возможность анализа
изображений и идентификации.
В принципе, есть два способа представлять регион: Во-первых, вы
можете использовать характеристики области для его представления
(например, границ ячеек, размер, округлость), вторая характеризуется своей
текстурой, чтобы представлять регион (например, распределение неровности
серого, в основном отражающие характеристики распределения хроматина)
Функция представления изображения и способ описания
выражение цепного кода изображения[15]
Есть много методов представлении граничного клеточного
изображения, в которых код представляет собой способ кодирования цепи для
представления граничной точки, которая характеризуется использованием
24
ряда соединенных отрезков конкретной длины и ориентацией отображения
границ мишени.
Цепной код является представление граничной точки кодирования,
которая характеризуется использованием серии соединенных отрезков
конкретной длины и ориентации, чтобы представлять границы мишени.
Поскольку длина каждого сегмента в фиксированном направлении
принимается ограниченной, поэтому только для представления начальной
точки границы необходимо использовать абсолютные координаты, остальные
точки могут продолжать представлять только направление смещения.
Так как длина каждого сегмента соединения фиксирована, и число
направлений также ограниченное, так что только начальную точку границы
необходимо использовать для представления координаты, остальные точки
могут быть представлены только смещением направления изменения.
Цифровые изображения, как правило, коллекция на равном расстоянии сетки
путем приобретения, Таким образом, самый простой код граница цепи
присваивается каждому двух смежных пикселей контура в одном
направлении проводного значения. Так как число битов указывает
направление небольшого числа и точку для каждого номера только одно
направление может быть заменено двумя значениями координат, код цепи
может значительно уменьшить объем данных, требуемых для представления
границы, и он представляет собой значение
требуемой
координаты.
1
2
223234
3
3
2
1
4
5
0
6
7
Рис. 9. 4-направлениях кодирование цепи и 8-направлениях кодирование цепи
25
Для точки изображения, окрестность имеет восемь направлений,
против часовой стрелки для каждого направления обозначим восемь
направлений соответственно 0, l, 2, 3, 4, 5, 6 7, этот код называется
коднаправления.
S
5
3
5
6
3
3
2
2
1
5
7
0
7
Рис. 10. Пример 8-направленного кодирования цепи
Предположим, что из исходной точки области графика на границе
обозначенной выше кодирующие последовательности могут быть записаны
следующим образом: a1 a2 a3 ⋯ an
их з нач е ния 0,1,2,3,4,5,6,7,
Последовательность направления кода называется кодом цепи. Из
приведенной выше диаграммы мы видим, что четный сегмент кода цепи
будет вертикальным или горизонтальным участком кода; нечетные сегменты
кода цепи соответствуют наклонному направлению кода.
нормализация цепного кода
Учитывая цепной код от любой возникающей точки, это можно было
бы рассматривать как натуральное число, составленное по количеству
направлений. Эти направления в соответствии с количеством циклов в одном
направлении (число этих направлений по циркуляциям направления) создают
минимальное значение. Таким образом, преобразование соответствует
исходной точке кода цепи в качестве отправной точки этой границы
нормализованного цепного кода
1
0
26
1
Исходном код цепи нормализации
0
10103322
1
1
3
01033221
1
2
2
3
2
2
Рис. 11. Цепь кодирования трамплина точки нормализации
С кодом цепи представление границы данной области, если будет
перевод области, изменение кода цепи не происходит, если область
вращается, код цепи изменяется. Для того, чтобы решить эту проблему, вы
можете воспользоваться дифференциальным кодом цепи первого порядка,
чтобы восстановить последовательность. Это соответствует нормализация
вращающегося кода цепи. Эту разницу можно использовать вычитание два
числа (против часовой стрелки) направления соседний.
1
3
Новый код 211 0033
3
2
Исходный код 10103322
1
3
2
2
3
2
Рис. 12. Револьверная нормализация кодирования цепи
Описание характеристики изображения
Поскольку для достижения точного описания при идентификации
раковых клеток часто приходится полагаться на размер ядра, так что важны
геометрические характеристики описания изображения.
Геометрические особенности изображений[16] в анализе изображений
играют важную роль во многих прикладных системах обработки
изображений, часто используются некоторые из заданных характеристик
27
области, такие как размер, расположение и ориентация, для определения
местоположения объектов и их идентификации. Потому что только забота о
геометрии изображения, для того, чтобы облегчить выделение признаков,
перед извлечением набора функций изображения, необходимо обработать
двоичное изображение, а именно в обработке черно-белых изображений
только 0 и 1 выполняются оба значения. Кроме того, поскольку бинарное
изображение легко приобрести, доступна и обработка, может быть
обнаружена контурная информация об объекте, и поэтому этот метод
подходит для извлечения из изображений геометрических особенностей, в
этом разделе, если не указано иное, обсуждается бинарное изображение.
Рис. 12. Маркировка целевой области.
Ниже несколько основных аспектов рака от положения и ориентации,
периметра, площади и расстояния вводит геометрические характеристики
изображения.
1. При анализе изображения положение и ориентация, как правило,
рассматривается не только случай пиксела в изображении, но и случай
геометрии области изображения, поэтому, как геометрические
характеристики области изображения, область часто используется
центральной точки в качестве представляющей области центральной
28
точки. Так как бинарного изображения, и следовательно, то же
региональное центральное положение как и центр масс объекта.
Кроме того, мы должны не только знать расположение объектов в
изображении, но и знать направление объекта в изображении.
Определение направление объекта, чем вычисление положения объекта
сложнее, некоторая форма направления не является уникальным. Для того
чтобы определить единственное направление, то, как правило, берется
продолговатый предмет, который длиннее в направлении оси и
определяется как направление объекта.
2. Периметр области, который является длиной граничной области, область
добавляется внутренней граничной точки и точек. Для области R, его
каждая граничная точка Р должна удовлетворять двум условиям, а
именно: Р сама принадлежит области R, несколько пикселей окрестности
P не принадлежит к области Р.
Граница B области R состоит из всех граничной точки R с помощью
джойстика или восьми направлениях перехода, другие точки в области
называются внутренними точками области. если внутренняя точка области R
определяет восьми двустороннюю связь, результирующее краевое с четырьмя
направлениями связи. Если внутренняя точка область R находится в связи с
четырьмя, чтобы определить направление, направление результирующей
граничном восемь связи.
Для указанной выше граничной область точки и внутренней точки,
надо использовать различные соединения, чтобы определить, не было бы
несоответствие
Представление периметра обычно используется, являются следующие:
1) Когда пиксели изображения на единицу площади считается
небольшой ящик, область изображения и фона формируется с
помощью маленьких квадратиков. Периметром области является
длина области зазора и фона.
2) рассмотрение пикселей в качестве точки, то периметр с кодом цепи,
29
найти периметр, как рассчитанную длину кода цепи. В это время, в
точке центра к верном, нежном левом и правом четыре очка на
расстояние 1, а расстояние скоса √ 2
(1,414), поэтому с
использованием последовательности кодовой цепи границы можно
рассчитать периметр клеток. Это периметр Р выражается как
P=N e + √ 2 N o
Зде сь N e , N o число код цепи направления с четным и нечетным
номером.
3. Различные методы расчета периметра, периметр будет приводить к
различным результатам.
Площадь является мерой размера объекта. Приграничная территория
объекта связана с имеющимся расчетным методом площади пикселя.
Самый простой метод для вычисления количества статистической
Площадь в пределах граничных пикселей. В этом методе расчета площади
очень прост, просто найти сумму пикселей в граничной область, это может
быть рассчитана как
N
M
S=∑ ∑ f ( x , y )
x=1 y =1
Здесь в бинарном изображении f ( x , y )
значение 1 указывает объект,
значение 0 указывает фон, тогда площадь равна сумме числа f ( x , y )=1 .
4. Расстояние во многих областях применения, необходимо рассчитать
расстояние между двумя пикселями в изображении. В определении
расстояния, евклидово расстояние известно, но в преобразовании
расстояния, принимая простоту расчета и значение расстояния
представляет собой целое число, и т.д., часто с помощью соседей с поля и
восемь соседей расстояния, пусть Р координаты точки (т, п), Q
представляет координаты (K, L), рассчитывается как удельная
1) Евклидово расстояние (расстояние является нормой. 2),
определяемое как
30
d ( P ,Q )= √ ( m−k ) + ( n−l )
2
2
2) 4-район расстояние, определяемое как
d 4 ( P ,Q ) =|m−l|+|n−l|
3) 8-район расстояние, определяемое как
d 8 ( P ,Q )=max {|m−k|,|n−l|}
Очевидно, что в качестве отправной точки Р на расстояние меньше или
равно соседей домена т (т = 1,2, ...) точки Р формируется в центре ромба.
Когда T ≤ 2 балла из представления. Видна d 4 ( P ,Q )
от Р до Q есть длина
кратчайшего пути из четырех. Точно так же, в качестве отправной точки Р на
восьми окрестности расстояние меньше или равно T (T = 1,2, ...) из точки Р
формируется в центре квадрата. Например, когда T ≤ 2, с расстоянием между
точкой показывая эти точки, как показано на рисунке. Как можно видеть,
длина d 8 ( P ,Q ) от Р до Q кратчайшему пути из восемь
¿
2 ¿ ¿ ¿ 2 ¿ 1¿ 0 ¿ 1 ¿ 2 ¿2 ¿ 1 ¿2 ¿ ¿ 2 ¿ ¿¿
2 1
2
2
2
2
2
2
1
1
1
2
2
1
0
1
2
2
1
1
1
2
2
2
2
2
2
Рис. 13. d 4 ( P ,Q ) ≤ 2
Рис. 14. d 8 ( P ,Q ) ≤ 2
Описание особенности формы раковых клеток
По медицинских предварительных знаний экспертов патологоанатома
обнаружили, что после канцерогенеза клеток будет существенным
изменениям в форме, поэтому для того, чтобы добиться признания раковых
клеток необходимо использовать компьютер для извлечения признаков
формы изображения
1. Прямоугольность
31
Прямоугольность отражает полный уровень объекта ограниченного
прямоугольника, прямоугольная фитинга фактором является параметр,
отражающий степень объекта прямоугольника
R=
S0
S MER
Зд е с ь п л о щ а д ь о бъ е к т а S0 , Его площадь ограниченного
прямоугольника S MER .
отражает полный уровень вписанного в объект прямоугольника.
R
Для прямоугольных объектов R
получается максимальное значение 0,1,
для кругового объекта R значение будет
объектов значение R
π / 4 , для тонких или изогнутых
становится меньше. Прямоугольная фитинга фактор
имеет значение в диапазоне от 0 до 10.
Другим связанным с особенностью форма является соотношениям
сторон
r=
W MER
L MER
Это отношение ширины и длины вписанного прямоугольника. Эта
функция может отделить более тонкие объекты и квадратный или круглый
объект.
2. округлость
Отношение площади ядра к площади окружности, соответствующей
самому длинному диаметру ядра, известено как ядро компактности, показано
C=
4 πS 4 π ∙ площадь
=
2
L2
( периметр )
При тех же условиях области, граница ячейки области является гладкой
и круглой, то будет самая короткая длина окружности, округлость C = 1; чем
больше форма площади ячейки отходит от круговой, тем меньшие значения
С. Это квадрат окружности соотношения площадей. Для особенности
круглой формы минимальное значение 4л. Чем более вытянутая форма
объекта, тем больше ее значение.
32
3. Эксцентриситет
Эксцентриситет также можно назвать относительным удлинением, что
описывается компактность области. Сначала определить координаты центра
ядер и клеток: то же самое может быть получено путем вычисления
расстояния
X́=
M 10
M
Ý = 01
M 00
M 00
Эксцентриситет: расстояние от центра клетки и центра ядра клетки,
деленному на радиус ячейки. Чем меньше значение, тем меньше
эксцентриситет. Когда значение 0, ядро клетки и также концентрическими.
Региональные и ось ячейки длина малой оси отношение длины также может
быть использован, также использовано отношение длинышпинделя площади
клеток и длины шпинделя
A
B
Рис. 15. Эксцентриситет измерения A / B
Главные и второстепенные оси взаимно перпендикулярны, и что длина
является максимальной двух направлений. Но будет относительно велико
влияние от шума и вычисленного формы объекта.
число формы
число формы представляет собой способ описания формы границы,
основанное на коде цепи, оно зависит от начальной точки кода цепи, с
выражением граничного кода цепи может иметь множество дифференциала
33
первого порядка. Число формы является рядом минимального значения
дифференциальной границы. Другими словами, число форма является
минимальным значением (цепи код) дифференциального кода.
Число формы обеспечивает метод измерение формы. На границе двух
регионов, с помощью сходство между ними может воспользоваться их число,
чтобы описать формы. От мала до велика постепенно вычислить число
формы каждого ранг две формы границы и сравнить друг с другом, до тех
пор найдено похожее число формы максимального порядка, что сходство
границы между двумя регионами с наибольшим числом из них, чтобы
измерить форму общественности. Таким образом, чтобы получить измерение
расстояния между двумя формами, и она обратно пропорциональна сходству
между двумя формами. Обратите внимание, что расстояние не общий смысл
этого, но супер расстояние.
Экспериментальные данные рака
Вышеуказанные характеристики раковых клеток могут быть получены
для создания информационной базы данных рака. В сравнении с базами
данных рака данные клеточного изображения могут быть диагностированы,
получаем подозрительность для данного клеток быть раковым клеткам.
площ пери округл прямоугол Eccentr
адь
метр ость
ьность
icity
6668 827.1 0.1224
0.484875 0.9445
097
84
84
434 108.1 0.4659
0.560724 0.9455
838
89
26
77 48.14 0.4174
0.427778 0.9165
214
94
69
71 40.38 0.5470
0.464052 0.9547
478
57
55
6309 1568. 0.0322
0.215965 0.9345
83
12
242 85.35 0.4174
0.606516 0.7485
534
11
83
102 51.55 0.4822
0.53125 0.8944
635
21
4
79 35.55 0.7852
0.675214 0.8213
635
4
16
67 41.79 0.4818
0.429487 0.9258
899
96
2
34
510
51
163
241
50
83
88
124
73
173
107
1743
117
55
157
230
82
101
251
159
67
76
199
277
50
104
158.2
67
26.72
792
68.18
377
64.28
427
29.89
949
43.45
584
37.79
899
48.62
742
38.38
478
82.08
326
50.87
006
220.0
66
52.62
742
31.55
635
82.42
641
77.01
219
46.62
742
53.69
848
83.11
27
56.87
006
36.97
056
58.28
427
111.6
396
94.08
326
25.31
371
70.42
0.2558
58
0.8971
18
0.4405
91
0.7328
54
0.7028
33
0.5523
21
0.7739
84
0.6589
75
0.6226
08
0.3226
61
0.5196
0.428571
0.4522
74
0.5308
5
0.6940
63
0.2903
87
0.4873
25
0.4739
59
0.4401
57
0.4566
14
0.6177
88
0.6159
88
0.2811
39
0.2006
44
0.3932
47
0.9805
47
0.2634
0.620726
0.62963
0.411616
0.616368
0.641026
0.532051
0.564103
0.561086
0.579365
0.303509
0.636905
0.531818
0.572917
0.402564
0.501089
0.488095
0.590643
0.550439
0.602273
0.553719
0.262976
0.197421
0.360677
0.714286
0.330159
0.4853
72
0.6995
76
0.8071
44
0.8726
75
0.9392
58
0.6230
09
0.6484
91
0.8010
09
0.8459
84
0.9733
58
0.9362
07
0.9269
67
0.9172
62
0.8802
5
0.9572
54
0.8558
42
0.8320
7
0.9326
68
0.7006
51
0.9128
03
0.7777
06
0.8526
45
0.9912
43
0.9282
11
0.7051
05
0.9081
35
113
78
125
90
62
159
453
1497
7419
1982
75
216
84
155
65
57
131
66
393
344
74
69
52
1060
89
641
47.79
899
47.45
584
60.18
377
46.04
163
36.97
056
70.76
955
183.9
239
267.7
645
752.5
24
191.9
239
45.21
32
89.01
219
42.62
742
92.91
169
46.97
056
25.89
949
58.28
427
30.97
056
186.4
092
173.5
807
38.97
056
29.31
371
26.14
214
401.3
036
62.52
691
95
0.6215
14
0.4352
36
0.4336
72
0.5335
2
0.5700
19
0.3989
46
0.1682
8
0.2623
77
0.1646
32
0.6761
69
0.4610
42
0.3425
82
0.5809
13
0.2256
32
0.3702
3
1.0678
3
0.4845
94
0.8646
8
0.1421
24
0.1434
71
0.6123
06
1.0090
61
0.9561
61
0.0827
12
0.2860
66
0.570707
0.464286
0.438596
0.428571
0.433566
0.519608
0.431429
0.317699
0.317798
0.664655
0.524476
0.397059
0.4375
0.249597
0.65
0.791667
0.655
0.611111
0.23227
0.199768
0.544118
0.784091
0.65
0.438198
0.327206
69
0.8549
98
0.8054
99
0.8180
35
0.9112
05
0.9308
65
0.6334
94
0.7656
45
0.9072
04
0.9051
03
0.8093
65
0.5900
24
0.9468
16
0.9519
98
0.9611
94
0.9829
9
0.4999
65
0.9574
1
0.8623
72
0.9428
47
0.9403
49
0.9119
26
0.7154
22
0.7582
39
0.8358
1
0.9067
23
36
52
184
63
82
296
201
55
239
53
62
240
61
127
364
105
173
68
29.55
635
83.35
534
30.72
792
48.28
427
138.4
68
71.69
848
40.14
214
114.5
685
36.97
056
32.97
056
89.25
483
37.31
371
51.69
848
146.1
249
48.04
163
105.2
548
29.55
635
0.7480
17
0.3327
83
0.8384
63
0.4419
9
0.194
0.541667
0.4913
44
0.4289
15
0.2288
11
0.4872
74
0.7167
19
0.3785
8
0.5505
58
0.5971
15
0.2142
21
0.5716
94
0.1962
33
0.9781
76
0.67
0.32
0.65625
0.465909
0.434018
0.407407
0.341429
0.438017
0.529915
0.417391
0.469231
0.498039
0.495238
0.648148
0.376906
0.686869
0.9235
46
0.8359
37
0.7913
16
0.8468
63
0.8181
71
0.9474
1
0.9385
93
0.9388
62
0.8233
21
0.8630
12
0.8923
01
0.8179
04
0.8474
72
0.7716
12
0.9058
55
0.5751
62
0.6812
32
Таб.1. Экспериментальные данные
Из таб.1, мы можем видеть, что поскольку разные ячейках округлость
отличается из-за разной площади клеток. Округлость клетки большая,
территория большая, небольшая округлость, площадь мала. Округлость
отражает область клеток с возможной неточностью.
Идентификация рака с помощью AdaBoost
В предыдущей работе извлечены признаки клетки, в дальнейшем будет
описана классифиция клеток в соответствии с признаками клеток.
В данной работе на основе сильного классификатора выполняется
классификация изображения и идентификация рака. Сначала с помощью
37
алгоритма adaboost оптимизируются отдельные нейронные сети BP
(backpropagation), получается несколько слабых классификаторов, наконец с
п ом о щ ь ю м е тод а гол о с о ва н и я с л и ва ют с я н е с кол ь ко с и л ь н ы х
классификаторов в интегрированную нейронную сеть. Наконец с помощью
MATLAB строится система извлечения признаков и распознавания рака.
Распознавание изображения рака
Распознавание изображения рака (pattern recognition), объекты на
различных раковых клеток классифицируются в соответствии с
определенными характеристиками, то исследовано новые и неизвестные
объекты рака определяют их соответствующие категории
идентификация рака, Основана на сильном классификаторе
алгоритма AdaBoost
Из-за недостатка возможностей обобщения алгоритма индивидуальной
нейронной сети, в данной работе используя алгоритм AdaBoost
оптимизировать BP[17], для улучшения их возможности обобщения, и
вводится новый алгоритм стратегии распределения веса дерева, получаются
три сильных классификатор нейронной сети для идентификации раковых
клеток.
AdaBoost представляет собой итеративный алгоритм, основная идея
одинакова: для обучающего набора обучить различные классификаторы (то
есть слабых классификаторов), а затем установить эти слабые
классификаторы, чтобы построить более сильный классификатор. Алгоритм
является путем изменения распределения данных для достижения верной
классификации каждой обучающей выборки в каждом образце, а также
точности предыдущей общей классификации, чтобы определить вес каждого
образца. Отправить модифицированный новый набор данных весов в нижней
подготовки классификаторов, и, наконец, объединить каждый обучающий
классификатор вместе, в качестве окончательного решения классификатора.
Используя AdaBoost классификатор может исключить некоторые ненужные
функции обучающих данных, а также обучение по ключевым данным.
38
В классическом алгоритме AdaBoost, используется одинаковый вес в
процессе инициализации образца, такой вес, устанавливающий на
одинаковое количество образцов библиотеки образца является очень
эффективным, но для разного количества образцов библиотеки образца,
результаты в следующих случаях: так как некоторого типа количество
образца относительно мало, поэтому слабый классификатор трудно такие
образцы, но этот слабый классификатор может эффективно отличать образцы
с больше количеством образцов, слабый классификатор получает большой
вес, не может сделать небольшое количество образец получать достаточно
внимания. В данной работе вводится новую политику распределения веса, в
соответствии с отношением количества образцов различных типов.
Улучшенный алгоритм AdaBoost
Инициализируем
о б р а з ц ы ( x1 , y 1) ,⋯ , ( xm , y m ) ,
m
где
x i ∈ X , yi ∈Y = {−1 ,+1 } ,
1
в классическом алгоритме вес каждого образца D t ( i )= m ,i=1 , … , m .
В данной работе инициализируем
в соответствии с отношением
количества образцов различных типов. Пусть данные образцы должны быть
классифицированы на n
кластеров , если количество каждого образца
{a1 ,a2 , … , a j ,… ,an } , то вес каждого образца
n
w a =∑ a j−a j j=1,2, … , n
j
(27)
j=1
D t ( i )=
wi
m
i=1,2 ,… ,m
(28)
∑ wi
i=1
Шаг 2 Тест слабого классификатора, для каждого t =1 , … ,T :
В соответствии с правилами обучения нейронной сети, обучать
образцы, получить сумму ошибки выхода предсказания:
m
e t =∑ D t ( i ) [ y ≠ g ( t ) ] i=1,2 , … , m
(29)
i=1
Здесь g ( t ) выход слабого классификатора; ожидаемый выход y .
Шаг 3 вычисление веса слабого классификатора. Форма слабого
39
классификатора:
( )
1−et
1
at = ln
et ≠ 0
2
et
(30)
Шаг 4 Следующая итерация веса тестовых данных
D t +1 =
Dt ( i )
∗exp [−at y i gt ( x i ) ] i=1,2, … , m
Bt
(31)
Здесь для того чтобы сумма распределения весов равно 1, должно
установить фактор нормализации Bt .
Шаг 5 прогноз сильного классификатора
Через т раз итеративного обучения, получаем т кластеров слабый
классификатор нейронной сети f ( gt , at ) , сильный классификатор h ( x )
получен из т кластеров слабого классификатора
[∑
T
h ( x ) =sign
t =1
at∗f ( gt , at )
]
(32)
Обучение по методу обратного распространения ошибки (BP - Back
Propagation)
Алгоритм обратного распространения ошибки является одним из
методов обучения многослойных нейронных сетей прямого распространения,
называемых также многослойными персептронами. Метод использует
ошибку на выходе сети для расчета частных производных по весам
последнего слоя обучаемых связей, затем по весам последнего слоя и ошибке
сети определяется ошибка на выходе предпоследнего слоя и процесс
повторяется.
Процесс построения алгоритма включает в себя создание нейронной
сети, обучение нейронной сети и прогнозирование нейронной сети. Наиболее
важным является процесс обучения нейронной сети, с обучением постепенно
настраиваются весы нейронной сети и пороги, до того как получаем
идеальный результат.
Шаг 1 инициализируем алгоритм обратного распространения ошибки.
В соответствии входному сигналу и выходному сигналу, определяется число
40
узлов входных слоя и выходного слоя нейронной сети. Инициализируется три
веса соединения между нейронами ωij , ω jk , Порог скрытого слоя a , порог
выходного слоя b . Определить число узлов скрытого слоя, функцию
обучения нейронной сети и функцию возбуждения.
Шаг 2 вычисление выхода скрытого слоя нейронной сети.
(∑
)
n
H j=f
Здесь
l
i=1
(33)
ωij −ai j=1,2 , … ,l
-число узлов скрытого слоя, f
- функция возбуждения
скрытого слоя.
f=
1
1+e −x
(34)
Шаг 3 вычисление выходного слоя нейронной сети.
t
O k =∑ H j ω jk −bk k=1,2 , … , m
(35)
j=1
Шаг 4 вычисление ошибки нейронной сети
(36)
e k =Y k −O k k=1,2 , … , m
Шаг 5 обновление веса
m
ωij =ωij +η H j ( 1−H j ) ∑ ω jk ek i=1,2 , … , n j=1,2 , … ,l
(37)
k=1
(38)
ω jk =ω jk −η H j e k j=1,2 , … ,l
Здесь η
- коэффициент «скорости обучения», позволяет управлять
средней величиной изменения весов;
Шаг 6 обновление порога. Обновление порога a, b узлов
m
a j=a j +η H j ( 1− H j ) ∑ w jk e k j=1,2, … , l
(39)
k =1
b k=bk +e k k=1,2 , … ,m
(40)
Шаг 7 завершение итерационного процесса, если не достигнуто
ожидаемого выхода в пределах параметра, то возвращаемся в шаг 2.
Проблем выбрать количество скрытого слоя, доказано, что нейронная
сеть включает только один скрытый слой и выполняет задачу подхода для
всех функции, поэтому в данной работе используется нейронная сеть одного
41
скрытого слоя, на входе матрица данных на 124*9, на выходе матрица данных
на 124*1, переходная функция узлов является касательном S типа, функция
обучения является traingd по градиентным спуском, функция обучения
нейронной сети является learngdm. Для количества нейронов формула
выглядит как
s<√ ( p +t ) + x
В данной работе входное количество узлов равно 9, выходное
количество узлов равно 1, номер опыта x на [ 0,10 ] , количество нейронов s
на [ 3,13 ] . Через несколько тестов и сравнений, наконец определять лучшее
количество скрытого слоя на 6. Максимальное число итерации на 20, ошибка
функции обучения на 0,0001.
Используя алгоритм AdaBoost, улучшаем алгоритм обратного
распространения ошибки, определяем число итерации на 10, чтобы
выполнялся прогноз итеративного обучения на образцах библиотеки рака
изображений, после завершения итерационного процесса, получаем 10
слабых классификаторов алгоритма обратного распространения ошибки,
через взвешенное суммирование получаем сильный классификатор
BP_Adaboost.
42
Глава 3 основные средства
Предложенные методики были реализованы с помощью MATLAB
2013a, на наборе данных в цифровую форму с 5-кратным увеличением на ПК
с 3,4 ГГц процессором IntelCorei7, 8 Гб оперативной памяти, а также на
операционной системе Windows 10.
Д л я ц е л е й т е с т и р о в а н и я и э кс п е р и м е н т о в , в ы б и р а е м 5 0
гистологических изображений рака и 50 гистологических изображений без
рака из набора данных изображений гистологии. Распределения изображения
на основе структур основных тканей в гистологии набор данных включает
микроскопические изображения биопсии с увеличениях 2.5x, 5x.
Предложенная методика для обнаружения и диагностики обнаружения
рака от микроскопических изображений биопсии состоит из этапов
повышения качества изображения, сегментации, выделения признаков и
классификации.
Для того, чтобы лучше сохранить нужную информацию в
микроскопических биопсии изображений в процессе сегментации, были
рассмотрены различные подходы кластеризации и текстуры, основанные на
сегментации. Для получения микроскопических изображений биопсии
требуется, чтобы обнаружить как можно больше информации о клетке, из
результатов и анализа [18] представленных в разделе 2, k-средних алгоритм
сегментации был использован для сегментирования биопсии изображения
микроскопических, так как он работает лучше по сравнению с другими
методами. В процессе сегментации метода кластеризации k-средних,
количество кластеров было установлено. Для поиска центры кластеров
используются квадрат евклидова расстояния в качестве меры подобия. На
практике, выбираем комплексный алгоритм k-средних и алгоритм
сегментации по водоразделам (WaterShed), то есть если с использованием
алгоритм k-средних, получено изображение хорошее, тогда не требуется
использоваться алгоритма сегментации по водоразделам (WaterShed).
43
Выбранные особенности микроскопические изображения биопсии
включают площадь, периметр, округлости, прямоугольность, эксцентриситет,
ширину, высоту и большую полуось. Ряд результата: злокачественный - 1,
нормальная клетка - 0. Рак желудка и незлокачественные данные желудка
клеток случайным образом разделены на две группы, эти случайные выборки
используются в рамках тренировочного набора, а остальное в виде набора
тестового образца.
При создании модели, с помощью нейронной сети входной слой BP
содержит 9 узлов, соответствующие шести клеткам записи индекса
морфологии, выходного слоя в качестве узла, доброкачественным и
злокачественным клетки, соответствующим результатам дискриминации.
Перед тренировкой, сеть инициализируется коэффициентом рандомизации,
начиная от подключения весов и порогов в [-1,1], скорость обучения
устанавливается в η=0,1 , Итерационный обучение нейронной сети
выполняется, сеть сходится, суммарная погрешность выходной мощности
составляет менее 0,0001.
Рис.16. обучение, аттестации и тестирования производительности.
44
Вывод
Использован тест проверки данных для обучения нейронной сети,
Таблица 2 содержит результаты работы слабых классификаторов (BP 1-10) и
сильного классификатора (AdBP) испытанного на тестовом наборе. Мы
можем видеть из таблицы 2, BP_Adaboost алгоритм выполняется с
повышением точности для одной нейронной сети
BP1
BP2
BP3
BP4
BP5
BP6
BP7
BP8
BP9
BP10 AdBP
89.2% 89.2% 91.9% 89.2% 89.2% 94.6% 91.9% 89.2% 91.9% 89.2% 90.5
%
Таб. 2
предположение
в связи с особенностями, рассматриваемых без дальнейшего анализа
эффективности, точность классификации была бы снижена, но результаты
должны соответствовать требованиям классификации.
45
Заключение
С быстрым развитием компьютерных технологий, технологии
обработки изображений можно применять для компьютерной сегментации
аденокарциномы микроскопических клеток и распознавания изображений,
этого необходимо для того, чтобы облегчить медицинскую трудоемкость и
повысить точность постановки диагноза, поэтому эти технологии имеют
большое значение для научной деятельности.
Основная положения данной исследовательской работы и инновации
данной работы:
1. в данной работе с помощью метод Оцу определяется оптимальный
порог, который обеспечивает подготовку анализа изображения к
алгоритму сегментации по водоразделам (WaterShed).
2. Для получения микроскопических изображений биопсии требуется
обнаружить как можно больше информации о клетке для того, чтобы
сделать надежное и точное обнаружение и диагностику, основанную на
клетках и параметре ядер. С помощью алгоритма k-means, получена
грубая сегментация изображений клетки.
3. Для проблемы перекрытия клеток и проблем с адгезией, мы используем
алгоритм водораздела на основе расстояния преобразования для
сегментации перекрывающихся разделения клеток и предлагается
алгоритм водораздела на основе улучшений маркера расстояния
сегментации, что позволяет избежать некоторой чрезмерной
сегментации алгоритма водораздела.
4. Для описания характеристики раковых клеток, после тщательного
анализа, в данной работе выбраны следующие характеристики площадь
ячейки, периметр, длина большой оси, длина малой оси, округлость,
правила формы, эти параметры информации заложили хорошую основу
для последующей изображения идентификации изображений клеток.
5. На основе извлеченных параметров информации о раковых клетках, с
46
п о м о щ ь ю BP_Adaboost классификации нейронной сети для
классификации аденокарциномы клетки получены хорошие результаты
распознавания.
По результатам данной работы, выполнены все поставленные цели и
задачи и проделана научно-исследовательская работа, по результатам работы,
были выявления не доработки, которые необходимо исследовать в будущем
с целью улучшения работы:
1. Из-за отсутствия времени, в исследовании разделения перекрывания
клеток, существуют некоторые недостатки в качестве чрезмерной
сегментации, которые влияют на общий эффект сегментации. Для
клеток сильной адгезии и перекрывшихся клеток выполняется
простое деления клеток, клетка не может изображать исходный
контур перекрытия участков. Поэтому, перекрывая деление клеток,
проблема деления клеток является одним из направлений для
будущих исследований.
2. Сложность в выявлении проблем, желудочные раковые клетки,
раковые клетки из-за этой неопределенности, делают конечную цель
отбора признаков и распознавания очень высокой. Как выбрать
более надежные характерные параметры – одно из направлений для
улучшения скорости распознавания клеток рака желудка, что может
быть рассмотрено в будущих исследованиях.
47
Список литературы
1. Chen W, Zheng R, Baade P D, et al. Cancer statistics in China, 2015[J]. CA: a
cancer journal for clinicians, 2016, 66(2): 115-132.
2. М е т о д ы д и а г н о с т и к и з л о к а ч е с т в е н н ы х о п у х о л е й .
http://www.cancer.ic.ck.ua/index_2_5.htm.
3. M. N. Gurcan et al., “Histopathological image analysis: A review,” IEEE Reviews
in Biomedical Engineering, vol. 2, pp. 147–171, 2009.
4. M. Kowal et al., “Computer-aided diagnosis of breast cancer based on fine needle
biopsy microscopic images,” Computers in Biology and Medicine, vol. 43, no. 10,
pp. 1563–1572, 2013.
5. P. Filipczuk et al., “Computer-aided breast cancer diagnosis based on the analysis
of cytological images of fine needle biopsies,” IEEE Transactions on Medical
Imaging, vol. 32, no. 12, pp. 2169–2178, 2013.
6. Y. M. George et al., “Remote computer-aided breast cancer detection and diagnosis
system based on cytological images,” IEEE Systems Journal, vol. 8, no. 3, pp.
949–964, 2014.
7. Y. Zhang et al., “Breast cancer diagnosis from biopsy images with highly reliable
random subspace classifier ensembles,” Machine Vision and Applications, vol. 24,
no. 7, pp. 1405–1420, 2013.
8. Cao J, Chen J, Li H. An adaboost-backpropagation neural network for automated
image sentiment classification[J]. The Scientific World Journal, 2014, 2014.
9. Otsu N. A threshold selection method from gray-level histograms[J]. Automatica,
1975, 11(285-296): 23-27.
10. Al-Bayati M, El-Zaart A. Mammogram Images Thresholding for Breast Cancer
Detection Using Different Thresholding Methods[J]. 2013.
11. Liao P S, Chen T S, Chung P C. A fast algorithm for multilevel thresholding[J]. J.
Inf. Sci. Eng., 2001, 17(5): 713-727.
12. Giannakeas N, Tsipouras M G, Tzallas A T, et al. A clustering based method for
collagen proportional area extraction in liver biopsy images[C]//Engineering in
48
Medicine and Biology Society (EMBC), 2015 37th Annual International
Conference of the IEEE. IEEE, 2015: 3097-3100.
13. Beucher S. The watershed transformation applied to image segmentation[J].
SCANNING MICROSCOPY-SUPPLEMENT-, 1992: 299-299.
14. Belaid L J, Mourou W. Image segmentation: a watershed transformation
algorithm[J]. Image Analysis and Stereology, 2009, 28: 93-103.
15. Freeman H. On the encoding of arbitrary geometric configurations[J]. Electronic
Computers, IRE Transactions on, 1961 (2): 260-268.
16. Thiran J P, Macq B. Morphological feature extraction for the classification of
digital images of cancerous tissues[J]. Biomedical Engineering, IEEE Transactions
on, 1996, 43(10): 1011-1020.
17. Li N, Cheng X, Zhang S, et al. Recognizing human actions by BP-AdaBoost
algorithm under a hierarchical recognition framework[C]//Acoustics, Speech and
Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013:
3407-3411.
18. Kumar R, Srivastava R, Srivastava S. Detection and Classification of Cancer from
Microscopic Biopsy Images Using Clinically Significant and Biologically
Interpretable Features[J]. Journal of Medical Engineering, 2015, 2015.
49
Приложение
clc; clear all;
I= imread('cencer.jpg');
I_rgb = rgb2gray(I);
figure, imshow(I,[]), title('original image');
R=I_rgb(:,:,1);
G=I_rgb(:,:,2);
B=I_rgb(:,:,3);
figure,subplot(221),imshow(R);
subplot(222),imshow(G);
subplot(223),imshow(B);
%% kmeans_1
filter=ones(5,5);
filter=filter/sum(filter(:));
denoised_r=conv2(I(:,:,1),filter,'same');
denoised_g=conv2(I(:,:,2),filter,'same');
denoised_b=conv2(I(:,:,3),filter,'same');
denoised_rgb=cat(3, denoised_r, denoised_g, denoised_b);
D_rgb=uint8(denoised_rgb);
figure();imshow(D_rgb);title('');
C =makecform('srgb2lab');
I_lab= applycform(D_rgb, C);
%K-mean
ab =double(I_lab(:,:,2:3));
nrows= size(ab,1);
ncols= size(ab,2);
ab =reshape(ab,nrows*ncols,2);
nColors= 3;
[cluster_idx,cluster_center]
=kmeans(ab,nColors,'distance','sqEuclidean','Replicates',3);
pixel_labels= reshape(cluster_idx,nrows,ncols);
imshow(pixel_labels,[]), title('image labeled by cluster index');
segmented_images= cell(1,3);
rgb_label= repmat(pixel_labels,[1 1 3]);
for k= 1:nColors
color = I;
color(rgb_label ~= k) = 0;
segmented_images{k} = color;
end
figure(),imshow(segmented_images{1}),title('1');
figure(),imshow(segmented_images{2}),title('2');
figure(),imshow(segmented_images{3}),title('3');
hy = fspecial('sobel');
hx = hy';
Iy = imfilter(double(I_se), hy, 'replicate');
Ix = imfilter(double(I_se), hx, 'replicate');
g = sqrt(Ix.^2 + Iy.^2);
l=watershed(g);
wr =l==0;
g2=imclose(imopen(g,ones(5,5)),ones(5,5));
l2=watershed(g2);
wr2=l2==0;f2=I_se;
f2(wr2)=255;
figure,imshow(I_se);
figure,imshow(g,[]);title('ÌݶÈͼÏó')
50
figure,imshow(l,[]);
figure,imshow(g2,[]);
figure,imshow(l2,[]);
figure,imshow(f2,[]);
I_rgb = rgb2gray(I_se);
bw_img = bwareaopen(f2,50);
[L,num]=bwlabel(bw_img);
img_reg=regionprops(L,'area','boundingbox','Perimeter','MajorAxisLength','Min
orAxisLength','Eccentricity');
A = [img_reg.Area];
P=[img_reg.Perimeter];
MajorAxisLength=[img_reg.MajorAxisLength];
MinorAxisLength=[img_reg.MinorAxisLength];
Eccentricity=[img_reg.Eccentricity];
metric_string=sprintf('%2.2f',A);
plot(MajorAxisLength,'*')
rects = cat(1,img_reg.BoundingBox); figure(1),imshow(bw_img);
%BoundingBox is the bounding box (x,y,width,height)
for i = 1:size(rects, 1)
rectangle('position', rects(i, :), 'EdgeColor', 'r');
end
[~, max_id] = max(A);
max_rect = rects(max_id, :);
figure(2),
imshow(bw_img);
rectangle('position', max_rect, 'EdgeColor', 'r');
clear
data=load('input_train.csv');
[mm,nn]=size(data);
D(1,:)=ones(1,nn)/nn;
k=rand(1,77);
[m,n]=sort(k);
input=data(:,1:9);
output=data(:,10);
input_train=input(n(1:52),:)';
output_train=output(n(1:52),:)';
input_test=input(n(53:77),:)';
output_test=output(n(53:77),:)';
K=10;
for i=1:K
[inputn,inputps]=mapminmax(input_train);
[outputn,outputps]=mapminmax(output_train);
error(i)=0;
net=newff(inputn,outputn,8);
net.trainParam.epochs=20;
net.trainParam.lr=0.1
net.trainParam.goal=0.0001;
51
net=train(net,inputn,outputn);
an1=sim(net,inputn);
test_simu1(i,:)=mapminmax('reverse',an1,outputps);
inputn_test =mapminmax('apply',input_test,inputps);
an=sim(net,inputn_test);
test_simu(i,:)=mapminmax('reverse',an,outputps);
kk1=find(test_simu1(i,:)>0);
kk2=find(test_simu1(i,:)<0);
aa(kk1)=1;
aa(kk2)=-1;
for j=1:nn
if aa(j)~=output_train(j);
error(i)=error(i)+D(i,j);
end
end
at(i)=0.5*log((1-error(i))/error(i));
for j=1:nn
D(i+1,j)=D(i,j)*exp(-at(i)*aa(j)*test_simu1(i,j));
end
Dsum=sum(D(i+1,:));
D(i+1,:)=D(i+1,:)/Dsum;
end
output=sign(at*test_simu);
kkk1=0;
kkk2=0;
for j=1:25
if output(j)==1
if output(j)~=output_test(j)
kkk1=kkk1+1;
end
end
if output(j)==-1
if output(j)~=output_test(j)
kkk2=kkk2+1;
end
end
end
kkk1
kkk2
disp();
disp([kkk1 kkk2 kkk1+kkk2]);
plot(output)
hold on
plot(output_test,'g')
52
%ͳ¼ÆÈõ·ÖÀëÆ÷Ч¹û
for i=1:K
error1(i)=0;
kk1=find(test_simu(i,:)>0);
kk2=find(test_simu(i,:)<0);
aa(kk1)=1;
aa(kk2)=-1;
for j=1:25
if aa(j)~=output_test(j);
error1(i)=error1(i)+1;
end
end
end
disp(‘error1’);
error1
disp()
(kkk1+kkk2)/77
disp()
(sum(error1)/(K*25))
53
Отзывы:
Авторизуйтесь, чтобы оставить отзыв