Санкт-Петербургский государственный университет
Филологический факультет
Кафедра математической лингвистики
Образовательная программа:
«Прикладная и экспериментальная лингвистика»
Профиль: «Компьютерная лингвистика и интеллектуальные технологии»
Использование деривационных преобразований
терминоэлементов для автоматического поиска терминов
(на материале медицинской терминологии)
Выпускная квалификационная работа
соискателя на степень магистра филологии
Шадричевой Валерии Федоровны
Научный руководитель
Азарова Ирина Владимировна
Санкт-Петербург
2016
Оглавление
Введение.................................................................................................................. 4
1. Основные понятия словообразования в общелитературном языке и
языках для специальных целей..........................................................................7
1.1. Деривационные процессы..........................................................................7
1.2. Понятия «мотивация» и «производность»...............................................8
1.3. Особенности формирования словообразовательного значения.............9
1.4. Классификация способов словообразования.........................................10
1.4.1. Образование существительных.........................................................16
1.4.2. Образование глаголов.........................................................................17
1.4.3. Образование прилагательных............................................................17
2. Терминологический компонент содержания текста..............................20
2.1. Понятие «термин» и его определения.....................................................20
2.2. Терминоэлемент и его соотношение с термином..................................27
2.3. Основные особенности образования терминов.....................................30
2.3.1. Способы терминообразования..........................................................31
2.3.2. Характерные черты медицинской терминологии............................36
2.4. Подходы к автоматическому выделению терминов...............................42
2.4.1. Классификация подходов к автоматическому извлечению
терминологии.................................................................................................. 42
2.4.2. Системы автоматического извлечения терминологии....................47
3. Использование деривационных преобразований терминоэлементов
для автоматического поиска терминов........................................................... 59
3.1. Предварительная подготовка: анализ текста, выделение аффиксов и
опорных основ....................................................................................................60
3.2. Программа по автоматическому извлечению терминов........................63
2
3.3. Анализ результатов эксперимента...........................................................67
Заключение........................................................................................................... 73
Список литературы................................................................................................76
Приложение 1.........................................................................................................76
Приложение 2.........................................................................................................82
3
Введение
Наша работа посвящена созданию программы по автоматическому
извлечению терминологии из медицинских текстов на основе деривационных
преобразований терминоэлементов.
Автоматическое извлечение терминологии – подзадача автоматического
извлечения информации – область, развивающаяся в данный момент очень
активно. Автоматическое извлечение информации, в общем, используется,
например, для заполнения баз данных структурированной информацией или
для усовершенствования информационного поиска. Автоматическое
извлечение терминологии служит для создания словарей, тезаурусов,
онтологий, помогает в разработке логико-понятийной системы конкретной
области знания и унификации терминологии, используется при создании
систем автоматического перевода, при создании баз знаний.
Активное развитие автоматического извлечения терминологии началось
в конце 80х – начале 90х гг. XX века. В тот период стали появляться первые
большие текстовые автоматически анализируемые корпусы и первые системы
автоматического извлечения терминологии. В дальнейшем стало появляться
множество систем извлечения терминологии, основанных на статистических
и лингвистических данных, каждая из которых имеет ряд особенностей.
Примеры таких систем будут приведены во 2 главе.
В нашей работе мы будем проводить эксперимент по извлечению только
однословных терминов. Кроме того, мы будем рассматривать узко
специальную область офтальмологии, что на данном этапе избавит нас от
трудностей, связанных с определением предметной области текста.
Отличительной особенностью медицинской терминологии является то,
что макросистема медицинской терминологии включает в себя множество
микросистем, таких как эндокринологическая, дерматологическая,
4
анатомическая и др. Эти системы тесно связаны между собой, часто можно
наблюдать пересечение этих систем. В то же время медицинская
терминология пересекается с терминологическими системами таких наук, как
биология и химия, что усложняет задачу автоматического определения
предметной области и тематики текстов: медицинский текст может быть
ошибочно отнесен к биологичкой или химической тематике.
Следует так же отметить, что наш алгоритм строится на предположении,
что в текстах можно выделить целые деривационные ряды терминов, на
основе которых и строится работа нашей программы.
Целью работы является разработка программы автоматического
извлечения терминологии из медицинских текстов на основе деривационных
преобразований терминоэлементов. Исходя из данной цели, а также учитывая
указанные выше проблемы, формулируются следующие задачи:
1) анализ основных понятий словообразования;
2) анализ понятия «термин», его определений, составление списка
основных характеристик термина, особенностей терминообразования;
3) описание особенностей медицинской терминологии;
4) описание подходов к автоматическому извлечению терминологии;
Предполагается также решение следующих практических задач:
1) создание корпуса медицинских текстов по офтальмологической
тематике;
2) морфологический анализ корпуса с помощью морфологического
анализатора;
3) проверка слов корпуса на предмет отсутствия анализа;
5
4) составление списка опорных основ и основных деривационных
моделей, характерных для текстов по данной тематике;
5) создание программы по автоматическому извлечению терминологии на
основе списков аффиксов и опорных основ и деривационных
преобразований терминоэлементов.
Материалом для исследования корпус медицинских текстов по
офтальмологии. Корпус был автоматически размечен морфологическим
анализатором, после чего был разработан сам алгоритм выделения
терминологии и реализована программа извлечения терминологии.
Актуальность данной работы обусловлена необходимостью создания
процедуры автоматического извлечения терминологии из медицинских
текстов на русском языке. Такая процедура даст возможность
полуавтоматического составления словарей медицинских терминов,
заполнения баз данных, улучшит качество поиска по текстам с медицинской
тематикой, что, в свою очередь, позволит создать приложения для
автоматического заполнения и ведения медицинских документов.
6
1. Основные понятия словообразования в общелитературном языке и
языках для специальных целей
1.1.Деривационные процессы
Русский язык относится к числу языков с развитой системой
образования новых слов посредством деривационных процессов, т.е.
образования новых слов от имеющихся с помощью определенных операций,
при которых происходят содержательные и формальные изменения
производных или мотивированных слов. Процессы образования новых
слов (деривационные процессы), с п е ц и а л ь н ы е с р е д с т в а д л я и х
образования (деривационные форманты), а т а к ж е р е зул ьт и ру ю щ и е
слова (дериваты) описываются с помощью деривационных моделей, которые
являются обобщенной схемой построения слов, принадлежащих к
определенной части речи, от слов некоторой части речи с использованием
определенного форманта. Например, модель V + s N показывает, что с
помощью суффикс а -тель- о т г л а г о л а изобретать получается
существительное изобретатель. Помимо формального соотношения основ и
аффиксов деривационная модель предполагает более или менее
определенный тип результирующего значения деривата: «тот, что действует
так, как указано в мотивирующей основе», «человек, который изобретает».
Е.С. Кубрякова говорит о том, что деривация – это «процесс образования
или результат образования в языке любого вторичного знака», и
рассматривает словообразование как «определенный тип деривации со
следующими специфическими чертами: это такой процесс образования
вторичных знаков, при котором вторичный знак создается непосредственно в
целях номинации и при котором он ограничен пределами слова». [Кубрякова
1974: 64]
В производном слове может как полностью повторяться производящее
слово (как, например, при транспозиции бе́ гом – бего́ м), в нем может
7
присутствовать часть мотивирующего слова (например, образование
существительного заколка от глагола заколоть), а иногда, в производном
слове появляются только первые буквы нескольких слов, из которого оно
образовано (как при аббревиации: США от Соединенные Штаты Америки).
1.2.Понятия «мотивация» и «производность»
Стоит обратить особое внимание на термины мотивация и производность. На
первый взгляд, эти термины можно употреблять как синонимичные, как,
например, в работах Е.А. З е м с ко й . [Земская 1973, Земская 2011]
И.С. Улуханов наоборот придерживается мнения, что следует разграничивать
эти два термина (и однокоренные) для того, чтобы различать процесс
реального появления слова (производность) и синхронные формальносинтаксические связи этого слова (мотивация). [Улуханов 1996: 9] В нашей
работе мы не рассматриваем процессы происхождения слов, поэтому мы
будем считать термины мотивация и производность синонимами.
Мотивированные (или производные) слова (в синхронном понимании) все
ученые в целом определяют одинаково – через их связь с мотивирующим
словом. Мотивированным словом мы, вслед за Е.С. Кубряковой будем считать
любую вторичную (обусловленную другим знаком или знаками) единицу.
[Кубрякова 1974: 5]
П р о и з вод н о е с л о во с о с то и т и з м от и в и ру ю щ е й о с н о в ы и
словообразовательного форманта. Мотивирующая основа – общая часть у
производного и производящего слова. При некоторых способах
словообразования (например, сложение) у производного слова может быть
несколько мотивирующих основ. Словообразовательный формант – та часть
производного слова, которая отличает его от производящего.
Одним из первых важность мотивирующего слова для семантики
производного слова подчеркнул Г.О. Винокур. Он утверждал, что «значение
слова с производной основой всегда определимо посредством ссылки на
8
значение соответствующей первичной основы» [Винокур 1959: 421]. То есть
производное слово дает отсылку к семантике мотивирующего слова, что
означает, как пишет Е.С. Кубрякова, что мотивированное слово при
необходимости может восприниматься через другой знак.
В то же время мотивированное слово не может просто определяться
наличием связи с мотивирующим, но оно должно определяться и типом
связи, определённым производным словом или ее направлением. Мы не
можем просто указать, что то или иное слово связано с мотивирующим его
словом, нам следует определить, какая именно связь присутствует в данном
дери вац и он н ом ря де. Тогда м ы см ожем уст ановить з нач ение
мотивированного слова, не только отталкиваясь от семантики
мотивирующего, но и учитывая тип связи между ними. [Кубрякова 1974]
1.3.Особенности формирования словообразовательного значения
Одним из важнейших понятий в словообразовании является понятие
словообразовательного значения. Словообразовательное значение – значение,
которое проявляется в производном слове.
Значение производного слова
всегда обусловлено значением производящего. Производное слово передает
свое значение через указание на другое наименование, которое уже есть в
языке, и берет свое значение из мотивирующего слова.
Кроме того, Е.С. Кубрякова считает, что словообразовательное значение
указывает на способ, лежащий в основе наименования данного предмета,
признака или процесса по его отношению к другому предмету, признаку или
процессу. Например, слово хождение отражает отношение предмета к
действию, а слово горечь – отношение предмета к признаку, следовательно,
лексическое значение слова определяется как значение «опредмеченного»
действия или «опредмеченного» признака [Кубрякова 1974].
9
Значение производного слова часто образуется из значения
производящего и значение словообразовательного форманта. Но далеко не
всегда значение слова выводимо из этих двух значений. Производное слово
характеризуется связанностью с производящим словом (словами) и его
семантической обусловленностью производящим словом.
Семантическую структуру мотивированного слова определяют два
фактора: выбранный источник деривации и формальная операция, которая
изменяет его в нужном направлении.
Некоторые лингвисты считают, что носителем словообразовательного
значения случит словообразовательный формант. Но такую точку зрения
можно опровергнуть, так как словообразовательное значение обусловлено не
только словообразовательным формантом, но и мотивирующим словом.
Еще одним доказательством того, что словообразовательное значение
д а л е ко н е р а в н о з н ач е н и ю а ф ф и к с а с л у ж и т т о т ф а к т, ч т о
словообразовательное значение не всегда формируется с участьем аффикса,
т.е. производные слова не всегда образовываются в ходе аффиксации.
По мнению И.С. Улуханова словообразовательное значение содержится
и в словообразовательном форманте, и в способе словообразования.
[Улуханов 1996: 148]
1.4.Классификация способов словообразования
Большинство лингвистов принимают точку зрения В.В. Виноградова о
том, что существует следующие основные способы словообразования:
семантическое словообразование (процесс, при котором
существующие слова меняют свое значение, таким образом,
производя новые слова),
10
лексико-синтаксическое словообразование (процесс образования
слов из сочетаний слов),
морфолого-синтаксический (переход из одной части речи в
другую),
м о р ф ол о г и ч е с к и й ( п р о ц е с с о б р а з о ва н и я с л о в п у т е м
присоединения к ним словообразовательных формантов).
[Виноградов 1975]
Е.А. Земская [Земская 2011] вслед за В.В. Виноградовым приводит
следующую классификацию способов словообразования: в первую очередь
способы словообразования делятся на аффиксальные и безаффиксные.
Аффиксальные способы делятся на чистые и смешанные (то есть способы,
образованные различными комбинациями чистых способов).
К чистым способам относятся:
1. суффиксация (этим способом могут быть образованы все основные
части речи, при деривации мотивированное слово может быть как
той же части речи, что исходное, так и другой),
2. префиксация (этим способом так же могут быть образованы все
основные части речи, но мотивированное слово при этом может
быть только той же части речи, что и мотивирующее),
3. нулевая суффиксация – деривационное значение производного
слова выражается в нулевом суффиксе (вне сочетания с другими
спо собами вст речает ся только для образования имен
существительных),
4. безаффиксные способы
11
a) сложение – сочетание одной или нескольких основ и
самостоятельного слова (только для имен существительных
и п р и л а г ат е л ь н ы х ; эл е м е н т ы м о г у т с вя з ы ват ь с я
соединительным гласным),
b) сращение (используется только для образования имен
прилагательных; главное отличие от сложения состоит с том,
что при сращении все формы производного слова равны
формам исходного словосочетания),
c) аббревиация (соединение усеченных основ или усеченных и
полных основ; используется только для образования имен
существительных),
d) усечение производящей основы
5. конверсия (преобразование парадигмы исходного слова для
выражения деривационного значения мотивированного слова). В
русском я зыке предст авлена только субст антивацией
(образованием существительных от прилагательных и причастий).
К смешанным способам относятся:
1. префиксально-суффиксальный способ,
2. с л о ж н о с у ф ф и к с а л ь н ы й с п о с о б ( о б р а з о в а н и е и м е н
существительных),
3. префиксация в сочетании с нулевой аффиксацией (используется
для образования существительных и прилагательных),
4. сложение в сочетании с нулевой суффиксацией (так же
используется в образовании существительных и прилагательных).
[Земская 2011]
12
И.С. Улуханов описывает сложную систему способов словообразования,
включающую 79 способов. В первую очередь он предлагает традиционное
деление способов деривации на чистые и смешанные, подробно рассматривая
систему чистых способов словообразование, а затем, систему смешанных
способов. И.С. Улуханов делает попытку описать все теоретически
возможные способы словообразования и их сочетания, уточняя при этом, что
не все способы могут быть реально представлены в языке, не все они
л екси ч е ск и ре а л и зованы. Он обращает внимание на поня тие
словообразовательного средства, которое обычно приводится без
определения. «Способ словообразования определяется через формант, а
формант – через словообразовательное средство. <…> Словообразовательное
средство – 1) все материально (фонематически) выраженные и нулевые
словообразовательные морфемы, которыми мотивированное слово
отличается от мотивирующего (или мотивирующих); 2) различия в фонемном
составе основ и синтаксической позиции мотивирующих и мотивированных
слов – в том случае, если каждое из этих различий является единственным
различием между мотивирующим и мотивированным; <…> 3) единое
главное ударение и закрепленный порядок компонентов сложений и
сращиваний». [Улуханов 1996: 27]
Еще одно деление способов деривации происходит по признаку
узуальности: на узуальные и окказиональные способы. К чистым узуальным
способ относятся следующие способы словообразования:
префиксация
суффиксация
постфиксация
субстантивация
сложение
13
сращение
неморфемное усечение (усечение по аббревиатурному
принципу).
Далее приводится классификация различных смешанных способов
словообразования: комбинации различных чистых способов. К узуальным
относятся парные способы словообразования (сочетание двух узуальных
чистых способов), например, префиксально-суффиксальный способ (окно –
подоконник), префиксально-постфиксальный способ (играть – доиграться),
суффиксально-постфиксальный способ и др. К окказиональным способам
можно отнести, например, тройные способы словообразования, такие, как
префиксация + сложение + постфиксация или сложение + суффиксация +
постфиксация. Для этих способов И.С. Улуханов приводит различные
примеры из устной речи: «Будут новые дома строить. Все уже
надомостроились, хватит», – префиксация + сложение + постфиксация. Стоит
отметить, что смешанные способы (как узуальные, так и окказиональные), не
характерны для образования медицинской терминологии, поэтому в рамках
нашей работы они не будут подробно проанализированы.
Особенностью этой классификации является очень подробное описание
смешанных и окказиональных способов словообразования.
Так, автор выделяет обратное словообразование как отдельный
смешанный способ словообразования. При обратном словообразовании
слово, изначально выступавшее в качестве мотивированного, начинает
выступать как мотивирующее слово (при этом в ходе словообразования
отсекаются некоторые морфемы). Различают следующие способы обратного
словообразования: депрефиксация, десуффиксация, депостфиксация. Кроме
того, существует десубстантивация, при которой слово из разряда
существительных переходит в другой разряд. [Улуханов 1996: 46]
14
Как было сказано выше, словообразовательный формант определяет
способ словообразования. Таким образом, каждому способу деривации
можно сопоставить свой словообразовательный формант. Так, суффиксации
будет соответствовать суффикс, префиксации – префикс, постфиксации –
постфикс, сложению – интерфикс, установленный порядок частей, единое
ударение, сращению – только установленный порядок частей и единое
ударение. Сложнее обстоит дело с субстантивацией. В [Шведова 1980]
словообразовательным формантом субстантивации признается «система
флексий мотивированного слово, представляющая собой часть системы
флексий мотивированного слова». [Улуханов 1996: 139] И.С. Улуханов
полагает, что формантом субстантивации можно считать только разные
синтаксические позиции и грамматическую семантику производного и
производящего слова. [Улуханов 1996: 31]
Далее мы рассмотрим примеры частотных деривационных моделей,
которые характерны не только для образования слов общелитературного
языка, но и для терминоообразования.
Словообразовательный (деривационный) тип (модель) – схема
построения слов определенной части речи, абстрагированная от конкретных
лексических единиц, которая характеризуется
1)
общностью частеречной принадлежностью мотивирующей
основы,
2)
семантическим соотношением между мотивирующим и
мотивируемым словами,
3)
способом словообразования (тождественностью аффиксов).
Ниже приводятся примеры некоторых деривационных моделей,
которые характерны не только для образования слов общелитературного
языка, но и для образования терминов. Мы приводим примеры наиболее
15
частотных моделей, в качестве иллюстраций используются термины из
нашего корпуса (см. Глава 3) и из [Покровский 2005].
1.
Образование существительных
При образовании абстрактных существительных от глаголов происходит
переход глагольного значения в значение существительного, обычно не
наблюдается никакого семантического сдвига, значение мотивирующего
слова полностью переходит в значение мотивированного.
a)
-jаниjобразовать – образование
b)
-ациjампутировать – ампутация
оперировать – операция
Образование существительных-актантов (участников действия)
происходит с помощью целого ряда суффиксов. При этом
перечисленные
суффиксы не всегда выражают описанное значение, нельзя однозначно
приписать какой-либо суффикс какому-либо значению.
a)
-тельпоказывать – показатель
b)
-аторстерилизовать – стерилизатор
О т п р и л а г а т е л ь н ы х ч а с т о о б р а з у ю т с я абстрактные
существительные со значением признака. В этом случае, так же как
при образовании абстрактных существительных от глаголов, как
правило, не наблюдается значительного семантического сдвига, и
16
м ож н о го во р и т ь о с и н т а кс и ч е с ко й д е р и ва ц и и . Та ко й с п о с о б
терминообразования является достаточно частотным, особенно для
образования терминов, обозначающих конкретные симптомы и
заболевания.
a) -остьдальнозоркий – дальнозоркость
b) -изнкривой – кривизна
2.
Образование глаголов
Для медицинских текстов крайне не характерно образование глаголов.
Исключение составляет образование глаголов от существительных с
помощью суффиксов -ир-, -ова-.
a) -ир-, -овапаразит – паразитировать
диагноз – диагностировать
3.
Образование прилагательных
Образование относительных прилагательных от существительных
является одной из наиболее частотных моделей словообразования для
изучаемой нами области. Часто от одного существительного могут быть
образованы несколько относительных прилагательных с помощью разных
суффиксов, и, соответственно, с разными значениями (кровь – кровяной,
кровь – кровянистый).
b)
-скантропометрия – антропометрический,
17
диабет – диабетический
c)
-нлипид – липидный
d)
-овбелок – белковый
e)
-истазот – азотистый, слизь – слизистый
Образование прилагательных от глаголов не характерно для русского
словообразования, в общем, и для образования медицинской терминологии в
частности. Несмотря на это мы столкнулись с несколькими примерами такой
модели при анализе корпуса (см. Глава 3). Следует отметить, что эта модель
используется, как правило, для образования терминов со значением
движения. Так, прилагательное «вращательный», приведенное ниже, является
частью составного термина «вращательная мышца», обозначающего мышцу,
отвечающую за движение вращения.
a)
-тельвращать – вращательный
Таким образом, в этой главе нами рассмотрены основные понятия
словообразования, такие как деривация, словообразовательное значение,
производность, мотивация и др., сравнили различные классификации
способов словообразования, проанализировали
наиболее характерные для
медицинской терминологии словообразовательные модели и привели
примеры этих моделей, основываясь на материалах нашего корпуса и словаря
медицинских терминов.
18
Так как наша работа посвящена автоматическому извлечению
терминологии, в главе 2 будут рассмотрены и определены понятия термина и
терминоэлемента, проанализированы особенности термина и требования к
термину, приведены характерные особенности образования терминологии
различными способами. Кроме того, мы проанализируем основные
особенности медицинской терминологии, основные особенности образования
медицинских терминов.
19
2. Терминологический компонент содержания текста
2.1.Понятие «термин» и его определения
Существует множество различных определений понятия «термин». Мы
рассмотрим несколько определений разных исследователей и сформулируем
список основных характеристик термина, на который мы будем опираться в
нашей работе.
Ряд специалистов основывают свои определения термина на его связи с
понятийной системой конкретной области знания. Согласно В.М. Лейчику
это характерно для логического определения термина. В работе [Лейчик,
2006] описываются различия между определениями термина в разных науках.
Так, логическое определение термина основывается на связи термина и
понятия. Под понятиями здесь понимаются не любые понятия, а только
понятия определенной теории или концепции. «Терминами обозначаются
общие понятия (которые при этом могут быть собирательными или
разделительными, родовыми или видовыми)». [Лейчик, 2009:22] Во многих
логических определениях термина можно найти упоминание о такой его
характеристике как наличие дефиниции. В.М. Лейчик отмечает, что эту
характеристику нельзя включать в определение термина как обязательную
(по его мнению, можно сказать, что термину требуется дефиниция), так как
один термин может иметь несколько дефиниций;
существует много терминов, у которых нет словесной дефиниции;
не только термин, но и любое другое слово может иметь дефиницию.
А.С. Герд определяет научный термин, как
«единицу какого-либо
конкретного естественного или искусственного языка (чаще слово или
словосочетание), существовавшую ранее или специально созданную и
обладающую терминологическим лексическим значением, которое
20
выраженное либо в словесной форме, либо в том или ином формализованном
виде и достаточно точно и полно отражает основные, существенные на
данном уровне развития науки, признаки соответствующего научного
понятия». А.С. Герд также говорит о том, что термин обязательно
соотносится с какой-либо единицей понятийной системы. [Герд, 1981: 11 –
12]
Здесь нужно отметить, что многие лингвисты утверждали, что термин
отражает именно состояние науки на данный момент. В.М. Лейчик
подчеркивает, что значение термина может варьироваться не только в
зависимости от состояния науки, но и от выбранной теории. [Лейчик, 2009:
22] С этим связано философско-гносеологическом определение термина. В
нем отражаются два характерных признака термина: «то, что термины
используются как средство закрепления результатов познания в специальных
областях знаний и деятельности; то, что термины, наряду с функцией
фиксации, выполняют и функцию открытия нового знания». [Лейчик, 2009:
21]
Следует обратить внимание, что с варьированием значения термина в
зависимости от состояния науки и выбранной концепции связана важная
проблема соотношения термина и понятия. Как было упомянуто выше,
считается, что термин соотносится с элементом логико-понятийной
структуры конкретной науки. Но в связи с тем, что значение термина может
зависеть от выбранной концепции, это соотношение часто неоднозначно.
Кроме того, понятийная система далеко не всегда точно установлена, и
понятийную систему какой-либо научной области невозможно зафиксировать
из-за постоянного и непрерывного развития науки, наличия различных школ,
теорий и концепций. Таким образом, не всегда понятно, с каким именно
элементом логико-понятийной схемы соотносится конкретный термин. Более
того, в некоторых случаях ученый вынужден сам изобретать термин для
21
обозначения того или иного явления, в такой ситуации еще более трудным
становится установление связи термина и логико-понятийной системы.
Обычно существует базовый набор понятий области знания, которые можно
однозначно определить и которым однозначно соответствует какой-либо
термин. Но, чем сложнее исследуемые объекты, тем сложнее становится
логико-понятийная система, и, соответственно соотношение понятий и
терминов.
Согласно семиотическому определению термин – знак-обозначение, он
противопоставляется другим элементам языка – нетерминам.
Лингвистические определения можно разделить на две группы:
рассматривающие термин, как особое слово и рассматривающие термин, как
особую функцию слова. По Г.О. Винокуру термин – не особое слово, а в роли
термина может выступать всякое слово; у этого слова будет функция термина.
[Винокур 1939: 5] [Лейчик 2009: 27]
Рассмотрев различные определения термина, В.М. Лейчик приходит к
выводу, что в лингвистическом смысле термин – это любая лексическая
единица, имеющая терминологическую функцию. Но, если рассматривать
термин с точки зрения терминоведения, «термин — лексическая единица
определенного языка для специальных целей, обозначающая общее —
конкретное или абстрактное — понятие теории определенной специальной
области знаний или деятельности». [Лейчик 2009: 31 – 32]
В.П. Даниленко определяет термин следующим образом: «Под термином
мы понимаем слово (или словосочетание) специальной сферы употребления,
я в л я ю щ е е с я н а и м е н о в а н и е м н ау ч н о го и л и п р о и з в од с т в е н н о технологического понятия и требующее дефиницию» [Даниленко 1977: 15]
Мы можем заметить, что в этом определении присутствуют три упомянутые
выше характеристики термина, которые ряд ученых считают ключевыми для
определения понятия «термин».
22
Еще одна важная характеристика термина связана с его однозначностью.
Мы можем привести примеры, что термин имеет различные значения в
разных науках. Например, гипербола в математике и литературоведении. По
МАС гипербола –
1) «Стилистический прием чрезмерного преувеличения каких-либо
свойств изображаемого предмета, явления и т.д. с целью усиления
впечатления»;
2) «Несомкнутая кривая из двух ветвей, получаемая при пересечении
конуса плоскостью».
Д.С. Лотте подчеркива л, что термин должен иметь ст рого
фиксированное значение [Лотте 1961: 5]. Он пишет о том, что термин должен
быть однозначен, понимая под этим не абсолютную однозначность этого
слова в языке, что представляется невозможным для всех терминов, если не
приписывать каждому новому понятию искусственно придуманное
наименование, а относительную однозначность, то есть однозначность в
пределах конкретной области знаний. [Лотте 1961: 75]. Если термин имеет
различные значения в разных науках, следует считать, что это разные
термины. Об этом упоминается в работе [Суперанская и др.: 2012]. «Термин –
это специальное слово (или словосочетание), принятое в профессиональной
деятельности и употребляющееся в особых условиях. Термин – это словесное
обозначение понятия входящего в систему понятий определённой области
профессиональных знаний. Термин – это основной понятийный элемент
языка для специальных целей. Внутри своего терминологического поля
термин однозначен. Одинаково звучащие термины разных полей – омонимы.
Для своего правильного понимая термин требует специальной дефиниции
(точного научного определения)». [Суперанская и др. 2012: 14]
23
С.Д. Шелов в статье [Шелов, 2010] приводит более тридцати различных
определений понятия «термин», многие из которых были нами рассмотрены,
и выводит свое определение:
«А. Языковой знак (слово, словосочетание, сочетание слова или
словосочетания с особыми символами и т.п.), выражающий понятие какойлибо области знания и в силу этого имеющий дефиницию (толкование,
объяснение), на которую сознательно ориентируются использующие этот
языковой знак, является термином;
Б. Языковой знак (словосочетание, сочетание слова или словосочетания
с особыми символами и т.п.) является термином, если он выражает понятие
какой-либо области знания и мотивируется языковыми знаками (словами,
словосочетаниями, сочетанием слова или словосочетания с особыми
символами и т.п.), хотя бы один из которых является его (лексикосинтаксической) частью, выражает специальное понятие той же области
знания и признается термином в силу п. 1». [Шелов 2010: 6 – 8]
В связи с определением М.А. Марусенко мы сталкиваемся с вопросом,
какой частью речи может являться термин. М.А. Марусенко описывает
термин следующим образом: «Понятие научно-технический термин можно
определить как номинативную группу (существительное или субстантивное
словосочетание), связанную с определенным научно-техническим понятием,
принадлежащую определенной совокупности текстов и выражающую
устойчивый комплекс признаков понятия». [Марусенко 1981: 5] Многие
лингвисты считают, что в роли термина может выступать только имя
существительное и субстантивное словосочетание, так как категории имен
существительных достаточно для описания понятийной системы области
знания, категория имен существительных достаточно универсальна для
наименования различного рода специальных понятий. Еще одним
аргументом в пользу этой точки зрения является то, что для
24
терминологической лексики характерен высокий уровень абстракции. В связи
с этой проблемой В.П. Даниленко подробно описывает теорию чешского
ученого О. Мана. Он детально анализирует возможность появления
различных частей речи в роли термина. С развитием науки появляется
потребность в названиях новых предметов, для чего используются имена
существительные. Кроме того, имена существительные передают
родовидовые отношения между понятиями.
Глагол тоже может использоваться в качестве термина, но на него О. Ман
накладывает некоторые ограничения. К терминам могут относиться глаголы,
которые однозначно называют понятия данной области, не ассоциируясь при
этом со словами других слоев языка, например, со словами обиходного языка.
Помимо этого, к терминам можно отнести глаголы, которые имеют
ассоциации в других слоях языка, но выражают основные понятия для
области знания, например, расти в биологии. О. Ман описывает также
отношения терминов по части речи в тех случаях, когда, например, терминглагол образован от термина-существительного, или термин-существительное
о б р а з о в а н о т т е рм и н а - гл а го л а . К р ом е т о го , с у щ е с т ву ют
словообразовательные отношения между терминами из одного
словообразовательного гнезда, при этом элементы должны иметь не только
морфологическую, но и семантическую связь.
О. Ман отвергает идею о том, что прилагательные не могут являться
терминами на том основании, что они не встречаются в языке независимо.
Понятия могут выражать наличие или отсутствие какого-либо признака, а,
значит, термин может быть именем прилагательным. Терминомприлагательным может являться то прилагательное, которое терминологично
и вне словосочетания, т. е. вне связи с существительным. Прилагательные,
образованные от терминов-существительных будут терминами. Если
мотивированность термина-прилагательного невозможно установить в
25
русском языке (для заимствований), то их терминологичность можно
установить через связь с признаком понятия конкретной области знания.
[Даниленко, 1977: 40 – 44]
Таким образом, в роли термина могут выступать не только
существительные, но и другие части речи, если они выражают специальное
понятие и отвечают остальным требованиям, накладываемым на термин.
Таким образом, в нашей работе мы будем рассматривать в качестве терминов
как существительные, так и другие части речи.
Итак, на основе ряда рассмотренных нами определений мы можем
составить список характеристик термина, встречающихся чаще всего:
1.
термин обозначает понятие конкретной области знания
2.
термин является элементом языка для специальных целей
3.
термину требуется дефиниция
4.
термин должен быть однозначен в рамках конкретной
области знания
5.
т е рм и н я вл я е т с я с л о вом , с л о во с оч е т а н и е м и л и
специальным символом (например, s-образный позвоночник, sin, cos)
6.
термин мотивируется языковыми знаками
7.
в качестве термина могут выступать различные части речи,
если соблюдены все остальные требования, накладываемые на термин.
Далее мы будем анализировать термин, исходя из этих характеристик.
Повторяемость некоторых корней в текстах, относящихся к
определенной предметной области, может помочь выделить ключевые
терминологические компоненты, на основе которых можно построить
процедуру автоматического выделения терминов.
Проанализировав некоторые определения термина, мы установили, что
термином может быть как существительное, так и другие части речи.
26
Поэтому мы можем выдвинуть предположение о том, что в научных текстах
встречаются целые деривационные ряды терминов, исследовав которые мы
можем найти способ выделять автоматически ключевой терминологический
компонент таких рядов, а, следовательно, и автоматически извлекать
термины.
Для того чтобы перейти к рассмотрению процессов образования термина
и исследованию терминологического компоненты деривационных рядов,
требуется определить этот терминологический компонент. В следующем
разделе мы рассмотрим понятие «терминоэлемент» и его связь с термином.
2.2.Терминоэлемент и его соотношение с термином
Одним из первых, кто ввел в использование понятие «терминоэлемент»,
был
Д.С. Лотте. Он дает следующее определение этого понятия: «Под
терминоэлементом понимается термин или слово, имеющее самостоятельное
значение и входящее в состав сложного термина». [Лотте 1941:8] В
дальнейшем, ученые начали по-другому определять это понятие.
Например, в [Ефремова 2000] дается наиболее общее определение
терминоэлемента: «Компонент, выделяющийся в структуре термина как его
основная, значащая часть, обусловленная признаками выражаемого термином
понятия». [Ефремова 2000: 947]
В работе [Суперанская, Подольская, Васильева 2012: 100] приводится
определение терминоэлемента, предложенное АН СССР: «минимальная
единица, имеющая терминологическое значение».
Еще одно определение предлагает А.Н. Штунь: «Терминоэлемент – это
регулярно повторяющийся в серии терминов компонент, за которым
закреплено специализированное значение». А.Н. Штунь также говорит о том,
что в качестве терминоэлемента может выступать как морфема, так и группа
морфем или все слово. В связи с этим деление термина на морфемы и на
27
терминоэлементы может не совпадать, например, в качестве единого
терминоэлемента может выступать префикс и корень или корень и суффикс.
[Штунь 2008]
С точки зрения В.П. Даниленко, терминоэлемент это не только слово, но
и морфемы; он является минимальной структурной единицей терминологии.
Терминоэлемент определяется как «широкое понятие, включающее в
себя на равных основаниях производящую основу, словообразующую
морфему (аффиксы), слово в составе сложных слов и словосочетаний,
символы в составе особого типа символо-слов». [Даниленко, 1977: 37]
Подобная идея высказывается и в работе. [Суперанская, Подольская,
Васильева 2012] Авторы высказывают предположение о том, что понятие
терминоэлемент следует использовать только для латино-греческих
компонентов терминов. [Суперанская, Подольская, Васильева 2012: 102] В
этой работе приводится деление латино-греческих терминоэлементов на
смысловые и служебные. Например, термин кардиология можно разделить на
два смысловых терминоэлементы: карди и лог. К смысловым относятся те
терминоэлементы, которые обычно выступают как корень термина и были
заимствованы с сохранением своего лексического значения. Служебные
терминоэлементы это аффиксы, которые при заимствовании лишились своего
лексического значения, получив при этом новое терминологическое значения.
Такие элементы регулярно используются в словообразовании. Так, суффикс
-ин обычно используется для обозначения препаратов (инсулин, аспирин), а
суффикс -ома – опухолей (саркома, лимфома).
Понятие «терминоэлемент» особенно часто встречается в связи с
медицинской и биологической терминологией, так как в терминосистемах
этих наук особенно много заимствований из греческого и латинского языков.
Можно сказать, что для терминосистемы медицины это понятие является
ключевым. В словарях медицинских терминов часть дефиниций дается через
28
определения терминоэлементов или приводятся дефиниции отдельных
терминоэлементов. «Кавальный (анат. vena cava полая вена) – относящийся
к полой вене; чаще употребляется как терминоэлемент в составе сложных
прилагательных». [Большой медицинский словарь, 2000] Кроме того, сейчас
создаются словари греко-латинских терминоэлементов по медицине и
биологии, как в качестве самостоятельных словарей, так и в качестве
приложений к медицинским словарям и энциклопедиям, например,
[http://dic.academic.ru/dic.nsf/enc_medicine/24854].
В пособиях по медицинской терминологии приводятся подобного рода
схемы для определения значения служебных терминоэлементов: основа
существительного+ -ōsis = увеличение числа клеток; патологическое
разрастание ткани, названной основой. Например: thrombocytosis (увеличение
числа тромбоцитов в кровь), leucosis (стойкое увеличение лейкоцитов в
крови). [Бондаренко 2005]
Медицинская система отличается тем, что в состав макротеминосистемы
входит множество микротерминосистем (анатомическая, гистологическая,
дерматологическая и др. терминосистемы). Это терминосистемы
пересекаются между собой, как и медицинская макротерминосистема
пересекается с терминосистемами биологии, химии и других наук, как
следствие проявляется неоднородность научного текста. Одной из проблем
автоматического выделения терминов, связанной с таким пересечением
терминологических систем, является проблема автоматического
установления тематики текста и принадлежности текста к конкретной
научной области. Например, при автоматиче ской определении
принадлежности текста к той или иной науке по ключевым словам
медицинский текст может быть принят за биологический.
Как уже было упомянуто выше, в нашей работе будет рассмотрена
только одна подсистема медицинской терминосистемы – терминосистема
29
офтальмологии. В связи с тем, что в нашей работе будут анализироваться
тексты фиксированной тематики, при работе с текстом не будет
необходимости определять его принадлежность к той или иной
терминосистеме, а, следовательно, не возникнет трудностей, связанных со
сходством медицинской терминологии с биологической или химической. Для
дальнейшего развития нашей процедуры и использования ее не только для
извлечения терминологии из текстов по офтальмологии появится
необходимость разработать инструмент автоматического определения
принадлежности текста к конкретной области знания.
2.3.Основные особенности образования терминов
«Чтобы быть хорошим членом терминологии, термин должен быть удобным
для образования производных терминов, создающих рациональную и
осмысленную семью терминов». [Реформатский 1997: 63]
Как и общеупотребительная лексика, терминология – система, постоянно
развивающаяся и расширяющаяся. С развитием науки требуется появление
все новых и новых терминов. Существует три способа пополнения
терминологии: терминологизация (использование в качестве терминов слов
общелитературного языка), заимствование из других языков и
терминообразование. В этом разделе мы рассмотрим терминообразование,
его основные особенности и способы.
Обычно термины, как и слова общеупотребительные образуются на
основе уже существующих слов различными способами. Как пишет
В.П. Даниленко, в разные эпохи образование терминов характеризовалось
использованием разных словообразовательных элементов. Например, для
эпохи ручного труда было характерно использование суффиксов -ец
(мельница),
-ень (гребень). Или в современной науке использование
префиксов - н е о и
- с в е р х (неоваскуляризация, сверхпрочный).
30
Терминологиче ское образование о сновано на словообразовании
литературного языка. [Даниленко 1977: 89 – 90]
Среди особенностей терминообразования Даниленко выделяет то, что
термины создаются по необходимости,
термины создаются представителями конкретной узкой
области знаний,
терминопроизводство является регулируемым процессом
(унификация терминологии),
в процесс терминообразования входит и процесс создания
дефиниции для нового термина,
для терминообразования важна прозрачность внутренней
формы производного термина,
процесс терминообразования всегда связан с понятийной
системой конкретной области знания, там как производный термин
занимает определенное место в этой понятийной системе. [Даниленко
1977: 94 – 96]
4.
Способы терминообразования
Язык для специальных целей не имеет специальных средств для
образования элементов, он использует те же средства, что и литературный
язык.
В связи с тем, что термины создаются по необходимости, для
обозначения конкретного понятия или явления возникают ряды
терминоэлементов с четко устоявшимся значением, используемые для
терминопроизводства. Как уже говорилось в разделе, посвященном
терминоэлементам, их наличие особенно характерно для медицины, где
широко распространено терминообразование с использованием греческих и
латинских терминоэлементов и заимствование терминов из этих языков.
31
1) Морфологический способ терминообразования
В отличие от словообразования в общелитературном языке, в
терминообразовании в качестве терминоэлементов используется гораздо
более широкий ряд компонентов. В.П. Даниленко выделяет два типа средств
морфологического терминообразования: словесные и символические.
Словесными средствами называются слова национального языка и
словообразовательные форманты как национального языка, так и
заимствованные из других языков (микроскопия – биомикроскопия).
Символьными называются знаки, графические символы математики, физики
и т.д. (γ-лучи). [Даниленко 1977: 108]
Кроме того, в терминологии гораздо чаще используются имена
собственные в качестве производящей основы. Например, наименование
заболевания сальмонеллез образовано от фамилии американского ученого
Д. Сальмона. Причем в терминологии такие слова (мотивированные именами
собственными) закрепляются в терминологической системе, в то время как
общелитературные слова, образованные от имен собственных достаточно
быстро уходят из употребления.
Е щ е од н о й х а р а к т е р н о й о с о б е н н о с т ь м о р ф о л о г и ч е с ко г о
терминообразования является то, что термины могут образоваться от
производных слов, от которых не образуются слова общеупотребительного
языка, например от существительных с суффиксами эмоциональной оценки
(ядрышко – ядрышковый, узелок – узелковый), от отвлеченных
существительных
с суффиксом -ость (жидкость – жидкостный), с
суффиксом -отн (кислота - кислотный). Для терминообразования характерно
так же использование как аффиксов общелитературного языка (под-, сверх-,
-тель, -ниj), так и формирования целого ряда собственных аффиксов таких,
н ап р и м е р , ка к дис-, нео-, анти-, -ист, -ин. Кроме аффиксов в
терминообразовании используются так называемые аффиксоиды –
32
компоненты, изначально являвшиеся знаменательными словами, но, став
частями сочетаний с другими элементами, превратившиеся в своего рода
аффиксы. Это относится как к исконным компонентам, так и к
заимствованным (в первую очередь греко-латинским). Например, -метр
(страбометр), -граф (сфигмограф). [Даниленко 1977: 110]
Наиболее частотным способом морфологического терминообразования
С.В. Г р и н е в - Г р и н е в и ч н а з ы в а е т с у ф ф и к с а ц и ю . В р у с с к о м
терминообразовании, как и в образовании слов общелитературного языка,
прослеживается тенденция закреплению конкретных аффиксов за
определенными категориями понятий. Некоторые значения могут выражаться
целым рядом суффиксов, например
деятель: -тель (возбудить – возбудитель), -ист (окулист);
процесс: -ниj (заболевать – заболевание)
свойство: -ость (диоптрия – диоптрийность)
С помощью префиксации образуется гораздо меньшее число терминов,
чем посредством суффиксации. Существует тенденция, что для образования
терминов чаще используются иноязычные префиксы, такие как дис(л и п и д е м и я – д и с л и п и д е м и я)
, анти-
(т р ом бо т и ч ес к и й –
антитромботический), нео- (васкуляризация – неоваскуляризация) и др.
Иногда при терминоообразовании используется так же префиксальносуффиксальный способ, но это происходит гораздо реже, чем использование
других морфологических способов терминообразования. [Гринев-Гриневич
2008: 129 – 134]
2) Синтаксический способ терминообразования
Синтаксический способ терминообразования является наиболее
частотным среди всех способов образования терминов. Таким способом
33
обычно образуются сложные слова общелитературного языка такие как
сумасшедший, простофиля и др. Этот способ не является частотным для
общелитературного языка, в отличие от языка науки. В терминообразовании
таким способом создаются составные термины, термины-словосочетания.
В.П. Даниленко предлагает делить термины-словосочетания на два типа:
1. н е р а з л о ж и м ы е т е р м и н ы - с л о в о с о ч е т а н и я , я в л я ю щ и е с я
терминологизацией фразеологизмов или терминологическими
фразеологизмами (гусиные лапки)
1. формально разложимые на компоненты терминологические сочетания
a. свободные словосочетания состоящие из компонентов-терминов
(осциллография артериальная)
b. несвободные сочетания, в составе которых может быть
нетерминологический компонент (солнечное сплетение).
Наиболее частотным является второй тип словосочетаний. [Даниленко
1977: 104 – 105]
Особенности синтаксического терминообразования русского языка
(двухкомпонентные сочетания):
н а и б ол е е ч а с тот н ы м я вл я е т с я с л о во с оч е т а н и е с и м е н е м
п ри л аг ател ь н ым в кач е стве препозитивного определения
(диабетическая ретинопатия),
в роли определений могут быть использованы адъективированные
причастия (нерассасывающиеся импланты),
в качестве постпозитивного определения часто встречаются имена
существительные (острота зрения),
можно встретить предложные словосочетания с предлогами для, за, из,
к, на, от и др. Опорный элемент при этом занимает первое место.
[Гринев-Гриневич 2008: 139]
34
Среди трехкомпонентных словосочетаний С.В. Гринев-Гриневич
выделяет следующие наиболее частотные, приводя примеры из строительной
терминологии:
СущПрил(род.)Сущ(род.) – удаление буровой мелочи
ПрилПрилСущ – тепловая импульсная сварка
ПрилСущСущ(род.) – подземная прокладка трубопроводов
СущСущ(род.)Сущ(род.) – методы нанесения покрытий
Сущ с Прил(твор.)Сущ(твор.) – проходка с постоянным копром
Сущ для Прил(род.)Сущ(род.) – оборудование для отделочных
работ
ПричПрилСущ – напрягаемые арматурные пучки
ПрилПричСущ – составные напрягаемые элементы
Сущ для Сущ(род.)Сущ(род.) – машины для острожки полов
Для образования четырехкомпонентных терминов в русском языке чаще
всего используются модели
ПрилСущПрил(род.)Сущ(род.) – раздельная укладка бетонной
смеси
СущСущ(род.)Прил(род.)Сущ(род.) – технология производства
строительных изделий
ПрилСущСущ(род.)Сущ(род.) – косвенная передача энергии
вибрации [Гринев-Гриневич 2008: 142 – 143]
3) Семантический способ терминообразования
Семантическим способом терминообразования язык науки расширяет
терминологическую систему, используя для этого уже существующие слова
общелитературного языка. Особенностью такого способа является то, что
одно и то же слово используется в качестве термина в разных науках, тем
самым становясь различными терминами. Как пишет В. П. Даниленко, еще в
35
древности с помощью метафорического переноса общеупотребительных слов
образовывались такие термины как вилка, колено, лебедка и т.д.
Такой метафорический перенос характерен и для медицинской
(анатомической) терминологии, где части тела именовались существующими
названиями предметов: лопатка, чашечка, яблоко, ложечка и т.д. [Даниленко
1977: 99 – 100]
Главным отличием современного терминообразования от образования
слов общеупотребительного языка таким способом является то, что при
словообразовании в общелитературном языке проходит процесс долгой
эволюции, прежде чем слово получит новое значение. В терминообразовании
же приспособление слов происходит без длительной эволюции. Сначала
слово приобретает новые семантические характеристики, после чего
меняются и его грамматические и лексические характеристики. Например, по
[Покровский 2005]: «Отдых - процесс восстановления работоспособности,
протекающий в условиях прекращения деятельности, вызвавшей утомление».
По МАС: «Отдых – перерыв в занятиях, в работе и т.п. для восстановления
физических и умственных сил. [Даниленко 1977]
5.
Характерные черты медицинской терминологии
Медицинская терминология представляет собой обширный слой
лексики, отличающийся в первую очередь тем, что терминологическая
система медицины включает себя множество узкоспециализированных
подсистем, например, подсистема терминов педиатрии, эндокринологии или
хирургии. Несмотря на то, что каждая из этих подсистем имеет свои
особенности, можно выделить ряд общих черт, присущих медицинской
терминологии в целом.
1. Использование греко-латинских терминоэлементов
36
Как уже упоминалось в первой главе, одной из самых важных
особенностей медицинской терминологии является то, что большинство
терминов образовано с участием греко-латинский терминоэлементов. Греколатинские элементы делятся на универсальные (встречающиеся в разных
науках) и неуниверсальные (относящиеся к отдельной области знания). При
образовании терминов с использованием греко-латинских элементов следует
обратить внимание на несколько аспектов. Суперанская и др. выделяют
позиционно маркированные терминоэлементы. Позиционно маркированные
элементы имеют строго фиксированную локализацию в рамках лексической
единицы. Например, за элементом -опсия закреплена финальная позиция в
терминах (анопсия), а за элементом гидро- – начальная (гидроцефалия).
При терминообразовании в первую очередь происходит выбор готовой
модели:
греческой
латинской
греко-латинской
смешанной (русско-греко-латинской).
Чем более устоявшейся является выбранная модель, тем большему
варьированию она может подвергаться.
После выбора модели происходит выбор конкретных компонентов.
Следует обратить внимание на компоненты, за которыми уже закреплено
определённое значение, как, например префиксы а- и анти- со значениями
отрицания и противопоставления соответственно.
Ряд сложностей возникает в связи с тем, что значение исходного
элемента подвергается некоторым изменениям в ходе его существования в
рамках терминологической системы языка. Терминология создает свои
корреляции терминоэлементов, которых могло не быть в греческом или
37
латинском языках. Такой является стандартная корреляция микро-/макро-,
которой не существовало в древнегреческом языке, где μακρός означало в
первую очередь «длинный» и не коррелировало со словом μικρός.
Кроме того, авторы обращают внимание на принцип эвфонии:
термин не должен быть слишком длинным,
должны быть устранены все побочные ассоциации .
Иногда этот принцип нарушается, например, при заимствованиях из
английского языка. [Суперанская и др. 2012: 207 – 212]
2. Интернациональный характер медицинских терминов
В связи с тем, что большинство медицинских терминов образованы с
помощью греко-латинских терминоэлементов, многие медицинские термины
интернациональны. Этому так же способствуют обширные заимствования
медицинских терминов из различных языков. Особенно это касается
заимствований названий современных методик, материалов и устройств из
английского языка. Например, «кетгут (англ. catgut) - рассасывающийся
шовный материал, изготавливаемый из стенки тонкой кишки мелкого
рогатого скота». [Покровский 2005: 539]
3. Использование латиницы в записи
Медицинская терминология не только использует греко-латинские
элементы для образования новых терминов, но и сохраняет исходные
заимствованные термины, которые продолжают записываться в латинской
орфографии. К таким терминам можно отнести наименования
химических веществ (magnesii sulfas, магния сульфат),
внутренних органов (bursa bicipitoradialis, двуглаво-лучевая сумка),
сосудов (anastomotica magna, большая анастомотическая вена),
38
связок (accessorium cubiti, добавочная связка локтя),
нервов (cardiacus caudalis, каудальный сердечный нерв),
костей (acromiale os, акромиальная кость),
некоторых заболеваний (carcinoma in situ, рак преинвазивный),
некоторых характеристик в описании заболеваний (tumor, nodus и
metastasis, опухоль, узлы, метастазы).
4. Использование имен собственных как компонентов словосочетаний
Для медицинской терминологии характерно большое количество
терминов, в которых в качестве определяющего слова выступает имя
собственное в родительном падеже. Обычно такие термины именуются в
честь ученого, открывшего то или иное заболевание или технику. Например,
«Гейликмана проба (О.Б. Гейликман, сов. офтальмолог, 1887-1941) - метод
выявления магнитных свойств у внутриглазного инородного тела при
локализации его в пределах доступности для офтальмоскопического
наблюдения, основанный на вибрации магнитного инородного тела в
переменном магнитном поле». [Покровский 2005: 284]
Согласно исследованию, проведенному на основании медицинской
энциклопедии (более 54 000 терминов) в медицинской терминологии 25,6%
приходится на однословные термины, 54,44% - на двухсловные, 15,44% - на
трехсловные, 3,46% - на четырехсловные термины. [Аксенова и др. 2004: 1]
1) Синтаксический способ терминообразования в медицине
Синтаксический способ терминообразования является одним из
частотных способов образования медицинских терминов. Из конструкций,
приведенных нами выше, как характерных для образования терминов в
целом, мы выделили наиболее частотные конструкции, характерные для
39
образования медицинских терминов. Для медицинской терминологии
характерны следующие синтаксические модели:
ПрилСущ (кессонная болезнь)
ПрилПрилСущ (папиллярная лимфоматозная цистаденома)
СущСущ(род.) (аденокарцинома гипофиза).
Следует обратить внимание, что в синтаксическом терминообразовании
по модели СущСущ(род.) нередко участвуют имена собственные. Таким
образом, обычно происходит образование названий симптомов, синдромов,
болезней (например, болезнь Бехтерева). Чаще всего для таких названий
существуют один или несколько синонимов, что нехарактерно для
терминологии. Так, для термина «болезнь Бехтерева», упомянутого нами
выше, существуют два синонима: Анкилозирующий спондилоартрит, болезнь
Штрюмпелля-Бехтерева-Мари.
Целью нашего эксперимента является выделение однословных
терминов, в связи с этим, в третьей главе мы не будем рассматривать
термины, образованные синтаксическим способом.
2) Морфологический способ терминообразования в медицине
Для морфологического способа образования медицинских терминов
характерно большое количество греко-латинских терминоэлементов, как уже
было сказано выше. Греко-латинские терминоэлементы при этом можно
условно разделить на три группы.
К первой группе относятся общенаучные терминоэлементы, т.е. те,
которые используются не только в медицине, но и в других областях знания.
Такими терминоэлементами являются, например, -граф (литография (пром.);
артрография (мед. ) , -грамма (радиограмма (физ.); кардиограмма (мед.),
поли- (политеизм (филос.); полиавитаминоз (мед.) и др.
40
Ко второй группе относятся те компоненты, которые можно считать
общемедицинскими, на основе которых образуются термины разных
областей медицины. К таким элементам можно отнести, например гипер(гипергидратация – избыточное содержание воды в организме или
отдельных его частях; гипердиагностика – ошибочное медицинское
заключение о наличии у обследуемого болезни или ее осложнений) , анте(антесистолия – преждевременное по отношению к возбуждению
предсердий возбуждение желудочков; антенатальный период – период
развития организма от момента образования зиготы до начала родов) и
другие. [Покровский 2005: 322, 64]
К третьей группе относятся те греко-латинские терминоэлементы,
которые используются в отдельных областях медицины. Так, для
офтальмологии будут характерны термины, включающие в себя компонент
-опсия. Например, «полиопсия – нарушение зрительного восприятия, при
котором одиночный фиксируемый объект кажется множественным»,
«порропсия – форма метаморфопсии, при которой предметы кажутся
расположенными дальше или ближе, чем на самом деле». [Покровский 2005:
946 – 947]
3) Семантический способ терминообразования в медицине
Семантический способ терминообразования не насколько часто
встречается в медицине, как два способа, описанные выше. Тем не менее,
стоит отметить, что для медицинской терминологии характерно
использование наименований неодушевленных предметов в качестве
терминов. Эти термины очень немногочисленны и в основном именуют части
туловища человека. К таким терминам можно отнести, например, таз, дуга,
яблоко и др.
41
2.4.Подходы к автоматическому выделению терминов
Автоматическое извлечение информации – одна из важнейших задач
компьютерной лингвистики. Автоматическое извлечение терминологии
является подзадачей автоматического извлечения информации и, как правило,
использует те же методы. В этом разделе мы рассмотрим некоторые подходы
к автоматическому извлечению терминологии.
Основными сложностями при автоматическом извлечении терминологии
считаются
1. поиск многословных терминов (определение начала и конца
терминологического словосочетания),
2. установление, является ли словосочетание терминологическим
словосочетанием или сочетанием терминов,
3. определение терминологической природы лингвистической единицы
(т.е. определение, является ли слово или словосочетание термином или
нет),
4. определение принадлежности того или иного термина к конкретной
области знания. [Cabré et al. 2001: 2]
6.
Классификация подходов к автоматическому извлечению
терминологии
Существует несколько подходов к автоматическому извлечению
терминов. Эта классификация основывается на том, какие данные использует
система извлечения терминологии. Итак, существуют статистические,
лингвистические и смешанные подходы к автоматическому извлечению
терминологии.
Статистические подходы используют статистические данные для
извлечения терминологии. Далее мы рассмотрим некоторые статистические
42
метрики, использующиеся для извлечения терминологии. Сейчас эти метод
чаще всего используются не как самостоятельные, а в сочетании с
лингвистическими методами для фильтрации терминов-кандидатов.
1. Mutual Information (MI)
«Мера MI (mutual information) сравнивает зависимые контекстносвязанные частоты с независимыми, как если бы слова появлялись в тексте
совершенно случайно» [Захаров, Хохлова 2010: 78]. Мера производит
сравнение фактической частоты совместной встречаемости слов с
ожидаемым значением встречаемости на основании частот независимой
встречаемости этих слов в тексте. Рассчитывается по формуле:
MI (n, c ) log 2
f ( n, c ) N
,
f ( n) f ( c )
где n – ключевое слово, c – рассматриваемое словосочетание, f(n, c) – частота
встречаемости ключевого слова в словосочетании, f(n), f(c) – абсолютные
частоты ключевого слова и зависимого слова в тексте, N– общее число
словоупотребление в тексте.
Если значение MI (n, c) больше определенного значение, тогда
рассматриваемое сочетание слов можно считать статистически значимым.
2. t-критерий Стьюдента ( t-score)
Мера t-score о п р е д е л я е т, с т е п е н ь с л у ч а й н о с т и с о в м е с т н о й
встречаемо сти слов, входящих в со став слово сочетания. Мера
рассчитывается по формуле:
,
43
где – выборочное среднее, µ – теоретическое среднее, s 2 – выборочная
дисперсия, N – размер выборки.
В качестве теоретического среднего берется вероятность появления
отдельных слов, входящих в словосочетание; в качестве выборочного
среднего – вероятность появления цельного словосочетания.
3. C-value
Мера была разработана для выделения длинных терминов, частота
встречаемости которых, как правильно, ниже, чем у простых терминов. Мера
рассчитывается по формулам (а) – если термин не вложен, b) – если термин
вложен):
a)
C Value ( a ) log 2 a freq a ;
1
b) C Value (a ) log 2 a freq a P T freq (b) ,
a
b Ta
где a – кандидат в термины, |a| — длина словосочетания, выраженная в
количестве слов, freq(a) – частота кандидата в термины, T a – множество
словосочетаний, которые содержат данный термин, P(T a) – количество
словосочетаний с элементом а. Вес термина зависит от частоты его
встречаемости в тексте и от его длины (чем эти показатели больше, тем
больше вес термина). Если термин входит в большое число словосочетаний,
то его вес резко падает. [Браславский, Соколов 2008]
В работе [Браславский, Соколов 2008] показывается, что данная мера
дает достаточно высокие результаты.
4. freq
44
Данный подход является одним из самых простых статистических
подходов. Словосочетания упорядочиваются по частоте совместной
встречаемости слов. При этом не берется во внимание частота встречаемости
слов по отдельности. В связи с этим, эта мера дает большое количество
«шума» в виде предлогов и союзов, которые часто встречаются в текстах (в
течение, так как).
5. k-factor
Этот критерий был предложен в работе [Baroni, Bernardini 2004] и
используется в системе BootCat, служащей для составления тематического
корпуса текстов из Интернета
Изначально программа имеет небольшой словарь исходных терминов. С
помощью запросов, программа выделяет тексты, содержащие содержащих
исходные термины. В этих текстах выделяются простые термины с помощью
сравнения частот слов в этих документах и в общелитературных текстах. Эти
слова пополняют словарь и используются в дальнейшем для формирования
запросов. «Метод можно рассматривать как упрощенный вариант метода Cvalue: если более короткий термин-кандидат встречается лишь немногим
чаще, чем более длинный термин-кандидат, в который он полностью входит,
то «основным» считается более длинный вариант. Отбором управляет
пороговое значение отношения частот терминов k=0,7». [Браславский,
Соколов 2008: 2]
Этот метод достаточно эффективен для выделения многословных
терминов. [Браславский, Соколов 2008]
Лингвистические подходы используют лингвистические данные для
выделения терминов-кандидатов. Такие подходы обычно основываются на
часто встречаемых синтаксических конструкциях (системы, основанные на
правилах (rule-based systems); используются шаблоны и регулярные
45
выражения) и базовые лингвистических структурах (выделение именных и
предложных групп), иногда на контекстные характеристики.
Существует множество систем извлечения терминов, основанные на
правилах, такие, как система DEFINDER [Klavans, Muresan 2000],
позволяющая извлекать термины из медицинских текстов, LSPL
[http://www.lspl.ru/]. – язык, предназначенный для формального описания
конструкций русского языка, система ACABIT [Daille 1994], которая
использует не только статистические данные, но и правила для извлечения
терминов. Некоторые из этих систем мы рассмотрим более подробно в
следующем разделе.
Кроме того, существуют системы, которые можно использовать для
написания собственных правил. Такие системы разрабатываются в основном
для извлечения информации, и могут так же быть использованы для
извлечения терминов.
Например, Томита-парсер компании «Яндекс». [https://tech.yandex.ru]
«Томита-парсер создан для извлечения структурированных данных из текста
на естественном языке. Вычленение фактов происходит при помощи
контекстно-свободных грамматик и словарей ключевых слов. Парсер
позволяет писать свои грамматики и добавлять словари для нужного языка».
[https://tech.yandex.ru/tomita/] С помощью парсера можно извлекать термины.
Приведем пример правила на языке Tomita:
S
->
Noun<gram="им",rt>
Noun<gram="род", gnc-agr[1]>;
Adj<gram="род",gnc-agr[1]>
Такое правило извлечет все конструкции типа область желтого пятна,
где главное слово – существительное в именительном падеже, от него зависит
именное словосочетание в родительном падеже (gnc-agr
– параметр,
обозначающий согласование в роде (g), числе (n) и падеже (c)).
46
Подобные грамматики можно писать и, например, в системе Sketch Engine [https://www.sketchengine.co.uk/].
Смешанные подходы автоматическому определению терминов является
сочетанием статистических и лингвистических методов, то есть, например,
использование шаблонов для выделения терминов и одного из
статистических критериев (или их комбинации) для фильтрации. Такие
подходы наиболее популярны на данный момент, так как они позволяют
уменьшить уровень «шума» и повысить качество автоматического извлечения
терминов. Примером смешанного подхода является системам ACABIT [Daille
1994], которая использует как статистические, так и лингвистические данные.
Подробное описание этой системы содержится в разделе 2.4.2.
7.
Системы автоматического извлечения терминологии
В этом разделе мы рассмотрим несколько систем автоматического
извлечения терминологии и проанализируем их особенности.
LSPL (Lexico-Syntactic Pattern Language)
«Язык LSPL (Lexico-Syntactic Pattern Language) предназначен для
формального описания конструкций (выражений) русского языка с целью их
представления в системах извлечения информации из текстов (Information
Extraction Systems)» [http://www.lspl.ru/]. Работа над созданием LSPL была
начата в 2007 г. в МГУ им. Ломоносова. LSPL создавался как язык описания
лексических и грамматических свойств конструкций, характерных для
русского языка. Такие конструкции выделялись на основе морфологического
и синтаксического анализа и описывались в виде лексико-синтаксических
шаблонов. Язык был создан для автоматизации некоторых задач анализа
научно-технических текстов.
В этой системе существует набор шаблонов и основанные на этих
шаблонах алгоритмы выделения терминов. Шаблон языка LSPL задает
47
последовательность слов, из которых может состоять соответствующая
конструкция и описывает условия согласования этих слов. Например, шаблон
A N <A=N> описывает словосочетания прилагательное + существительное с
согласованием по их общим морфологическим характеристикам (сахарный
диабет, первичная глаукома). Для элементов могут задаваться не только
части речи, но и их морфологические характеристики. В шаблоне так же
может определяться повторяемость элементов, их
обязательность/необязательность, альтернативные элементы. Шаблоны
подразделяются на несколько групп. Ниже приводится таблица, содержащая
группы шаблонов, их примеры и примеры употребления.
№ Группы шаблонов Примеры шаблонов
Примеры терминов и их употреблений
1 Морфо-
вимп
синтаксические
образцы терминов
N1 (N1)
A1 N1 <A1=N1> (N1)
опорная точка
N1 N2<c=gen> (N1)
период упреждения
N1
A2
N 2 < c = g e n > технология двойной накачки
<A2=N2> (N1)
2 Контексты
Defin<c=acc>
"будем"Такие операции будем
определения
"называть" Term<c=ins>#Term<c= называть понятийными операциями
авторских
nom>
терминов
"под" Term<c=ins>"понимается" Под прерываниемпонимается сигнал…
Defin<c=nom> #Term<c=nom>
3 Контексты
введения
синонимов
терминов
Term1 "("Term2")"
взаимодействующих
<Term1.c=Term2.c>
компонентов(подсистем)
#Term1<c=nom>, Term2<c=nom>
Term1 ","
разрядностью, илидлиной слова
"или" Term2<Term1.c=Term2.c>
#Term1<c=nom>,
Term2<c=nom>
48
4 Словарные
термины
N1<вектор>
вектор, вектор
[N2<намагниченности,c=gen>|
намагниченности,вектор
N2<состояния,c=gen>|"Умова"]
состояния,вектор Умова
A1<битовый> {N2<массив>| битовый массив,битовый образ
N2<образ>}<1,1> <A1=N2>
5 Лексикосинтаксические
варианты
N1 N2<c=gen>
вывод данных – вывод(N1),
#N1,
вывод информации (N1N4)
N1 N4<c=gen> <Syn(N2,N4)>,
шина адреса – шина(N1),
N3 N2<c=gen> <Syn(N1,N3)>,
адресная шина (A1 N1)
A1 N1 <A1.st=N2.st>
6 Соединения
терминов
"как" A1 " , "
" т а к "как тонкий, так и толстый клиент –
"и" A2 N1<A1=A2=N1>
тонкий клиент, толстый клиент
#A1 N1, A2 N1
N1 N2<c=gen> "," N3<c=gen> шинам адреса, данных и
{"и"|"или"} N4<c=gen>
#N1 N2<c=gen>,N1 N3<c=gen>,
управления –
шина адреса, шина данных,
шина
управления
N1 N4<c=gen>
A1 A2 N1 <A1=A2=N1>
#A1 N1, A2 N1
N1 A2 N2<c=gen> <A2=N2>
#N1 N2, A2 N2
удаленный банковский
терминал – банковский
терминал, удаленный терминал
разрядность внутренних регистров –
разрядность регистра,
внутренний
регистр
Таблица 1. Лексико-синтаксические шаблоны [Ефремова, Большакова, Носков,
Антонов 2010]
Описываемое исследование было проведено на основании корпуса
текстов по физике и информатике. Для каждого из этих шаблонов разработан
алгоритм распознавания соответствующего терминоупотребления в тексте.
Дополнительные алгоритмы отвечают за вычисление частоты употребления
49
термина в тексте. С большой вероятностью среди так называемых терминовкандидатов могут оказаться общенаучные термины, которые не должны
выделяться. Если необходимо найти варианты термина, на вход программе
поступают не только текст и набор шаблонов, но и термины, для которых
надо найти варианты и список слов и словосочетаний, среди которых нужно
искать варианты. После тестирования работы программы на корпусе текстов
результаты сравнивались с результатами работы экспертов, оценивались
точность и полнота. Результаты представлены в таблице.
Процедура
Выделение терминов
Выделение
терминоупотреблений
Полнота
Точность
Полнота
Точность
Термины-кандидаты
58%
24%
54%
25%
Авторские термины
67%
89%
70%
97%
Синонимы
57%
22%
–
–
Словарные термины
85%
94%
87%
95%
Соединения
71%
30%
–
–
Таблица 2. Полнота и точность процедур [Ефремова, Большакова, Носков, Антонов 2010]
Основными причинами ошибок в выделении терминов авторы называют
1. отсутствие шаблона для конкретного терминоупотребления
2. нераспознавание термина внутри соединения
3. нехватка лингвистической информации.
Авторы приходят к выводу, что полноту можно повысить, увеличивая
количество шаблонов, но от этого будет страдать точность. Кроме того, была
разработана схема сочетания нескольких процедур для того, чтобы одна
процедура могла учитывать результаты работы другой. Эти комбинации дали
значительные результаты: для оценки использовалась F-мера, ее прирост при
использовании комбинации алгоритмов для выделения терминов составил
50
19,8%, для выделения терминоупотреблений 15,5%. [Ефремова, Большакова,
Носков, Антонов 2010]
Система ANA (Automatic Natural Acquisition)
Система была разработана в 1994 г. [Enguehard, Pantéra 1995]
Основные особенности системы ANA:
1. система анализирует как письменные, так и устные тексты,
2. при анализе текстов не используются лингвистические данные.
Поскольку система должна работать как с письменными, так и с
устными текстами, она не может использовать синтаксические структуры, так
как они часто видоизменяются в устной речи. Кроме того, в устной речи чаще
встречаются неологизмы. Помимо этого, в системе используется
количественный критерий: слова, состоящие из менее 3-х букв, не считаются
терминами. Авторы используют функцию взаимной информации (mutual information) как меру связи между словами. Чтобы избежать использования
лингвистических характеристик, была разработана концепция «гибкого
распознавания строк», которая порождает математическую функцию для
определения степени сходства между словами. Система включает в себя две
части: модуль сходства и модуль распознавания. Первый модуль делит слова
на три группы:
1. служебные слова
2. слова, определяющие семантические отношения
3. термины (ядро знаний о конкретной области).
Второй модуль отвечает за извлечение новых терминов на основании
уже имеющихся. Из связи между выделенными словами автоматически
51
создается семантическая сеть. Эта часть основана на совместной
встречаемости слов, возможны три варианта сочетания слов:
выражение: сочетание высокочастотных терминов,
кандидат: сочетание высокочастотного термина и другого слова,
расширение: частое появление термина в сочетании без служебных
слов.
Система рекурсивно ищет элементы в этих трех вариантах сочетания до
тех пор, пока не находит новый термин. Авторы протестировали систему на
корпусе (25 000 слов), 29 терминов. Процент ошибки: 25%. [Enguehard,
Pantéra 1995] [Cabré et al. 2001]
ACABIT
Система была разработана в 1994 г. [Daille 1994] В основе этой системы
лежит сочетание лингвистических и статистических методов. На вход
программе должен подаваться морфологически размеченный корпус. На
основании синтаксических шаблонов создается список терминов-кандидатов,
который впоследствии фильтруется статическими методами.
Программа создана для выделения терминов французского языка. Для
французского языка важнейшим шаблоном являются N1 PREP (DET) N2 и N
ADJ PREP à (DET) N2 (Сущим Предл (Определитель) Сущрод и Сущ Прил Предл
à (Определитель) Сущрод ). К этим шаблонам применяются статистические
алгоритмы. Для выделения сочетаний, соответствующих шаблонам,
используется алгоритм конечных состояний. Алгоритм конечных состояний
представляется подмножеством грамматических тэгов, к которым
добавляются леммы, словоформы и знаки пунктуации. Таким образом, этот
алгоритм рассматривается как лингвистический фильтр, который выбирает
52
определенные шаблоны, устанавливая при этом частоту их встречаемости и
выделяя их различные вариации.
Корпус анализируется статистически с помощью множества
статистических мер, которые можно разделить на следующие четыре группы:
меры частоты, критерии ассоциации, критерии сходства и меры расстояния. В
первую очередь рассматриваются пары лемм, входящие в один шаблон как
две переменные, для которых подсчитывается степень зависимости. Данные
представляются в таблице сопряженности.
L2
Ln
L1
A
b
Lm
C
d
,где a = L1L2
b = L1 + L2 встречаемость (n ≠ 2),
c = Lm + L2 встречаемость (m ≠ 1),
d = Lm + Ln встречаемость (m ≠ 1, n ≠ 2)
Для установления степени независимости переменных в таблице
применяются 18 мер, среди которых, например, частота и функция
правдоподобия.
Система показывает достаточно хорошие результаты. При этом
появляется некоторое количество «шума», связанного с ошибками в
морфологической разметке или с наличием сочетаний, не являющихся
устойчивыми, но встречающимися достаточно часто. [Cabré et al. 2001]
Система FASTR
Система разработана в 1996 г. [Jacquemin 1996] Она направлена на
извлечение вариантов терминов по имеющемуся списку терминов (может
использоваться и для извлечения терминологии). Эти термины могут
53
содержаться в базе данных или поставляться специализированной
программой.
Первый этап работы алгоритма – анализ списка терминов и составление
списка правил. Парсер отвечает за применение этих правил. Варианты
терминов извлекаются с помощью метаграмматики, которая генерируется
динамически. Следующим этапом из нескольких метаправил генерируются
новые правила, чтобы описать все возможные варианты каждого термина в
списке.
Метаграмматика изначально включает 73 правила образования
вариантов терминов: 25 правил соединения, 31 правило трансформации и 17
правил вставки. Каждое из этих правил связано со своей частью
синтаксического анализатора, что увеличивает скорость работы системы.
Пример правила:
N1
N2 N3
<N1 lexicalization>= ‘N2’
<N2 lemma>=serum
<N3 lemma>=albumin
Lexicalization – действие, активирующее работу правила. Таким образом,
правило для слова «serum» запускается с помощью предыдущего правила,
когда это слово встречается в предложении.
Каждое правило представляет конкретную структуру и конкретный
шаблон. В метаправиле могут содержаться определенные ограничения.
Существует несколько типов правил:
1.
правила соединения (serum albumin serum and egg albu-
2.
правила трансформации (control center center for control)
min)
54
3.
правила вставки (meduallary carcinoma meduallary thy-
roid carcinoma).
Процесс выделения терминов длится до тех пор, пока не выделятся все
возможные термины. Для английского языка метаграмматика содержит 73
правила: 25 правил соединения, 17 вставки и 31 правило замены.
Автор описывает эксперимент, проведенный на корпусе медицинских
текстов (1,5 млн. слов) и списке из 70 000 терминов. После 15 итераций было
выделено 17 000 терминов, из которых 5 000 были новые. Но, когда список
изначальных терминов был уменьшен до 6 000, программа находит всего
3 800 новых терминов. Данные, зависимые от выбранного языка хранятся в
отдельном текстовом файле, что позволяет использовать программу для
разных языков. FASTR была применена для японского, английского и
испанского языков.
HEID
Эта система была разработана в 1996 году У. Хайдом. [Heid et al. 1996]
Алгоритм включает в себя два этапа: лингвистический анализ и
инструмент выделения терминов. Лингвистический анализ включает в себя
несколько частей:
1.
токенизацию, в ходе которой определяются границы слов и
предложений,
2.
морфосинтаксический анализ,
3.
частеречная разметка,
4.
лемматизация.
Программа выделения терминов состоит из нескольких частей: модуль
запросов к корпусу (CQP), модуль языка запросов и модуль выделения
55
ключевых слов из контекста (KWIC). Язык запросов имеет сложную
структуру, для разных типов терминов существуют разные запросы.
Например, для терминов, состоящих из одного слова, запросы формируются
из морфем или типичных компонентов, образующих дериваты.
Э т о т и н с т р у м е н т б ы л п р и м е н е н к ко р п у с у т е к с т о в п о
автомобилестроению на немецком языке (35 000 словоупотреблений). Корпус
был проанализирован вручную перед началом автоматического анализа.
Результаты:
для однословных терминов – 90% терминов найдено, 10%
не найдено.
для многословных терминов результаты нельзя назвать
удовлетворительными, слишком высокий уровень «шума» в связи с
тем, что частеречные шаблоны не достаточно ограничивают контекст.
Использование тематических моделей для выделения терминов
Использование тематических моделей для автоматического выделения
терминов направлено в первую очередь на повышение точности выделения
терминологии. Был проведен эксперимент, результаты которого представлены
в статье [Нокель, Лукашевич 2013] Так как большинство терминов относятся
к какой-либо подтеме предметной области, авторы предлагают использовать
тематические модели для определения подтем текста и тем самым улучшить
качество автоматического извлечения терминов.
Статистические тематические модели коллекции текстов с помощью
статистических методов устанавливают принадлежности текста из коллекции
к определенной подтеме и выделяют список слов, образующих каждую
подтему. Авторы приводят примеры подтем для русских текстов по
банковской тематике.
56
подтема 1: банкнота, офшорный, счетчик, купюра, подделка и др.
подтема 2: обучение, студент, вуз, учебный, семинар и др.
подтема 3: Германия, Франция, евро, европейский, Польша и др.
Обычно в тематический моделях используется модель мешка слов, при
которой текст представляется как набор слов, в нем содержащихся. Для этого
исследования так же была проведена предобработка: из текста были выбраны
прилагательные и существительные, так как ими покрывается основная часть
терминов.
В ходе эксперимента авторы сначала выбрали наилучшую тематическую
модель. Были проанализированы тематические модели, основанные на
методах кластеризации текстов К-средних, иерархическая агломеративная
кластеризация, неотрицательная матричная факторизация (NMF),
вероятностные тематические модели (PLSI, LDA). Среди всех этих методов
лучший результат был получен при использовании NMF.
Далее авторами было проведено сравнение результатов работы
алгоритмов извлечения терминологии без тематических признаков и с
тематическими признаками.
Для коллекции русских текстов точность возросла с 54.6% до 56.3%, для
коллекции английских текстов с 50.4% до 51.4%. [Нокель, Лукашевич 2013]
Результаты работы системы по сравнению с результатами других систем
можно назвать средними. Это может быть связано с тем, что тематические
слова не всегда однозначно соотносятся с терминами, а многие термины,
наоборот, не являются тематическими слова. В связи с этим падает точность
и полнота работы системы.
57
3. Использование деривационных преобразований терминоэлементов
для автоматического поиска терминов
Целью данной работы было создание программы автоматического
поиска терминов на основании деривационных преобразований
терминоэлементов. В этой главе мы опишем проведенный эксперимент.
Программа нацелена на выделение однословных узко специальных терминов. В рамки нашего исследования не будет входить поиск терминов-аббревиатур и многословных терминов.
В связи с этим вне нашего анализа
останутся такие характерные для медицины типы терминов, как двухсловные
термины образованные с использованием имен собственных (болезнь Гиппеля
– Линдау) или трехсловные термины с главным словом существительным
(область желтого пятна). Так же за рамками нашего исследования
останутся латинские термины, употребляющиеся без перевода и
записывающиеся латиницей. Такие термины в основном используются на
практике (в историях болезни, справках), но достаточно редко используются
в медицинской литературе.
Наш эксперимент состоит из двух основных частей: предварительная
подготовка, в рамках которой были выделены характерные для
офтальмологии деривационные модели и словообразовательные форманты и
собственно эксперимент.
Для проведения исследования был создан корпус текстов на материале
статей по офтальмологии из журнала «Офтальмологические ведомости» за
2008, 2009, 2010, 2011 и 2012 годы (см. Список использованных материалов)
и статей из журнала «Современная оптометрия» за 2008 и журналов
«Эффективная фармакотерапия. Эндокринология», «Эндокринология:
новости, мнения, обучение», «ФАРМАТЕКА», «Consilium Medicum» за 2012
и 2014 годы. Часть этого корпуса – подкорпус, содержащий 70 000
словоупотреблений – использовалась для определения начального списка
58
аффиксов и опорных основ (которые впоследствии использовались для
выделения терминоэлементов). Вторая часть – собственно тестовый
подкорпус на 30 000 словоупотреблений.
Оценка результатов производилась двумя экспертами: врачомофтальмологом и врачом-эндокринологом, хорошо знакомым с выбранной
узкой областью медицины. Работа экспертов состояла из двух частей: сначала
проверяли термины, выделенные при предварительной обработке текста,
после этого проверялись результаты работы программы.
Наша программа состоит их двух частей: на первом этапе на основе
списков аффиксов и опорных основ выделяются терминоэлементы; вторым
эт ап ом явл яет ся выделение терм инов на о снове выделенных
терминоэлементов. Далее мы подробно опишем нашу программу и алгоритм
ее работы.
3.1.Предварительная подготовка: анализ текста, выделение аффиксов
и опорных основ
В ходе предварительной подготовки было сделано следующее:
1) морфологический анализ;
6) проверка слов на предмет отсутствия анализа;
7) для непроанализированных слов были выделены основы и аффиксы;
8) были составлены списки опорных основ и основных деривационных
моделей.
Для анализа текста использовался морфологический анализатор Mystem
компании «Яндекс». [https://tech.yandex.ru/mystem/] Эта программа работает
на основе словаря, но может строить гипотетические разборы новых слов.
Корпус был проанализирован с помощью Mystem, в отдельный файл были
записаны слова, которые программа посчитала новыми и для которых
59
сформировала гипотетический анализ. Пример гипотетического анализа,
выполненного программой Mystem:
хориоретинопатии{хориоретинопатия?}
нейросенсорного{нейросенсорный?}
хориоретинопатией{хориоретинопатия?}
хориоретинопатию{хориоретинопатия?}
ретинопатия{ретинопатия?}
хориоретинопатии{хориоретинопатия?}
хориоретинопатии{хориоретинопатия?}
биомикроскопия{биомикроскопия?}
диоптрийности{диоптрийность?}
хориоретинопатия{хориоретинопатия?}
хориоретинопатия{хориоретинопатия?}
хориоретинопатии{хориоретинопатия?}
неоваскуляризации{неоваскуляризация?}
биомикроскопии{биомикроскопия?}
эпителиопатией{эпителиопатия?}
субконъюнктивальный{субконъюнктивальный?}
рецидивирующем{рецидивирующий?|рецидивировать?}
хориоретинопатии{хориоретинопатия?}
нелеченными{нелечивать?}
На основе такого анализа был создан список необработанных слов
(список необработанных слов см. Приложение 1). В список входят более 600
слов. Для каждого были построены деривационные модели. Списки
д е р и ва ц и о н н ы х м од е л е й б ы л и от с о рт и р о ва н ы п о ч а с т и р еч и
мотивированного слова. После этого был создан список основных (наиболее
частотных) моделей и составлен список опорных основ, списки суффиксов и
префиксов. Пример наиболее частотных деривационных моделей для нашего
корпуса:
1. суффиксация
60
глаголы
N+ирова
существительные
Adj+ость
N+ст
прилагательные
N+тивн
V+ан/анн
N+альн
2. префиксация (образование существительных)
авто+N
ауто+N
био+N
гипер+N
гипо+N
де+N
дис+N
ин+N
интра+N
микро+N
не+N
нео+N
пан+N
поли+N
пре+N
ре+N
суб+N
3. опорные основы
61
вазо витрео нейро хорио инсулино офтальмо кислород -патия
-логия
-скопия
-стомия.
Списки опорных основ, суффиксов и префиксов используются в программе
автоматического извлечения терминов.
3.2.Программа по автоматическому извлечению терминов
Как было сказано выше, наша программа состоит из двух частей. На
первом этапе работы программы производится поиск терминоэлементов в
тексте. На основе списков опорных основ, префиксов и суффиксов,
сформированных на этапе предварительной подготовки, программа выделяет
терминоэлементы.
При разработке алгоритма автоматического извлечения терминов мы
исходили из того, что в рамках одного текста часто встречаются целые
деривационные цепочки терминов. Можно предположить, что, если один и
тот же терминоэлемент встречается в нескольких соседних предложениях
текста, значит, его значение имеет отношение к тематике текста и,
соответственно, к терминологической системе этой области знания. Мы часто
можем встретить подобные деривационные ряды в научной литературе,
например, макула, макулярный, макулодистрофия.
62
На стадии предварительной подготовки мы выделили ряд
терминоэлементов, характерных для текстов по выбранной нами тематике.
Большинство этих терминоэлементов общенаучного или общелитературного
характера. В ходе эксперимента будет осуществляться поиск слов,
содержащих эти терминоэлементы. В найденных словах терминоэлементы из
списка будут отрезаться и, как мы предполагаем, оставшуюся часть тоже
можно считать терминоэлементом. Далее осуществляется поиск оставшихся
терминоэлементов в ближайших нескольких предложениях, и, если один и
тот же терминоэлемент встречается пределах нескольких предложений более
одного раза, слова, соответствующие ему, выделяются.
Опишем алгоритм работы этой части программы:
1. На вход программе подается текст в формате .txt, размеченный с
помощью морфологического анализатора Mystem с сохранением
предложений и три списка в формате .txt: список опорных основ,
список префиксов и список суффиксов (списки опорных основ,
суффиксов и префиксов см. Приложение 2). Для того чтобы сохранить
деление на предложения в тексте, используется специальная опция
морфоанализатора, позволяющая сохранять исходный текст при
выводе.
2. Программа осуществляет поиск элементов из списков по документу.
Сначала осуществляется поиск префиксов, затем суффиксов, после
этого опорных основ.
3. Когда программа находит соответствующий элемент списка, она
удаляет его из данного слова.
4. В результате получается список терминоэлементов.
Рассмотрим пример работы этой части программы.
63
На вход поступает фрагмент текста, проанализированного с помощью
морфологического анализатора. Анализ производится для того, чтобы
привести все слова к начальной форме, таким образом, программа сможет
распознать окончания (по списку) и отрезать их. После того, как программа
отрежет окончания, начнется стадия выделения терминоэлементов.
На вход программе поступает следующий текст:
Возрастная{возрастной}макулярная{макулярный?}
дегенерация{дегенерация}
это{это} хроническое{хронический} прогрессирующее{прогрессировать}
заболевание{заболевание},
характеризующееся{характеризоваться}
поражением{поражение}
центральной{центральный}
зоны{зона}
сетчатки{сетчатка}
(области{область}
желтого{желтый}
пятна{пятно}
макулы{макула?}).
{\s}В{в}
литературе{литература}
можно{можно}
встретить{встречать}
и{и}
другие{другой}
термины{термин},
обозначающие{обозначать}
эту{этот}
патологию{патология}:
инволюционная{инволюционный}
центральная{центральный}
хориоретинальная{хориоретинальный?}
дистрофия{дистрофия},
склеротическая{склеротический} макулодистрофия{макулодистрофия?},
возрастная{возрастной}макулярная{макулярный?}дистрофия{дистрофия},
сенильная{сенильный} макулярная{макулярный?} дистрофия{дистрофия},
возрастная{возрастной}
макулопатия{макулопатия?},
связанная{связывать}
с{с}
возрастом{возраст}
макулярная{макулярный?}
дегенерация{дегенерация}.
На выходе получаем текст с выделенными в нем терминоэлементами из
списка. Поиск самих терминоэлементов происходит по словам, приведенным
к начальной форме (словам в фигурных скобках), но, чтобы сохранить
исходный текст, на выходе программа возвращает исходные слова. Итак, на
выходе программа записывает к .txt файл следующий текст:
Возра-ст-ная
макул-яр-ная
де-генерация
–
это хроническое
прогрессиру-ющ-ее заболевание, характеризу-ющ-ееся поражением
центр-альн-ой зоны сетчатки (области желтого пятна макулы).
В литературе можно встретить и другие термины, обозначающие эту
пато-лог-ию
: ин-волюционная центр-альн-ая
хориоретинальная
дистрофия, склеротическая макулодистрофия , возра-ст-ная макуляр-ная дис-трофия , сенильная макул-яр-ная дистрофия , возра-стная макуло-патия , связанная с возрастом макул-яр-ная дегенерация.
Вторая часть работы программы отвечает за выделение терминов:
64
1. Программа осуществляет поиск выделенных на первом этапе
терминоэлементов в документе.
2. Если терминоэлемент найден, то проверяется, если ли такой же
терминоэлемент в нескольких соседних предложениях текста (это
число можно настраивать; в нашей работе приведены результаты с
n=10).
3. Когда программа находит один и тот же терминоэлемент в нескольких
соседних предложениях текста она выделяет слова содержащие этот
терминоэлемент. Предполагается, что это слово является термином.
Параметр n ближайших предложений введен для того, чтобы исключить
возможность случайного попадания в список выделенных терминов слов
общелитературного языка, общенаучных терминов, общемедицинских
терминов. Изначально для нашей программы установлено n=2, но в ходе
работы над программой этот параметр был изменен несколько раз на основе
анализа текстов входящих в корпус. Результаты будут представлены ниже.
Рассмотрим работу этой части программы на примере.
На предыдущем примере было показано, какие терминоэлементы
выделила наша программа. На этом этапе на основе этих терминоэлементов
программа выделяет другие терминоэлементы и осуществляет их поиск по
документу.
Возра-ст-ная
макул-яр-ная
де-генерация
–
это хроническое
прогрессиру-ющ-ее заболевание, характеризу-ющ-ееся поражением
центр-альн-ой зоны сетчатки (области желтого пятна макулы).
В литературе можно встретить и другие термины, обознача-ющ-ие эту
пато-лог-ию
: ин-волюционная центр-альн-ая
хориоретинальная
дистрофия, склеротическая макулодистрофия , возра-ст-ная макуляр-ная дис-трофия , сенильная макул-яр-ная дис-трофия , возра-стная макуло-патия ,
связанная
с
возрастом макул-яр-ная дегенерация.
65
На примере мы видим, как происходит выделение терминоэлементов к
рамках двух соседних предложениях. Красным отмечены те термины,
которые не были выделены программой. Другими цветами отмечены
повторяющиеся терминоэлементы и, соответственно, слова, которые были
выделены в качестве терминов. Следует обратить внимание на некоторые
слова, в которых были найдены терминоэлементы из списка, но, при этом,
они не были выделены в качестве терминов, так соответствующий им
терминоэлемент встречается в рамках двух предложений только один раз
(например, пато-лог-ию).
В следующем разделе мы подробно опишем разные этапы разработки
программы и результаты ее работы на разных этапах. Кроме того, будут
проанализированы причины ошибок в работе программы и приведены идеи
по улучшению качества работы программы.
3.3.Анализ результатов эксперимента
В этом разделе будут описаны результаты проведенного эксперимента. В
ходе анализа работы программы на разных стадиях мы пришли к выводу, что
результаты зависят от того, в рамках какого фрагмента текста происходит
поиск терминов. Здесь будут представлены результаты для различных
настроек программы.
Для анализа результатов работы программы мы использовали такие
метрики, как точность и полнота.
Точность рассчитывается по формуле:
Полнота рассчитывается по формуле:
,
66
где A — количество правильно выделенных терминов; B — количество
ошибочно выделенных терминов; C — количество ошибочно невыделенных
терминов.
Результаты. Этап 1.
На первом этапе разработки программы было принято решение выделять
термины в пределах двух соседних предложений и только в пределах одного
абзаца. Как было описано выше, программа производила поиск
терминоэлементов и проверяла, есть ли такие же терминоэлементы в двух
следующих предложениях (n = 2). Если такие терминоэлементы были
найдены, она выделяла их и продолжала поиск для следующего найденного
термоэлемента.
Здесь следует снова обратиться к нашему примеру.
Возра-ст-ная
макул-яр-ная
де-генерация
–
это хроническое
прогрессиру-ющ-ее заболевание, характеризу-ющ-ееся поражением
центр-альн-ой зоны сетчатки (области желтого пятна макулы).
В литературе можно встретить и другие термины, обознача-ющ-ие эту
пато-лог-ию
: ин-волюционная центр-альн-ая
хориоретинальная
дистрофия, склеротическая макулодистрофия , возра-ст-ная макуляр-ная дис-трофия , сенильная макул-яр-ная дис-трофия , возра-стная макуло-патия ,
связанная
с
возрастом макул-яр-ная дегенерация.
Так выглядели результаты работы программы для данного отрывка,
когда поиск осуществлялся в пределах одного абзаца в двух соседних
предложениях. Мы видим, что большинство терминов не были выделены,
потому что соответствующие им терминоэлементы повторялись уже в
следующем абзаце.
Для такого варианта настройки программы результаты выглядят
неудовлетворительно.
Всего было выделено 32% терминов. Точность
составила при этом 0,91, а полнота 0,33.
В связи с получением
67
неудовлетворительных результатов на первом этапе было принято решение
изменить конфигурации программы.
Результаты. Этап 2.
На втором этапе разработки программы было принято решение удалить
из программы ограничение на поиск в пределах одного абзаца. Несмотря на
то, что чаще всего деление на абзацы связано с тема-рематическим
членением, и, возможно, могло быть достаточно удобным фильтром для
выделения какой-либо информации из общелитературных текстов, она не
подходит в качестве фильтра для выделение терминологической лексики в
связи с тем, что один и тот же узко специальный термин (и однокоренные
термины) встречается, как правило, не только в рамках одного абзаца.
Итак, результаты работы программы при удалении фильтра по абзацу с
сохранением поиска по ближайшим двум предложениям.
Для такого варианта настройки программы результаты резко изменились,
но удовлетворительными их считать нельзя.
Всего было выделено 46%
терминов. Точность составила при этом так же 0,91, а полнота 0,47.
На
следующем этапе мы снова изменили конфигурации программы для
улучшения качества ее работы.
Результаты. Этап 3.
На этом этапе было принято решение расширить поиск до n = 5. Здесь
результаты выглядят более убедительно, хотя, все еще остаются термины,
которые могли быть выделены нашим алгоритмом, но не выделяются именно
из-за фильтра в 5 ближайших предложений.
Итак, всего программой было выделено 50% терминов. Точность
составила при этом так же 0,91, а полнота выросла до 0,51.
68
Результаты. Этап 4.
На этом этапе работы программы поиск осуществлялся по ближайшим
10 предложениям. Мы получили следующие результаты: всего программой
было выделено 53% терминов. Точность составила при этом так же 0,89, а
полнота выросла до 0,54. Как мы видим, при такой конфигурации программы
упала точность извлечения терминов, это связано с тем, что вероятность
появления случайных слов (и, соотвественно, нетерминов) в пределах
большего числа предложений выше, чем для, например, n = 2.
Далее мы приводим сводную таблицу результатов для всех этапов
разработки программы.
Этап 1
Этап 2
Этап
Этап 4
3
%
P
R
32%
46%
0,91
0,91
0,33
0,47
50%
53%
0,91
0,89
0,51
0,54
Таблица 3. Результаты работы программы по автоматическому извлечению терминологии
на разных этапах разработки
Как видно из таблицы от первого к последнему этапу результаты работы
программы значительно улучшились. Но, несмотря на это, остается ряд
терминов, которые наша программа не выделяет. Такие ошибки принято
называть ошибками первого рода или ложноположительным срабатыванием.
Далее мы рассмотрим причины возникновения ошибок.
69
Существует несколько причин ошибочной работы программы, то есть
выделения слов, не являющихся терминами:
1. Морфологическое сходство терминов и нетерминов
2. Высокая частота появления в текстах некоторых терминов других наук,
не относящихся к медицинской терминологии.
Рассмотрим эти причины. Под морфологическим сходством
подразумевается то, что, как уже было упомянуто выше, термины образуются
по тем же правилам и, достаточно часто, с использованием тех же
словообразовательных элементов, что и слова общелитературного языка. В
связи с этим в структуре термина часто встречаются аффиксы, характерные
так же и для общелитературного языка. Помимо этого, проблема возникает и
при разграничении узко специальной терминологии и общенаучной
терминологии, терминологии разных наук, поскольку часть деривационных
формантов используются во многих областях знания.
Исправить такие ошибки работы программы можно более детальной
проработкой списка аффиксов, и, возможно, усовершенствованием
инструмента выделения терминоэлементов. Например, выделять не один, а
несколько терминоэлементов в каждом слове.
Рассмотрим вторую проблему: выделение высокочастотных нетерминов
в качестве терминов. Чем шире рамки поиска мы задавали в программе, тем
больше «шума» мы получали на выходе. Эта проблема достаточно стандартна
для такого рода программ, в большинстве случаев выделяется какое-то
количество высокочастотного «шума».
Исправить такие ошибки так же
поможет более детальная проработка списков аффиксов и опорных основ
(наша программа выделяет некоторые нетермины в связи с тем, что в списке
присутствует ряд аффиксов, характерных для общелитературного языка).
70
Кроме того, возможно введение статистических метрик для фильтрации
терминов-кандидатов.
Гораздо более серьезной проблемой по сравнению с ошибочным
выделением нетерминов является невыделение терминов. Такие ошибки
обычно называют ошибками второго рода или пропуском события
(ложноотрицательным срабатыванием). Анализируя таблицу с результатами
работы программы, можно заметить, что показатель полноты не достаточно
высокий для всех этапов разработки программы, особенно, для этапа 1 и
этапа 2.
Рассмотрим две основные причины невыделения некоторых терминов.
1. Отсутствие аффиксов и опорных основ в списке для выделения
незаимствованных терминов
2. Невыделение многословных терминов и, как следствие, невыделение
некоторых однословных терминов, являющихся производными от этих
терминов или сокращениями этих терминов (например, кровеносные
сосуды часто называют просто сосудами).
Первая проблема очень важна, потому что достаточное количество
незаимствованных терминов типа сетчатка не выделяются нашей
программой. Для устранения этих ошибок нужно разработать инструмент
анализа незаимствованных слов и сделать отдельный список аффиксов и
опорных основ.
Единственным логичным способом решения второй проблемы является
разработка инструмента выделения многословных терминов и выделения на
их основе однословных терминов. Мы планируем разработку такого
инструмента в будущем.
71
Заключение
В ходе нашей работы был проведен анализ основных понятий
словообразования, рассмотрены различные определения понятия «термин»,
составлен список основных характеристик термина и описаны особенности
медицинской терминологии.
Были выполнены поставленные перед нами цели и задачи: результатом
нашей работы стала программа по автоматическому извлечению
однословных терминов из медицинских текстов.
При создания программы по автоматическому извлечению терминологии
были предприняты следующие шаги: был создан корпус медицинских
текстов по офтальмологической тематике, который впоследствии был разбит
на два подкорпуса (тренировочный и тестовый подкорпусы); для обоих
подкорпусов был проведен автоматический морфологический анализ с
помощью морфологического анализатора; на основе проведенного
морфологического анализа слов тренировочного подкорпуса были созданы
списки префиксов, опорных основ и аффиксов; с помощью этих списков в
дальнейшем проводило сь собственно извлечение медицинской
терминологии.
В ходе реализации алгоритма автоматического извлечения терминов мы
столкнулись с рядом сложностей, некоторые из которых удалось решить в
ходе работы, другие планируется решить в дальнейшем. Одной из проблем,
которую нам удалось решить, была проблема лемматизации (приведения слов
текста к начальной форме) для того, чтобы можно было удалить окончание и
работать только с основой слова (это касается прилагательных). Проблема
была решена применением специальной опции морфологического
анализатора, позволяющей приводить в скобках лемму или гипотетическую
лемму. Таким образом, поиск производился не по словоформам из текста, а
по соответствующим леммам.
72
Как уже было упомянуто ранее, актуальность нашей работы
обуславливается тем, то на данный момент существует потребность в
создании системы по автоматическому извлечению терминологии из
медицинских текстов. Появление такого инструмента способствовало бы
дальнейшему развитию методов по созданию баз данных по медицинской
тематике, автоматизированному составлению медицинских словарей и
энциклопедий, способствовало бы улучшению качества поиска по
медицинским текстам, и, как следствие, позволило бы усовершенствовать
инструменты для автоматического заполнения медицинской документации и
прочих структурированных форм по данной тематике.
В нашей работе была представлена реализация алгоритма выделения
однословных терминов. В дальнейшем планируется расширить и
модифицировать созданную нами программу для извлечения многословных
терминов.
73
Список литературы
1. Cabré Castellví M. Teresa, Rosa Estopà Bagot, Jordi Vivaldi Palatresi Automatic term detection: a review of current systems
2. Enguehard, C., Pantéra, L., Automatic Natural Acquisition of a Terminology //
Journal of Quantitative Linguistics, vol.2, n°1, p.27-32, 1995.
3. Heid U., Jauss S., Krueger K., Hohmann A. Term extraction with standard
tools for corpus exploration. Experience from German 1996 // Terminology
and Knowledge Engineering, 139-150. Berlin: Indeks Verlag
4. Jacquemin C. FASTR: A unification based front-end to automatic indexing
1994
5. Klavans, Muresan DEFINDER: Rule-based Methods for the Extraction of
Medical Terminology and their Associated Definitions from On-line Text 2000
6. Sanja S. Comparative Analysis of Automatic Term and Collocation Extraction.
2009
7. Seljan S.; Gašpar A. First Steps in Term and Collocation Extraction from English-Croatian Corpus // Proceedings of 8th International Conference on Terminology and Artificial Intelligence, Toulouse, France, 2009
8. Арнольд И. В. Лексикология современного английского языка. М.:
Высшая школа, 1986.
9. Ахманова О. С. Терминология лингвистическая // Лингвистический
энциклопедический словарь.
10.Ахманова, О. С. Словарь лингвистических терминов. М.: Сов.
Энциклопедия, 1966.
11.Браславский П.И., Соколов Е.А. Cравнение пяти методов извлечения
терминов произвольной длины // По материалам ежегодной
Международной конференции «Диалог», 2008
12.Винокур Г. О. О некоторых явлениях словообразования в русской
технической терминологии. // Тр. Моск. ин-та истории, философии и
литературы. Филологический ф-т. Т. 5. М., 1939.
75
13.Винокур Г.О. Заметки по русскому словообразованию // Избранные
работы по русскому языку. М., 1959
14.Герд A. C. Формирование терминологической структуры русского
биологического текста. Л.: Изд-во ЛГУ, 1981. 112 с.
15.Герд А. С. Введение в изучение ЯСЦ, 2011
16.Герд А. С. Формирование терминологической структуры русского
биологического текста 1981
17.Головин Б. Н Лингвистические основы учения о терминах. М.: Высшая
школа, 1987. 103с.
18.Головин Б. Н., Кобрин Р. Ю. Лингвистические основы учения о терминах.
М.: Высшая школа, 1987.
19.Гринев C. B. Введение в терминоведение. М.: Московский лицей, 1993.
309 с.
20.Даниленко В. П. Лингвистический аспект стандартизации терминологии.
М.: Наука, 1993.
21.Даниленко В. П. Русская терминология: опыт лингвистического
описания. М.: Наука, 1977
22.Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю.
Терминологический анализ текста на основе лексико-синтаксических
шаблонов // Компьютерная лингвистика и интеллектуальные технологии:
По материалам ежегодной Международной конференции «Диалог» М.:
Изд-во РГГУ, 2010, с. 124-129.
23.Евгеньева А. П. Словарь русского языка: В 4-х т. — М.: Русский язык,
1981—1984
24.Ефремова Т.Ф. Новый толково-словообразовательный словарь русского
языка. М., 2000.
25.Захаров В.П., Хохлова М.В. Автоматическое извлечение терминов из
специальных текстов с использованием дистрибутивно-статистического
76
метода как инструмент создания тезаурусов // Структурная и прикладная
лингвистика. Выпуск 9. СПб, 2012 . С. 222-233.
26.Земская Е. А. Активные процессы современного словопроизводства //
Русский язык конца XX столетия (1985—1995). — М.: Языки русской
культуры, 1996. — С. 90-141.
27.Земская Е.А., Кубрякова Е.С. Проблемы словообразования на
современном этапе // Вопросы языкознания, 1978, № 6.
28.Земская.Е. А. Современный русский язык. Словообразование, М., 1973
29.Канделаки Т. Л. Значения терминов и системы значений научнотехнических терминологий // Проблемы языка науки и техники.
Логиче ские, лингвистиче ские и историко-научные аспекты
терминологии. — Москва: Наука, 1970
30.Кияк Т. Р. Лингвистические аспекты терминоведения. Киев: УМКВО,
1989. 103 с.
31.Кубрякова Е.С., Деривация, транспозиция, конверсия // Вопросы
языкознания, 1974, № 5.
32.Кубрякова Е.С., Теория номинации и словообразование. Монография.
Изд. 3-е. – М., 2009.
33.Кубрякова Е.С., Типы языковых значений. Семантика производного слова,
М., 1981.
34.Курилович Е. Очерки по лингвистике. М., 1962.
35.Лейчик В. M. Применение системного подхода для анализа
терминосистем // Терминоведение. № 1–2, 1993. М.: Московский лицей,
1993. С. 23–26.
36.Лейчик В. М. Терминоведение: предмет, методы, структура. — М.,
КомКнига, 2006
37.Лейчик В.М. Особенности терминологии общественных наук и сферы ее
использования // Язык и стиль научного изложения. Лингвометодические
исследования. М.: Наука, 1983. - С. 70-88.
77
38.Лейчик В.М., Шелов С.Д. Лингвистические проблемы терминологии и
научно-технический перевод. Вып.18, ч.2. — М., 1991. — 78 с.
39.Лотте Д. С. Вопросы заимствования и упорядочения иноязычных
терминов и терминоэлементов. — М., 1982.
40.Лотте Д. С. Некоторые принципиальные вопросы отбора и построения
научно-технических терминов. М.; Л., 1941.
41.Лотте Д. С. Основы построения научно-технической терминологии. М.:
АН СССР, 1961
42.Марусенко М.А. Об основном понятии терминоведения научнотехническом термине // Научно-техническая информация. Сер.2. 1981. С.
1-6.
43.Покровский В.И. Энциклопедический словарь медицинских терминов
M.: Медицина, 2005. — 1592 с.
44.Реформатский A. A. О сопоставительном методе // Русский язык в
национальной школе №5. М., 1962
45.Реформатский А. А. Введение в языковедение. М.: Аспект-Пресс, 1997.
46.Суперанская A. B. Общая терминология: вопросы теории. М.: Наука,
1989. 246 с.
47.Суперанская А. В., Подольская Н. В., Васильева Н. В. Общая
терминология. Вопросы теории. М.: Наука, 2012
48.Теньер Л., Основы структурного синтаксиса, пер. с франц., М., 1988
49.Шведова Н. Ю. (гл. ред.), Русская грамматика. Т. 1 // М., 1980.
50.Шелов С.Д. Еще раз об определении понятия термин // Вестник
Нижегородского университета им. Н.И. Лобачевского, 2010, № 4 (2), с.
795–799.
51.Штунь А. И. Латинский язык для медиков. М.: Эксмо, 2008. - 160 с.
52.Щерба Л. В. Опыт общей теории лексикографии. Л.: Изд-во ЛГУ, 1971.
53.Ярцев В.Н. (гл. ред.), Лингвистический энциклопедический словарь., М.,
1990.
78
Приложение 1. Фрагмент списка необработанных программой Mystem
слов
абиотрофию{абиотрофия?}
ангиогенез{ангиогенез?}
антипролиферативные{антипролиферативный?}
биодеградации{биодеградация?}
биомикроофтальмоскопии{биомикроофтальмоскопия?}
биомикроскопией{биомикроскопия?}
вазопролиферативного{вазопролиферативный?}
вакуумэкстракция{вакуумэкстракция?}
вентрикулостомия{вентрикулостомия?}
гемангибластомы{гемангибластома?}
гематоретинального{гематоретинальный?}
гемоглобинсодержащих{гемоглобинсодержащий?}
демиелинизации{демиелинизация?}
диабетический{диабетический?}
диабетология{диабетология?}
диоптрийности{диоптрийность?}
идеопатической{идеопатический?}
иммунофлюоресценции{иммунофлюоресценция?}
катаракты{катаракт?}
кератэктомия{кератэктомия?}
кислородиндуцированной{кислородиндуцированный?|кислородиндуцировать?}
лазеркоаугляция{лазеркоаугляция?}
липоатрофией{липоатрофия?}
макулодистрофии{макулодистрофия?}
макулопатия{макулопатия?}
79
макулярный{макулярный?}
мезангия{мезангия?|мезангий?}
метаморфопсии{метаморфопсия?}
невральной{невральный?}
неинвазивность{неинвазивность?}
оптометрия{оптометрия?}
открытоугольной{открытоугольный?}
офтальмогипертензией{офтальмогипертензия?}
папиллитом{папиллит?}
псевдогипопион{псевдогипопион?}
реабсорбировать{реабсорбировать?}
реоофтальмографии{реоофтальмография?}
саркоидозе{саркоидоз?}
сенсомоторной{сенсомоторный?}
сердечнососудистые{сердечнососудистый?}
транспупиллярной{транспупиллярный?}
трансретинальное{трансретинальный?}
тробоцитов{тробоцит?}
фибринолиза{фибринолиз?}
фиброваскулярная{фиброваскулярный?}
Флуорометрические{флуорометрический?}
Хориоидальная{хориоидальный?}
хориоретинальной{хориоретинальный?}
цилиарного{цилиарный?}
цитокины{цитокин?|цитокина?}
экстравазального{экстравазальный?}
эндотелиоцитов{эндотелиоцит?}
80
Приложение 2. Список префиксов, опорных основ и суффиксов
Префиксы
Опорные основы
Суффиксы
авто
логия
ярн
ауто
патия
анн
био
скопия
иальн
гипер
стомия
ирова
гипо
метрия
ость
де
терапия
тивн
пара
продукция
ющ
дис
ст
ем
витрео
сульфат
альн
нейро
фосфат
ия
интра
излияние
н
пери
графия
ние
микро
эктомия
арн
нео
вирус
пан
цит
поли
фибрат
полу
трофия
пре
фосфо
про
липид
рео
флюор
ре
фено
суб
фарм
81
стерео
трофия
не
вид
вазо
хорио
инсулино
офтальмо
имплант
ин
антиген
кардио
кислород
иммуно
ангио
визо
лазер
много
моно
липо
вакуум
гонио
беза
гемо
вентри
82
Отзывы:
Авторизуйтесь, чтобы оставить отзыв