Автоматическое извлечение количественной информации из русскоязычного корпуса текстов

Целью нашей работы было произвести лингвистический анализ особого класса лексико-грамматических конструкций, а именно, количественных конструкций, которые характеризуют научные и научно-популярные тексты. В текстах данного типа наряду с конструкциями, включающими модификаторы «много», «мало», «значительно», часто встречаются контексты, содержащие выражение количественных показателей с указанием точных величин («находиться в 5 км от Х», «полоса шириной 30 мм» и т.д.). Достижение указанной цели требует решения ряда задач, основными из которых являются: 1) сбор и предобработка корпусов текстов, содержащих количественные конструкции, 2) автоматический анализ корпусов текстов для выявления сождержащихся в них количественных конструкций, 3) систематизация данных о русских количественных конструкциях из корпусных источников и их лингвистическая интерпретация, 4) анализ отрицательного материала (разбор нестандартных случаев и ошибочных решений анализатора). Материалом нашего исследования являются все конструкции, использующие меры длины в системе си (нм, мкм, мм, м, км). Далее, с помощью автоматизированных средств следует выделить конструкции с обозначением размера, например: «маскируемого медного цилиндра с радиусом 25 мм» или «атмосфера, толщиной 200 – 300 мкм», при этом учесть следующие элементы сущности: • количество (обозначается числовым выражением); • единицы измерения; • измеряемый предмет; • параметр, по которому измеряется предмет (например, длина). Также возможно выделение лексических модификаторов, находящихся перед числовым выражением («примерно», «вплоть до», «около», «свыше» и т.п.). Источниками лингвистических данных являются корпусы русских текстов, прежде всего веб-корпус RuTenTen.

Комплексные проблемы общественных наук
Диссертации

Вуз: Санкт-Петербургский государственный университет (СПбГУ)

ID: 587d36735f1be77c40d58f71
UUID: 18681bbd-ec0b-43ba-8500-6563f5c6a1ea
Язык: Русский
Опубликовано: больше 4 лет назад
Просмотры: 20

Харабет Якуб Константинович

Источник: Санкт-Петербургский государственный университет


0

Комментировать 0

Рецензировать 0

Скачать - 1421251 bytes


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет