ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«БЕЛГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ
ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ»
( Н И У
« Б е л Г У » )
ИНСТИТУТ ИНЖЕНЕРНЫХ ТЕХНОЛОГИЙ И ЕСТЕСТВЕННЫХ НАУК
КАФЕДРА ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ
СИСТЕМ И ТЕХНОЛОГИЙ
ИССЛЕДОВАНИЕ МЕТОДОВ РАСПОЗНАВАНИЯ ЗВУКОВ РУССКОЙ
РЕЧИ
Магистерская диссертация
обучающегося по направлению подготовки 11.04.02
Инфокоммуникационные технологии и системы связи,
магистерская программа «Системы и устройства радиотехники и связи»
очной формы обучения, группы 07001532
Нагибина Евгения Юрьевича
Научный руководитель
канд. техн. наук,
доцент кафедры
Информационнотелекоммуникационных
систем и технологий
НИУ «БелГУ» Прохоренко Е.И.
Рецензент
Ведущий инженер электросвязи
участка систем коммутации № 1
г. Белгорода Белгородского
филиала ПАО «Ростелеком»
Уманец С.В.
БЕЛГОРОД 2017
2
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
3
ГЛАВА 1 ОБЗОР МЕТОДОВ РАСПОЗНАВАНИЯ РЕЧИ
6
1.1
Основные аспекты обработки речевых сигналов
1.2
Классификация методов распознавания речи
1.3
1.4
Анализ существующих методов распознавания речи
Исследование существующих систем распознавания речи
6
10
12
16
ГЛАВА2 ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РЕЧЕВЫХ СИГНАЛОВ
ПОРОЖДЕНЫХ РАЗЛИЧНЫМИ ЗВУКАМИ РУССКОЙ РЕЧИ
19
2.1 Исследование временных характеристик речевых сигналов
19
2.2 Исследование мел-кепстральных характеристик
34
2.3 Исследование частотных (субполосных) характеристик
42
2.4 Анализ возможности применения полученных параметров в системах
распознавания
58
ЗАКЛЮЧЕНИЕ
67
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
69
3
ВВЕДЕНИЕ
Актуальность диссертационного исследования. В настоящее время
для людей речь является важнейшим средством связи. Для выполнения
эффективной передачи на большие расстояния, речь
должна быть
преобразована в непрерывный электрический сигнал, т.е. сигнал, у которого
можно отсчитать бесконечно большое число значений в заданном интервале
времени. Сегодня научные сообщества вкладывают огромные средства в
развитие новшеств и научно-исследовательские разработки для разрешения
проблемы, касающихся понимания речи и ее распознавания. Стимулом для
этого служат практические требования, которые связаны с созданием
военной системы и системы коммерческого назначения. Также усложняют
ситуацию и такие факторы, как индивидуальные особенности пользователя.
Потому что даже для четко произнесенных и аккуратно сформулированных
слов и выражений вероятность правильного распознавания может быть
невелика, и на выходе конечное распознавание получается с большим
количеством словесных ошибок, при этом устройство коррекции ошибок во
многих системах слабо отлажено. Спонтанная речь может сопровождаться
грамматическими ошибками и так называемым речевым «бардаком».
Влияние также могут оказывать наличие искажений и акустических помех,
которые имеют свойство изменяться.
На данном этапе для упрощения понимания употребления малых
многозначных слов проводится интенсивный поиск возможности решения
задачи распознавания речи, так как существующие технологии пока не
имеют достаточных возможностей для их повсеместного использования.
Распознавание речи в настоящее время нашло настоящее применение в
жизни, наверное, только в тех случаях, когда используемый словарь
сокращен
до
10
знаков,
например
в
компьютерных
системах,
предназначенных для обработки номеров и других кодов доступа,
обрабатывающих передаваемые данные по телефону. Именно поэтому
4
актуальная задача – распознавание хотя бы 20 тысяч слов естественного
языка – остается пока недостигаемой. Такие возможности пока недоступны
для обширного коммерческого использования. Но, несмотря на это,
некоторые компании пытаются применять использовать уже существующие
в данной области науки знания. Сегодня повсеместному распространению
голосового управления мешает недостаточная вычислительная мощность
процессоров и проблема наличия посторонних (внешних) шумов.
Целью
данной
магистерской
работы
является
разработка
рекомендаций по использованию существующих методов обработки речевых
данных в задачах распознавания звуков русской речи.
Для достижения поставленной цели необходимо решить следующие
задачи:
• провести
анализ
и
исследование
существующих
методов
распознавания речи;
• провести исследование временных характеристик речевых сигналов;
• провести исследование мел-кепстральных характеристик речевого
сигнала;
• провести
исследование
субполосных
характеристик
речевых
сигналов;
• провести анализ возможности применения полученных параметров в
системах распознавания;
Объектом исследования являются методы идентификации диктора по
голосу, а предметом исследования – речевые сигналы, соответствующие
звукам русской речи.
В процессе работы над научно-исследовательской работой были
использованы методы:
субполосного анализа/синтеза
цифровой обработки речевых данных
5
Личный
вклад
соискателя.
Все
изложенные
в
диссертации
результаты исследования получены либо соискателем лично, либо при его
непосредственном участии.
Публикации. По теме диссертационного исследования опубликована 1
печатная работа.
Объем и структура работы. Диссертация состоит из Введения, двух
глав и заключения. Работа изложена на 73 страницах машинописного текста,
включая 35 рисунков, 22 таблицы и список литературных источников из
наименований.
6
ГЛАВА 1 ОБЗОР МЕТОДОВ РАСПОЗНАВАНИЯ РЕЧИ
1.1 Основные аспекты обработки речевых сигналов
Речь – форма общения людей, сложившаяся в ходе материальной
преобразующей деятельности. Речь - это язык в действии. В ходе речевого
общения
происходит
непрерывное
кодирование
и
раскодирование
информации. Речь может служить как для целей регулирования личной
деятельности (внутренняя речь), так и для процессов восприятия сообщений,
предназначенных непосредственно для общения.
Основные виды речи человека:
• устная; • письменная; • диалогическая; • монологическая; • внешняя; •
внутренняя.
При устной речи люди непосредственно общаются друг с другом,
произносят различные звуки, которые относятся к тем или иным явлениям
или предметам. Наборы звуков передаются и воспринимаются на слух через
соответствующие колебания давления воздуха.
Письменная речь - речь, изложенная на бумаге или на какой-нибудь
другой поверхности: пергаменте, баннере, полотне и т. п.) с помощью
специальных графических знаков (знаков письменности). Использование П.
р. позволяет более целостно структурировать свою речь, постепенно
выстраивая и дополняя, а также исправляя ее в случае необходимости, что
способствует в конечном счете выработке и применению более сложных
синтаксических конструкций, чем это свойственно устной речи.
Диалогический тип речи может быть осуществлен при участии как
минимум двух людей. Каждая фраза человека адресована одному или
нескольким людям, а их собственные высказывания являются ответом на
реплику данного человека. Монологическая – речь, которая произнесена от
начала и до конца только одним человеком. Диалогу свойственно
прерывания речи одного человека репликами других людей. Монолог же не
7
предполагает какой-то речевой реакции и должен быть понятным сам по
себе. И диалог и монолог могут быть как, устными, так и письменными.
Внешняя речь – система письменных знаков и символов для передачи
информации, а также совокупность звуковых сигналов, используемых
человеком, процесс материализации мысли. Внешней речи могут быть
свойственны жаргон и интонация. Жаргон - стилистические особенности
(лексические,
фразеологические)
языка
узкой
социальной
или
профессиональной группы людей. Интонация - совокупность элементов речи
(мелодика, ритм, темп, интенсивность, акцентный строй, тембр и др.),
которые организуют речь фонетически и являющихся средством выражения
различных значений, их эмоции.
Распознавание речи – процесс преобразования речевого сигнала в
цифровую информацию (например, текстовые данные). Обратной задачей
является
синтез
речи.
Сейчас
можно
выделить
4
сравнительно
изолированных направления в области развития речевых технологий:
1. Распознавание речи – т.е. преобразование речевого акустического
сигнала в цепочку символов, слов. Эти системы могут быть оценены по
некоторым характеристикам. Первое, это объём словаря: малые объёмы до 20
слов, большие – тысячи и десятки тысяч. Количество дикторов: от одного до
произвольного. Стиль произнесения: от изолированных команд до слитной
речи и от чтения до спонтанной речи. Оценкой качества работы систем
распознавания речи обычно определяется надёжностью распознавания слов,
или же, другими словами, процентом ошибок.
2. Определение индивидуальности говорящего. Эти системы можно
поделить на два класса: верификация говорящего (т.е. подтверждение его
личности) и идентификация говорящего (т.е. определение его личности из
заранее ограниченного числа людей). Оба эти класса далее могут быть
разделены на тексто - зависимые и тексто - независимые.
3. Синтез речи. Практически существует два класса:
8
а) воспроизведение записанного в той или иной форме ограниченного
числа сообщений;
б) синтез речи по тексту. Синтезаторы характеризуются по следующим
параметрам: разборчивость (словесная или
слоговая), естественность
звучания, помехоустойчивость.
4.
Компрессия
речи.
Основной
(и
единственный)
оценочно-
показательный признак этих систем, это степень сжатия: от низкой (16-32
кбит/сек) до высокой (1200-2400 кбит/сек и ниже). Разборчивость сжатой
(компрессированной)
речи
и
есть
оценка
качества
работы
систем
компрессии. В некоторых приложениях очень важными параметрами
являются узнаваемость голоса говорящего и возможность определения
стрессового уровня говорящего.
Важно также дать определения понятиям квантования, дискретизации и
интерполяции.
Квантование по уровню заключается в замене непрерывного множества
значений сигнала s(t) множеством дискретных значений, а дискретизация по
времени заключается в замене непрерывного сигнала s(t) дискретным по
времени сигналом, значения которого для фиксированного момента времени
совпадают соответственно с мгновенными значениями непрерывного
сигнала. На рисунке 1.1 представлен пример квантования сигнала по времени
и по уровню, где x0(t) – исходный сигнал; x(t) – результат квантования;
Рисунок 1.1 – Квантование сигнала: а) по времени; б) по уровню
9
Некоторые критерии выбора интервала временной дискретизации
1) Частотный критерий
2) Корреляционный
Интерполяция – восстановление функции по точкам, заданным в какихто значениях.
Предварительная обработка речевого сигнала включает в себя
следующие этапы: процесс ввода речевого сигнала; выделение границы
речевого
сигнала;
цифровая
фильтрация;
нарезка
речевого
сигнала
перекрывающимися кадрами; обработка сигнала в окне; спектральное
преобразование; нормирование частотного спектра. Рассмотрим некоторые
этапы.
Процесс ввода речевого сигнала.
Ввод звука осуществляется в реальном времени через файлы формата
WAV или звуковую карту компьютера. В системах передачи информации
частота дискретизации 8кГц и квантование 16 бит являются типовыми
параметрами хранения и обработки речевой информации.
Выделение границы речевого сигнала
Для вычленения из входного сигнала участков, содержащих только
речь,
используются
следующие
характеристики
речевого
сигнала:
кратковременная энергия речевого сигнала; число нулей интенсивности
(мгновенная частота); плотность распределения значения отчетов паузы.
Цифровая фильтрация
Вместе с полезным сигналом обычно попадают различные шумы. Шум,
несомненно, оказывает отрицательное влияние на качество работы систем
распознавания речи, поэтому с ним необходимо бороться. Применение
пропускающего полосового фильтра и предварительного фильтра позволяет
снизить уровень шума в системе.
Нормирование частотного спектра.
Все вычисления производятся над числами с плавающей точкой.
Поэтому значения параметров объектов, классифицируемых с помощью
10
нейронных сетей, ограничены диапазоном [0.0, 1.0]. Для выполнения
обработки спектра нейронной сетью полученный спектр нормируется на 1.0.
Для этого каждый компонент вектора делится на его максимальный
компонент.
Основной идеей в задаче распознавания речи, является не полное
восстановление лингвистического содержания высказывания, а определение
смысла этого высказывания по так называемым ключевым словам из
относительно малого словаря. Характерными параметрами для данного
подхода являются:
– Конечный алфавит речевых сообщений.
– Распознавание высказывания, приводимое к выбору канонической
фразы, при котором коэффициент ветвления равен 200.
– База распознавания – ограниченный набор ключевых слов.
1.2 Классификация методов распознавания речи
Системы распознавания речи классифицируются:
• по размеру словаря (ограниченный набор слов, словарь большого
размера) – принцип в том, что чем больше размер словаря, который заложен
в систему распознавания, тем больше частота ошибок при распознавании
слов системой. Например, словарь из 10 цифр может быть распознан
практически безошибочно, тогда как частота ошибок при распознавании
словаря в 100000 слов может достигать 45%. С другой стороны, даже
распознавание небольшого словаря может давать большое количество
ошибок распознавания, если слова в этом словаре очень похожи друг на
друга.
• по
зависимости
от
диктора
(дикторозависимые
и
дикторонезависимые системы) - по умолчанию, дикторозависимая система
предназначена для использования одним пользователем, в то время как
11
дикторонезависимая система предназначена для работы с любым диктором.
Дикторонезависимость – труднодостижимая цель, так как при обучении
системы, она настраивается на параметры того диктора, на примере которого
обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз
больше, чем частота ошибок дикторозависимых систем.
• по типу речи (слитная или раздельная речь) - если в речи каждое
слово разделяется от другого участком тишины, то говорят, что эта речь –
раздельная. Слитная речь – это естественно произнесенные предложения.
Распознавание слитной речи намного труднее в связи с тем, что границы
отдельных слов не четко определены и их произношение сильно искажено
смазыванием произносимых звуков.
• по
назначению
(системы
диктовки,
командные
системы)
-
назначение системы определяет требуемый уровень абстракции, на котором
будет происходить распознавание произнесенной речи. В командной системе
(например, голосовой набор в сотовом телефоне) скорее всего, распознавание
слова или фразы будет происходить как распознавание единого речевого
элемента. А система диктовки текста потребует большей точности
распознавания и, скорее всего, при интерпретации произнесенной фразы
будет полагаться не только на то, что было произнесено в текущий момент,
но и на то, как оно соотносится с тем, что было произнесено до этого. Также,
в системе должен быть встроен набор грамматических правил, которым
должен удовлетворять произносимый и распознаваемый текст. Чем строже
эти правила, тем проще реализовать систему распознавания и тем
ограниченней будет набор предложений, которые она сможет распознать.
• по
используемому
алгоритму
(нейронные
сети,
скрытые
Марковские модели, динамическое программирование);
• по типу структурной единицы (фразы, слова, фонемы, дифоны,
аллофоны);
• по принципу выделения структурных единиц (распознавание по
шаблону, выделение лексических элементов) - в качестве акустической
12
модели выступает каким-либо образом сохраненный пример распознаваемой
структурной единицы (слова, команды). Вариативность распознавания такой
моделью достигается путем сохранения различных вариантов произношения
одного и того же элемента (множество дикторов много раз повторяют одну и
ту же команду). Используется, в основном, для распознавания слов как
единого целого (командные системы).
1.3 Анализ существующих методов распознавания речи
Распознавание и порождение (синтез) речи компьютером является
важной проблемой. В исследованиях важной задачей была находка
упрощенного способа общения человека с компьютером. Вопрос не решен до
сих пор, хотя в последнее время были достигнуты значительные успехи: уже
многие годы голосовые команды являются одной из возможных опций
программного обеспечения персональных компьютеров, появление функций
распознавания речи уже обычное дело в ряде текстовых процессоров,
системы распознавания речи работают там, где требуется оказание
справочных услуг и в системах безопасности.
Методы
цифровой
обработки
сигналов
обычно
осуществляют
преобразование и очистку звукового сигнала в цифровой формат данных и
другие представления, которые могут непосредственно обрабатываться
системой распознавания речи. Эти задачи включают также фильтрацию
шумовых сигналов, которые примешиваются к звуку при передаче
акустических сигналов от воспринимающих устройств (микрофонов) или по
сети. Методы же распознавания образов используют при выделении и
распознавании отдельных слов или предложений речевого потока или в
некоторых случаях для идентификации говорящего.
13
Кроме того, системы распознавания и синтеза речи затрагивают
вопросы лингвистики, в которой заложены фундаментальные концепции и
принципы распознавания речи и понимания языка.
Линейное предсказание является одним из наиболее лучших методов
анализа речевых сигналов. Этот метод эффективен при оценки параметров
основного тона, форманты и спектра. Также полезен для хранения и передачи
сокращенной речи. Важность метода объясняется высокой точностью
получаемых оценок и относительной простотой вычисления.
Основной принцип метода линейного предсказания состоит в том, что
текущий отсчет речевого сигнала можно аппроксимировать линейной
комбинацией предшествующих отсчетов. Коэффициент предсказания при
этом определяется однозначно минимизацией среднего квадрата разности
между отсчетами речевого сигнала и их предсказанными значениями (на
конечном
интервале).
Коэффициенты
предсказания
-
это
весовые
коэффициенты, используемые в линейной комбинации. Метод линейного
предсказания можно применять для сокращения объема цифрового речевого
сигнала.
Основной целью обработки речевых сигналов является получение
наиболее удобного и компактного представления содержащейся в них
информации. Точность представления определяется той информацией,
которую необходимо сохранить или выделить. Например, цифровая
обработка может применяться для выяснения, является ли данное колебание
речевым сигналом. Сходная, но несколько более сложная задача состоит в
том,
чтобы
классифицировать
колебания
на
вокализованную
речь,
невокализованную речь и паузу (шум).
Одним из наиболее известных методов анализа речи во временной
области можно назвать метод, предложенный Л.Рабинером и Р.Шафером. Он
основан на измерении кратковременного среднего значения сигнала и
кратковременной функции среднего числа переходов через нуль. Как
отмечалось выше, амплитуда речевого сигнала существенно изменяется во
14
времени. Подобные изменения амплитуды хорошо описываются с помощью
функции кратковременной энергии сигнала. В общем случае определить
функцию энергии можно как
En
x(m)w(n m)
2
m
(1.1)
Это выражение может быть переписано в виде
En
x 2 (m)h(n m)
m
,
(1.2)
где h(n) w2 (n)
Выбор импульсной характеристики h(n) или окна составляет основу
описания сигнала с помощью функции энергии.
Скрытой
Марковской
моделью
(СММ)
называется
модель,
состоящая из N состояний, в каждом из которых некоторая система может
принимать одно из M значений какого-либо параметра. Вероятности
переходов между состояниями задается матрицей вероятностей A={aij}, где
aij – вероятность перехода из i-го в j-е состояние. Вероятности выпадения
каждого из M значений параметра в каждом из N состояний задается
вектором B={bj(k)}, где bj(k) – вероятность выпадения k-го значения
параметра в j-м состоянии. Вероятность наступления начального состояния
задается вектором π={πi}, где πi – вероятность того, что в начальный момент
система окажется в i-м состоянии.
Таким образом, скрытой Марковской моделью называется тройка
λ={A,B,π}. Использование скрытых Марковских моделей для распознавания
речи основано на двух приближениях:
1) Речь может
быть разбита на фрагменты, соответствующие
состояниям в СММ, параметры речи в пределах каждого фрагмента
считаются постоянными.
2) Вероятность каждого фрагмента зависит только от текущего
состояния системы и не зависит от предыдущих состояний.
15
Для осуществления распознавания на основе скрытых моделей
Маркова необходимо построить кодовую книгу, содержащую множество
эталонных
наборов
для
характерных
признаков
речи
(например,
коэффициентов линейного предсказания, распределения энергии по частотам
и т.д.). Для этого записываются эталонные речевые фрагменты, разбиваются
на элементарные составляющие (отрезки речи, в течение которых можно
считать параметры речевого сигнала постоянными) и для каждого из них
вычисляются значения
характерных
признаков.
Одной
элементарной
составляющей будет соответствовать один набор признаков из множества
наборов признаков словаря.
Фрагмент речи разбивается на отрезки, в течение которых параметры
речи можно считать постоянными. Для каждого отрезка вычисляются
характерные признаки и подбирается запись кодовой книги с наиболее
подходящими
характеристиками.
Номера
этих
записей
и
образуют
последовательность наблюдений O={o1,o2,…oi} для модели Маркова.
Каждому слову словаря соответствует одна такая последовательность. Далее
A – матрица вероятностей переходов из одного минимального отрезка речи
(номера записи кодовой книги) в другой минимальный отрезок речи (номер
записи кодовой книги). В – вероятности выпадения в каждом состоянии
конкретного номера кодовой книги рисунок 1.2.
Рисунок 1.2 –Кодовая книга
16
1.4 Исследование существующих систем распознавания речи
В настоящее время речевое распознавание находит все новые и новые
области
применения,
начиная
от
приложений,
осуществляющих
преобразование речевой информации в текст и заканчивая бортовыми
устройствами управления автомобилем. Все системы распознавания речи
можно разделить на два класса:
1) Системы, зависимые от диктора - настраиваются на речь диктора в
процессе обучения. Для работы с другим диктором такие системы требуют
полной перенастройки.
Рисунок 1.3 – Распознавание речи
2) Системы, не зависимые от диктора - работа которых не зависит от
диктора. Такие системы не требуют предварительного обучения и способны
распознавать речь любого диктора.
Для того чтобы понимать слитную речь, необходимо было перейти к
словарям гораздо больших размеров, от нескольких десятков до сотен тысяч
слов. Методы, использовавшиеся в системах первого вида, не подходили для
решения этой задачи, так как просто невозможно создать эталоны для такого
количества слов. Все многообразие существующих систем распознавания
речи можно условно разделить на следующие группы:
1. Программные
ядра
для
аппаратных
реализаций
систем
распознавания речи.
2. Наборы
библиотек,
утилит
использующих речевое распознавание.
для
разработки
приложений,
17
3. Независимые
пользовательские
приложения,
осуществляющие
речевое управление и/или преобразование речи в текст.
4. Специализированные приложения, использующие распознавание
речи.
5. Устройства, выполняющие распознавание на аппаратном уровне.
6. Теоретические исследования и разработки.
Ниже каждая из этих групп рассмотрена более подробно.
1. Программные ядра для аппаратных реализаций
Ядро программы – набор данных и правил, по которым осуществляется
обработка
данных.
Ядро
TTS
(Text-to-Speech)
engine
предоставляет
возможность синтеза речи по тексту, а ASR (Automatic Speech Recognition)
engine – распознавания речи.
2. Наборы библиотек для разработки приложений
Siri (Speech Interpretation and Recognition Interface) – персональный
помощник и вопросно-ответная система, разработанная для iOS. Данное
приложение использует обработку естественной речи, чтобы отвечать на
вопросы и давать рекомендации.
RealSpeaker – распознаёт 11 языков. Можно голосом печатать
сообщения в социальных сетях, текстовых редакторов, word, Evernote, Skype,
twitter. Программка в триал версии бесплатная. Про версия стоит 1000 руб.
Хорошее решение. Нужен микрофон, видео камера и интернет.
3. Независимые пользовательские приложения
Dragon
NaturallySpeaking
Preferred
фирмы
Dragon
Systems
–
единственная программа, приблизившаяся к тому, чтобы соответствовать
заявленным характеристикам. В целом он очень близко подходит к
достижению заявленной безошибочности распознавания - 95%. Обладает
способностью с первого раза правильно записывать произнесенные слова.
4. Специализированные приложения
18
Распознавание речи может применяться для подразделений МВД,
МЧС, МО, служб экстренной помощи, центров обработки вызовов и для
других пользователей, в деятельности которых особое значение придается
регистрации и обработке речевой информации.
5. Устройства, выполняющие распознавание на аппаратном уровне
Для использования функций речевого распознавания в различных
устройствах, роботах, игрушках, разрабатываются аппаратные методы
решения данной проблемы.
6. Теоретические исследования и разработки
Разработкой теоретической базы в области речевых технологий
занимаются множество исследовательских групп по всему миру. В первую
очередь это такие крупные корпорации как IBM, Intel, Microsoft, AT&T. Эти
компании занимаются теорией распознавания уже не один десяток лет и
являются законодателями в этой области.
19
ГЛАВА2
ИССЛЕДОВАНИЕ
ХАРАКТЕРИСТИК
РЕЧЕВЫХ СИГНАЛОВ ПОРОЖДЕННЫЕ РАЗЛИЧНЫМИ
ЗВУКАМИ РУССКОЙ РЕЧИ
2.1 Исследование временных характеристик речевых сигналов
Речевой сигнал имеет двойственную природу – с одной стороны, это
обычный акустический сигнал, который представляет собой процесс
распространения энергии акустических колебаний в упругой среде. Как
любой акустический сигнал, он может быть представлен в виде звуковых
волн,
представляющих
собой
распространение
процессов
сжатия
и
разряжения частиц среды, формы фронтов которых зависят от свойств
источника и условий распространения. Поэтому, как и другие акустические
сигналы,
речь
характеризуется
определенным
набором
объективных
характеристик: зависимостью звукового давления от времени (временной
структурой звуковой волны), длительностью звучания, спектральным
составом, местом расположения источника в пространстве и пр.
Длительность - это продолжительность звука со свойственным ему
количеством колебаний в единицу времени. Обычно время колебания
измеряется в миллисекундах.
Различные звуки русской речи имеют различную длительность, что
связано, не только со скоростью произнесения, но и типом звука. Таким
образом, интерес представляет исследование длительностей фрагментов
речевых сигналов, порожденных различными звуками русской речи. В
рамках данной работы проведено исследование зависимости средней
длительности фрагментов речевых сигналов от типа звука русской речи.
Словесное описание вычислительного эксперимента представлено ниже.
20
Вычислительный эксперимент № 1
Цель: выявить зависимость длительности речевых сигналов (РС) от
типа звуков русской речи (РР).
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит.
Речевой материал записан в одних и тех же акустических условиях при
использовании одного и того же оборудования. Звуки РР выделены «на слух»
из слитно записанных фраз.
План
1. Загрузить речевой сигнал, соответствующий определенному звуку РР.
2. Для каждого РС определить длительность фрагмента N.
3. Для каждого типа звука РР определить минимальное значение
длительности РС Nmin.
4. Для каждого типа звука РР определить максимальное значение
длительности РС Nmax.
5. Для каждого типа звука РР определить среднее значение длительности
РС Ns.
6. Для
каждого
типа
звука
РР
определить
величину
среднеквадратического отклонения (СКО) значений длительности РС
от средней длительности РС, соответствующего данному звуку РР.
M [ X M ( X )]
2
7. Для каждого звука РР построить гистограммы частостей длительностей
РС.
8. Проанализировать полученные результаты
9. В соответствии с полученными результатами разбить все звуки РР на
несколько подгрупп.
21
Результаты эксперимента
Максимальные, минимальные, средние значения длительности, а также
значения СКО представлены в таблице 2.1. Подгруппы были сформированы
согласно средним значениям длительности. Единица измерения – м/с.
Таблица 2.1 – Значения длительности
№
№
Тип зв. РР
группы подгруппы
1
1
п
2
й
2
1
к
2
р
3
т
4
и
5
г
6
э
7
в
8
л
9
у
3
1
а
2
ж
3
н
4
ы
5
д
6
е
7
м
8
б
4
1
ю
2
ф
3
з
4
х
5
о
6
ё
7
ч
5
1
ц
2
с
3
я
4
ш
5
щ
Min
значение
12,56
24,38
9,00
18,31
20,25
22,69
20,31
22,56
23,63
13,06
22,25
26,50
31,44
21,94
21,38
27,31
33,63
34,19
24,75
74,31
42,75
54,56
65,56
39,69
74,75
56,19
49,75
52,69
46,44
90,50
72,56
Max значение
Среднее
СКО
79,75
60,50
164,19
129,50
104,06
132,38
99,13
128,56
102,75
226,00
117,19
157,06
139,31
169,81
143,38
159,56
142,94
149,31
145,00
95,69
122,06
132,88
110,56
193,31
134,75
133,06
234,44
222,88
190,88
162,56
176,81
35,62
39,08
46,77
50,91
53,28
57,24
57,98
58,45
60,55
65,25
68,86
71,13
73,14
73,18
73,80
74,00
74,04
77,00
79,19
83,23
86,53
89,08
90,01
91,61
95,29
96,09
106,69
110,80
112,33
122,94
137,96
528,66
174,52
973,47
575,18
550,56
612,86
572,29
522,44
422,22
1372,28
559,91
752,90
739,13
785,24
1146,68
874,51
760,98
690,16
1066,68
82,42
633,54
529,26
168,90
1383,41
778,92
539,09
3088,26
1562,61
1772,20
460,19
967,36
22
Полученные
результаты
проведенных
экспериментов
позволили
разбить все звуки русской речи на 5 подгрупп, в зависимости от значения
параметра «длительность» Звуки «п», «й» имеют самые малые средние
значения. Звуки «ц», «с», «я», «ш», «щ» входят в 5 подгруппу с самым
большим числом средних значений.
Вычислительный эксперимент № 2
При анализе сигналов в дискретном времени часто исследуют
количество переходов сигнала через ноль. Частота переходов сигнала через
ноль может служить простейшей характеристикой спектральных свойств
сигнала, хотя сама обработка производится во временной области. Это
наиболее справедливо для узкополосных сигналов. Речевой сигнал является
широкополосным и функция среднего числа переходов через ноль может
быть грубой оценкой спектральных свойств, особенно на фоне шума.
Кратковременная функция среднего числа переходов через ноль или нулевых
пересечений
основана
на
сравнении
знаков
соседних
отсчетов
и
определяется.
Zs
Где
S gn (x) -
1 sgn( S (m)) sgn( S (m 1))
w(n m)
L m
2
знаковая функция,
S gn ( x) 1 ¸
(2.1)
если ( x) 0 и S gn ( x) 1 ,
если ( x) 0
Цель: выявить зависимость значений числа переходов через ноль через
фиксированный интервал времени от типа звуков РР.
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит,
длительность отрезка анализа для определения числа переходов через ноль
Т=16 мс. (N=256). Речевой материал записан в одних и тех же акустических
23
условиях при использовании одного и того же оборудования. Звуки РР
выделены «на слух» из слитно записанных фраз.
План
1. Загрузить речевой сигнал, соответствующий определенному звуку
РР.
2. Каждый РС разбить на отрезки равной длительности.
3. Для каждого отрезка определить количество переходов через ноль.
Zs
1 sgn( S (m)) sgn( S (m 1))
w(n m)
L m
2
4. Для каждого типа звука РР определить минимальное значение числа
переходов через ноль.
5. Для каждого типа звука РР определить максимальное значение
числа переходов через ноль.
6. Для каждого типа звука РР определить среднее значение числа
переходов через ноль.
7. Для каждого типа звука РР определить СКО значений числа
переходов через ноль от среднего числа РС, соответствующий
данному типу звуков РР.
M [ X M ( X )]
2
8. Для каждого звука РР построить гистограммы частостей числа
переходов через ноль.
9. Проанализировать полученные результаты.
10. В соответствии с полученными результатами разбить все звуки РР
на несколько подгрупп.
24
Результаты эксперимента
Максимальные, минимальные, средние значения переходов через 0, а
также значения СКО представлены в таблице 2.2. Подгруппы были
сформированы согласно средним значениям. Единица измерения – м/с.
Таблица 2.2 – значения переходов через 0
№
№
Тип зв. РР
группы подгруппы
1
1
у
2
ю
3
б
4
л
5
в
6
ы
7
н
8
о
9
м
10
э
11
д
12
ё
13
р
14
и
2
1
г
2
а
3
я
4
е
5
й
6
к
7
п
9
х
3
1
з
2
ф
4
1
ш
5
1
ч
2
ж
3
щ
6
1
т
2
ц
3
с
Полученные
результаты
Min
значение
2,00
3,00
3,00
3,00
5,00
5,00
4,00
3,00
5,00
3,00
3,00
5,00
6,00
3,00
10,00
6,00
5,00
8,00
11,00
4,00
8,00
12,00
5,00
15,00
14,00
43,00
17,00
43,00
43,00
37,00
51,00
Max значение
Среднее
СКО
17,00
15,00
15,00
36,00
38,00
18,00
24,00
26,00
24,00
23,00
21,00
30,00
29,00
40,00
24,00
33,00
32,00
38,00
37,00
103,00
38,00
37,00
169,00
53,00
98,00
113,00
131,00
131,00
164,00
182,00
172,00
6,16
7,07
8,49
8,82
9,35
9,58
9,82
10,63
11,76
11,81
11,83
12,58
12,88
13,90
15,27
16,10
16,90
18,31
19,10
21,23
22,28
22,71
28,93
37,84
66,82
87,43
90,54
95,22
107,49
110,29
112,25
12,75
5,14
22,50
120,19
126,67
25,81
30,27
92,55
34,57
107,52
24,41
43,74
82,23
172,11
5,75
133,25
32,88
419,54
101,12
3829,95
35,67
20,67
1585,59
86,09
395,85
945,30
5169,07
2136,38
1043,26
10150,04
6577,12
проведенных
экспериментов
позволили
разбить все звуки русской речи на 6 подгрупп, в зависимости от значения
25
параметра «переходов через ноль» Звук «ш» (среднее значение 66.82 м/с)
отнесен в отдельную подгруппу, так как разница по сравнению с ближайшим
звуком составляет 28.98 м/с.
Вычислительный эксперимент № 3
Цель: выявить зависимость изменения энергии отрезков РС «внутри»
звуков от типов РР.
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит.
Речевой материал записан в одних и тех же акустических условиях при
использовании одного и того же оборудования. Звуки РР выделены «на слух»
из слитно записанных фраз.
План
1. Загрузить речевой сигнал, соответствующий определенному звуку
РР. (X )
2. Для каждого РС определить значение энергии ( E X 2 ) и
длительность фрагмента (N).
3. Для каждого РС определить долю энергии, сосредоточенной в
первой
E
E1
и второй 2 половине фрагмента.
E
E2
4. Для каждого типа звука РР определить максимальное значение
долей энергий в 1-ой и 2-ой половинах фрагментов и соотношение
между м/ж их энергиями.
5. Для каждого типа звука РР определить среднее значение долей
энергий в 1-ой и 2-ой половинах фрагментов и соотношение между
м/ж их энергиями.
6. Для каждого типа звука РР определить СКО от соответствующих
средних значений.
26
M [ X M ( X )]
2
7. Для каждого РС определить значение энергии в начале (для
отрезка ( X н ) ), середине (для отрезка ( X с ) ) и конце (для отрезка ( X к ) )
звука.
8. Для каждого РС определить долю энергии, сосредоточенной в
начале
Eн
E
E
, середине с и конце к звука.
E
E
E
9. Для каждого РС определить соотношение м/ж энергией в начале,
середине и конце звука (
Eс Eн Eс
,
,
)
Eн Eк Eк
10. Для каждого типа звука РР определить минимальное значение
долей энергии в начале, середине и конце звука, а также
соотношение м/ж этими энергиями.
11. Для каждого типа звука РР определить максимальное значение
долей энергии в начале, середине и конце звука, а также
соотношение м/ж этими энергиями.
12. Для каждого типа звука РР определить среднее значение долей
энергии в начале, середине и конце звука, а также соотношение м/ж
этими энергиями.
13. Для каждого типа звука РР определить СКО долей энергии в
начале, середине и конце звука от соответствующих средних
значений
M [ X M ( X )]
2
14. Проанализировать полученные результаты
15. В соответствии с полученными результатами разбить все звуки РР
на несколько подгрупп.
27
Результаты эксперимента
В таблице 2.3 представлены значения отношения энергии первой
половины звука ко второй. Подгруппы были сформированы согласно
максимальным значениям. Единица измерения м/с.
Таблица 2.3 – Отношение энергий
№
№
Тип зв. РР
группы подгруппы
1
1
й
2
ё
3
щ
4
н
5
ю
2
1
е
2
б
3
ф
4
я
5
ы
6
э
7
ч
8
х
9
т
10
ж
11
п
3
1
у
2
о
3
з
4
ш
5
ц
6
с
4
1
к
2
м
3
р
4
г
5
1
а
2
и
3
л
4
д
6
1
в
Полученные
результаты
Min
значение
0,56
0,28
0,41
0,25
1,45
0,33
0,29
0,02
0,20
0,68
0,71
0,12
1,35
0,09
0,41
0,02
0,25
0,52
0,36
0,79
0,64
0,24
0,44
0,18
0,19
0,56
0,54
0,35
0,24
0,08
0,15
Max значение
Среднее
СКО
1,27
2,01
2,60
2,70
2,92
3,49
3,62
3,77
3,80
3,87
3,88
4,06
4,10
4,35
4,61
4,98
5,41
6,05
6,26
6,64
7,03
7,64
8,10
8,64
8,87
10,05
16,07
17,30
17,47
18,08
50,02
0,85
0,89
1,29
0,96
2,27
1,17
1,21
1,44
1,08
1,63
1,39
1,52
2,43
1,75
1,22
1,20
1,48
1,55
1,52
2,60
2,87
2,37
2,47
1,09
1,68
2,57
1,62
1,97
2,26
2,58
2,72
0,07
0,63
0,53
0,37
0,38
0,28
0,82
1,72
0,62
0,78
0,44
1,03
0,93
1,93
1,02
1,57
0,99
1,51
1,89
3,44
4,19
2,58
3,25
2,01
3,32
6,01
3,91
6,46
7,89
12,00
67,93
проведенных
экспериментов
позволили
разбить все звуки русской речи на 6 подгрупп, в зависимости от значения
28
параметра «отношение энергий». Звук «в» (максимальное значение 50.02 м/с)
отнесен в отдельную подгруппу, так как разница по сравнению с ближайшим
звуком составляет 31.94 м/с.
Таблица 2.4 показывает значения отношения энергии начала к концу.
Подгруппы были сформированы согласно максимальным значениям.
Единица измерения – м/с.
Таблица 2.4 - отношение начала к концу
№
№
Тип зв. РР
группы подгруппы
1
1
й
2
ё
3
щ
4
б
5
ю
6
н
7
я
8
ж
9
п
10
е
2
1
т
2
ф
3
э
4
х
5
ч
6
ы
7
ц
8
к
3
1
с
2
о
3
у
4
м
5
з
6
г
7
ш
4
1
р
2
д
5
1
а
2
л
3
и
6
1
в
Min
значение
0,57
0,19
0,36
0,16
1,54
0,14
0,12
0,34
0,01
0,26
0,02
0,02
0,64
1,58
0,05
0,52
0,46
0,22
0,15
0,30
0,05
0,11
0,25
0,52
0,80
0,16
0,02
0,33
0,12
0,37
0,05
Max значение
Среднее
СКО
2,29
2,68
4,06
4,20
4,52
4,76
5,01
5,37
5,54
5,67
6,20
7,32
7,87
7,87
7,90
8,03
10,21
10,75
12,58
12,69
12,76
12,99
14,66
14,91
15,02
21,11
28,16
38,38
39,55
44,30
70,95
1,13
1,03
1,70
1,19
3,08
1,11
1,24
1,28
1,18
1,30
1,91
2,18
1,81
3,57
1,95
2,30
4,24
3,23
3,64
2,17
1,95
1,29
2,23
3,68
4,64
2,42
3,77
2,58
3,72
3,25
3,44
0,46
1,35
1,57
1,09
1,49
1,16
1,40
1,56
2,01
0,82
3,34
6,47
2,47
3,70
4,12
4,91
10,73
7,55
7,95
7,62
5,44
4,86
11,96
15,20
23,75
14,74
34,13
25,00
38,87
50,40
137,81
29
Полученные
результаты
проведенных
экспериментов
позволили
разбить все звуки русской речи на 6 подгрупп, в зависимости от значения
параметра «отношение начала к концу». Звук «в» (максимальное значение
70.95 м/с) отнесен в отдельную подгруппу, так как разница по сравнению с
ближайшим звуком составляет 26.65 м/с.
Таблица 2.5 показывает значения отношения энергии середины к
концу. Подгруппы были сформированы согласно максимальным значениям.
Единица измерения – м/с.
Таблица 2.5 - отношение энергии середины к концу
№
№
Тип зв. РР
группы подгруппы
1
1
ж
2
б
3
ё
4
й
5
п
6
ю
7
е
8
х
9
я
2
1
н
2
в
3
з
4
ф
5
м
6
щ
7
г
8
э
9
у
3
1
р
2
ч
3
к
4
д
5
т
6
о
7
ц
8
ш
Min
значение
0,52
0,24
0,68
0,72
0,02
1,97
0,56
1,13
0,64
0,45
0,37
0,22
0,01
0,26
0,90
0,48
0,86
0,53
0,13
0,69
0,17
0,14
0,04
0,86
0,82
1,05
Max значение
Среднее
СКО
1,45
1,53
2,03
2,69
3,04
3,08
3,31
3,36
3,72
4,07
4,19
4,30
4,52
4,67
4,88
5,56
5,97
6,14
7,55
7,71
7,80
8,17
8,45
8,60
8,60
8,93
0,88
0,70
1,19
1,31
0,71
2,40
1,47
2,22
1,50
1,11
1,16
1,15
1,31
1,16
2,24
1,59
1,91
1,88
1,29
3,79
1,93
1,40
1,57
2,09
2,92
3,32
0,08
0,10
0,36
0,65
0,56
0,24
0,38
0,41
0,65
0,47
0,57
1,14
1,49
0,85
1,38
1,58
1,57
1,50
2,07
4,13
2,97
2,19
2,41
2,73
5,15
4,24
30
Окончание таблицы 2.5
4
1
2
3
4
5
Полученные
л
ы
и
с
а
результаты
0,20
1,00
0,12
0,53
0,27
11,59
12,11
13,92
15,07
17,08
проведенных
2,02
2,50
2,41
2,49
2,23
экспериментов
4,32
7,51
4,69
6,10
5,62
позволили
разбить все звуки русской речи на 4 подгруппы, в зависимости от значения
параметра «отношение энергии середины к концу».
Таблица 2.6 показывает значения отношения энергии середины к
началу. Подгруппы были сформированы согласно максимальным значениям.
Единица измерения – м/с.
Таблица 2.6 - отношение энергии середины к началу
№
№
Тип зв. РР
группы подгруппы
1
1
з
2
г
3
х
4
ю
5
й
6
ы
7
ш
8
е
9
э
10
б
11
ж
12
и
13
ё
14
щ
15
а
16
р
2
1
н
2
ц
Min
значение
0,29
0,11
0,25
0,62
0,88
0,42
0,26
0,58
0,62
0,31
0,12
0,24
0,76
0,67
0,16
0,12
0,45
0,19
Max значение
Среднее
СКО
1,26
1,32
1,39
1,40
1,56
2,14
2,24
2,27
2,31
2,84
2,85
3,40
3,81
3,88
3,93
3,98
4,43
4,63
0,76
0,65
0,76
0,90
1,18
1,23
1,18
1,29
1,23
1,02
1,05
1,30
2,69
1,74
1,29
0,87
1,51
1,23
0,10
0,10
0,11
0,13
0,06
0,21
0,38
0,17
0,21
0,68
0,38
0,42
1,88
0,84
0,34
0,60
0,77
1,53
31
Окончание таблицы 2.6
2
3
с
м
л
я
о
т
к
ф
у
в
ч
п
д
3
4
5
6
7
8
9
10
1
2
3
4
5
Полученные
результаты
0,12
0,36
0,15
0,74
0,46
0,23
0,15
0,27
0,48
0,04
0,42
0,11
0,08
4,64
4,81
4,90
5,97
6,24
6,49
7,37
8,37
10,15
10,35
16,46
21,88
28,01
проведенных
1,06
1,57
1,03
2,06
1,42
1,54
1,06
1,67
1,71
1,57
4,50
2,47
1,98
экспериментов
1,08
0,99
0,63
2,29
0,86
2,29
1,76
5,52
3,41
3,43
24,25
22,39
26,94
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «отношение энергии середины к началу».
Таблица 2.7 показывает значения доли энергии в начале звука.
Подгруппы были сформированы согласно максимальным значениям.
Единица измерения – м/с.
Таблица 2.7 – доля начала
№
№
Тип зв. РР
группы подгруппы
1
1
й
2
ё
2
1
я
2
щ
3
ю
4
э
5
н
6
е
7
б
8
ы
9
у
10
ч
11
о
Min
значение
0,23
0,10
0,06
0,15
0,33
0,22
0,09
0,14
0,10
0,20
0,03
0,03
0,09
Max значение
Среднее
СКО
0,38
0,47
0,52
0,52
0,53
0,53
0,57
0,57
0,62
0,64
0,64
0,65
0,65
0,31
0,23
0,28
0,31
0,46
0,35
0,29
0,32
0,35
0,36
0,34
0,25
0,34
0,00
0,03
0,02
0,01
0,01
0,01
0,02
0,01
0,03
0,01
0,02
0,03
0,01
32
Окончание таблицы 2.7
3
12
13
14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Полученные
т
ф
х
м
з
ш
ц
ж
п
к
и
р
с
л
а
г
д
в
0,02
0,02
0,34
0,08
0,17
0,25
0,13
0,16
0,01
0,08
0,15
0,10
0,09
0,07
0,16
0,24
0,01
0,03
результаты
0,65
0,66
0,68
0,70
0,73
0,75
0,75
0,77
0,77
0,78
0,79
0,82
0,83
0,84
0,85
0,85
0,90
0,95
проведенных
0,34
0,33
0,50
0,28
0,40
0,43
0,47
0,35
0,30
0,45
0,36
0,39
0,47
0,41
0,34
0,49
0,42
0,34
экспериментов
0,04
0,06
0,01
0,02
0,02
0,02
0,04
0,02
0,05
0,04
0,02
0,03
0,03
0,03
0,01
0,03
0,05
0,03
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «доля начала».
Таблица 2.8 показывает значения доли энергии в середине звука.
Подгруппы были сформированы согласно максимальным значениям.
Единица измерения – м/с.
Таблица 2.8 - доля середины
№
№
Тип зв. РР
группы подгруппы
1
1
з
2
б
3
г
4
ё
5
д
6
ж
7
й
8
л
9
ю
Min
значение
0,15
0,15
0,10
0,36
0,07
0,09
0,28
0,13
0,32
Max значение
Среднее
СКО
0,37
0,37
0,40
0,41
0,44
0,44
0,45
0,46
0,46
0,26
0,25
0,27
0,38
0,26
0,30
0,36
0,32
0,38
0,00
0,01
0,01
0,00
0,01
0,01
0,00
0,00
0,00
33
Окончание таблицы 2.8
2
3
10
11
12
13
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
Полученные
х
н
ф
в
е
э
я
ш
м
ы
у
щ
р
и
п
ц
о
к
а
с
т
ч
результаты
0,17
0,23
0,01
0,04
0,29
0,26
0,31
0,19
0,18
0,27
0,25
0,31
0,08
0,08
0,02
0,14
0,30
0,10
0,13
0,10
0,03
0,27
0,47
0,48
0,48
0,48
0,50
0,52
0,54
0,56
0,57
0,57
0,57
0,58
0,61
0,62
0,63
0,66
0,66
0,67
0,70
0,76
0,79
0,83
проведенных
0,34
0,34
0,26
0,32
0,38
0,39
0,40
0,41
0,33
0,40
0,39
0,44
0,26
0,40
0,21
0,37
0,40
0,30
0,39
0,34
0,32
0,55
экспериментов
0,01
0,00
0,02
0,01
0,00
0,00
0,00
0,01
0,01
0,01
0,01
0,01
0,02
0,01
0,02
0,02
0,01
0,02
0,01
0,02
0,03
0,02
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «доля середины».
Таблица 2.9 показывает долю энергии в конце звука. Подгруппы были
сформированы согласно максимальным значениям. Единица измерения – м/с.
Таблица 2.9 - доля конца
№
№
Тип зв. РР
группы подгруппы
1
1
ю
2
х
3
ц
2
1
ш
2
ы
3
э
Min
значение
0,12
0,08
0,06
0,04
0,05
0,07
Max значение
Среднее
СКО
0,21
0,23
0,30
0,35
0,38
0,38
0,16
0,16
0,17
0,16
0,24
0,26
0,00
0,00
0,01
0,01
0,01
0,01
34
Окончание таблицы 2.9
й
о
щ
г
ё
ж
е
я
ч
с
а
н
в
у
б
к
и
з
л
м
р
д
т
п
ф
4
5
6
7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1
2
3
4
3
4
Полученные
0,17
0,05
0,10
0,06
0,18
0,14
0,10
0,10
0,08
0,05
0,02
0,10
0,01
0,05
0,15
0,06
0,02
0,05
0,02
0,05
0,04
0,03
0,09
0,14
0,08
результаты
0,41
0,43
0,44
0,45
0,53
0,54
0,55
0,55
0,58
0,60
0,63
0,63
0,63
0,63
0,64
0,64
0,67
0,68
0,68
0,71
0,73
0,80
0,90
0,94
0,97
проведенных
0,33
0,26
0,25
0,25
0,40
0,35
0,30
0,33
0,20
0,19
0,27
0,37
0,35
0,27
0,40
0,24
0,24
0,34
0,28
0,39
0,35
0,31
0,34
0,49
0,41
экспериментов
0,01
0,01
0,01
0,02
0,02
0,01
0,01
0,02
0,02
0,02
0,01
0,02
0,02
0,02
0,02
0,02
0,01
0,02
0,02
0,03
0,03
0,04
0,05
0,07
0,08
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «доля конца».
2.2 Исследование мел-кепстральных характеристик
Кепстр - энергетический спектр функции Ln|S(w)|2, определяемый
выражением
1
С s (q)
2
ln S ()
2
e iq d
(2.2)
где S(w) - амплитудный спектр континуального сигнала. Поскольку
S2(w) имеет смысл спектральной плотности энергии сигнала s(t), то Cs
35
истолковывается как энергетический спектр функции ln [S(w)]2. Но из (2.2)
очевидно, что аргумент q этого «спектра» имеет размерность времени, а не
частоты. Этим и объясняется распространение термина «кепстр», который
образован перестановкой букв в термине «спектр».
Другими
словами,
кепстр
определяет
последовательность
коэффициентов разложения функции lg [Ф (z)] в степенной ряд.
Логарифм спектра мощности колебания, содержащего отраженный
сигнал, имеет аддитивную периодическую компоненту, созданную этим
сигналом, и поэтому преобразование Фурье от логарифма спектра мощности
имеет пик на месте, соответствующем задержке отраженного сигнала.
Вычислительный эксперимент 1
Понятия локального максимума и локального минимума объединяются
общим термином локальный экстремум. Слово "локальный" для краткости
часто опускают и говорят просто о максимумах и минимумах функции.
Таким образом экстремум - максимальное или минимальное значение
функции на заданном множестве.
Цель: Выявить зависимость количества локальных максимумов в
кепстре от типа звуков русской речи.
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит,
длительность отрезка анализа для определения числа переходов через ноль
Т=16 мс. (N=256). Количество интервалов, на которые разбивается ось частот
(R=40).
План
1. Загрузить речевой сигнал, соответствующий определенным звукам
РР ( X )
2. Каждый
речевой
сигнал
длительности N ( X N )
разбить
на
отрезки
одинаковой
36
3. Для каждого отрезка РС оценить распределение энергии в шкале
мел, используя субполосный анализ по R интервалам ( PK )
4. Для
каждого
отрезка
РС
оценить
значения
кепстральных
коэффициентов, используя ДПФ. ( K K )
5. Для каждого отрезка РС оценить число локальных максимумов в
кепстре
6. Для каждого звука РР определить минимальное количество
локальных максимумов.
7. Для каждого звука РР определить максимальное количество
локальных максимумов.
8. Для каждого звука РР определить среднее количество локальных
максимумов.
9. Для каждого звука РР определить СКО локальных максимумов.
M [ X M ( X )]
2
10. Проанализировать полученные результаты
11.В соответствии с полученными результатами разбить все звуки РР
на несколько подгрупп
Результаты исследований
В таблице 2.10 представлены максимальные, минимальные, средние
значения, а также значения СКО количества максимумов. Подгруппы были
сформированы согласно значениям СКО. Единица измерения – м/с.
37
Таблица 2.10 – количества максимумов
№
№
Тип зв. РР
группы подгруппы
1
1
я
2
э
2
1
д
2
с
3
у
4
ф
5
ш
6
а
7
в
8
е
9
м
10
н
11
ц
12
ч
13
щ
3
1
п
2
г
3
и
4
к
5
л
6
о
7
х
8
й
9
б
10
ж
11
з
12
т
13
ы
14
р
4
1
ё
2
ю
Полученные
результаты
Min
значение
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
Max значение
Среднее
СКО
13,00
14,00
15,00
15,00
15,00
15,00
15,00
16,00
16,00
16,00
16,00
16,00
16,00
16,00
16,00
16,00
17,00
17,00
17,00
17,00
17,00
17,00
12,00
18,00
18,00
18,00
18,00
18,00
19,00
16,00
16,00
1,30
1,40
1,50
1,50
1,50
1,50
1,50
1,60
1,60
1,60
1,60
1,60
1,60
1,60
1,60
1,78
1,70
1,70
1,70
1,70
1,70
1,70
3,00
1,80
1,80
1,80
1,80
1,80
1,90
5,33
5,33
15,21
17,64
20,25
20,25
20,25
20,25
20,25
23,04
23,04
23,04
23,04
23,04
23,04
23,04
23,04
25,28
26,01
26,01
26,01
26,01
26,01
26,01
27,00
29,16
29,16
29,16
29,16
29,16
32,49
56,89
56,89
проведенных
экспериментов
позволили
разбить все звуки русской речи на 4 подгруппы, в зависимости от значения
параметра «количество максимумов». Звуки «ё», «ю» имеют наибольшее
значение СКО.
38
Вычислительный эксперимент № 2
Цель: выявить номера максимальных элементов кепстра от типа звуков
РР.
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит,
длительность отрезка анализа для определения числа переходов через ноль
Т=16 мс. (N=256). Количество интервалов, на которые разбивается ось частот
(R=40).
План
1. Загрузить речевой сигнал, соответствующий определенным звукам
РР ( X )
2. Каждый
речевой
сигнал
разбить
на
отрезки
одинаковой
длительности N ( X N )
3. Для каждого отрезка РС оценить распределение энергии в шкале
мел, используя субполосный анализ по R интервалам ( PK )
4. Для
каждого
отрезка
РС
оценить
значения
кепстральных
коэффициентов, используя ДПФ. ( K K )
5. Для каждого отрезка РС оценить номер с максимальным значением
кепстра.
6. Для каждого отрезка РС определить минимальные значения номера
с максимальным значением кепстра.
7. Для каждого отрезка РС определить максимальные значения
номера с максимальным значением кепстра.
8. Для каждого отрезка РС определить средние значения номера с
максимальным значением кепстра.
9. Для каждого отрезка РС определить СКО номера с максимальным
значением кепстра.
39
M [ X M ( X )]
2
10.Проанализировать полученные результаты.
11.В соответствии с полученными результатами разбить все звуки РР
на несколько подгрупп.
Результаты исследований
В таблице 2.11 представлены максимальные, минимальные, средние
значения, а также значения СКО номера максимальных элементов в кепстре.
Подгруппы были сформированы согласно значениям СКО.
Таблица 2.11 – Номера максимальных элементов
№
№
Тип зв. РР
группы подгруппы
1
1
а
2
б
3
в
4
д
5
е
6
ж
7
з
8
и
9
й
10
к
11
л
12
н
13
о
14
п
15
р
16
с
17
т
18
у
19
ф
20
х
21
ц
22
ч
23
щ
24
ы
25
э
Min
значение
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
Max значение
Среднее
СКО
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
40
Окончание таблицы 2.11
ю
я
г
м
ё
ш
26
27
28
1
2
3
2
Полученные
0,00
0,00
0,00
0,00
0,00
0,00
результаты
1,00
1,00
1,00
1,00
1,00
1,00
проведенных
0,10
0,10
0,11
0,25
0,33
0,33
экспериментов
0,09
0,09
0,10
0,19
0,22
0,22
позволили
разбить все звуки русской речи на 2 подгруппы, в зависимости от значения
параметра «номера максимальных элементов». Практически все значения
идентичны, за исключением звуков «м» «ё» «ш», которые и определены в
отдельную подгруппу.
Вычислительный эксперимент № 3
Цель: Выявить зависимость доли максимальных значений кепстра от
типа звуков РР.
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит,
длительность отрезка анализа для определения числа переходов через ноль
Т=16 мс. (N=256). Количество интервалов, на которые разбивается ось частот
(R=40).
План
1. Загрузить речевой сигнал, соответствующий определенным звукам
РР ( X )
2. Каждый
речевой
сигнал
разбить
на
отрезки
одинаковой
длительности N ( X N )
3. Для каждого отрезка РС оценить распределение энергии в шкале
мел, используя субполосный анализ по R интервалам ( PK )
41
4. Для
каждого
отрезка
РС
оценить
значения
кепстральных
коэффициентов, используя ДПФ. ( K K ).
5. Для каждого отрезка РС оценить долю максимальных значений в
кепстре.
6. Для каждого звука РР определить минимальные значения доли
максимальных элементов кепстра.
7. Для каждого звука РР определить максимальные значения доли
максимальных элементов кепстра.
8. Для каждого звука РР определить среднее значения доли
максимальных элементов кепстра.
9. Для каждого звука РР определить СКО доли максимальных
элементов кепстра.
M [ X M ( X )]
2
10. Проанализировать полученные результаты.
11.В соответствии с полученными результатами разбить все звуки РР
на несколько подгрупп.
Результаты исследований
В таблице 2.12 представлены максимальные, минимальные, средние
значения, а также значения СКО долей максимальных элементов в кепстре.
Подгруппы были сформированы согласно значениям СКО.
Таблица 2.12 – доли максимальных элементов
№
№
Тип зв. РР
группы подгруппы
1
1
э
2
я
3
в
4
ы
5
а
Min
значение
0,00
0,00
0,00
0,00
0,00
Max значение
Среднее
СКО
0,38
0,42
0,54
0,56
0,56
0,04
0,04
0,05
0,06
0,06
0,01
0,02
0,03
0,03
0,03
42
Окончание таблицы 2.12
2
3
6
7
8
9
10
11
12
13
14
15
16
17
1
2
3
4
5
6
7
8
9
10
11
12
1
2
Полученные
м
г
н
у
о
щ
л
д
ф
ч
е
ш
б
ц
и
з
с
п
к
х
т
р
й
ж
ё
ю
результаты
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
проведенных
0,57
0,58
0,58
0,59
0,59
0,61
0,61
0,61
0,61
0,61
0,62
0,62
0,63
0,63
0,63
0,64
0,64
0,61
0,64
0,64
0,64
0,64
0,45
0,65
0,57
0,60
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,06
0,07
0,06
0,06
0,06
0,06
0,11
0,06
0,19
0,20
экспериментов
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,03
0,04
0,04
0,04
0,04
0,04
0,04
0,04
0,04
0,04
0,04
0,04
0,04
0,07
0,08
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «доли максимальных элементов». Разница в полученных
значениях незначительна.
2.3 Исследование частотных (субполосных) характеристик
В некотором смысле субполосный анализ – это задача описания
свойств объекта с позиций разбиения области пространственных частот на
подобласти. При этом основное внимание уделяется задаче вычисления
43
точных значений долей энергии в заданных подобластях пространственных
частот и оптимальному выделению субполосных компонент.
Вычислительный эксперимент № 1
Цель: выявить зависимость величины частотной концентрации от типа
звуков РР.
Исходные данные: речевой сигнал, соответствующий звукам русской
речи, записанные с частотой дискретизации 16 кГц, разрядностью 16 бит,
длительность отрезка анализа для определения числа переходов через ноль
Т=16 мс. (N=256). Количество частотных интервалов, на которые разбивается
ось частот R= 128. Значение доли энергии m= 0.7; 0,8; 0.9
План
1. Загрузить речевой сигнал, соответствующий определенным звукам
РР ( X )
2. Каждый
речевой
сигнал
разбить
на
отрезки
одинаковой
длительности N ( X N )
3. Для каждого отрезка РС оценить значение частотной концентрации
при заданном значении m по формуле:
m
WNR f NR
/R
где R – количество равновеликих интервалов, на которые
m
разбивается ось частот; f NR – минимальное количество частотных
интервалов (частотная концентрация), в которых сосредоточена
заданная доля энергии m звукового отрезка, т.е.:
m
m
f NR
min d NR
4. Для каждого звука РР вычислить минимальные значения частотной
концентрации.
5. Для каждого звука РР вычислить максимальные значения частотной
концентрации.
44
6. Для каждого звука РР вычислить средние значения частотной
концентрации.
7. Для каждого звука РР вычислить СКО частотной концентрации от
среднего значения для каждого звука РР.
8. Проанализировать полученные результаты.
9. В соответствии с полученными результатами разбить все звуки РР
на несколько подгрупп.
Результаты исследований
В таблице 2.13 представлены максимальные, минимальные, средние
значения, а также значения СКО частотной концентрации. Подгруппы были
сформированы согласно средним значениям.
Таблица 2.13 – частотная концентрация
№
№
Тип зв. РР
группы подгруппы
1
1
б
2
н
3
в
4
м
5
у
6
ю
7
д
2
1
г
2
ё
3
е
4
л
5
э
6
ы
7
и
8
о
9
й
10
а
11
я
12
х
13
р
3
1
ж
2
п
Min
значение
3,00
3,00
3,00
3,00
3,00
3,00
3,00
3,00
3,00
3,00
4,00
3,00
3,00
3,00
5,00
3,00
5,00
4,00
3,00
4,00
3,00
3,00
Max значение
Среднее
СКО
10,00
10,00
10,00
10,00
9,00
15,00
15,00
29,00
14,00
15,00
27,00
17,00
14,00
17,00
13,00
16,00
19,00
18,00
26,00
20,00
37,00
30,00
3,95
4,26
4,34
4,81
4,96
5,06
5,10
6,07
6,94
6,95
7,06
7,16
7,21
7,22
7,52
8,26
8,85
9,18
9,63
9,75
10,31
11,09
0,67
0,44
1,40
1,94
1,17
3,19
4,37
9,30
3,85
3,85
8,66
7,19
5,25
5,35
1,44
5,57
8,56
3,76
14,45
10,45
51,29
21,62
45
Окончание таблицы 2.13
3
з
к
т
щ
ц
ф
ш
ч
с
3
4
1
2
3
4
5
6
7
4
Полученные
3,00
4,00
4,00
6,00
4,00
4,00
3,00
6,00
3,00
результаты
40,00
33,00
30,00
33,00
39,00
44,00
42,00
36,00
37,00
проведенных
12,62
13,67
18,99
21,35
21,41
21,45
21,80
21,87
24,23
экспериментов
96,96
53,57
33,04
17,17
83,29
123,33
83,85
43,70
35,27
позволили
разбить все звуки русской речи на 4 подгруппы, в зависимости от значения
параметра «частотная концентрация».
Вычислительный эксперимент № 2
Цель:
выявить
зависимость
номера
частотного
интервала
с
максимальной энергией от типа звуков русской речи.
Исходные данные: речевой сигнал, соответствующий различным
звукам русской речи, записанный с частотой дискретизации 16 кГц и
разрядностью 16 бит. Длительность отрезка анализа T=16 мс (N=256).
Количество частотных интервалов, на которые разбивается ось частот R=128.
План
1. Загрузить речевой сигнал, соответствующий звукам русской речи.
2. Разбить речевой сигнал на отрезки одинаковой длительности ( X N ).
3. Для каждого отрезка РС оценить распределение энергии в частотной
области, используя субполосный анализ.
Pr ( xN ) | X ( ) |2 d / 2
Vr
ΦNr X ( )Y * ( )d / 2
Vr
46
r
Φ
P
(
x
)
N
r
N
Соотношение
определяет часть энергии, а
- субполосную
корреляцию спектров различных отрезков.
4. Для каждого отрезка РС определить номер частотного интервала с
максимальной энергией.
5. Для каждого отрезка РС определить максимальную долю энергии,
сосредоточенную в одном интервале.
6. Для каждого звука РР определить минимальное значение номера
частотного интервала с максимальной энергией.
7. Для каждого звука РР определить максимальное значение номера
частотного интервала с максимальной энергией.
8. Для каждого звука РР определить среднее значение номера частотного
интервала с максимальной энергией.
9. Для каждого звука РР определить СКО номера частотного интервала с
максимальной энергией.
10. Для
каждого
звука
РР
определить
минимальное
значение
максимальной доли энергии, сосредоточенной в одном интервале.
11. Для
каждого
звука
РР
определить
максимальное
значение
максимальной доли энергии, сосредоточенной в одном интервале.
12. Для каждого звука РР определить среднее значение максимальной
доли энергии, сосредоточенной в одном интервале.
13. Для каждого звука РР определить СКО максимальной доли энергии,
сосредоточенной в одном интервале.
14. Проанализировать полученные результаты
15. В соответствии с полученными результатами разбить звуки РР на
подгруппы.
Результаты исследований
В таблицах 2.14 – 2.15 представлены номера максимальных интервалов
и доли максимальных интервалов (их максимальные, минимальные, средние
47
значения, а также значения СКО). Подгруппы были сформированы согласно
средним значениям. Единица измерения – м/с.
Таблица 2.14 – номера максимальных интервалов
№
№
Тип зв. РР
группы подгруппы
1
1
ю
2
б
3
в
4
м
5
д
6
н
7
г
8
э
2
1
ж
2
и
3
ы
4
у
5
й
6
ё
7
р
8
е
9
о
10
л
11
я
3
1
п
2
х
3
з
4
а
5
ф
4
1
к
2
т
3
ш
4
ч
5
1
ц
2
щ
3
с
Полученные
результаты
Min
значение
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
3,00
1,00
1,00
1,00
1,00
2,00
1,00
1,00
1,00
1,00
2,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
Max значение
Среднее
СКО
4,00
4,00
4,00
3,00
6,00
4,00
6,00
6,00
20,00
4,00
5,00
5,00
5,00
5,00
6,00
5,00
12,00
7,00
15,00
19,00
15,00
49,00
15,00
46,00
32,00
39,00
49,00
41,00
57,00
49,00
50,00
2,24
2,34
2,39
2,40
2,44
2,50
2,53
2,98
3,05
3,21
3,24
3,49
3,59
3,68
3,74
3,81
3,84
3,92
3,96
4,72
5,04
5,28
5,42
7,87
9,60
10,74
14,48
16,47
19,51
23,01
27,42
1,25
0,63
0,96
0,49
1,15
0,55
0,62
1,46
7,37
0,31
0,95
0,30
0,25
0,64
1,03
0,39
1,89
1,32
3,21
8,77
17,99
111,97
3,22
84,97
115,79
147,05
165,66
111,99
387,02
43,93
189,29
проведенных
экспериментов
позволили
разбить все звуки русской речи на 5 подгрупп, в зависимости от значения
параметра «номера максимальных интервалов». Наибольшее количество
гласных звуков находится во второй подгруппе.
48
Таблица 2.15 – доли максимальных интервалов
№
№
Тип зв. РР
группы подгруппы
1
1
с
2
щ
3
т
4
ц
5
ч
6
ф
7
ш
2
1
к
2
п
3
я
4
о
5
х
6
р
7
а
8
з
9
ж
10
ё
11
э
12
л
13
й
14
ы
3
1
е
2
и
3
г
4
д
5
ю
6
у
7
м
8
н
9
в
10
б
Полученные
результаты
Min
значение
0,06
0,06
0,06
0,05
0,06
0,05
0,04
0,08
0,06
0,1
0,1
0,1
0,1
0,1
0,07
0,09
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,09
0,1
0,1
0,1
0,1
0,1
0,1
0,1
Max значение
Среднее
СКО
0,42
0,38
0,46
0,42
0,40
0,42
0,44
0,40
0,40
0,41
0,39
0,50
0,42
0,41
0,50
0,53
0,44
0,46
0,44
0,43
0,48
0,46
0,45
0,49
0,49
0,54
0,45
0,46
0,48
0,51
0,49
0,15
0,17
0,18
0,18
0,18
0,18
0,20
0,22
0,22
0,23
0,23
0,25
0,25
0,26
0,27
0,29
0,29
0,30
0,30
0,30
0,30
0,31
0,31
0,32
0,32
0,33
0,33
0,33
0,33
0,36
0,36
0,00
0,00
0,01
0,01
0,01
0,01
0,01
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,00
0,00
0,00
0,00
проведенных
экспериментов
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «доли максимальных интервалов».
Вычислительный эксперимент № 3
Форманта
—
термин
фонетики,
обозначающий
акустическую
характеристику звуков речи (прежде всего гласных), связанную с уровнем
частоты голосового тона и образующую тембр звука.
49
Тембр нашего голоса – не бесконечное количество звуковых волн и не
сумма основного звука, а довольно ограниченная по своему спектру сложная
звуковая волна. Эта звуковая волна состоит из нескольких областей – групп
частот, усиленных резонаторной системой вокального тракта, тогда как
другие, которые ротоглоточной полостью не отфильтрованы, не оказывают
влияния на тембр голоса вообще. Эти области усиленных частот и
называются формантами.
Самую низкую по частоте форманту называют Основной, в ней
содержится основной тон звука, сама нота. Следующую форманту называют
Первой речевой. Эта форманта в речи возникает, благодаря глоточной
полости. Для распознавания гласного звука важны первые две форманты –
первая и следующая за ней вторая речевая. «Ответственной» за вторую
речевую форманту является ротовая полость. Именно размер и взаимное
расположение в спектре первой и второй формант определяют то, какую
гласную мы услышим.
В обычной разговорной речи этих трех формант (не забыли про
Основную) вполне достаточно для создания всего спектра гласных звуков
языка. При пении вокальный аппарат человека организован несколько иначе,
и это приводит к иному взаимодействию человеческих резонаторов
Цель: выявить зависимость количества и положения формантных
областей от типа звука РР.
Исходные данные: РС, соответствующий различному звуку РР,
записанный с частотой дискретизации 16 кГц и разрядностью 16 бит.
Длительность отрезка анализа T=16 мс (N=256). Количество частотных
интервалов, на которые разбивается ось частот R= 128. Доля энергии сигнала
m = 0.9.
План
1. Загрузить речевой сигнал, соответствующий звукам русской речи.
2. Разбить речевой сигнал на отрезки одинаковой длительности ( X N ).
50
3. Для каждого отрезка РС оценить распределение энергии в частотной
области, используя субполосный анализ.
4. Для каждого отрезка РС определить информационные частотные
интервалы, как интервалы, в которых сосредоточены основная доля
энергии m.
5. Для каждого отрезка РС определить количество формантных областей.
6. Для каждого отрезка РС определить ширину каждой формантной
области.
7. Для каждого звука РР определить центральную частоту каждой
формантной области.
8. Для каждого звука РР определить минимальное значение числа
формантных областей.
9. Для каждого звука РР определить максимальное значение числа
формантных областей.
10. Для каждого звука РР определить среднее значение числа формантных
областей.
11. Для каждого звука РР определить СКО числа формантных областей.
12. Проанализировать полученные результаты.
13.В соответствии с полученными результатами все звуки РР разбить на
подгруппы.
Результаты исследований
В таблице 2.16 представлены значения количества формант (их
максимальные, минимальные, средние значения, а также значения СКО).
Подгруппы были сформированы согласно средним значениям. Единица
измерения – м/с.
51
Таблица 2.16 – количество формант
№
№
Тип зв. РР
группы подгруппы
1
1
б
2
н
3
в
4
у
5
м
6
ю
7
д
8
г
9
о
10
л
11
ё
12
э
13
е
14
ы
15
и
2
1
а
2
я
3
х
4
п
5
й
6
р
7
ж
8
з
9
к
10
т
3
1
щ
2
ф
3
ц
4
ч
5
ш
6
с
Полученные
результаты
Min
значение
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00
Max значение
Среднее
СКО
3,00
3,00
3,00
3,00
3,00
3,00
4,00
8,00
4,00
8,00
3,00
4,00
4,00
4,00
4,00
6,00
5,00
7,00
6,00
5,00
6,00
10,00
10,00
7,00
8,00
11,00
12,00
11,00
9,00
10,00
9,00
1,01
1,01
1,08
1,13
1,15
1,17
1,17
1,39
1,49
1,53
1,67
1,71
1,87
1,90
1,90
2,01
2,09
2,16
2,20
2,24
2,26
2,55
2,74
2,88
3,53
4,10
4,11
4,13
4,37
4,57
4,77
0,01
0,01
0,08
0,12
0,14
0,15
0,19
0,84
0,30
0,75
0,40
0,61
0,50
0,47
0,45
0,89
0,34
0,85
0,96
0,55
0,73
3,49
4,69
2,64
1,53
1,43
5,35
3,57
1,78
3,46
2,32
проведенных
экспериментов
позволили
разбить все звуки русской речи на 3 подгруппы, в зависимости от значения
параметра «количество формант». Наибольшее количество гласных звуков
находится в первой подгруппе, согласных – в третьей.
Для всех звуков русской речи были построены гистограммы
временных, мел-кепстральных и частотных характеристик. На рисунках 2.1 –
52
2.32 представлены гистограммы на примере двух звуков – гласной «О» и
согласной «Л».
Рисунок 2.1 – Гистограмма длительности
звука «О»
Рисунок 2.2 – Гистограмма длительности
звука «Л»
Рисунок 2.3 – Гистограмма числа
переходов через «0» звука «О»
Рисунок 2.4 – Гистограмма числа
переходов через «0» звука «Л»
Рисунок 2.5 – Гистограмма отношения
энергий звука «О»
Рисунок 2.6 – Гистограмма отношения
энергий звука «Л»
53
Рисунок 2.7 – Гистограмма отношения
начала к концу звука «О»
Рисунок 2.8 – Гистограмма отношения
начала к концу звука «Л»
Рисунок 2.9 – Гистограмма отношения
середины к концу звука «О»
Рисунок 2.10 – Гистограмма отношения
середины к концу звука «Л»
Рисунок 2.11 – Гистограмма отношения
середины к началу звука «О»
Рисунок 2.12 – Гистограмма отношения
середины к началу звука «Л»
54
Рисунок 2.13 – Гистограмма доли
энергии в начале звука «О»
Рисунок 2.14 – Гистограмма доли
энергии в начале звука «Л»
Рисунок 2.15 – Гистограмма доли
энергии в середине звука «О»
Рисунок 2.16 – Гистограмма доли
энергии в середине звука «Л»
Рисунок 2.17 – Гистограмма доли
энергии в конце звука «О»
Рисунок 2.18 – Гистограмма доли
энергии в конце звука «Л»
55
Рисунок 2.19 – Гистограмма количества
максимумов звука «О»
Рисунок 2.20 – Гистограмма количества
максимумов звука «Л»
Рисунок 2.21 – Гистограмма номеров
максимальных элементов звука «О»
Рисунок 2.22 – Гистограмма номеров
максимальных элементов звука «Л»
Рисунок 2.23 – Гистограмма долей
максимальных элементов звука «О»
Рисунок 2.24 – Гистограмма долей
максимальных элементов звука «Л»
56
Рисунок 2.25 – Гистограмма значений
частотной концентрации звука «О»
Рисунок 2.25 – Гистограмма значений
частотной концентрации звука «Л»
Рисунок 2.27 – Гистограмма номеров
максимальных интервалов звука «О»
Рисунок 2.28 – Гистограмма номеров
максимальных интервалов звука «Л»
Рисунок 2.29 – Гистограмма долей
максимальных интервалов звука «О»
Рисунок 2.30 – Гистограмма долей
максимальных интервалов звука «Л»
57
Рисунок 2.31 – Гистограмма количества
формант звука «О»
Рисунок 2.32 – Гистограмма количества
формант звука «Л»
Данное исследование показывает, что различные звуки могут иметь
сходные
значения
некоторых
параметров,
такие,
как
параметры
–
«длительность», «отношение энергий», «отношение начала к концу»,
«отношение середины к концу», «доли максимальных коэффициентов
кепстра», «количество максимумов кепстра», «номера максимальных
коэффициентов кепстра» представленные на рисунках 2.1 – 2.2, 2.7 – 2.10,
2.13 – 2.14, а также 2.19 – 2.24 и 2.27 – 2.28, но большинство параметров для
двух различных звуков будут иметь разные значения. Это такие параметры,
как «переходы через ноль, «отношение энергий первой половине ко второй»,
«отношение середины к концу», «доли энергии в середине звука», «доли
энергии в конце звука», «частотная концентрация», «доли максимальных
элементов». Таким образом, сравнение звуков по одному параметру не имеет
смысла, а сравнение по всему набору может быть использовано как один из
подходов в системах распознавания.
58
2.4 Анализ возможности применения полученных параметров в
системах распознавания
Как было сказано выше, сравнение звуков по одному параметру не
имеет смысла, а сравнение по всему набору может быть использовано как
один из подходов в системах распознавания. Данное утверждение
подтверждается исследованием набора параметров для отдельных звуков по
сравнению с другими звуками.
В таблицах 2.17 - 2.22 приведен сравнительный анализ схожести
значений всех групп характеристик на примере гласных звуков «А» «И» «О»
и согласных «К» «М» «Ф».
Таблица 2.17 - результат исследования звука А
А
е
и
л
р
х
ч
д
ж
з
к
н
п
с
в
й
м
я
б
ф
ш
щ
Временные
Кепстральные
Частотные
характеристики характеристики характеристики
Всего
Количество наборов характеристик соответствующих звуку А
9
3
4
16
Количество наборов характеристик соответствующих звуку А и
другому указанному звуку
4
3
1
8
6
1
1
8
5
2
1
8
3
1
3
7
2
1
4
7
3
3
1
7
3
3
0
6
4
1
1
6
3
1
2
6
3
1
2
6
3
3
0
6
2
1
3
6
4
2
0
6
2
3
0
5
2
1
2
5
3
2
0
5
2
1
2
5
3
1
0
4
0
3
1
4
2
2
0
4
1
3
0
4
59
Окончание таблицы 2.17
ы
о
у
ц
э
г
ё
т
ю
2
0
1
1
1
0
1
0
1
1
2
2
2
1
1
0
1
0
1
1
0
0
1
1
1
1
0
4
3
3
3
3
2
2
2
1
В таблице 2.17 определено, что из 16 наборов характеристик,
соответствующих звуку «А», в 8 случаях характеристики совпадают с
характеристиками
звуков
«Е»
«И»
«Л».
В
7
случаях
совпадают
характеристики звуков «Р» «Х» «Ч». При этом, временные характеристики
звука «Е» совпадают с временными характеристиками звука «А» в 4 случаях,
а звука «И» - в 6 случаях, кепстральные характеристики звука «Е» совпадают
с «А» в 3 случаях, а у звука «И» в 1 случае, и частотные характеристики
звуков «Е» «И» совпадают со звуком «А» в одном случае.
Таблица 2.18 - результат исследования звука «И»
Временные
Кепстральные
Частотные
характеристики характеристики характеристики
И
Всего
Количество наборов характеристик соответствующих звуку И
9
3
4
16
Количество наборов характеристик соответствующих звуку И и
другому указанному звуку
л
р
б
у
а
е
в
ж
к
о
ы
г
ё
й
7
6
4
5
6
3
4
3
4
2
4
2
3
1
2
3
3
1
1
1
1
3
3
2
1
1
0
3
3
2
2
3
1
4
2
1
0
3
2
3
3
2
12
11
9
9
8
8
7
7
7
7
7
6
6
6
60
Окончание таблицы 2.18
м
э
д
з
н
п
х
с
т
ц
щ
ю
я
ч
ш
ф
4
4
2
3
2
2
1
2
1
2
3
2
2
1
2
0
0
0
1
2
1
3
3
2
3
2
1
0
0
1
0
1
2
2
2
0
2
0
1
0
0
0
0
2
2
0
0
0
6
6
5
5
5
5
5
4
4
4
4
4
4
2
2
1
В таблице 2.18 определено, что из 16 наборов характеристик,
соответствующих звуку «И», в 12 случаях характеристики совпадают с
характеристиками звука «Л». В 11 случаях характеристики совпадают с
характеристиками звука «Р». В 9 случаях совпадают характеристики звуков
«Б» и «У». В 8 случаях совпадают характеристики звуков звуки «Е» «А». При
этом, временные характеристики звука «Л» совпадают с временными
характеристиками звука «И» в 7 случаях, звука «Р» - в 6 случаях, а звуком
«Б» и «У» - в 3 и 5 случаях соответственно. Мел-кепстральные
характеристики звука «Л» совпадают с характеристиками звука «И» в 2
случаях, характеристики звука «Р» - в 3 случаях. Звук «Б» в 3 случаях, звук
«У» в одном случае. Частотные характеристики звуков «Л» совпадает в трех
случаях, звука «Р» в двух случаях.
Таблица 2.19 - результат исследования звука «О»
Временные
Кепстральные
Частотные
характеристики характеристики характеристики
О
Всего
Количество наборов характеристик соответствующих звуку О
4
16
9
3
Количество наборов характеристик соответствующих звуку И и
другому указанному звуку
61
Окончание таблицы 2.19
л
ы
э
я
г
и
к
м
н
у
х
ш
е
ё
з
й
р
ц
ч
щ
а
б
в
д
с
т
ф
ж
п
ю
л
1
3
4
3
2
1
3
4
3
4
2
5
2
2
3
1
3
4
3
3
0
2
1
1
3
3
3
0
1
2
1
3
1
1
1
2
2
2
1
2
1
2
1
1
0
2
2
1
1
2
2
2
1
2
2
1
1
1
2
1
0
3
3
3
2
3
2
3
1
1
1
1
2
0
2
3
0
2
1
0
0
0
2
1
1
1
0
0
0
1
1
1
3
7
7
7
7
6
6
6
6
6
6
6
6
5
5
5
5
5
5
5
5
4
4
4
4
4
4
4
3
3
3
7
В таблице 2.19 определено, что из 16 наборов характеристик,
соответствующих звуку «О», в 7 случаях характеристики совпадают с
характеристиками звуков «Я» «Э» «И» «Л». При этом, временные
характеристики звука «Л» совпадают с временными характеристиками звука
«О» в 1 случае, звука «Ы» - в 3 случаях, звука «Э» в 4 случаях, звука «Я» в 1
случае.
Кепстральные
характеристики
звука
«Л»
совпадают
с
характеристиками звука «О» в 3 случаях, в одном случае совпадают
характеристики звуков «Ы» «Э» «Я». Частотные характеристики звуков «Л»
«Ы» «Я» совпадают со звуком «И» в трех случаях.
62
Таблица 2.20 - результат исследования звука «К»
Временные
Кепстральные
Частотные
характеристики характеристики характеристики
К
Всего
Количество наборов характеристик соответствующих звуку К
9
3
4
16
Количество наборов характеристик соответствующих звуку И и
другому указанному звуку
р
п
т
ж
з
х
а
и
л
о
ц
й
м
с
ч
я
б
в
г
у
ш
д
е
ф
э
н
щ
ы
ё
ю
6
3
4
2
2
2
3
4
4
3
5
1
5
3
3
4
2
3
3
3
3
2
2
2
3
2
1
2
1
0
2
3
2
3
3
3
1
2
2
2
1
3
0
2
1
0
2
1
1
1
0
1
1
1
0
0
1
0
0
0
2
3
2
2
2
2
2
0
0
1
0
1
0
0
1
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
10
9
8
7
7
7
6
6
6
6
6
5
5
5
5
5
4
4
4
4
4
3
3
3
3
2
2
2
1
0
В таблице 2.20 определено, что из 16 наборов характеристик,
соответствующих звуку «К», в 10 случаях характеристики совпадают с
характеристиками звука «Р». В 9 случаях совпадают характеристики звука
«П». В 8 случаях совпадают характеристики звуков «Т». При этом,
временные
характеристики
звука
«Р»
совпадают
с
временными
характеристиками звука «К» в 6 случаях, звука «П» - в 3 случаях, звука «Т» в
4
случаях.
Кепстральные
характеристики
звука
«Р»
совпадают
с
63
характеристиками звука «К» в 2 случаях, звука «П» в 3 случаях, звука «Т» в 2
случаях.
Частотные
характеристики
звуков
«Р»
«Т»
совпадают
с
характеристиками звука «К» в 2 случаях. Частотные характеристики звука
«П» совпадают со звуком «К» в 3 случаях.
Таблица 2.21 - результат исследования звука «М»
Временные
Кепстральные
Частотные
характеристики характеристики характеристики
М
Всего
Количество наборов характеристик соответствующих звуку М
9
3
4
16
Количество наборов характеристик соответствующих звуку М и
другому указанному звуку
н
б
в
у
д
е
ы
а
л
о
ш
э
г
и
к
р
с
ю
ё
з
ф
ц
щ
я
ж
ч
п
т
й
х
5
5
4
5
3
3
3
3
4
4
3
3
2
4
5
5
4
1
2
4
2
3
2
3
3
1
2
1
0
0
2
1
2
2
2
2
1
2
1
1
3
1
0
0
0
0
1
0
1
0
2
1
2
1
0
2
0
0
0
0
4
4
4
3
4
2
3
1
1
1
0
2
3
1
0
0
0
4
1
0
0
0
0
0
0
0
0
0
0
0
11
10
10
10
9
7
7
6
6
6
6
6
5
5
5
5
5
5
4
4
4
4
4
4
3
3
2
1
0
0
64
В таблице 2.21 определено, что из 16 наборов характеристик,
соответствующих звуку «М», в 11 случаях характеристики совпадают с
характеристиками звука «Н». В 10 случаях совпадают характеристики звуков
«Б» «В» «У». В 9 случаях совпадают характеристики звука «Д». При этом,
временные характеристики звуков «Н» «Б» «У» совпадают с временными
характеристиками звука «М» в 5 случаях, звука «В» - в 4 случаях.
Кепстральные характеристики звука «Б» совпадают с характеристиками
звука «М» в 1 случае. Кепстральные характеристики звуков «Н» «В» «У» в 1
случае.
Частотные
характеристики
звуков
«Р»
«Т»
совпадают
с
характеристиками звука «К» в 2 случаях. Частотные характеристики звуков
«Н» «Б» «В» совпадают с характеристиками звука «М» в 4 случаях.
Таблица 2.22 - результат исследования звука «Ф»
Временные
Кепстральные
Частотные
характеристики характеристики характеристики
Ф
Всего
Количество наборов характеристик соответствующих звуку Ф
9
3
4
16
Количество наборов характеристик соответствующих звуку Ф и
другому указанному звуку
ч
х
ц
щ
н
т
з
с
в
е
о
у
э
а
б
д
л
м
5
6
3
2
4
4
4
1
2
2
3
2
4
1
3
1
2
2
3
1
2
3
3
1
1
2
3
3
2
3
1
3
1
3
2
2
3
1
3
3
0
2
1
3
0
0
0
0
0
0
0
0
0
0
11
8
8
8
7
7
6
6
5
5
5
5
5
4
4
4
4
4
65
Окончание таблицы 2.22
ш
я
ж
к
п
ы
ю
г
ё
й
и
р
0
3
2
2
1
2
3
1
2
1
0
0
1
1
1
1
1
1
0
1
0
1
1
1
3
0
0
0
1
0
0
0
0
0
0
0
4
4
3
3
3
3
3
2
2
2
1
1
В таблице 2.22 определено, что из 16 наборов характеристик,
соответствующих звуку «М», в 11 случаях характеристики совпадают с
характеристиками звука «Ч». В 8 случаях совпадают характеристики звуков
«Х» «Ц» «Ц». При этом, временные характеристики звука «Ч» совпадают с
временными характеристиками звука «Ф» в 5 случаях, звука «Х» - в 6
случаях, звука «Ц» - в 3 случаях, звука «Щ» - в 2 случаях. Кепстральные
характеристики звука «Х» совпадают с характеристиками звука «Ф» в 1
случае. Кепстральные характеристики звуков «Ч» «Щ» в 3 случаях, звука
«Ц» - в 2 случаях. Частотные характеристики звуков «Р» «Т» совпадают с
характеристиками звука «К» в 2 случаях. Частотные характеристики звуков
«Ц» «Ч» «Щ» совпадают с характеристиками звука «Ф» в 3 случаях. У звука
«Х» совпадение частотных характеристик со звуком «Ф» происходит лишь в
одном случае.
Результаты перекрестного сравнения, приведенные в таблице, показывают,
что
вероятность
распознавания
отдельного
звука
с
использованием
подобного набора колеблется в интервале от 20 до 60 процентов в
зависимости от звука и от таких особенностей, как особенности голоса
диктора, разного типа аппаратуры, условий записи звука, воздействие
внешних шумов. Таким образом, построить самостоятельную систему
66
распознавания, основанную лишь на параметрическом подходе весьма
затруднительно.
67
ЗАКЛЮЧЕНИЕ
1. Анализ существующих методов распознавания речи позволяет
сказать, что основной целью обработки речевых сигналов является
получение наиболее удобного и компактного представления содержащейся в
них информации. Точность представления определяется той информацией,
которую необходимо сохранить или выделить.
2.
Временные
длительности
характеристики
имеют
изменяются
воспроизведения, а также
Исследование
параметров
речевых
в
сигналов
зависимости
на
от
примере
скорости
зависят непосредственно от типа звука.
значений
длительности
происходит
путем
изучения длин фрагментов речевых сигналов. При анализе переходов сигнала
через ноль характерно проявление квазипериодичности. Особенно ярко это
проявляется для звуков, которые принято относить к классу вокализованных:
гласные и сонорные согласные. Проявление квазипериодичности связано с
работой голосовых связок.
3. При исследовании мел-кепстральных характеристик были найдены
различия, которые есть между частотными составляющими в традиционном
спектре и частотными составляющими в спектре, называемом кепстром. В
первом случае любая частотная составляющая имеет физический смысл,
сигнал с такой частотой и амплитудой действительно присутствует в
исходном сигнале во временной области. Во втором же случае, в кепстре,
присутствие гармоник может совсем не означать, что в исходном спектре
существуют соответствующие периодичности, а только то, в какой мере вид
дискретных
составляющих
в
исходном
спектре
более
или
менее
островершинный.
3. При анализе частотного распределения энергии фрагментов РС,
порождаемых различными звуками русской речи, интерес представляет не
68
только ширина диапазона, в котором сосредоточена подавляющая доля
энергии, но и местоположение этого диапазона в частотной области.
4. Результаты перекрестного сравнения, приведенные в таблице,
показывают,
что
вероятность
распознавания
отдельного
звука
с
использованием подобного набора колеблется в интервале от 20 до 60
процентов в зависимости от звука и от таких особенностей, как особенности
голоса диктора, разного типа аппаратуры, условий записи звука, воздействие
внешних шумов. Таким образом, построить самостоятельную систему
распознавания, основанную лишь на параметрическом подходе весьма
затруднительно. Такой подход может быть полезен как элемент системы
распознавания, с помощью которого можно ограничить количество
вероятных типов звука для дальнейшего исследования.
Цель исследования достигнута, все задачи выполнены.
69
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Аграновский, А.В. Теоретические аспекты алгоритмов обработки
1.
и классификации речевых сигналов [Текст]/ А.В. Аграновский, Д.А. Леднов –
М.: Радио и связь, 2004. – 164 с.
Алдошина, И.А. Основы психоакустики. Слух и речь. Часть1
2.
[Текст]
/
И.А.
Алдошина
//
Информационно-технический
журнал
«Звукорежиссер». - 2002. - №1. - С.38-44.
3.
Алдошина, И.А. Слуховые модели восприятия линейных и
нелинейных искажений в музыке и речи. Часть1 [Текст] / И.А. Алдошина //
Информационно-технический журнал «Звукорежиссер». - 2006. - №3. – С.3844.
4.
Бабкин, В.В. Помехоустойчивый выделитель основного тона речи
[Текст] /В.В. Бабкин// Труды 7-й Международной Конференции и Выставки
Цифровая Обработка Сигналов и ее Применение (DSPA-2005) – Москва,
2005. – С.175-178.
5.
Бабкина Л.Н., Молчанов А.П. «Способ адаптивной фильтрации
речевых сигналов в слуховых аппаратах», патент RU -2047946 от 10.11.95
6.
Бабкина, Л.Н. Особенности отображения частотной структуры
сигналов в периферическом отделе слухового анализатора в норме и
патологии
[Текст]/
Л.Н.
Бабкина,
А.П.
Молчанов
//
Вестник
оториноларингологии. – 2000. – N3. – С.28-30
7.
Баронин, С.П. Спектральный анализ и проблема сокращенного
описания речевых сигналов [Текст] - В кн.: Спектральный анализ звуков речи
и интонации звуков речи и интонации. М. 1969, с. 13-30.
8.
Баронин, С.П. Автокорреляционный метод выделения основного
тона речи. Пятьдесят лет спустя [Текст] /С.П. Баронин// Речевые технологии,
2/2008. – 2008. – С.3-12.
70
9.
Бахвалов, Н.С. Численные методы [Текст] / Н.С. Бахвалов, Н.П.
Жидков, Г.М, Кобельников. – 3-е изд., перераб. – М.: БИНОМ. Лаборатория
знаний, 2003. -.632 с.
10. Белошапкова, В.А. Современный русский язык: Учеб. для филол.
спец. ун-тов [Текст]/ В.А. Белошапкова, Е.А. Брызгунова, Е.А. Земская под
ред. В.А. Белошапковой – М.: Высш. шк., 1989. – 800 с.
11. Буланин, Л.Л. Фонетика современного русского языка [Текст]. –
М.: «Высшая школа», 1970. – 206 с.
12. Васильев, Е.М. Система распознавания фонетических образов на
основе нейросетевой модели восприятия речи [Текст] /Е.М. Васильев, В.В.
Меренков//
Вестник
Воронежского
государственного
технического
университета. – 2009. – Т.5. № 10. – С.130-134.
13. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых
сигналов [Текст]/ Винцюк Т.К. - Киев: Наук.думка, 1987. - 264с.
14. Воеводин, В.В. Матрицы и вычисления [Текст] / В.В. Воеводин,
Ю.А. Кузнецов. – М.: Наука, 1984. – 318 с.
15. Герасимов,
А.В.
Применение
метода
модифицированного
линейного предсказания к задачам выделения акустических признаков
речевых сигналов [Текст] / А.В.Герасимов, О.А. Морозов, В.Р. Фидельман //
Радиотехника и Электроника. – 2005. – том 50. №10. – С. 1287-1292.
16. Гольдштейн, B.C. IP-Телефония [Текст] / B.C. Гольдштейн, А.В.
Пинчук, А.Л.Суховицкий. – М.: Радио и связь, 2001. – 336с.: ил.
17. Гудонавичюс, Р.В. Распознавание речевых сигналов по их
структурным свойствам [Текст]/Р.В. Гудонавичюс, П.П. Кемешис, А.Б.
Читавичюс – Л.: «Энергия», 1977. – 64 с.
18. Деркач, М.Ф. Динамические спектры речевых сигналов [Текст]/
М.Ф. Деркач, Р.Я. Гумецкий, Б.М. Гура, М.Е. Чабан – Львов: Виша школа.
Изд-во при Львов. ун-те, 1983. – 168 с.
71
19. Дорохин, О.А. Сегментация речевого сигнала [Текст] / О.А.
Дорохин, Д.Г. Старушко, Е.Е. Федоров, В.Ю. Шелепов // Институт проблем
искусственного интеллекта. – 2000. – 3/2000. – С.450-458.
20. Коваль С.Л., Лабутин П.В., Раев А.Н. Патент РФ 2230375 от
10.06.2004
«Метод
распознавания
диктора
и
устройство
для
его
осуществления».
21. Колерс, П.А. Распознавание образов. Исследование живых и
автоматических распознающих систем [Текст]/ П.А. Колерс, Е.Д. Мюрей,
пер. Л.И. Титомира – М.: «Мир», 1970. – 288 с.
22. Коротаев, Г.А. Системы анализа и синтеза речевого сигнала с
линейным
предсказанием
[Текст]
/
Г.А.
Коротаев
//
Зарубежная
радиоэлектроника. – 1976. – № 10. – С.3-14.
23. Коротаев, Г.А. Некоторые аспекты линейного предсказания при
анализе
речевого
сигнала
[Текст]
/
Г.А.
Коротаев
//
Зарубежная
радиоэлектроника. – 1991. – № 7. – С.13-31.
24. Лабутин, В. К. Модели механизмов слуха [Текст] / В.К. Лабутин,
А. П. Молчанов. – М.: Энергия, 1973. – 200 с.
25. Ле, Н.В. Распознавание речи на основе искусственных нейронных
сетей [Текст] / Н.В. Ле, Д.П. Панченко // Технические науки в России и за
рубежом: материалы междунар. заоч. науч. конф.– Москва. – 2011. – С.8-11.
26. Леонович, А.А. Современные технологии распознавания речи
[Текст] /А.А. Леонович // Материалы конференции «Диалог: Компьютерная
лингвистика и интеллектуальные технологии». – Звенигород. – 2005.
27. Ли, У.А. Методы автоматического распознавания речи. [Текст] В
2-х книгах. Кн.1. / Пер. с англ./Под ред. У.Ли. – М.; Мир, 1983. –328 с.
28. Ли, У.А., Методы автоматического распознавания речи. [Текст] В
2-х книгах. Кн.2. /Пер. с англ. Под ред. У.Ли. – М.; Мир, 1983. – 392 с.
29. Лузин, Д.А. Разработка и исследование системы автоматического
выделения основного тона речи [Текст]: автореф. дис. канд. техн. наук /Д.А.
Лузин. – Ижевск, 2009. – 26с.
72
30. Мазуренко, И.Л. Компьютерные системы распознавания речи
[Текст] / И.Л. Мазуренко // Интеллектуальные системы. – Москва. – 1998. –
т.3. вып. 1-2. – С.117-134.
31. Мазуренко, И.Л. Одна модель распознавания речи [Текст] / И.Л.
Мазуренко // Компьютерные аспекты в научных исследованиях и учебном
процессе. –Москва – 1996 – С.107-112.
32. Маркел, Дж.Д. Линейное предсказание речи [Текст] /Дж.Д.
Маркел, А.Х. Грэй. Пер. с англ. Под ред. Ю.Н. Прохорова – М.: Связь, 1980.–
308с.
33. Матвеев, Ю.Н. Система идентификации дикторов по голосу для
конкурса NIST SRE 2010/ Ю.Н. Матвеев, К.К. Симончик // 20я
Международная Конференция по Компьютерной Графике и Зрению. – СанктПетербург. – 2010. – С.35-39.
34. Ниценко, А.В. Алгоритмы пофонемного распознавания слов
наперед заданного словаря [Текст] / А.В. Ниценко, В.Ю. Шелепов //
Искусственный интеллект. – 2004. – С.633-639.
35. Новиков, Л.А. Современный русский язык [Текст] / Л.А. Новиков,
Л.Г. Зубкова, В.В. Иванов и др. под общей ред. Л.А. Новикова – СПб.:
«Лань», 1999. – 865 с.
36. Питмен, Э. Основы теории статистических выводов [Текст] /Э.
Питмен // Пер. с англ. – М.: Мир, 1986. – 104с.
37. Прохоров, Ю.Н. Рекуррентное оценивание параметров речевых
сигналов [Текст] / Ю.Н. Прохоров – М.: Наука, 1977. – С.67-80.
38. Рабинер, Л. Теория и применение цифровой обработки сигналов
/Л.Рабинер, Б.Гоулд – М.: Мир, 1978. – 848с.
39. Рабинер, Л.Р. Цифровая обработка речевых сигналов [Текст]/ Л.Р.
Рабинер, Р.Ф. Шафер – М.: Радио и связь, 1981. – 496 с.
40. Савченко, В.В. Различение случайных сигналов в частотной
области [Текст] /В.В. Савченко // Радиотехника и электроника. – 1997. – Т.42,
№4. – С.426-429.
73
41. Сапожков, М.А. Вокодерная связь [Текст]/ М.А. Сапожков, В.Г.
Михайлов – М.: «Радио и связь», 1983. – 248 с.
42. Сорокин,
В.Н.
Артикуляторно-ориентированная
система
распознавания речи [текст] / В.Н. Сорокин, А.Н. Ижнин, А.И. Цыплихин,
Д.Н. Чепелев // Труды Международного семинара «Диалог - 2003». – 2003.
С.657-662.
43. Сорокин, В.Н. Модель многослойного первичного анализа
речевых сигналов [Текст] / В.Н. Сорокин // Труды 13-й сессии Российского
акустического общества. – 2003. – С.11-16.
44. Сорокин, В.Н. Первичный анализ речевых сигналов [Текст] / В.Н.
Сорокин, Д.Н. Чепелев // Акустический ж. – 2005. – Т.51, №4. – С.536-542.
45. Сорокин, В.Н. Сегментация и распознавание гласных [Текст] /
В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. – 2004. – Т.4,
№2. – С. 202-220.
46. Сорокин, В.Н. Сегментация речи на кардинальные элементы
[Текст] / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. –
2006. – Т.6, №3. – С.177-207.
47. Сорокин, В.Н. Синтез речи [Текст] / В.Н.Сорокин. – М.: Наука,
1992. – 392 с.
48. Сорокин, В.Н. Теория речеобразования [Текст] / В.Н. Сорокин –
М.: Радио и связь, 1985. – 312 с.
49. Фант, Г. Акустическая теория речеобразования [Текст] / Г. Фант –
М.:Наука, 1964. – 304 c.
50. Фирсова, А.А. Исследование решающей функции максимальной
чувствительности к изменению частей энергии в частотных интервалах
[Текст] / С.П. Белов, А.А. Фирсова // Научные ведомости Белгородского
государственного университета. Сер. История. Политология. Экономика.
Информатика. – 2012. – №13(132), выпуск 23/1. – С.227-231.
Отзывы:
Авторизуйтесь, чтобы оставить отзыв