ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«БЕЛГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ
ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ»
( Н И У
« Б е л Г У » )
ИНСТИТУТ ИНЖЕНЕРНЫХ ТЕХНОЛОГИЙ И ЕСТЕСТВЕННЫХ НАУК
КАФЕДРА ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ
СИСТЕМ И ТЕХНОЛОГИЙ
ИССЛЕДОВАНИЕ ПРИЗНАКОВ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ ЗАДАЧ
РАСПОЗНАВАНИЯ РЕЧИ
Выпускная квалификационная работа
обучающегося по направлению подготовки 11.03.02 Инфокоммуникационные
технологии и системы связи
очной формы обучения, группы 07001307
Марей Раад Али САлех
Научный руководитель
ассистент кафедры
Информационнотелекоммуникационных
систем и технологий
НИУ «БелГУ» Чадюк П.В.
доцент кафедры
информационных систем,
кандидат социологических наук
Игрунова С.В.
БЕЛГОРОД 2017
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
БЕЛГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ
ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
(НИУ «БелГУ»)
ИНСТИТУТ ИНЖЕНЕРНЫХ ТЕХНОЛОГИЙ И ЕСТЕСТВЕННЫХНАУК
КАФЕДРА ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ
Направление подготовки 11.03.02 Инфокоммуникационные технологии и системы связи
Профиль «Сети связи и системы коммутации»
Утверждаю
Зав. кафедрой
«____» ____________________ 201_г.
ЗАДАНИЕ
НА ВЫПУСКНУЮ КВАЛИФИКАЦИОННУЮ РАБОТУ
____Марей Раад Али Салех ______________
1. Тема ВКР «Исследование признаков речевых сигналов для задач распознавания речи»
Утверждена приказом по университету от «____» __________________ 201_ г. № _____
2. Срок сдачи студентом законченной работы __________
3. Исходные данные к работе:
Объект исследования – речевые сигналы;
Предмет исследования – признаковые пространства речевых сигналов в задачах распознавания
речи;
Методы исследования – анализ сигналов, линейная алгебра, статистический анализ, теория
распознавания образов, цифровая обработка сигналов и вычислительные эксперименты.
База речевых данных – отрезки речевых сигналов, соответствующие звукам арабского и
русского алфавита; отрезки речевых сигналов, соответствующие словам русского и арабского
языков.
4. Содержание расчетно-пояснительной записки (перечень подлежащих разработке вопросов):
4.1 Анализ признаковых пространств в задачах распознавания речи
4.2 Меры близости, применяемые в задачах распознавания речи
4.3 Методика проведения вычислительных экспериментов
4.4 Оценка результатов вычислительных экспериментов
4.5 Экономическое обоснование работы
5. Перечень графического материала (с точным указанием обязательных чертежей)
5.1 Блок схема алгоритма вычисления мел-кепстральных коэффициентов (А1, лист 1)
5.2 Блок схема алгоритма вычисления -кепстральных коэффициентов (А1, лист 1)
5.3 Блок схема алгоритма вычисления -спектральных (А1, лист 1)
5.4 Таблица результатов сравнительных экспериментов для различных признаков и мер
близости (А1, лист 1)
5.5 Экономические показатели работы (А1, лист 1)
6. Консультанты по работе с указанием относящихся к ним разделов работы
Раздел
4.1 – 4.4
4.5
Подпись, дата
Задание выдал
Задание принял
Консультант
ассистент каф. ИТСиТ
Чадюк П.В.
канд. техн наук,
доцент каф. ИТСиТ
Болдышев А.В.
7. Дата выдачи задания __________
Руководитель
ассистент
кафедры Информационно-телекоммуникационных
систем и технологий»
НИУ «БелГУ» ____________________________________________Чадюк П.В.
(подпись)
Задание принял к исполнению ______________________________Марей Р.А.С.
(подпись)
ВВЕДЕНИЕ
Под
понятием
распознавания
речи
скрывается
огромная
сфера
инженерной и научной деятельности. Распознавание речи является одной из
современных наук. Суть процедуры распознавания речи заключается в
понимании речи и преобразовании ее текстовой вид. Системы распознавания
речи разрабатываются с целью использования новых и современных методов
ввода данных, которые позволят избавить пользователя от использования
классических методов введения данных, что в свою очередь приведет к
упрощению, улучшению, ускорению процесса ввода команд и данных.
Важность разработки эффективных систем распознавания речи заключается в
возможности упрощения жизни человека. В настоящее время существует
множество систем распознавания речи, имеющие различные параметры и
характеристики.
Развитие компьютеров и их совершенствование является главным
фактором, который вызвал быстрое развитие программ распознавания речи.
Программы распознавания речи требуют значительных объемов памяти, и
большой вычислительной мощности.
Потребность
в
большой
мощностью,
требуемой
для
систем
распознавания речи, обусловлена необходимостью выполнения сложных
операций. В общем виде процедура распознавания речи состоит из нескольких
этапов. Сначала осуществляется регистрация речи микрофоном. Затем
результаты эта речи оцифруется звуковой картой. После оцифровки записанная
речь сохраняется в цифровом виде с разрядностью 16 бит и частотой
дискретизации
48000
Гц
для
дальнейшей
обработки.
После
этого
осуществляется анализ речевого сигнала с целью выделения высокочастотных
(согласных) и низкочастотных (гласных) частей речи. На заключительном этапе
осуществляется сравнение полученных фрагментов с фонемами с целью
определения наиболее точного эквивалента [9].
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
3
До сих пор использование систем распознавания речи ещё сталкивается
со многими препятствиями. Программы распознавания речи применяются во
многих областях современного мира: умный дом, бытовые технические
устройства, навигационная
система автомобилей,
для
задания
команд
ноутбукам и телефонам, предоставление социальных сервисов для инвалидов, в
системах телефонии «интерактивные голосовые меню», автоматический
перевод, в отчётах судов, голосовая почта и голосовой поиск в интернете и т.д.
Нет идеальной системы распознавания речи, которая работает с
точностью 100%, потому что есть много факторов, уменьшающих точность.
Это могут быть технические факторы, и факторы, связанные с пользователем. К
основным факторам снижения точности распознавания речи относится:
1. Слабость звука по сравнению с шумом. В ситуациях, когда возникают
посторонние
шумы
помещения,
улицы
и
т.д.,
возникают
помехи
и
интерференция звуков, что приводит к ошибкам системы распознавания речи.
2. Интерференционный разговор. Речь идет об одновременном разговоре
двух и более человек. В этом случае при работе системы возникают ошибки,
так как она не может выделить речь только одного человека.
3.
Необходимость
использования
современных
компьютеров
для
выполнения длительных статических процессов [26].
Для того чтобы программы распознавания речи выполняли ожидаемые от
них требования, с начала необходимо преодолеть препятствия, которые
мешают им работать. Для этого необходимо развивать словари и алгоритмы
этих систем, что должно позволить увеличить точность распознавания. Кроме
того необходима разработка алгоритмов позволяющих выделять речь из всех
видов шумов, помех, остальных звуков, которые оказывают влияние на
качество распознавания речи.
С течением времени становилось более очевидным, что использование
технологии
общения
человека
с
компьютером
голосом
расширяется.
Управление машиной голосом становится возможным в режиме реальном
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
4
времени, появилась технология защиты систем голосом, появились системы
перевода речи в текст. Все это благодаря, технологии распознавания речи.
Много из исследований в настоящее время посвящены процессу
распознавания речи. Эти работы ищут более естественные средств общения
человека с машиной, среди которых первое место занимает речевой ввод
информации в компьютер. Компания google добилась хорошие результаты в
этой области, но подробности использованных технологий компанией google
еще неизвестны. Распознавание речи встречается с множеством проблем,
которые ограничивает быстрое развитие и осложняют процесс и уменьшают
производительность этой технологии, и до сих пор, учёные и исследователи
еще не нашли точные решения им. Из этих проблем: различие языков,
спецификация произношения, шумы, акценты, ударения и т.п.
Голосовое управление машиной человеком основано на технологии
распознавания речи. Системы распознавания речи получают колебания воздуха
при вводе через микрофон, и сравнивают их с записанными словами в
сохраненной в системе базе данных. Чем больше записанные слов в базе, Тем
лучше результаты распознавания [14].
Существуют два вида технологий распознавания голоса: распознавание,
зависящее от диктора, и распознавания не зависящее от диктора, т.е. система
способна распознавать речи не в зависимость от диктора.
Интеллектуальные
системы
распознавания
речи
используются
в
операторах связи. И эти системы позволяют снизить нагрузки на операторов и
секретарей, сократить расходы на оплату труда и повысить производительность
систем обслуживания [19].
В настоящее время, всё системы распознавания речи основаны на сборе
информации, необходимой для осуществления процесса распознавания. Задача
распознавания речи зависит от качества, записанной речи. Но даже при
распознавании небольших сигналов, еще невозможно осуществлять прямую
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
5
трансформацию этих сигналов в лингвистические символы, что является
желательным результатом.
И поэтому, осуществляется процесс сокращения объёма информацию,
путём, выполнения процесс, в котором осуществляется первоначальное
трансформирование информации для сокращения, чтобы подвергать ее анализу
с помощью компьютера.
Целью данной ВКР является исследованию эффективности применения
существующих признаков речи и мер близости в процессе распознавания речи.
Для достижения цели надо решить задачи:
1)
Исследовать подходы получения признаков для отрезков речевых
сигналов;
2)
разработать алгоритмы получения время-частотных признаков
отрезков звуковых сигналов и алгоритмов нахождения мер близости;
3)
провести вычислительные эксперименты.
Пояснительная записка состоит из введения, пяти глав, заключения,
списка литературы, приложения А, и приложения Б. В первой главе
рассмотрены анализ признаковых пространств в задачах распознавания речи.
Во второй главе составляется меры близости, применяемые в задачах
распознавания речи. В третьей главе описывается методика проведения
вычислительных экспериментов. В четвёртой главе предлагается оценка
результатов вычислительных экспериментов. В пятой главе представлена
экономическая часть.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
6
1 АНАЛИЗ ПРИЗНАКОВЫХ ПРОСТРАНСТВ В ЗАДАЧАХ
РАСПОЗНАВАНИЯ РЕЧИ
В настоящее время, существуют несколько методов анализа признаков
акустической речи, воспринимающей микрофоном и образованной в цифровую
форму после дискретизации и оцифровки. И в результате дискретизации и
оцифровки получаем последовательность чисел. И поэтому необходимо
рассмотреть популярные методы анализа признаков речевых сигналов.
Любой речевой сигнал обладает набором параметров, позволяющих
отличать его от других речевых сигналов. Речевые сигналы, имеющие похожие
параметров можно объединить в группу. Процесс отнесения любого речевого
сигнала к одной из групп называется распознаванием или классификацией.
Параметры речевого сигнала, которые позволяют отличать его группу от
остальных групп, называются признаками [18].
Процесс анализа признаков речевых сигналов является важной и
неотъемлемой частью человеческой деятельности, о чем свидетельствует
постоянное
развитие
информационно-телекоммуникационных
технологий
обработки, хранения и передачи данных [12]. Этот процесс используется в
задачах распознавания речи, выделения активной речи от шума, определения
особенности речи, улучшения переданной речи по каналам связи и сокращение
объема
информации
для
передачи
и
хранения,
улучшения
процесса
распознавания речи.
Существует
множество
методов
анализа
речи
для
извлечения
акустических признаков, использующихся для распознавания речи: Mel
Frequency Cepstral Coefficients (MFCC), Perceptual linear predictive (PLP), Linear
prediction cepstral coefficient (LPCC), Linear frequency cepstral coefficients
(LFCC).
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
7
1.1 Частотный (спектральный) анализ
Частотный анализ в базисе Фурье, один из широких в применении
методов анализа сигналов. Его используют чаще всех остальных методов.
Частотный анализ реализуется дискретным прямым (1) и дискретным обратным
(2) преобразованиями Фурье [16]. Коэффициенты Фурье для одномерного
массива x(i ) , где i=1..N, определяются следующим образом:
N 1
y ( k ) x (i ) e
2
ki
N
0i N
,
i 0
(1)
;
где x(i ) - входной речевой сигнал; i - индексы точек входного речевого сигнала;
k=0..Nn-1; i=0..N-1; k - индекс точек энергического спектра речевого сигнала;
e
2
ki
N
2
2
cos
ki sin
ki .
N
N
Дискретное
преобразование
Фурье
является
одним
из
наиболее
применяемых методов в спектральном анализе, в цифровом анализе сигналов и
в цифровой обработке сигналов. Важность данного метода заключается в том,
что, он уменьшает число операций сложения и умножения и возможности
обработки сигналов в действительном времени. FFT отличается от DTF в том,
что оно уменьшает вычислительные операции сложения и умножения в DTF в
два раза.
Коэффициенты
дискретного
обратного
преобразования
Фурье
определяются следующим образом:
2
ki
1 Nn 1
x (i )
y (k )e Nn ,
Nn k 1
(2)
где y(k) - энергический спектр речевого сигнала; k - индексы точек
энергического спектра речевого сигнала; i - индексы точек входного речевого
сигнала; Nn - количество точек энергического спектра речевого сигнала;
2
ki
2
2
e Nn cos
ki sin
ki .
Nn
Nn
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
8
Трансформанты Фурье косинусной части (вещественной) определяются
следующим образом:
Re( k )
Nn 1
x(i) cos Nn ki ,
k 0
где k – индексы точек энергического спектра речевого сигнала; i – индексы
точек речевого сигнала; Nn – количество точек энергического спектра речевого
сигнала; x(i) – речевой сигнал.
Трансформанты
Фурье
синусной
части
(мнимой)
определяются
следующим образом:
Im( k )
Nn 1
x(i) * sin Nn ki ,
k 0
где k – индексы точек энергического спектра речевого сигнала; i – индексы
точек речевого сигнала; Nn – количество точек энергического спектра речевого
сигнала; x(i) – речевой сигнал.
Амплитуда трансформантов Фурье определяется следующим образом:
A( k ) Re( x ( k )) 2 Im( x ( k )) 2 ;
(3)
Фаза трансформантов Фурье определяется следующим образом:
Im( x(k ))
;
(k ) arctg
Re( x(k ))
(4)
Энергия трансформантов Фурье определяется следующим образом:
P Re( x ) 2 Im( x ) 2 .
(5)
Словестное описание алгоритма нахождения энергетического спектра
сигнала:
Входные данные: Входные данные: N – кол-во точек отрезка изходного
речевого сигнала; Nn – количество точек энергического спектра речевого
сигнала; x(i) – отрезок входного речевого сигнала.
Выходные данные: y(k) - энергические коэффициенты Фурье.
1)
Зададим количество точек Фурье Nn;
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
9
2)
Вычисляем вещественную (косинусную) часть энергического
спектра речевого сигнала:
Re( k )
Nn 1
x(i) cos Nn ki ; ;
k 0
3)
Вычисляем мнимую (синусную) часть энергического спектра
речевого сигнала:
Im( k )
Nn 1
x(i) * sin Nn ki ;
k 0
4)
Вычисляем энергию спектра речевого сигнала:
5)
Получаем энергический спектр речевого сигнала:
P Re( x ) 2 Im( x ) 2 ;
y (k ) P ( k ) .
6)
Конец.
Рисунок 1 – Блок схема нахождения энергического спектра
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
10
1.2 Кепстральный анализ
Кепстральный анализ основан на использовании преобразования Фурье.
Кепстр - есть спектр спектра, иными словами, кепстр - есть обратное
преобразование Фурье логарифма квадрата энергического спектра сигнала [1].
Энергический кепстр речевых сигналов находится по данной формуле:
c( n)
1
2
2
Nт 1
nk
log | y (k ) |2 *e Nт ,
(6)
k 0
где y(k) – энергический спктра речевого сигнала; k=0..Nn-1; Nn – количество
точек
энергического
спектра
речевого
сигнала;
k
–
индексы
точек
энергического спектра речевого сигнала; n – индексы коэффициентов кепстра
речевого сигнала.
Словестное описание алгоритма нахождения энергического кепстра
речевого сигнала:
Входные данные: N – кол-во точек отрезка изходного речевого сигнала;
Nn – количество точек энергического спектра речевого сигнала; x(i) – отрезок
входного речевого сигнала.
Выходные данные: C(n) – энергический кепстр речевого сигнала.
1)
Вычисляем энергического спектра речевого сигнала спектра
сигнала с помощью ДПФ:
N 1
y ( k ) x (i ) e
2
ki
N
;
i 0
2)
Вычисляем логарифм квадрата энергического спектра речевого
сигнала:
s (b) log( y (k ) 2 ) ;
3)
Вычисляем дискретное косинусное преобразование от логарифма
квадрата энергии спектра:
C (n)
Nn 1
nb
s(b) * cos( Nn ) .
b0
4)
Конец.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
11
В данном алгоритме использовали ДКП потому, что в итоге мы получим
не комплексные числа после преобразования.
Рисунок 2 – Блок схема энергического кепстра речевых сигналов
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
12
1.3 Мел-кепстральный анализ
Мел-кепстральный анализ построен на двух основных понятий: "мелшкала" и "кепстр". Мел - есть психофизическая единица высоты звука, где у
каждой частоты человеческого голоса есть определённая величина высоты
звука (мел). Мел-шкала - есть шкала, которая отображает зависимость высоты
звука (мел) от частоты. Мел-частотные кепстральные коэффициенты - это
распределенные по мел-шкале значения кепстра [12].
Мел-кепстральный анализ речи основан на человеческих перцептивных
экспериментах. Следует отметить, что человеческое ухо работает как фильтр,
который
фиксирует
только
компоненты
на
определенных
частотных
составляющих. При реализации мел-кепстрального анализа используются
фильтры различной ширины, которые разнесены неравномерно по оси частот,
причем в низкочастотной области их больше, чем в высокочастотной области.
Для нахождения треугольные фильтры, которые перекрывают друг друга
на половине и применяются на мел-шкале используется следующую формулу:
0
k - f(r - 1)
f (r ) f (r 1)
Hr
f (r 1) k
f (r 1) f (r )
0
где
f(r)
-
f 2m 2595 * log(1
частоты
по
k f(r - 1)
f (r 1) k f (r )
(7)
f (r ) k f (r 1)
k f (r 1)
мел-шкале,
их
получаем
из
формулы:
f
)
700 ; k – индексы частот энергического спектра речевого
сигнала; k=0:Nn-1.
Энергия каждого окна (фильтра) на мел-шкале вычисляется по
Формуле:
Nn 1
2
S (r ) ln y (k ) .H r (k ) ;
k 0
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
(8)
Лист
13
где k – индексы точек энергического спектра речевого сигнала; Nn – кол-во
точек энергического спектра речевого сигнала; y(k) – отрезок энергического
спектра речевого сигнала; Hr(k) – окно «r-ий фильтр» на мел-шкале; r=0..R-1, R
– число треугольных фильтров на мел-шкале.
Дискретное косинусное преобразование вычисляем по формуле:
R 1
nr
r 0
R
C (n) S (r ) * cos(
(9)
)
где S(r) – энергия каждого окна (фильтра) на мел-шкале; r – индексы фильтров
на мел-шкале; R – кол-во фильтров на мел-шкале, r=0:R-1; n – индексы
значения мел-кепстра, n=0..R-1.
Перцептивные
эксперименты
говорят,
что
человеческое
ухо
концентрируется на определенных областях спектральной огибающей (кривая,
соединяющая все форманты спектра). Поэтому использование разбиения на
конкретные
диапазоны
лучше,
чем
использование
всей
спектральной
огибающей. Исходя из этого, появился термин мел-кепстрального анализа.
Исследования в области психоакустики выявили, что человек принимает
по-разному изменение частоты в два раза в диапазоне низких и высоких частот.
Мел-шкала почти линейна для частот до десяти тысяч герц, потому, что
субъективное восприятие удвоения частоты совпадает с реальным увеличением
частоты в два раза [19,22,12]. Мел-шкала используется, чтобы показать нам, где
надо поставить каждый фильтр.
Мел-шкала переводит регулярные (правильные) частоты в масштаб,
более соответствующим речи, так как человеческое ухо чувствует звук
нелинейным способом [2]. Мел-шкала моделирует частотную чувствительность
человеческого слуха [22]. За счет использования мел-шкалы удается учесть
нелинейную зависимость слухового восприятия от частоты речевого сигнала
[14]. Отличие обычного кепстра от мел-кепстра, заключается в том, что мелкепстр аппроксимирует распределение кепстральных коэффициентов ближе к
человеческому слуху [5].
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
14
Для перевода значения частот от шкалы герца в мел-шкалу и обратно
используется следующие формулы соответственно:
f 2m 2595 * log(1
f
);
700
(7)
m
m2 f 700 * (10 2595 1) [18,21,11].
Словестное
описание
алгоритма
(8)
нахождения
мел-кепстральных
коэффициентов:
Входные данные: N – кол-во точек отрезка изходного речевого сигнала;
Nn – количество точек энергического спектра речевого сигнала; x(i) – отрезок
входного речевого сигнала.
Выходные: C(n) – мел-кепстр речевого сигнала.
1)
Применяем
к
входному
речевому
сигналу
дискретное
преобразование Фурье:
N 1
y (k ) x(i )e
2
ki
N
;
i 0
2)
Используя, оконную функцию строим перекрывающие друг друга
на половине треугольные фильтры на мел-шкале по формуле:
0
k - f(r - 1)
f (r ) f (r 1)
Hr
f (r 1) k
f (r 1) f (r )
0
3)
k f(r - 1)
f (r 1) k f (r )
f (r ) k f (r 1)
k f (r 1)
;
Вычисляем энергию каждого окна (фильтра):
Nn 1
2
S (r ) ln y (k ) .H r (k ) ;
k 0
4)
Вычисляем ДКП по формуле:
R 1
nr
r 0
R
C (n) S (r ) * cos(
5)
).
Конец.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
15
Рисунок 3 – Блок схема вычисления мел-кепстра
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
16
2
МЕРЫ
БЛИЗОСТИ,
ПРИМЕНЯЕМЫЕ
В
ЗАДАЧАХ
РАСПОЗНАВАНИЯ РЕЧИ
Определение сходства и однородности сигналов одна из трудных задач в
области
распознавания
речи.
Для
определения
сходство
сигналов,
используются меры близости путём, вычисления расстояний между точками
сигналов, либо ищем степень сходство между сигналами. Так что меры
близости неотъемлемая часть от науки распознавания речи. Существуют
несколько мер близости для вычисления сходство сигналов, в данной работе
исследовал эффективности использования следующих мер близости [8]:
2.1 Евклидово расстояние
Евклидово расстояние - метрика в евклидово пространстве вычисляется
по теореме Пифагора. Евклидово расстояние можно использовать для
нахождения близости и сходства признаков речевых сигналов. Чем меньше
значение евклидово расстояния между речевыми сигналами тем, они похожее.
Евклидово расстояние между точками речевых сигналов вычисляется по
следующей формуле [17]:
d ( x, y )
N 1
(x
i 0
i
xi ) 2 ;
(9)
где N – количество точек входных речевых сигналов; i – индексы отсчётов
речевых сигналов; x и y – входные речевых сигналы.
Использование евклидово расстояния бессмысленно, если у речевых
сигналов разные единицы измерения или, если речевые сигналы в разных
областях [17].
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
17
2.2 Среднеквадратическое отклонение
Среднеквадратическое отклонение (СКО) одно из важных мер близости в
процессе распознавания речи. Среднеквадратическое отклонение находит
отклонение речевых сигналов друг от друга. Поэтому чем меньше значение
среднеквадратического отклонения между речевыми сигналами, тем они
похожее друг на друга. Среднеквадратическое отклонение между речевыми
сигналами вычисляется по формуле:
N 1
d ( x, y )
x
i 0
yi
2
i
N 1
x
i 0
;
(10)
2
i
где x и y – входные речевые сигналы; i – индексы отсчётов речевого сигнала; N
– кол-во отсчётов речевого сигнала.
2.3 Ковариация
Ковариация используется для нахождения линейной зависимости речевых
сигналов. Чем больше значение ковариации, тем речевые сигналы похожее друг
на друга. Ковариация независимых речевых сигналов равна нулю. Ковариация
между речевыми сигналами вычисляется по следующей формуле:
cov( x, y ) M xi M ( x) . y i M ( y ) ;
(11)
где M - математическое ожидание речевого сигнала; x и y – входные речевые
сигналы; i – индексы отсчётов речевого сигнала.
2.4 Расстояние Махланобиса
Расстояние Махланобиса одна из важных мер близости. Оно отличается
от евклидово расстояния тем, что оно учитывает корреляции между сигналами
и инвариантно к масштабу. Расстояние Махланобиса широко применяется в
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
18
процессах распознавания речи, в кластерном анализе и методах классификации.
Расстояние Махланобиса вычисляется по следующей формуле [27]:
1
nx
ny
d ( x, y ) M ( x) M ( y ) .
. cov( x)
. cov( y ) .M ( x) M ( y ) ; …….(12)
nx ny
nx ny
T
где nx – длина речевого сигнала x; ny – длина речевого сигнала y; cov –
ковариация речевого сигнала; M – математическое ожидание речевого сигнала;
x и y – входные речевые сигналы.
2.5 Корреляция
Исторически, метод распознавания речи на основе коэффициентов
предсказания и авторегрессионной модели был, первым методом распознавания
речи [4], так как этот метод не требует больших вычислительных затрат, но с
развитием технологий появились мощные вычислительные машины и
эффективные вычислительные алгоритмы линейной алгебры. Вследствие этого,
метод распознавания на основе корреляционных функций стал, один из
актуальных методов распознавания речи.
Трудно сравнить сигналов с помощью корреляционных методов во
временной
области
из-за
того,
что
сравнение
сигналов
идёт
в
автоматизированном режиме, значит идёт сравнение беглой речи, и сигналы
бывают сдвинуты друг от друга по времени. И при их сравнении во временной
области даёт большую погрешность и скорее всего, в результате этих
погрешностей
получим неправильное распознавание. Для избавления от
погрешностей необходимо выровнять сигналов перед сравнением и это не
возможно в автоматизированном режиме (когда человек говорит). Но можно
уменьшить погрешности путём сравнения сигналов в частотной области.
Корреляционные методы показывают зависимость между речевыми
сигналами. Исходя из этой концепции, корреляционные методы используются в
распознавании речи, путём нахождения скалярного произведения исследуемого
сигнала с каждым из эталонных сигналов и выбирается тот эталонный сигнал,
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
19
для которого
скалярное произведение
с исследуемым сигналом есть
максимальное.
Корреляционные методы распознавания речи осуществляются, путём,
нахождение коэффициента корреляции между исследуемым сигналом и
эталонными сигналами. Коэффициент корреляции определяется по формуле:
N
K ( x, y )
( x M ( x)).( y
i
M ( y ))
i
i 1
N
N
( x M ( x)). ( y
i 0
где
M (x)
i
i 0
i
M ( y ))
cov( xy )
x y
;
(13)
- среднее значение речевого сигнала (математическое
ожидание); N – кол-во отсчётов речевого сигнала; i – индексы отсчётов
речевого сигнала; x и y – входные речевые сигналы; cov – ковариация между
речевыми сигналами; - среднеквадратическое отклонение речевого сигнала.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
20
3
МЕТОДИКА
ПРОВЕДЕНИЯ
ВЫЧИСЛИТЕЛЬНЫХ
ЭКСПЕРИМЕНТОВ
В данной ВКР проходили процесс анализа речи на основе использования
основных параметров (признаков) речи как спектр, кепстр, мел-кепстр. И
решили использовать признаки сигналов в частотной области, так как в
частотной области основная энергия речевых сигналов концентрируется в
узком диапазоне частот. И осуществили нахождение сходства сигналов для
выполнения
вычислительных
экспериментов
распознавания
полученных
признаков речевых сигналов путём использования мер близости таких как:
евклидово
расстояние,
среднеквадратическое
отклонение,
расстояние
Махланобиса, корреляция, ковариация.
Исследование будем проводить на основе использования базы от 30
русских звуков. Каждый звук надо записать 10 раз, то есть база должна
состоять из 300 звуков и базы от 28 арабских звуков (280 звуков), записанных
одним диктором. Здесь будем исследовать звуки, а не буквы, где буквы
отличаются от звуков в том, что каждая буква состоит из нескольких звуков, а
звук – одно произношение. Исследование проведем в среде программирования
Matlab.
В данной работе будем использовать среду программирования Matlab, так
как она является одной из современных прикладных программ для выполнения
технических вычислений, имеет удобный язык программирования и работает на
большинстве современных операционных систем.
В данной работе будем исследовать процесс распознавания русских и
арабских звуков при использовании 256 и 512 точек Фурье. И для MFCC будем
исследовать эффективности использования разных частотных интервалов: 8,
16,32.
Мы вычисляли признаки для каждого отрезка звука, затем с помощью
мер близости
вычисляли матрицу расстояний. Матрица расстояний – есть
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
21
матрица, размер которой NхN и расстояния между речевыми сигналами
поступают в качестве ее элементов. Свойства матрицы расстояний можно
вычислить таким образом:
1. Матрица симметрична относительно главной диагонали Dij D ji ;
2. Значения в матрица не могут быть отрицательны d ij 0 ;
3. По главной диагонали где i=j значения матрицы равны нулю так как
расстояние между звуком и самым собой равно нулю.
0
.d
21
.d 31
.
d n1
d12 .
d13 .
.
d 22 .
.d 23
.
d 32
d 33
.
.
.
.d n 2
d n3 .
.
d1n
d 2 n .
.d 3n
.
d nn
Метод оценки результатов состоит из данных процессов: вначале
выполним процесс перебора порога для каждой группы звуков. Затем считаем
процент ошибок 1-ого и 2-ого рода для каждой группы. И выбираем те группы,
у которых ошибки первого рода не превышают 5% из количества звуков в
группе и ошибки второго рода минимальны в качестве групп пригодных для
распознавания, а остальные группы, где условие (5%) не выполняется непригодные.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
22
4
ОЦЕНКА
РЕЗУЛЬТАТОВ
ВЫЧИСЛИТЕЛЬНЫХ
ЭКСПЕРИМЕНТОВ
Гипотеза – это какое-то положение, которое можно принять или
отвергнуть. Прежде чем приступить к проведению [35] эксперимента, важно
говорить о нулевой гипотезе и альтернативной. Нулевая «статическая гипотеза»
- есть, та гипотеза, которую обычно исследователи предполагают принять, и
обозначают буквой H0. Альтернативная гипотеза отрицает нулевую, то есть
если гипотеза H1 подтвердится, то нулевую будет отвергнута. Альтернативная
гипотеза обозначается буквой H 1 [34].
Оценим полученную матрицу расстояний статистическим критерием,
установив соответствие между величинами и возможными гипотезами.
Получаем следующие четыре возможные ситуации:
1. Расстояние соответствует гипотезе H0, и оно верно принято
статическим критерием;
2. Расстояние соответствует гипотезе H0, и оно неверно отвергнуто
статическим критерием (ошибки первого рода);
3. Расстояние соответствует гипотезе H1, и оно верно отвергнуто
статическим критерием;
4. Расстояние соответствует гипотезе H1, и оно неверно принято
статическим критерием (ошибки второго рода).
Таблица 1 – Cитуации принятия решения
Верная гипотеза
H0
Результат
применения
критерия
H0
H0 верно принята
H1
H1 неверно принята
(Ошибка второго рода)
H1
H0 неверно отвергнута
(Ошибка первого рода)
H1 верно отвергнута
Уровень значимости – есть процент появления ошибок I-ого рода
(отклонение от нулевой гипотезы). Обычно используют уровни значимости
20%, 10%, 5%, 1%, 0.1%. Ведущие системы распознавания речи, такие как
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
23
google и Microsoft достигли точности 95%. Поэтому в данной работе был
выбран уровень значимости 5%.
Решающая функция - математическое правило, по которому принимается
или отвергается та или иная статистическая гипотеза с известным уровнем
значимости. Для принятия решения по матрице расстояний используем
следующую решающую функцию:
H ,
f ( D) 0
H 1 ,
dij hg
dij hg
;
где hg – выбранный порог для групп; g , G - количество звуков в каждой
G
i
группе (равно 10); i, j =1..N, N – число звуков во всех группах.
Чтобы найти оптимальный порог для группы звуков hg, необходимо
выполнить перебор порогов, для каждого из которых вычислить решающую
функцию и найти процент ошибок первого и второго рода. Из полученных
результатов выберем те значения, где процент ошибок первого рода не
превышает выбранный нами уровень значимости. Из оставшихся вариантов
выберем тот, у которого ошибок второго рода минимален. Соответствующий
этому варианту порог принимается за оптимальный. Если нет ни одного
варианта перевешавшего уровень значимости, то этот метод принимается как
неподходящий для решения нашей задачи. Для более быстрого перебора порога
можно использовать градиентный способ.
Градиентный способ заключается в том, что перебираем порог hg с шагом
0.1, найдя оптимальный порог, перебираем его окрестность ±0.1 с меньшим в
10 раз шагом 0.01. И выполнять такой перебор до необходимой точности.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
24
После
прохождения
данного
исследования,
получили
следующие
результаты:
Таблица 2 – Вероятности ошибки распознавания арабских речевых звуков при
Nn = 256
Меры близости
Род
Призна
ошиб Евклидово Среднеквадратиче Ковариа Махланоб Коррел
ки
ок
расстояние
ское отклонение
ция
иса
яция
I-ого
0.03
0.03
0.21
Спектр
II-ого
0.27
I-ого
0.04
0.04
0.11
Кепстр
II-ого
0.23
I-ого
0.04
0.04
0.78
MFCC
(8)
II-ого
0.16
I-ого
0.03
0.03
MFCC
(16)
II-ого
0.10
I-ого
0.03
0.04
0.04
MFCC
(32)
II-ого
0.09
I-ого
0.04
0.04
0.04
0.04
MFCC
_res (8) II-ого
0.15
0.19
I-ого
0.03
0.03
0.04
0.04
MFCC
_res
II-ого
0.12
0.14
(16)
I-ого
0.04
0.04
0.04
0.04
MFCC
_res
II-ого
0.10
0.12
(32)
На рисунке 1 представлен модель, который показывает нам ошибки I-ого
и II-ого рода. На побочной диагонали находятся ошибки I-ого и они помечены
белым цветом, а ошибки II-ого рода находятся вне побочной диагонали и
помечены
чёрным
цветом.
На
рисунке
1
представлены
результаты
эксперимента при использовании признака «MFCC_32» и меры близости
«среднеквадратическое отклонение» при использовании 256 точек Фурье. А на
рисунке 2 представлены пороги ошибок первого и второго рода для каждой
группы арабских речевых сигналов.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
25
Рисунок 1 – Модель анализа ошибок сегментации «MFCC(32)»
Рисунок 2 – Модель анализа порогов ошибок «MFCC(32)»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
26
Таблица 3 – Вероятности ошибки распознавания арабских речевых звуков при
Nn = 512
Меры близости
Род
Призна
Евклидово
ошибо
Среднеквадратиче Ковариа Махланоб Коррел
ки
расстояни
к
ское отклонение
ция
иса
яция
е
I-ого
0.03
0.03
0.10
Спектр
II-ого
0.28
I-ого
0.04
0.03
0.16
Кепстр
II-ого
0.20
I-ого
0.04
0.03
MFCC
(8)
II-ого
0.15
0.50
I-ого
0.03
0.03
MFCC
(16)
II-ого
0.10
I-ого
0.04
0.04
MFCC
(32)
II-ого
0.08
0.64
I-ого
0.04
0.03
0.04
0.04
MFCC
_res (8)
II-ого
0.14
0.15
0.46
I-ого
0.04
0.04
0.04
0.03
MFCC
_res
II-ого
0.12
0.11
(16)
I-ого
0.04
0.04
0.04
0.04
MFCC
_res
II-ого
0.25
0.17
0.61
(32)
На рисунке 3 представлен модель, который показывает нам ошибки I-ого
и II-ого рода. На побочной диагонали находятся ошибки I-ого и они помечены
белым цветом, а ошибки II-ого рода находятся вне побочной диагонали и
помечены
чёрным
цветом.
На
рисунке
3
представлены
результаты
эксперимента при использовании признака «MFCC_32» и меры близости
«среднеквадратическое отклонение» при использовании 512 точек Фурье. А на
рисунке 4 представлены пороги ошибок первого и второго рода для каждой
группы арабских речевых сигналов.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
27
Рисунок 3 – Модель анализа ошибок сегментации
Рисунок 4 – Модель анализа порогов ошибок
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
28
Таблица 4 – Вероятности ошибки распознавания русских речевых звуков при Nn
= 256
Призна
ки
Спектр
Кепстр
MFCC
(8)
MFCC
(16)
MFCC
(32)
MFCC
_res (8)
MFCC
_res
(16)
MFCC
_res
(32)
Род
ошибо
к
Меры близости
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
Евклидово
расстояни
е
0.04
0.14
0.04
II-ого
0.08
0.11
-
-
I-ого
0.04
0.03
0.04
-
II-ого
0.06
0.07
-
-
Среднеквадратичес
кое отклонение
Ковариа
ция
Махлано
биса
Коррел
яция
0.03
0.46
0.04
0.17
0.03
0.19
0.04
0.08
0.03
0.06
0.04
0.18
0.03
0.04
0.03
0.03
0.04
0.04
0.04
0.04
0.20
0.13
-
На рисунке 5 представлен модель, который показывает нам ошибки I-ого
и II-ого рода. На побочной диагонали находятся ошибки I-ого и они помечены
белым цветом, а ошибки II-ого рода находятся вне побочной диагонали и
помечены
чёрным
цветом.
На
рисунке
5
представлены
результаты
эксперимента при использовании признака «MFCC_32» и меры близости
«среднеквадратическое отклонение» при использовании 256 точек Фурье. А на
рисунке 6 представлены пороги ошибок первого и второго рода для каждой
группы русских речевых сигналов.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
29
Рисунок 5 – Модель анализа ошибок сегментации
Рисунок 6 – Модель анализа порогов ошибок
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
30
Таблица 5 – Вероятности ошибки распознавания русских речевых звуков при Nn
= 512
Призна
ки
Спектр
Кепстр
MFCC
(8)
MFCC
(16)
MFCC
(32)
MFCC
_res (8)
MFCC
_res
(16)
MFCC
_res
(32)
Род
ошибо
к
Меры близости
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
II-ого
I-ого
Евклидово
расстояни
е
0.04
0.11
0.04
II-ого
0.07
0.07
-
-
I-ого
0.04
0.04
0.03
-
II-ого
0.06
0.06
-
-
Среднеквадратичес
кое отклонение
ковариа
ция
Махланоб
иса
Коррел
яция
0.04
0.41
0.03
0.14
0.04
0.14
0.04
0.06
0.04
0.02
0.04
0.12
0.04
0.04
0.03
0.04
0.04
0.03
0.03
0.04
0.12
0.06
-
На рисунке 7 представлен модель, который показывает нам ошибки I-ого
и II-ого рода. На побочной диагонали находятся ошибки I-ого и они помечены
белым цветом, а ошибки II-ого рода находятся вне побочной диагонали и
помечены
чёрным
цветом.
На
рисунке
7
представлены
результаты
эксперимента при использовании признака «MFCC_32» и меры близости
«среднеквадратическое отклонение» при использовании 512 точек Фурье. А на
рисунке 8 представлены пороги ошибок первого и второго рода для каждой
группы русских речевых сигналов.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
31
Рисунок 7 – Модель анализа ошибок сегментации «MFCC(32)»
Рисунок 8 – Модель анализа порогов ошибок «MFCC(32)»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
32
5
ЭКОНОМИЧЕСКАЯ
ОЦЕНКА
РЕЗУЛЬТАТОВ
ИССЛЕДОВАНИЯ
Основной целью научно-исследовательской или опытно-конструкторской
работы является проведение работ, направленных на анализ, проектирование
или разработку каких-либо устройств. Результатом таких работ могут являться
разработанный прототип прибора или программный продукт, выполняющий
определенные
функции,
рекомендации
по
эксплуатации
прибора
или
технологии, нормативные акты и так далее.
5.1 Планирование работ по исследованию
В проведении исследования задействованы следующие специалисты:
- главный инженер или старший научный сотрудник (заведующий
лабораторией), осуществляющий общее руководство исследованием;
- инженер І категории или младший научный сотрудник, проводящий
разработку, исследование, необходимые расчеты, составляющий техническую
документацию на исследование;
- экономист, дающий экономическую оценку исследования.
Расчет сроков проведения и трудоемкости представлен в таблице 6.
Таблица 6 - Планирование работ по исследованию
Наименование этапов
работ
1
1.1.Сбор информации
1.2.Выработка идеи
Исполнитель
2
1.Подготовительный
Младший научный
сотрудник
Старший научный
сотрудник
3
Продолжи
тельность,
дней
4
48
6
48
48
6
6
Трудоем
кость, час
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
33
Окончание таблицы 6
1.3.Определение объема
Младший научный
исследовательских
сотрудник
работ
1.4.Формирование
Младший научный
исследовательской
сотрудник
работы
1.5.Обработка и анализ
Младший научный
Информации
сотрудник
Итого:
2.Основной (экономический анализ)
2.1.Обоснование
Старший научный
целесообразности работы
сотрудник
Младший научный
2.2.Выполнение работы
сотрудник
Итого:
3.Заключительный
3.1.Технико-экономическое
Экономист
Обоснование
3.2.Оформление и
Младший научный
утверждение
сотрудник
документации
Итого:
16
2
16
2
80
10
256
32
32
4
96
12
128
16
48
6
48
6
96
12
Результат планирования представляет собой расчет трудоемкости
исследования по часам и по количеству дней. Была определена численность
штата производственного персонала, который необходим для проведения
исследования.
5.2 Расчет расходов на оплату труда на исследование
Расчет расходов на оплату труда разработки исследования представлен в
таблице 7.
Таблица 7 - Расчет расходов на оплату труда
Должность исполнителей
Трудоемкость, час
Оклад, Руб
1
Младший научный сотрудник
Старший научный сотрудник
Экономист
Итого:
2
304
128
48
480
3
13000
15000
12000
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
34
Часовая тарифная ставка (ЧТС) рассчитывается следующим образом:
Ч
ТС
Р
F
,
(14)
мес
где Fмес – фонд рабочего времени месяца, составляет 176 часов (22 рабочих дня
по 8 часов в день); Р – оклад сотрудника.
Расход на оплату труда (РОТ) можно найти по следующей формуле:
(15)
Р
Ч
*Т
ОТ
ТС сум ,
где Тсум – суммарная трудоемкость каждого из исполнителей.
Результаты расчетов представлены в таблице 8.
Таблица 8 - Расчет расходов на оплату труда
1
Младший научный сотрудник
Трудоемкость,
час
2
304
Оклад,
Руб
3
13000
ЧТС,
руб/час
4
73,86
РОТ,
руб
5
22453,44
Старший научный сотрудник
Экономист
Итого:
128
48
480
15000
12000
85,23
68,18
10909,44
3272,64
36635,52
Должность исполнителей
5.3 Расчет продолжительности исследования
Согласно данным таблицы 7 трудоемкость исследования составила 480
часов.
Продолжительность исследования составит:
Т иссл Т сум / Т РД ,
(16)
где ТСУМ = 480 часов суммарная трудоемкость исследования; ТРД = 8 часов –
продолжительность рабочего дня.
Тиссл = 480/8 = 60 дней.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
35
Продолжительность
исследования
составляет
60
дней,
расчет
производится без учета выходных и праздничных дней.
5.4 Расчет стоимости расходных материалов
В данном разделе учитываются расходы на приобретение основных
материалов,
необходимых
для проведения исследования, оформления
соответствующей документации, а также учитывается стоимость картриджа.
Расчет стоимости расходных материалов представлен в таблице 9.
Таблица 9 - Стоимость расходных материалов
Наименование расходных
материалов
1
Ноутбук
ПО «Matlab»
ПО «Audacity»
Бумага
Канцтовары
Расходные материалы для
принтера (картридж)
Итого:
Цена за единицу,
руб.
2
23000
6000
170
150
3
1
1
1
2
-
Сумма,
руб.
4
23000
6000
340
150
-
3200
Количество, шт.
3200
32690
Было определено, что для проведения исследования затраты на
приобретение расходных материалов составят 32690 рублей.
5.5 Расчет сметы расходов на исследование
С учетом часовой тарифной ставки были рассчитаны общие расходы на
разработку и проведение исследования. В данную статью расходов включаются
премиальные выплаты, районный коэффициент и страховые взносы. Для
оценки затрат на исследование была составлена смета на разработку и
проведение исследования.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
36
Был произведен расчет расходов:
Премиальные выплаты рассчитываются по формуле:
,
ПВ Р
К
ОТ ПВ
(17)
где КПВ - коэффициент премиальных выплат, составляет 20 %, в случае если
премии не предусмотрены КПВ=1.
ПВ = 36635,52∙0,2=7327,10 руб.
Дополнительные затраты на проведение исследования определяются по
формуле:
З
ДОП
Р К,
ОТ
(18)
где К - коэффициент дополнительных затрат (К=14%).
ЗДОП = РОТ · 14 %.
ЗДОП =36635,52·0,14=5128,97
В заработной плате может быть предусмотрен районный коэффициент,
характеризующий доплату при работе в трудных условиях. Величина
коэффициента определяется в зависимости от характера производства.
РК Р
К
ОТ РВ
(19)
где КРВ – коэффициент районных выплат, для примера составляет 15 % от
суммы.
РК =(36635,52) ·0,15 =5495,33 руб.
Общие расходы на оплату труда вычисляются по формуле:
Р
Р
ПВ РК З
общ
ОТ
ДОП
(20)
где РОТ - основная заработная плата; ПВ - премиальные выплаты; ЗДОП дополнительные затраты; РК - районный коэффициент.
Σ РОТ =36635,52+7327,10+5495,33+5128,97
Σ РОТ =54586,92 руб.
Из таблицы 9 берется итоговая сумма стоимости расходных материалов
по статье расходных материалов.
Σ РРМ =3690 руб.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
37
Страховые взносы рассчитываются по формуле:
СВ Р
0,3 ,
ОТ
(21)
СВ =36635,52·0,30=10990,66
Амортизационные исчисления на использование компьютера составляют
25% от стоимости компьютера и вычисляются по формуле.
АО С
ПК
0,25 ,
(22)
АО = 28000 ·0,25=7000 руб.
Расходы на использование Интернета берутся из расчета месячной
абонентской платы для предприятия. Пусть:
РИНТ=1250 руб.
Административно-хозяйственные расходы составляют 50% от основной
заработной платы (РОТ).
Р
АХ
Р
0,5 ,
ОТ
(23)
РАХ=36635,52·0,5=18317,76 руб.
Результаты расчета расходов были сведены в таблицу. Смета расходов на
разработку и проведение исследования представлена в таблице 10.
Таблица 10 - Смета расходов на разработку и проведение исследования
Наименование статей расходов
1
1.Стоимость расходных материалов
2. Расходы на оплату труда
2.1. Основная заработная плата
2.2. Дополнительные затраты
2.3. Премиальные выплаты
2.4 Районный коэффициент
3. Единый социальный налог
4. Амортизационные исчисления на
использование компьютера
5. Расходы на использование Интернет
Сумма, руб.
2
32690
54586,92
36635,52
5128,97
7327,10
5495,33
10990,66
Удельный вес
статей, %
3
6,92
33,36
4,67
13,35
5,0
11,66
7000
7,36
1250
0,99
6.Административно-хозяйственные расходы
18317,76
16,68
Итого:
95835,34
100
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
38
Результатом экономической оценки исследования является определение
затрат на разработку и реализацию исследования:
- продолжительность исследовательских работ составила 60 дней;
- сметы расходов на исследование – 95 835 рублей.
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
39
ЗАКЛЮЧЕНИЕ
Цель данной работы была достигнута и ожидаемые результаты были
получены. Исследовали параметры входных речевых сигналов в частотной
области и выполнили процесс нахождения сходства этих параметров мерами
близости и получили результаты вычислительных экспериментов.
Были получены следующие результаты:
Разработали методику оценки для процесса сравнения признаков речевых
сигналов;
Провели сравнение признаков речи (спектр, кепстр и мел-кепстр) по мерам
близости:
евклидово
расстояние,
среднеквадратическое
отклонение,
ковариация, расстояние Махланобиса и корреляция;
Графики сравнения речевых звуков, на которых отображается гипотеза
принятая решающей функцией; порогов ошибок первого и второго рода, и
индивидуальных порогов;
Таблицы вероятности ошибок первого и второго рода при распознавании
русских и арабских звуков.
По результатам вычислительных экспериментов можно сделать вывод,
что мел-кепстральные коэффициенты речевых сигналов с использованием
среднеквадратического отклонения в качестве меры близости даёт самый
лучший результат сходства речевых сигналов. И количество точек Фурье при
вычислении частотных признаков речевых сигналов слабо влияет на результат.
И большее количество частотных интервалов мел-кепстра улучшает результат
распознавания.
Самые лучшие результаты получили арабские звуки: «»ظ« »ر« »ح« »ج
«»ف, и русские звуки: «ф» «у» «э» «ю». А самые худшие результаты
получили арабские звуки: «»ذ« »ث, «»ك« »غ, «»ن« »ل, и русские звуки:
«в» «г» «д» «м» «ы».
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
40
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1.
Ахмад,
Х.
М.
Сравнительное
исследование
эффективности
различных методов кепстрального описания речевых сигналов в задачах
распознавания/
университета
Вестник
13.4
Тамбовского
(2007)
//
государственного
[Электронный
ресурс].
технического
Режим
доступа:
https://habrahabr.ru/post/140828/ / (дата обращения: 17.09.2016).
2.
Ахмад, Х. М. Математические модели принятия решений в задачах
распознавания
говорящего/
Вестник
Тамбовского
государственного
технического университета 14.1 (2008) // [Электронный ресурс]. Режим
доступа:
http://cyberleninka.ru/article/n/matematicheskie-modeli-prinyatiya-
resheniy-v-zadachah-raspoznavaniya-govoryaschego
/
(дата
обращения:
19.09.2016).
3.
Бочаров И.В. Акатьев Д.Ю. Распознавание речевых сигналов на
основе корреляционного метода // [Электронный ресурс]. Режим доступа:
http://elibrary.lt/resursai/Uzsienio%20leidiniai/MFTI/2003/131.pdf
/
(дата
обращения: 10.07.2016).
4.
Болотнов, Д. В., and С. А. Запрягаев. РАСПОЗНАВАНИЕ
ЗВУКОВЫХ ОБРАЗОВ НА ОСНОВЕ АНАЛИЗА ОТКЛИКА СИСТЕМЫ
ОСЦИЛЛЯТОРОВ. (2012) // [Электронный ресурс] - режим доступа:
http://www.vestnik.vsu.ru/pdf/analiz/2012/01/2012-01-25.pdf / (дата обращения:
19.09.2016).
5.
Болдышев А.В. Разработка и исследование методов и алгоритмов
субполосного кодирования речевых сообщений при хранении и передаче
речевых данных. (2013). // [Электронный ресурс] - режим доступа:
http://www.dissercat.com/content/razrabotka-i-issledovanie-metodov-i-algoritmovsubpolosnogo-kodirovaniya-rechevykh-soobshche / (дата обращения: 13.11.2017).
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
41
6.
Евклидово расстояние: [Электронный ресурс] режим доступа:
http://statistica.ru/glossary/general/evklidovo-rasstoyanie
/
(дата
обращения:
12.02.2017).
7.
Галунов В.И. Современные проблемы в области распознавания
речи: [Электронный ресурс] режим доступа: http://auditech.ru/page/darkness.html
(дата обращения: 12.02.2017).
8.
Голубинский А.Н. Расчёт частоты основного тона речевого сигнала
на основе полигармонической математической модели // [Электронный ресурс]:
- режим доступа: http://cyberleninka.ru/article/n/raschyot-chastoty-osnovnogo-tonarechevogo-signala-na-osnove-poligarmonicheskoy-matematicheskoy-modeli / (дата
обращения: 13.12.2016).
9.
звуков
Жиляков Е.Г. Фирсова А. А. Оценивание периода основного тона
русской
речи
//
[Электронный
ресурс]
-
режим
доступа:
http://cyberleninka.ru/article/n/otsenivanie-perioda-osnovnogo-tona-zvukov-russkoyrechi / (дата обращения: 08.12.2016).
10.
Котомин, А. В. "Распознавание речевых команд с использованием
сверточных нейронных сетей." Наукоёмкие информационные технологии SIT2012: труды молодежной конф.–Переславль-Залесский. 2012. // [Электронный
ресурс]
-
режим
http://edu.botik.ru/upload/0cb3cff828c112050d3daebdfeee1ace.pdf
доступа:
/
(дата
обращения: 20.09.2016).
11.
Корреляционный метод распознавания / / [Электронный ресурс] -
режим доступа: http://edu.sernam.ru/book_kiber1.php?id=693 / (дата обращения:
28.02.2017).
12.
Ладошко, О. Н., and O. N. Ladoshko. Исследование влияния
характеристик телефонного канала связи на надёжность распознавания фонем."
(2012). // [электронный ресурс] - режим доступа: Ладошко, О. Н., and O. N.
Ladoshko. Исследование влияния характеристик телефонного канала связи на
надёжность распознавания фонем." (2012). // [Электронный ресурс] - режим
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
42
доступа:http://ea.dgtu.donetsk.ua:8080/bitstream/123456789/30201/1/%D0%A1%D
1%82%D0%B0%D1%82%D1%8C%D1%8F%208.pdf
/
(дата
обращения:
18.12.2016).
13.
ресурс]:
Методы оценивания частоты основного тона // [Электронный
-
режим
доступа:
http://k14.spb.ru/cm/uploads/109/008
/
(дата
обращения: 15.01.2017).
14.
Мел-кепстральные коэффициенты (MFCC) и распознавание речи //
[Электронный ресурс] - режим доступа: https://habrahabr.ru/post/140828 / (дата
обращения: 26.01.2017).
15.
Мера расстояния // [Электронный ресурс] - режим доступа
http://www.aiportal.ru/articles/autoclassification/measure-distance.html
//
(дата
обращения: 26.04.2017).
16.
Распознавание речи. // [Электронный ресурс] - режим доступа:
http://studopedia.ru/3_30206_raspoznavanie-rechi.html
/
(дата
обращения:
21.01.2017).
17.
Распознавание образов. // [Электронный ресурс] - режим доступа:
http://www.studfiles.ru/preview/2820578/ (дата обращения: 29.02.2017).
18.
Редченко, Виталий Александрович, and Владимир Иванович
Иордан. "Разработка программного комплекса для автоматического определения
языка речевого сигнала." (2016) // [Электронный ресурс] - режим доступа:
http://elibrary.asu.ru/xmlui/bitstream/handle/asu/2587/vkr.pdf?sequence=1
/
(дата
обращения: 11.01.2017).
19.
голосу.
Тассов, К. Л., and Р. А. Дятлов. Метод идентификации человека по
//
[электронный
ресурс]
-
режим
доступа:
http://engjournal.ru/articles/1103/1103.pdf / (дата обращения: 18.09.2016).
20.
Обработка речевых сигналов. // [Электронный ресурс] - режим
доступа:
-
http://knowledge.allbest.ru/programming/3c0b65635b3ac78b5d53a88421216d37_0.h
tml / (дата обращения: 27.01.2017).
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
43
21.
Первуши Е.А. Обзор основных методов распознавания дикторов //
[Электронный
ресурс]:
-
режим
доступа:
http://webcache.googleusercontent.com/search?q=cache:Km6mCxokW0J:cyberleninka.ru/article/n/metod-izvlecheniya-strukturnyh-pr (дата обращения:
04.12.2016).
22.
Сергиенко, Александр Борисович. Цифровая обработка сигналов.
БХВ-Петербург,
2003.
//
[Электронный
ресурс]
http://www.rphf.spbstu.ru/dsp/lib/Sergijenko_2003.pdf
/
режим
доступа:
-
(дата
обращения:
11.02.2017).
23.
Центр речевых технологий: [Электронный ресурс] режим доступа:
http://www.speechpro.ru/technologies/recognition#tab1
/
(дата
обращения:
12.03.2016).
24.
Шумская, Анастасия Олеговна. Оценка эффективности метрик
расстояния Евклида и расстояния Махаланобиса в задачах идентификации
происхождения текста. Доклады Томского государственного университета
систем управления и радиоэлектроники 3 (29) (2013). // [Электронный ресурс] режим
доступа:
http://cyberleninka.ru/article/n/otsenka-effektivnosti-metrik-
rasstoyaniya-evklida-i-rasstoyaniya-mahalanobisa-v-zadachah-identifikatsiiproishozhdeniya-teksta / (дата обращения: 23.05.2017).
25.
//
Anjali Bala. Voice command recognition system based on mfcc and dtw
[Электронный
ресурс]
-
режим
доступа:
https://www.researchgate.net/publication/228659505_voice_command_recognition_s
ystem_based_on_mfcc_and_dtw (дата обращения: 29.12.2016).
26.
Lindasalwa Muda, Mumtaj Begam and I. Elamvazuthi. Voice
recognition algorithms using mel frequency cepstral coefficient (mfcc) and dynamic
time warping (dtw) techniques / / [Электронный ресурс] - режим доступа:
https://arxiv.org/ftp/arxiv/papers/1003/1003.4083.pdf (дата обращения: 23.11.2016).
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
44
27.
Speech processing // [Электронный ресурс] - режим доступа:
http://www.boosla.com/showArticle.php?Sec=Misc&id=57
/
(дата
обращения:
21.02.2017).
28.
Speech processing Technology
// [Электронный ресурс] - режим
доступа: http://www.ye1.org/forum/threads/386110/ (дата обращения: 09.01.2017).
29.
Speech recognition // [Электронный ресурс] - режим доступа:
http://www.ye1.org/forum/threads/386110/ (дата обращения: 19.01.2017).
30.
Speech recognition system // [Электронный ресурс] - режим доступа:
http://www.ye1.org/forum/threads/386110/ (дата обращения: 07.02.2017).
31.
//
Shivanker Dev Dhingra. Isolated speech recognition using mfcc and dtw
[Электронный
ресурс]
-
режим
доступа:
http://www.ijareeie.com/upload/2013/august/20P_ISOLATED.pdf (дата обращения:
19.01.2017).
32.
Будрейка, Н. Н. "Непараметрические методы исследования в
психологии." Психологическая наука и образование 1 (2007): 40-48. //
[Электронный
ресурс]
-
режим
http://psyjournals.ru/files/6467/psyedu_2007_n1_Budreika.pdf
доступа:
(дата
обращения:
31.05.2017).
33.
Нулевая гипотеза в статистике // [Электронный ресурс] - режим
доступа:
https://businessman.ru/new-nulevaya-gipoteza-v-statistike-primer-
proverka-nulevoj-gipotezy.html (дата обращения: 03.06.2017).
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
45
ПРИЛОЖЕНИЕ А
Таблица 11 – Использованные обозначения.
аббревиатура
MFCC
ДПФ
Y
C
D
СКО
Cov
K
ЧТС
Fмес
Р
Тсум
Тиссл
КПВ
К
КРВ
РОТ
ПВ
ЗДОП
РК
Значение
Мел-кепстральные коэффициенты речевого сигнала
Дискретное преобразование Фурье
Энергический спектра речевого сигнала
Кепстра и мел-кепстр речевого сигнала
Евклидово расстояние, среднеквадратическое отклонение и
расстояние Махланобиса
Среднеквадратическое отклонение
Ковариация между речевыми сигналами
Коэффициент корреляции
Часовая тарифная ставка
фонд рабочего времени месяца
оклад сотрудника
суммарная трудоемкость каждого из исполнителей
Продолжительность исследования
коэффициент премиальных выплат
коэффициент дополнительных затрат
коэффициент районных выплат
основная заработная плата
премиальные выплаты
дополнительные затраты
районный коэффициент
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
46
ПРИЛОЖЕНИЕ Б
Рисунок 9 – Признаки арабского звука «»أ
Рисунок 10 – Признаки арабского звука «»ب
Рисунок 11 – Признаки арабского звука «»ت
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
47
Рисунок 12 – Признаки арабского звука «»ث
Рисунок 13 – Признаки арабского звука «»ج
Рисунок 14 – Признаки арабского звука «»ح
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
48
Рисунок 15 – Признаки арабского звука «»خ
Рисунок 16 – Признаки арабского звука «»د
Рисунок 17 – Признаки арабского звука «»ذ
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
49
Рисунок 18 – Признаки арабского звука «»ر
Рисунок 19 – Признаки арабского звука «»ز
Рисунок 20 – Признаки арабского звука «»س
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
50
Рисунок 21 – Признаки арабского звука «»ش
Рисунок 22 – Признаки арабского звука «»ص
Рисунок 23 – Признаки арабского звука «»ض
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
51
Рисунок 24 – Признаки арабского звука «»ط
Рисунок 25 – Признаки арабского звука «»ظ
Рисунок 26 – Признаки арабского звука «»ع
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
52
Рисунок 27 – Признаки арабского звука «»غ
Рисунок 28 – Признаки арабского звука «»ف
Рисунок 29 – Признаки арабского звука «»ق
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
53
Рисунок 30 – Признаки арабского звука «»ك
Рисунок 31 – Признаки арабского звука «»ل
Рисунок 32 – Признаки арабского звука «»م
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
54
Рисунок 33 – Признаки арабского звука «»ن
Рисунок 34 – Признаки арабского звука «»ه
Рисунок 35 – Признаки арабского звука «»و
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
55
Рисунок 36 – Признаки арабского звука «»ي
Рисунок 37 – Признаки русского звука «а»
Рисунок 38 – Признаки русского звука «б»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
56
Рисунок 39 – Признаки русского звука «в»
Рисунок 40 – Признаки русского звука «г»
Рисунок 41 – Признаки русского звука «д»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
57
Рисунок 42 – Признаки русского звука «е»
Рисунок 43 – Признаки русского звука «ё»
Рисунок 44 – Признаки русского звука «ж»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
58
Рисунок 45 – Признаки русского звука «з»
Рисунок 46 – Признаки русского звука «и»
Рисунок 47 – Признаки русского звука «к»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
59
Рисунок 48 – Признаки русского звука «л»
Рисунок 49 – Признаки русского звука «м»
Рисунок 50 – Признаки русского звука «н»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
60
Рисунок 51 – Признаки русского звука «о»
Рисунок 52 – Признаки русского звука «п»
Рисунок 53 – Признаки русского звука «р»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
61
Рисунок 54 – Признаки русского звука «с»
Рисунок 55 – Признаки русского звука «т»
Рисунок 56 – Признаки русского звука «у»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
62
Рисунок 57 – Признаки русского звука «ф»
Рисунок 58 – Признаки русского звука «х»
Рисунок 59 – Признаки русского звука «ц»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
63
Рисунок 60 – Признаки русского звука «ч»
Рисунок 61 – Признаки русского звука «ш»
Рисунок 62 – Признаки русского звука «щ»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
64
Рисунок 63 – Признаки русского звука «ы»
Рисунок 64 – Признаки русского звука «э»
Рисунок 65 – Признаки русского звука «ю»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
65
Рисунок 66 – Признаки русского звука «я»
11070006.11.03.02.433.ПЗВКР
Изм. Лист
№ докум.
Подпись Дата
Лист
66
Отзывы:
Авторизуйтесь, чтобы оставить отзыв