ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«БЕЛГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ
ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ»
( Н И У
« Б е л Г У » )
ИНСТИТУТ ИНЖЕНЕРНЫХ ТЕХНОЛОГИЙ И ЕСТЕСТВЕННЫХ НАУК
КАФЕДРА ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ
СИСТЕМ И ТЕХНОЛОГИЙ
СУБПОЛОСНАЯ ИДЕНТИФИКАЦИЯ ДИКТОРОВ
Магистерская диссертация
обучающегося по направлению подготовки 11.04.02
Инфокоммуникационные технологии и системы связи,
магистерская программа «Системы и устройства радиотехники и связи»
очной формы обучения, группы 07001532
Кисиленко Анны Владимировны
Научный руководитель
доктор технических наук,
профессор, зав. кафедрой
Информационно телекоммуникационных систем
и технологий НИУ «БелГУ»
Жиляков Е.Г.
Рецензент
канд. техн. наук, доцент кафедры
Прикладной информатики и
информационных технологий
НИУ «БелГУ»
Черноморец А.А.
БЕЛГОРОД 2017
2
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
4
ГЛАВА 1 МЕТОДЫ ИДЕНТИФИКАЦИИ ДИКТОРОВ
7
1.1 Общая схема процедуры идентификации
7
1.2 Основные подходы к построению признакового пространства и их
адекватность
9
1.2.1 Спектральные признаки
9
1.2.2 Кепстральные признаки
18
1.2.3 Признаки, извлекаемые на основе субполосного анализа
25
1.3 Решающие правила
34
1.4 Результаты и выводы главы. Задачи исследования
36
ГЛАВА 2 РАЗРАБОТКА МЕТОДА СУБПОЛОСНОЙ
ИДЕНТИФИКАЦИИ ДИКТОРОВ
38
2.1 Удаление пауз из речевого сигнала диктора
38
2.2 Сегментация речевых сигналов на однородные отрезки
41
2.3 Решающая функция для субполосной идентификации дикторов
46
2.4 Результаты и выводы главы
48
ГЛАВА 3 ИССЛЕДОВАНИЕ МЕТОДА СУБПОЛОСНОЙ
ИДЕНТИФИКАЦИИ ДИКТОРОВ
50
3.1 Реализация этапа обучения
50
3.2 Вычисление порогового значения для метода субполосной
идентификации дикторов, где качестве признаков используется
распределение энергии сигнала по частотным интервалам
52
3.3 Вычисление порогового значения для метода субполосной
идентификации дикторов, где качестве признаков используется
распределение долей энергии информационных частотных
интервалов
57
3
3.4 Результаты и выводы главы
58
ЗАКЛЮЧЕНИЕ
60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
62
ПРИЛОЖЕНИЕ А
70
ПРИЛОЖЕНИЕ Б
78
4
ВВЕДЕНИЕ
Актуальность диссертационного исследования. В связи с развитием
автоматических систем человечество находится в поиске удобных средств
взаимодействия между техническими средствами и человеком. Одним из
актуальных направлений в этой области является разработка систем,
предназначенных
заключается
в
для
идентификации
определении
по
диктора
образцу
по
голосу,
голоса,
кому
которая
из
ранее
зарегистрированных пользователей принадлежит данных образец. При этом
обработке подвергаются речевые сигналы, которые представляют собой
результаты регистрации электрических колебаний на выходе микрофона,
возбуждаемого акустическими воздействиями.
Проблема идентификации диктора по голосу была поставлена более 40
лет тому назад, и рассматривается в большом количестве работ, среди
которых можно отметить работы Л. Рабинера, В.Н. Сорокина, В.Г.
Михайлова, А.В. Аграновского, Г.С. Рамишвили и других.
Частным случаем идентификации диктора является идентификация по
прецеденту на закрытом множестве дикторов, когда образец голоса диктора,
проходящего процедуру идентификации, сравнивается с образцами голосов
дикторов,
зарегистрированных
в
системе.
При
этом
количество
зарегистрированных дикторов ограничено, а образцом голоса является
речевой сигнал, соответствующий произнесённому диктором заранее
известному парольному слову.
Такая постановка задачи используется в системах управления роботами
(«Умный дом», идентификация людей в системах доступа).
Основной проблемой идентификации диктора, как и любой задачи
классификации, является выбор признаков, характеризующих особенности
речевых сигналов, и обоснование используемых решающих функций.
5
Применимо к задачам идентификации дикторов, признаки, характеризующие
особенности голоса говорящего и лежащие в основе этапа формирования
признакового пространства, должны оставаться стабильными на одних и тех
же образцах голоса, и при этом резко меняются от диктора к диктору, а также
содержат всю необходимую информацию для решения поставленной задачи.
Что касается выбранной решающей функции, то она должна сохранять своё
значение на идентичных объектах, и быть максимально чувствительной к
неидентичности объектов.
Поэтому
методы
обработки
данных,
используемые
в
задачах
идентификации диктора для отбора стабильных информативных признаков и
удовлетворения
условий
к
решающей
функции,
должны
адекватно
отображать свойства анализируемых речевых сигналов, а именно:
РС являются нестационарными сигналами, т.е. их параметры
могут меняться с течением времени;
порождаемые звуками речи отрезки РС обладают свойством
концентрации энергии в достаточно «узких» полосах частотной оси.
Существующие методы идентификации дикторов базируются на
спектральном
и
кепстральном
подходах
для
поиска
стабильных
информативных признаков. Использование признаков, вычисляемых на
основе подобных подходов, не всегда удовлетворяет предъявляемым
требованиям или не является адекватным с точки зрения учёта свойств
речевых сигналов. Поэтому поиск новых признаков, характеризующих
особенности голоса говорящего, является актуальным.
В данной работе для поиска подобных признаков предлагается
использование субполосного анализа, когда свойства речевых сигналов
соотносятся с некоторым разбиением оси частот на интервалы конечной
ширины.
6
Целью данной работы является совершенствование методов и
алгоритмов идентификации дикторов на основе разработки субполосного
метода идентификации дикторов по прецеденту.
Для достижения поставленной цели сформулированы и решены
следующие задачи:
1. Анализ основных подходов, используемых в задачах идентификации
дикторов;
2. Разработка решающей функции для идентификации диктора на
основе субполосного подхода;
3. Разработка и исследование субполосного метода и алгоритма
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение частей энергии по частотным
интервалам;
4. Разработка и исследование субполосного метода и алгоритма
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение долей энергии информационных
частотных интервалов;
5. Проведение вычислительных экспериментов.
Объект исследований: речевые сигналы.
Предмет исследования: методы идентификации дикторов.
Методы исследований. В работе использованы методы субполосного
анализа/синтеза, статистического анализа, цифровой обработки речевых
данных, линейной алгебры и вычислительных экспериментов.
Объем и структура работы. Диссертация состоит из Введения, трёх
глав, Заключения и Приложений. Работа изложена на 87 страницах
машинописного текста, включая 69 рисунков, 2 таблицы и список
литературных источников из 71 наименования.
7
ГЛАВА 1 МЕТОДЫ ИДЕНТИФИКАЦИИ ДИКТОРОВ
1.1
Общая схема процедуры идентификации
Задача идентификации диктора заключается в определении по образцу
голоса, кому из ранее зарегистрированных пользователей принадлежит
данный образец.
Процедура идентификации происходит следующим образом: сначала
проходит этап обучения, в результате которого происходит отбор множества
признаков, на основе которых происходит сравнение записей дикторов, и
обоснование
решающей
функции
и
критической
области,
которая
используется для принятия решения.
1. Отбор множества признаков представляет собой отбор некоторых
параметров, которые отражают особенности голоса говорящего и получаются
на основе обработки речевых сигналов. Т.е. каждый из интересуемых
дикторов
регистрируется
в
системе
идентификации
посредством
предоставления образца своего голоса – отрезка речевого сигнала,
соответствующего произнесённому диктором слову или фразе. На основе
отрезков речевых данных, которые являются цифровым представлением
речевых сигналов, производится обучение системы идентификации, а именно
из каждого отрезка извлекаются стабильные информативные признаки. Под
стабильными признаками понимаются такие, которые остаются стабильными
на одних и тех же образцах голоса, и при этом резко меняются от диктора к
диктору. Под информативными признаками будем понимать те, которые
содержат всю необходимую информацию для решения поставленной задачи.
Этап поиска и выделения подобных признаков называется формирование
признакового
пространства.
Эти
признаки
хранятся
в
памяти
вычислительного устройства, тем самым формируя базу данных дикторов.
8
После этапа формирования базы, человек, который хочет пройти
процедуру идентификации, вновь предоставляет образец своего голоса, из
которого извлекаются признаки. После чего признаки, полученные при
прохождении процедуры идентификации, сопоставляются с признаками,
хранимыми в базе. Сопоставление признаков осуществляется на основе
анализа решающей функции и сравнения с пороговыми значениями, которые
определяют вероятности ошибочного принятия решения (критическая
область). Под решающей функцией понимается способ обработки данных и
их интерпретации с позиции решаемой задачи.
Для того, чтобы построить решающую функцию, формулируется
изначальное предположение (Начальная гипотеза Н0 –признаки, полученные
при прохождении процедуры идентификации, и признаки, хранимые в базе,
принадлежат разным дикторам). После чего для гипотезы строится
критическая область, когда гипотеза должна отвергаться. Гипотезу нужно
сформулировать таким образом, чтобы вероятность попадания значения
решающей функции в критическую область была достаточно мала.
Обеспечить это можно, только зная вероятностные свойства исследуемого
объекта,
т.е.
проведя
и
проанализировав
ряд
предварительных
экспериментов, тем самым формируя обучающую выборку.
Применимо к задаче идентификации решающая функция должна
удовлетворять следующим требованиям:
1.
На идентичных объектах решающая функция должна сохранять
своё значение (т.е. быть инвариантной);
2.
Решающая функция должна быть максимально чувствительна к
неидентичности объектов.
Данные требования можно свести к вариационной задаче, а именно,
что необходимо минимизировать вероятность ошибки II рода при
фиксированном значении вероятности ошибки I рода.
9
Результатом процедуры идентификации является имя человека из
общей совокупности дикторов, зарегистрированных в системе, речевой
сигнал
которого
наиболее
вероятно
совпадает
с
образцом
голоса
идентифицируемого диктора.
Таким образом, задача идентификации диктора включает в себя:
- формирование признакового пространства;
- построение решающей функции.
1.2 Основные подходы к построению признакового пространства и
их адекватность
На этапе формирования признакового пространства устойчивые
информативные признаки выделяются из речевых сигналов пользователей.
Поэтому, оценивая адекватность подходов к построению признакового
пространства, мы будем говорить о том, насколько они отражают основные
свойства речевых сигналов, а именно:
1. РС являются нестационарными сигналами, т.е. их параметры могут
меняться с течением времени;
2. Порождаемые звуками речи отрезки РС обладают свойством
концентрации энергии в достаточно «узких» полосах частотной оси.
Рассмотрим
основные
подходы
к
построению
признакового
пространства и оценим их адекватность с позиции учёта оговорённых
свойств.
1.2.1 Спектральные признаки
Речевой сигнал, как и другие виды сложных сигналов произвольной
формы, при их изучении и анализе, удобно представлять в виде некоторой
10
комбинации более простых сигналов известной формы. Такой приём –
разложение
произвольной
функции
по
различным
системам
детерминированных базисных функций широко используется в цифровой
обработке сигналов и называется обобщённым спектральным анализом [21].
Так, если в качестве базисных функций использовать ортогональную
на отрезке a, b бесконечную систему непрерывных функций вида
0 x , 1 x ,..., n x ,...
(1.1)
где выполняются условия:
b
n x m x dx 0
(1.2)
a
b
x dx 0
2
n
(1.3)
a
то произвольная кусочно – непрерывная функция
f x ,
для которой
выполняется условие
f x
2
dx
(1.4)
может быть представлена в виде бесконечной суммы ряда:
f x c00 x c11 x ... cn n x ...
где
n x
-
система
ортогональных
непрерывных
(1.5)
функций,
сn
-
коэффициенты ряда.
В случае если коэффициенты ряда сn определяются как в [14], а
именно:
cn
b
1
n
2
f x n x dx
a
(1.6)
11
то ряд (1.5) называется обобщённым рядом Фурье [14]. Вся информация о
f x
при
заданной
системе
n x
функций
содержится
в
наборе
коэффициентов с i (спектре).
Обобщённый ряд Фурье обладает важным свойством: при заданной
системе функций n x и фиксированном числе слагаемых с i (т.е. i 0, N ), он
обеспечивает наилучшую аппроксимацию функции f x , что подтверждается
неравенством Бесселя:
N
cn2 n 2
f
2
(1.7)
i 0
Иными словами, если бесконечная сумма ряда (1.5) позволяет
восстановить f x по набору коэффициентов с i абсолютно точно, то при
ограничении числа членов ряда никакой другой способ разложения не может
дать лучшего приближения суммы (1.5) к функции f x [21].
При этом количество слагаемых ряда N выбирается исходя из
соображений выполнения условия:
b
2
b
2
f 2 x dx
f x cii x dx
i 0
a
a
N
(1.8)
где 2 - желаемая (требуемая) относительная погрешность.
Для непериодических сигналов конечной длительности f t , какими и
являются речевые сигналы, используется формула разложения, при которой
дискретность или -шаг вычисления спектра стремится по величине к нулю и
дискретный ряд Фурье переходит в интеграл Фурье или преобразование
(трансформанту) Фурье:
12
f x F eit dt
(1.9)
где F - частотное представление сигнала f t .
И обратное преобразование Фурье:
1
F
2
f t e
jt
dt
(1.10)
Соотношения (1.9) и (1.10) являются эквивалентными, поскольку могут
быть получены друг из друга линейным преобразованием.
Значение F используется как набор признаков, характеризующий
особенности голоса диктора. Для того, чтобы оценить, насколько подобный
подход отвечает условиям стабильности и информативности извлекаемых
признаков, посмотрим, как ведут себя трансформанты Фурье при смене
дикторов, смене парольного слова. При этом обработке подвергаются
отрезки речевых сигналов, в пределах которых характеристики речевого
сигнала остаются неизменными. Такого рода результат можно получить
посредством кратковременного анализа сигнала: считается, что энергия (а
следовательно и частотные характеристики) сигнала является постоянной
характеристикой на интервале 10-30 мс.
На рисунке 1.1 представлен речевой сигнал, соответствующий
произнесению фонемы «а». В этом сигнале были выделены два отрезка x1 и
x2 , каждый длиной 256 отсчётов при частоте дискретизации f д 8000 Гц
(т.е. длительность отрезков составляет 32 мс). При этом отрезки выбраны со
сдвижкой в 50 отсчётов.
На рисунках 1.2.А – 1.2.Б представлены трансформанты Фурье
отрезков x1 и x2 соответственно.
13
Рисунок 1.1 – РС, соответствующий произнесению фонемы «а», выбор
отрезков анализа x1 и x2
8
0.03
7
0.025
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
6
0.02
0.015
0.01
5
4
3
2
0.005
1
0
0
500
1000
1500
2000
Частота, Гц
А
2500
3000
3500
4000
0
0
500
1000
1500
2000
Частота, Гц
2500
3000
3500
4000
Б
Рисунок 1.2 – Трансформанты Фурье отрезков сигналов x1 (А) и x2 (Б)
На основании рисунков 1.2.А – 1.2.Б можно сделать вывод, что
распределение энергии меняется в зависимости от отрезка анализа, т.е.
нестабильно.
14
Для того, чтобы продемонстрировать, что признаки, получаемые на
основе частотных представлений – чаще всего это трансформанта Фурье –
отвечают требованию резкой смены от диктора к диктору, на рисунках 1.3 1.4 представлены спектры сигналов, соответствующие произнесению
фонемы «т» из слова «четыре» (рисунок 1.3) и фонемы «о» из слова «восемь»
1
1
0.9
0.9
0.8
0.8
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
(рисунок 1.4) разными дикторами.
0.7
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0
0
500
1000
1500
2000
Частота, Гц
2500
3000
3500
0
4000
0
500
1000
1500
1
1
0.9
0.9
0.8
0.8
0.7
0.6
0.5
0.4
0.3
1500
2000
Частота, Гц
2500
3000
3500
4000
0.4
0.3
0.1
1000
4000
0.5
0.2
500
3500
0.6
0.1
0
3000
0.7
0.2
0
2500
Б
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
А
2000
Частота, Гц
2500
3000
3500
0
4000
0
500
1000
1500
В
Рисунок 1.3 – Трансформанта
2000
Частота, Гц
Г
Фурье
сигналов,
соответствующих
произнесению фонемы «т» из слова «четыре» Диктором 1(А), Диктором 2 (Б),
Диктором 3 (В) и Диктором 4 (Г)
1
1
0.9
0.9
0.8
0.8
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
15
0.7
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0
0
500
1000
1500
2000
Частота, Гц
2500
3000
3500
0
4000
0
500
1000
1500
1
1
0.9
0.9
0.8
0.8
0.7
0.6
0.5
0.4
0.3
1500
2000
Частота, Гц
2500
3000
3500
4000
0.4
0.3
0.1
1000
4000
0.5
0.2
500
3500
0.6
0.1
0
3000
0.7
0.2
0
2500
Б
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
А
2000
Частота, Гц
2500
3000
3500
0
4000
0
500
1000
1500
В
2000
Частота, Гц
Г
Рисунок 1.4 – Трансформанта
Фурье
сигналов,
соответствующих
произнесению фонемы «о» из слова «восемь» Диктором 1(А), Диктором 2 (Б),
Диктором 3 (В) и Диктором 4 (Г)
На основании рисунков 1.3 – 1.4 можно сделать вывод, что формы
спектров для одних и тех же фонем при произнесении их разными
дикторами,
меняются.
Поэтому
трансформанта
Фурье
как
признак,
используемый для процедуры идентификации, отвечает условию резкой
смены от диктора к диктору.
Но
использование
транфсорманты
Фурье
как
признака,
характеризующего особенности голоса диктора, не отвечает условию
стабильности признаков на одном и том же дикторе. Для того, чтобы
16
продемонстрировать, что признаки, получаемые на основе спектрального
анализа, не отвечают условию стабильности, на рисунках 1.5 – 1.6
представлены спектры сигналов, соответствующие произнесению фонемы
«т» из слова «четыре» (рисунок 1.5) и фонемы «о» из слова «восемь»
1
1
0.9
0.9
0.8
0.8
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
(рисунок 1.6), соответствующие одному диктору.
0.7
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0
0
0
500
1000
1500
2000
Частота, Гц
2500
3000
3500
4000
0
500
1000
1500
1
1
0.9
0.9
0.8
0.8
0.7
0.6
0.5
0.4
0.3
1500
2000
Частота, Гц
2500
3000
3500
4000
0.4
0.3
0.1
1000
4000
0.5
0.2
500
3500
0.6
0.1
0
3000
0.7
0.2
0
2500
Б
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
А
2000
Частота, Гц
2500
3000
3500
0
4000
0
500
1000
1500
В
Рисунок 1.5 – Трансформанта
2000
Частота, Гц
Г
Фурье
сигналов,
соответствующих
произнесению фонемы «т» из слова «четыре» Диктором 1 в четырёх различных
случаях
1
1
0.9
0.9
0.8
0.8
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
17
0.7
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0
0
0
500
1000
1500
2000
Частота, Гц
2500
3000
3500
4000
0
500
1000
1500
1
1
0.9
0.9
0.8
0.8
0.7
0.6
0.5
0.4
0.3
1500
2000
Частота, Гц
2500
3000
3500
4000
0.4
0.3
0.1
1000
4000
0.5
0.2
500
3500
0.6
0.1
0
3000
0.7
0.2
0
2500
Б
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
А
2000
Частота, Гц
2500
3000
3500
0
4000
0
500
1000
1500
В
2000
Частота, Гц
Г
Рисунок 1.6 – Трансформанта
Фурье
сигналов,
соответствующих
произнесению фонемы «о» из слова «восемь» Диктором 1 в четырёх различных
случаях
Таким образом, спектральный анализ является адекватным описанием
речевого
сигнала,
поскольку
позволяет
учитывать
свойство
сосредоточенности энергии РС, но признаки, получаемые на основе такого
подхода, не являются стабильными.
18
1.2.2 Кепстральные признаки
Кепстральный анализ базируется на модели генерации речевых
сигналов.
Предполагается, что речевой сигнал s(t) может быть представлен в
виде:
st k t u d ,
где
(1.11)
k t – импульсная характеристика;
u t – входное воздействие.
Для того, чтобы отделить влияние полости от входного воздействия,
воспользуемся теоремой о свёртке:
S K U ,
где
(1.12)
S – спектр речевого сигнала s(t);
K – спектр импульсной характеристики;
U – спектр входного воздействия.
При этом допускается, что диапазоны частот, в которых сосредоточены
энергии K и U различны и не пересекаются, т.е. ограничены частотой
Ω, а импульсная характеристика является низкочастотной.
k t
K e d
i t
u t U eit d
(1.13)
19
Тогда произведение спектров двух сигналов из выражения (1.12)
можно представить в виде суммы логарифмов квадратов модулей спектров:
S K U ,
2
2
2
ln S ln K ln U
2
2
(1.14)
2
(1.15)
Принцип, заключённый в представлении (1.12) через (1.15), называется
гомоморфной фильтрацией.
При этом кепстры, которые как раз и используются для формирования
признакового пространства, определяются как обратное преобразование от
логарифма квадрата спектра:
1
2
Cs q
ln S eiq d ,
2
где
(1.16)
Cs q – кепстр мощности;
q – сачтота, отсчёты.
Для того, чтобы продемонстрировать, насколько использование
кепстра в качестве вектора признаков отвечает условию стабильности,
вычислим значения кепстральных коэффициентов для отрезков речевых
сигналов, соответствующих фонеме «т» в слове «четыре» и фонеме «о» в
слове «восемь», произнесённые разными дикторами.
20
1
1
0
значение кепстрального коэффициента
значение кепстрального коэффициента
0
-1
-2
-3
-4
-1
-2
-3
-4
-5
-6
-5
-7
-6
0
50
100
150
200
250
сачтота
300
350
400
450
0
500
50
100
150
200
А
250
сачтота
300
350
400
450
500
300
350
400
450
500
Б
1
0
0
-1
значение кепстрального коэффициента
значение кепстрального коэффициента
-1
-2
-3
-4
-5
-6
-2
-3
-4
-5
-6
-7
-7
-8
-8
-9
0
50
100
150
200
250
сачтота
300
350
400
450
0
500
50
100
150
200
В
250
сачтота
Г
Рисунок 1.7 – Кепстры речевых сигналов, соответствующих произнесению
фонемы «т» из слова «четыре» Диктором 1(А), Диктором 2 (Б), Диктором 3 (В) и
Диктором 4 (Г)
1
значение кепстрального коэффициента
значение кепстрального коэффициента
1
0
-1
-2
0
-1
-2
-3
-3
-4
-4
0
50
100
150
200
250
сачтота
А
300
350
400
450
500
0
50
100
150
200
250
сачтота
Б
300
350
400
450
500
21
2
1
0
0
значение кепстрального коэффициента
значение кепстрального коэффициента
1
-1
-2
-3
-4
-5
-1
-2
-3
-4
-5
-6
-6
-7
0
50
100
150
200
250
сачтота
300
350
400
450
0
500
50
100
150
В
200
250
сачтота
300
350
400
450
500
Г
Рисунок 1.8 – Кепстры речевых сигналов, соответствующих произнесению
фонемы «о» из слова «восемь» Диктором 1 (А), Диктором 2 (Б), Диктором 3 (В) и
Диктором 4 (Г)
Если рассмотреть одновременно графики, представленные на рисунке
1.7.А – 1.8.Г, то можно сделать вывод, что значения коэффициентов кепстра
для разных дикторов отличаются не настолько, чтобы их можно было
разделить (см. рисунок 1.9, 1.10).
2
значение кепстральных коэффициентов
0
-2
-4
-6
-8
-10
0
Рисунок 1.9 – 1-30
5
10
15
сачтота
коэффициенты
20
кепстра
25
30
речевых
сигналов,
соответствующих произнесению фонемы «т» из слова «четыре» Дикторами 1 – 4
22
2
1
значение кепстрального коэффициента
0
-1
-2
-3
-4
-5
-6
-7
-8
0
Рисунок 1.10 – 1-60
10
20
30
сачтота
коэффициенты
40
кепстра
50
60
речевых
сигналов,
соответствующих произнесению фонемы «о» из слова «восемь» Дикторами 1 – 4
Дальнейшим витком развития кепстрального подхода в применении к
задачам идентификации диктора стало вычисление мел – кепстральных
частотных коэффициентов,
использование которых предположительно
позволит учитывать свойства слуха.
Мел — психофизическая единица высоты звука. Считается, что учёт
психофизических свойств уха позволит улучшить эффективность алгоритмов
идентификации диктора.
При вычислении мел – кепстральных частотных коэффициентов
используется гребёнка треугольных полосовых фильтров. При этом
граничные
частоты
фильтров
определяются
путем
нелинейного
преобразования шкалы частот из шкалы Герц в шкалу Мел (см. рисунок
1.11). Алгоритм вычисления граничных частот фильтра и весовых
коэффициентов фильтра можно найти в работах [18, 33, 44].
23
1
0.018
0.9
0.016
0.8
0.014
0.7
0.012
веса фильтра
0.6
0.5
0.01
0.008
0.4
0.006
0.3
0.004
0.2
0.002
0.1
0
400
600
800
1000
1200
частота, мел
1400
1600
1800
2000
0
0
500
1000
1500
А
2000
частота, Гц
2500
3000
3500
4000
Б
Рисунок 1.11 – Вид полосовых фильтров в шкале Мел (А) и их вид в шкале Гц
(Б)
Тогда мел – кепстральные частотные коэффициенты вычисляются в
соотвествии с (1.17):
N
i m 0,5
, i 1, N MFCC ,
сi ln em cos
N FB
m1
FB
где
(1.17)
сi - значение мел – кепстрального частотного коэффициента;
em – значение энергии c весом на выходе m – ого полосового
треугольного фильтра;
N FB – количество полосовых треугольных фильтров;
N MFCC – количество мел - кепстральных коэффициентов (на практике
выбирают порядка 12 [19].).
На рисунках 1.12-1.13 показаны графики значений мел-кепстральных
частотных коэффициентов для фонем «т» и «о», произнесённых разными
дикторами.
24
40
значение мел-кепстрального частотного коэффицициента
35
30
25
20
15
10
5
0
-5
-10
0
2
4
6
8
номер мел-кепстрального частотного коэффицициента
Рисунок 1.12 – Графики
значений
10
12
мел-кепстральных
частотных
коэффициентов для речевых сигналов, соответствующих произнесению фонемы «т»
из слова «четыре» Дикторами 1 – 4
значение мел-кепстрального частотного коэффициента
70
60
50
40
30
20
10
0
-10
0
2
4
6
8
номер мел-кепстрального частотного коэффициента
Рисунок 1.13 – Графики
значений
10
мел-кепстральных
12
частотных
коэффициентов для речевых сигналов, соответствующих произнесению фонемы «о»
из слова «восемь» Дикторами 1 – 4
25
При использовании мел-кепстральных частотных коэффициентов в
качестве стабильных информативных признаков вместо кепстра, нельзя
утверждать, что они резко меняются при смене диктора (рисунки 1.12-1.13).
Метод
кепстрального
представления,
т.е.
обратного
Фурье-
преобразования от логарифмического амплитудного спектра в масштабе
частот мел, был разработан в результате длительных поисков такого
описания речевого сигнала, которое было бы устойчиво к индивидуальным
особенностям
дикторов.
Поэтому
довольно
странно
было
бы
его
использовать для решения противоположной задачи – поиска описания,
подчеркивающего различия в голосах дикторов. Однако большинство работ
либо игнорирует этот факт, либо занято поиском наиболее эффективных
методов
принятия
решения
в
заданном
пространстве
кепстральных
коэффициентов [55].
1.2.3 Признаки, извлекаемые на основе субполосного анализа
Под субполосной обработкой понимается анализ или синтез сигналов с
точки зрения некоторого разбиения частотной полосы на ряд интервалов R
(субполос):
Рисунок 1.14 – Разбиение оси частот на субполосы
26
На рисунке 1.14 r - составной интервал оси нормированных частот:
r 1r , 2 r 1r , 2 r , 0 1r 2 r ,
где
(1.18)
r - номер r - того частотного интервала, r 1,2,.., R ;
r - середина r - того частотного интервала;
1r
, 2 r - границы r - того частотного интервала.
0 - частотный интервал, ширина которого в 2 раза меньше ширины
r - того частотного интервала.
При этом шири́ны частотных интервалов определяются в соответствии
с (1.19) – (1.20), учитывая, что разбиение частотной оси происходит в
соответствии с рисунком 1.14:
0 2R 1 ,
(1.19)
где 0 - ширина 0 - ого частотного интервала.
20 ,
где
(1.20)
- ширина r - ого частотного интервала, r 1,2,.., R .
Исходя из того, что частотные интервалы r 1,2,.., R равной ширины,
то центральную частоту можно получить из соотношения:
r 0 2r
(1.21)
Целесообразность такого подхода к обработке речевых сигналов
определяется тем, что подавляющие доли их энергии сосредоточены в
достаточно малой доле частотной полосы, что является основным свойством,
присущим речевым сигналам.
27
5
0.016
4.5
0.014
Амплитуда трансформант Фурье
Амплитуда трансформант Фурье
-3
0.018
0.012
0.01
0.008
0.006
0.004
0.002
x 10
4
3.5
3
2.5
2
1.5
1
0.5
0
0
500
1000
1500
2000
2500
Частота, Гц
3000
3500
4000
0
0
500
1000
1500
А
2000
2500
Частота, Гц
3000
3500
4000
Б
Рисунок 1.15 – Распределение энергии для звуков "а" (А) и "в" (Б) ( f d =8 кГц)
Основными
инструментами
субполосной обработки является
соотношение для вычисления части энергии Pr x , сосредоточенной в r
ом частотном интервале сигнала x :
1
Pr x
2
где
X d , r 1,2,.., R ,
2
(1.22)
r
X - трансформанта (спектр) анализируемого отрезка сигнала x ;
r - составной интервал оси нормированных частот.
В
качестве
может
использоваться распределение энергии отрезка сигнала по интервалам Pr x .
Используя
определения
стабильных
полученное
части
энергии
информативных
признаков
в
монографии
[19]
в
субполосе
использованием
с
соотношение
субполосных матриц Ar (1.25), (1.22) можно привести к виду ф.(1.23):
для
набора
28
где
(1.24)
r
– субполосная матрица для r - того частотного интервала:
Ar aik
Ar aikr 2
где
Pr x xAr x T , r 1,2,.., R
sin 0 i k
cos r i k 2aik0 cos r i k ,
i k
a – элемент
r
ik
симметричной
и
положительно
(1.25)
определенной
субполосной матрицы.
i - позиция элемента в строке матрицы, i 1,2,.., N ;
k
- позиция элемента в столбце матрицы, k 1,2,.., N ;
r – индекс,
который
обозначает
номер
частотного
интервала,
r 1,2,.., R ;
r – центральная частота r - того частотного интервала r 0, ;
0
– постоянная составляющая:
aik
aik0
sin 0 i k
i k
(1.26)
Для того, чтобы продемонстрировать, что признаки, получаемые на
основе субполосного анализа – распределение энергии сигнала по частотным
интервалам –отвечают требованию резкой смены от диктора к диктору, на
рисунках 1.16 – 1.17 представлены распределения энергии по частотным
интервалам сигналов, соответствующих произнесению фонемы «т» из слова
«четыре» (рисунок 1.16) и фонемы «о» из слова «восемь» (рисунок 1.17)
разными дикторами.
29
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
18
0
2
4
6
А
16
18
14
16
18
1
нормированное значение энергии сигнала в частотном интервале
1
нормированное значение энергии сигнала в частотном интервале
14
Б
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
8
10
12
номер частотного интервала
0
2
4
6
8
10
12
номер частотного интервала
14
16
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
18
0
2
4
6
В
8
10
12
номер частотного интервала
Г
Рисунок 1.16 – Распределение энергии по частотным интервалам, где в
качестве отрезка сигнала выступает фонема «т» из слова «четыре» Диктором 1(А),
Диктором 2 (Б), Диктором 3 (В) и Диктором 4 (Г)
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
А
14
16
18
0
2
4
6
8
10
12
номер частотного интервала
Б
14
16
18
30
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
В
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
Г
Рисунок 1.17 – Распределение энергии по частотным интервалам, где в
качестве отрезка сигнала выступает фонема «о» из слова «восемь», по частотным
интервалам Диктором 1 (А), Диктором 2 (Б), Диктором 3 (В) и Диктором 4 (Г)
На основании рисунков 1.16 – 1.17 можно сделать вывод, что
использование распределения энергии по частотным интервалам как
признака для формирования признакового пространства, отвечает условию
резкой смены от диктора к диктору.
Т.к. признаки, используемые в процедурах идентификации диктора,
должны также быть стабильны в одних и тех же условиях – то есть на одних
и тех же фонемах, произнесённых одним и тем диктором, – то на рисунках
1.18 – 1.19 показано, как ведёт себя распределение энергии по частотным
интервалам в условиях данной задачи.
31
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
18
0
2
4
6
8
10
12
номер частотного интервала
А
18
14
16
18
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
16
Б
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
14
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
В
Г
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
Д
Рисунок 1.18 – Распределение энергии по частотным интервалам, где в
качестве отрезка сигнала выступает фонема «т» из слова «четыре», по частотным
интервалам Диктором 1 в четырёх различных случаях, и общий вид графиков (Д)
32
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
0
2
4
6
8
10
12
номер частотного интервала
А
18
14
16
18
1
нормированное значение энергии сигнала в частотном интервале
нормированное значение энергии сигнала в частотном интервале
16
Б
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
14
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
В
Г
нормированное значение энергии сигнала в частотном интервале
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
номер частотного интервала
14
16
18
Д
Рисунок 1.19 – Распределение энергии по частотным интервалам, где в
качестве отрезка сигнала выступает фонема «о» из слова «восемь», по частотным
интервалам Диктором 1 четырёх различных случаях, и общий вид графиков (Д)
33
На основании рисунков 1.18 – 1.19 можно сделать вывод, что
использование распределения энергии сигнала по частотным интервалам в
качестве стабильных информативных признаков целесообразно, т.к. оно
удовлетворяет условию стабильности на одних и тех же образцах голоса.
Кроме того, можно использовать информацию не о всей полосе частот,
а только о тех частотных интервалах, в которых сосредоточена подавляющая
доля энергии. Подобные частотные интервалы, удовлетворяющие (1.27),
получили название информационные частотные интервалы [22, 25, 62].
P x
rR1
r
x
2
1,
(1.27)
где R1 – множество информационных частотных интервалов, R1 R .
Для того чтобы отобрать значимые информационные интервалы,
необходимо выбрать некоторый порог hr , с которым сравнивается энергия в
этом частотном интервале. В данной работе предлагается использовать в
качестве порога значение "средней энергии" сигнала x :
hr
x
2
(1.28)
Тогда r - тый частотный интервал считается информационным, если
он удовлетворяет условию ():
Pr x hr
(1.29)
34
1.3 Решающие правила
После получения стабильных информативных признаков диктора,
полученный
образ
сравнивается
с
предварительно
подготовленными
эталонными образами, а затем принимается соответствующая логика
принятия решений для определения голоса заданного диктора среди
возможного множества [47]. Для этого вычисляется мера различимости для
двух записей, на основе которой принимается и выносится решение.
В качестве мер близости наиболее часто используют метод вычисления
расстояния d x, y :
евклидово расстояние:
d x, y
x
N
i 1
где
yi , i 1,2,.., N
2
i
(1.30)
x – вектор признаков, полученный из речевого сигнала пользователя,
проходящего процедуру идентификации;
у – вектор признаков, хранимый в базе данных дикторов;
xi и yi – i - тые элементы векторов x и у ;
N – количество элементов векторов x и у .
Чем меньше значение d x, y , тем более похожими являются вектора x
и у.
L1-норма
расстояние):
(расстояние
городских
кварталов,
манхэттэнское
35
N
d x , y xi yi , i 1,2,.., N
(1.31)
i 1
где
x – вектор признаков, полученный из речевого сигнала пользователя,
проходящего процедуру идентификации;
у – вектор признаков, хранимый в базе данных дикторов;
xi и yi – i - тые элементы векторов x и у ;
N – количество элементов векторов x и у .
Евклидово расстояние – наиболее общий тип расстояния [45].
Расстояние «городских кварталов» – по сравнению с евклидовым
расстоянием
влияние
отдельных
больших
разностей
(выбросов)
уменьшается, так как они не возводятся в квадрат [45].
метрика вычисления корреляции:
x y
r 2 2,
x y
где
(1.32)
x – центрированный вектор признаков, полученный из речевого
сигнала пользователя, проходящего процедуру идентификации;
у – центрированный вектор признаков, хранимый в базе данных
дикторов.
Чем больше значение r , тем более похожими являются вектора x и у .
Общим свойством всех норм является то, что обработке можно
подвергать только векторы одной размерности. Это не всегда возможно, т.к.
количество элементов вектора признаков зачастую зависит от длительности
обрабатываемого речевого сигнала (трансформанта Фурье, кепстр), что
36
вносит необходимость искажать исходные данные (пр. – добавление в сигнал
отсчётов с нулевой амплитудой для вычисления спектра) для получения
необходимого количества признаков.
При решении задачи идентификации диктора происходит однократное
сравнение индивидуальных признаков говорящего с соответствующими ему
эталонами, на основе которого выносится положительное или отрицательное
решение. В зависимости от вероятности ошибок I-го и II-го рода (т.е.
верификация
"самозванца"
и
отклонение
"подлинного"
диктора)
устанавливается порог различимости. Решающее правило выглядит в
соответствии (1.33):
Идентифицировать диктора i, если pi x ci pav x
,
Отклонить диктора i, если
pi x ci pav x
где
pi x – распределение
вероятности
индивидуальных
(1.33)
признаков
диктора;
сi – константа для i - того диктора, определяющая вероятность ошибок
i - того диктора;
pav x – среднее
(по
всему
ансамблю
дикторов)
распределение
вероятности индивидуальных признаков диктора.
1.4 Результаты и выводы главы. Задачи исследования
1. Сформулированы требования к выбору признаков для формирования
признакового пространства и требования к выбору решающей функции,
применяемые в задачах идентификации диктора;
2. Анализ
различных
подходов
к
формированию
признакового
пространства показал, что большинство вычисляемых признаков не
37
удовлетворяют условиям стабильности на одних и тех же образцах голоса, и
резкому изменению при смене диктора. Использование распределения
энергии сигнала по частотным интервалам в качестве стабильных
информативных признаков является наиболее адекватным с точки зрения
удовлетворения сформулированным требованиям.
3. Рассмотрены основные меры близости и сформулировано решающее
правило, применимое в задачах идентификации дикторов. Отмечено, что
важным критерием мер близости является то, что они могут быть вычислены
только для векторов признаков одной длины.
На основании проведённого анализа состояния вопроса относительно
методов идентификации дикторов и в соответствии с целью работы можно
сформулировать следующие задачи исследования:
1.
Анализ
основных
подходов,
используемых
в
задачах
идентификации дикторов;
2.
Разработка решающей функции для идентификации диктора на
основе субполосного подхода;
3.
Разработка и исследование субполосного метода и алгоритма
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение частей энергии по частотным
интервалам;
4.
Разработка и исследование субполосного метода и алгоритма
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение долей энергии информационных
частотных интервалов.
5.
Проведение вычислительных экспериментов.
38
ГЛАВА 2 РАЗРАБОТКА МЕТОДА СУБПОЛОСНОЙ
ИДЕНТИФИКАЦИИ ДИКТОРОВ
В
процессе
исследования
был
разработан
метод
субполосной
идентификации дикторов, который включает в себя решения следующих
задач:
1) eдаление пауз из речевого сигнала диктора;
2) сегментация речевого сигнала на однородные отрезки;
3) выбор решающей функции и построение критической области.
2.1 Удаление пауз из речевого сигнала диктора
В голосовой связи речь может быть охарактеризована как прерывистый
носитель
информации
из-за
пауз,
которые
являются
характерными
особенностями данного вида сигналов [10]. Интервалы, где голосовая
информация присутствует, называют участками активной речи, а паузы
между речевыми «всплесками» – участками пауз.
Рисунок 2.1 – Участки активной речи и паузы
Для того, чтобы производить анализ только на участках активной речи,
воспользуемся описанным в работах [5, 23, 24] методом обнаружения пауз в
39
речевом сигнале, основанный на вариационном методе анализа речевых
сигналов.
Распределение долей энергии по частотным интервалам может быть
использовано для обнаружения пауз в речевом сигнале. Решающая функция
для проверки гипотезы о том, что анализируемый отрезок сигнала
соответствует паузе между звуками данных имеет вид [23, 24]:
S maxPr Pr П для любых r 1,2,.., R ,
где
(2.1)
Pr – значение части энергии r - ого частотного интервала для отрезка
сигнала, соответствующего активной речи;
Pr П – значение части энергии r - ого частотного интервала для отрезка
сигнала, соответствующего паузе;
S – решающая функция.
При этом значение Pr П получается на этапе обучения за счёт
усреднения
по
большому
количеству
отрезков
сигнала,
заведомо
относящимся к паузам:
Ny
Pr П
где
P
k 1
r
П
k
Ny
(2.2)
,
N y – количество отрезков сигнала в паузе, которые используются для
усреднения.
Если
выполняется
неравенство
(2.3),
то
принимается,
что
анализируемый отрезок относится к паузе.
S h ,
(2.3)
40
где
h – пороговое
значение,
обеспечивающее
заданный
уровень
вероятности ложной тревоги, т.е. PS h 1.
Пороговое значение h можно получить из основанного на неравенстве
Чебышева выражении (2.4).
h S П DП d ,
где
S П – пороговое
значение,
обеспечивающее
(2.4)
заданный
уровень
вероятности ложной тревоги, т.е. PS h 1.
Для проведения эксперимента был записан речевой материал,
соответствующий фразе «черепаха черепаха». Речевой материал состоит не
только из активной речи, но и из периода паузы, в самом начале записи (для
обучающей выборки). Фраза была записана при частоте дискретизации 8000
Гц и 16 уровней квантования. Для удобства анализа была построена маска
для обнаружения пауз, которая принимает значение «0» в случае, если
анализируемый отсчёт речевого материала представляет собой шум. В
противном случае – любое ненулевое постоянное значение (в данном
эксперименте 0,8).
На рисунке 2.2 изображен результат работы реализованного алгоритма.
41
маска для обнаружения пауз
обрабатываемый сигнал
0.8
0.6
амплитуда сигнала
0.4
0.2
0
-0.2
-0.4
-0.6
0
0.5
1
1.5
2
время, отсчёты
2.5
3
3.5
4
x 10
Рисунок 2.2 – Результат работы алгоритма обнаружения пауз
Таким образом на основании рисунка 2.2 можно сделать вывод, что
метод обнаружения пауз в речевом сигнале, основанный на вариационном
методе анализа речевых сигналов, может использоваться для поиска участков
активной речи в задачах идентификации диктора.
После работы рассмотренного алгоритма все участки активной речи
сохраняются как отдельные звуковые файлы для дальнейшего анализа.
2.2 Сегментация речевых сигналов на однородные отрезки
В определенном смысле базовым этапом автоматического анализа
устной речи служит сегментация РС на отрезки, которые порождены в
разных условиях [62]. Сегментация речевого сигнала – это процесс
определения
границ
участков,
сочетанию звуков речи [22, 25, 62].
соответствующих
одному
звуку
или
42
Сегментация на основе математического аппарата субполосного
анализа и синтеза [22] учитывает свойство речевых сигналов, что
распределения энергии меняются от звука к звуку.
Исходными данными является речевой сигнал («идентификатор»),
регистрируемый на выходе микрофона под воздействием акустических
колебаний, через АЦП ( f d = 8 кГц, 16 уровней квантования), который
записывается в память ПК в виде соответствующего звукового файла для
последующего анализа.
Пусть X X 1 ,..., X N – речевой сигнал, длительностью N отсчётов.
Ось частот делится на
R 1
непересекающихся частотных интервала в
соответствии с рисунком 2.3.
Из общего сигнала X выделяются отрезки данных x1 и x2 , длиной
NN 22 R 1 отсчётов (см. рисунок 2.3):
Рисунок 2.3 – Выделение отрезков речевых данных во временной области
Исходная (нулевая) гипотеза формируется следующим образом:
H0 : два отрезка x1 и x2 порождены в одних и тех же условиях.
43
В
качестве
решающего
правила
предлагается
использовать
соотношение (2.5).
rR1
2 B
Pr x1 Pr x2
x
,
x
Pr x
(2.5)
rR1
где
T
x1 X k ,..., X k NN 1 ,
T
x2 X k NN ,..., X k 2 NN 1 ,
k 1,2,.., N 2 NN 1 ,
Т
x x1 , x2 – отрезки речевых данных во временной области;
Pr x – часть энергии, сосредоточенной в r - ом частотном интервале
сигнала x (см. (1.24));
R1 – множество информационных частотных интервалов (см. (1.27));
B – количество информационных частотных интервалов;
– ширина r - ого частотного интервала, r 1,2,.., R (см. (1.20));
x – энергия отрезка речевого сигнала.
Левая часть неравенства (2.5) представляет собой решающую
функцию, которая определяет расстояние между двумя отрезками на основе
вычисления евклидова расстояния между корнями частей энергии значимых
частотных интервалов.
Правая часть неравенства (2.5) – порог, который при выполнении
нулевой гипотезы, должен ограничивать значение решающей функции.
Левая и правая части неравенства вычисляются по - отдельности для
каждой пары отрезков x1 и x2 , выбираемых по методу скользящего окна.
В случае, когда неравенство (2.5) не выполняется, то гипотеза H0
отвергается и ставится метка, по максимальному значению решающей
функции. Эта метка и является границей между сегментами.
44
1
Левая часть неравенства
Правая часть неравенства
границы сегментов
0.9
0.8
0.7
Значение
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1000
2000
3000
4000
Время, отсчёты
5000
6000
7000
8000
Рисунок 2.4 – Решающее правило для фразы «черепаха»
0.5
сигнал
границы сегментов
0.4
0.3
Амплитуда сигнала
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
0
1000
2000
3000
4000
Время, отсчёты
5000
6000
7000
8000
Рисунок 2.5 – Сегментация речевого сигнала, соответствующего фразе
«черепаха»
45
Результатом работы алгоритма является вектор S s1 ,..., s j ,..., s M ,
где
s j - номер отсчёта, соответствующий границе сегмента;
s1 1 – номер отсчёта, соответствующий началу первого сегмента;
sM N – номер отсчёта, соответствующий концу последнего сегмента;
s ,..., s – номера
2
M 1
отсчётов, соответствующие границам сегментов,
выделенные алгоритмом (рисунки 2.4 – 2.5).
Особенностью предложенного метода сегментации является то, что при
произнесении одной и той же фразы одним и тем же диктором, количество
сегментов и их границы могут отличаться. Это может быть связано с тем,
что, произнося одинаковую фразу, у диктора может меняться темп речи,
громкость произношения, или его эмоциональное состояние.
0.5
0.5
сигнал
границы сегментов
0.3
0.3
0.2
0.2
0.1
0
-0.1
0.1
0
-0.1
-0.2
-0.2
-0.3
-0.3
-0.4
-0.4
-0.5
0
1000
2000
3000
4000
Время, отсчёты
5000
6000
7000
8000
сигнал
границы сегментов
0.4
Амплитуда сигнала
Амплитуда сигнала
0.4
-0.5
0
1000
2000
3000
А
Рисунок
2.6 –
4000
Время, отсчёты
5000
6000
7000
8000
Б
Сегментация
разных
реализаций
речевых
соответствующих фразе «черепаха», произнесённых одним диктором
сигналов,
46
1
1
Левая часть неравенства
Правая часть неравенства
границы сегментов
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
1000
2000
3000
4000
Время, отсчёты
5000
6000
7000
8000
Левая часть неравенства
Правая часть неравенства
границы сегментов
0.9
Значение
Значение
0.9
0
0
А
1000
2000
3000
4000
Время, отсчёты
5000
6000
7000
8000
Б
Рисунок 2.7 – Вид решающей функции для фраз «один», произнесённых одним
диктором
2.3 Решающая функция для субполосной идентификации дикторов
Предлагается, что идентификация осуществляется посегментно.
Пусть имеются два сигнала:
X x1 , x2 ,.., xi ,.., xL – речевой сигнал диктора, проходящего процедуру
идентификации, где x - i-тый сегмент сигнала X ;
Y y1 , y2 ,.., yk ,.., yM – речевой сигнал диктора, c которым происходит
сравнение, где yk - k-тый сегмент сигнала Y ;
i
Основная гипотеза формулируется следующим образом:
Н0: сигналы X и Y соответствуют разным дикторам.
В данной работе будут рассмотрены решающие функции для двух
случаев:
1) когда
в
качестве
стабильных
информативных
признаков
используется распределение энергии сигнала по частотным интервалам;
47
2) когда
в
качестве
стабильных
информативных
признаков
используется распределение долей энергии информационных частотных
интервалов.
1) Использование в качестве признаков распределение энергии
сигнала по частотным интервалам
В
качестве
решающей функции
коэффициент соответствия F z X , Y z (2.6):
где
использовать
R
Pr xi Pr ykz
L
F z X , Y z r 1
i 1
xi ykz
предлагается
,
z 1,2,.., Z ,
(2.6)
Z – количество речевых сигналов, зарегистрированных в системе
идентификации.
Нулевая гипотеза Н0 отвергается при выполнении условия (2.7):
F z X ,Y z h
(2.7)
Для установления порога h осуществляется оценка критической
области при заданной вероятности ошибки правильной идентификации Pош :
PR F z X , Y z h / H 0 Pош
(2.8)
2) Использование в качестве признаков распределение долей
энергии информационных частотных интервалов
48
В качестве решающей функции предлагается использовать выражение
(2.9):
, z 1,2,.., Z
R
Pdr xi Pdr ykz
L
Fd z X , Y z r 1
R
R
i 1 Pd r xi Pd r ykz
r 1
r 1
где
(2.9)
Z – количество речевых сигналов, зарегистрированных в системе
идентификации;
Pd r x – значение
доли
энергии
информационного
частотного
интервала (см. (1.27)):
Pr z
,
x
Pd r x
0
если r R1
если r R1
(2.10)
Нулевая гипотеза Н0 отвергается при выполнении условия (2.10):
Fd z X , Y z h
(2.11)
Для установления порога h осуществляется оценка критической
области при заданной вероятности ошибки правильной идентификации Pош :
PR Fd z X , Y z h / H 0 Pош
(2.12)
2.4 Результаты и выводы главы
1. Реализован адаптивный алгоритм удаления пауз, которая может быть
применена для селекции потока речи на отдельные слова;
49
2. Реализован адаптивный алгоритм сегментации речевого сигнала на
однородные
отрезки,
что
может
быть
использовано
для
поиска
характеристик, неизменных в пределах анализируемого сегмента;
3. Разработана
решающая
функция
для
субполосный
метода
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение частей энергии по частотным
интервалам;
4. Разработана
решающая
функция
для
субполосного
метода
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение долей энергии информационных
частотных интервалов.
50
ГЛАВА 3 ИССЛЕДОВАНИЕ МЕТОДА СУБПОЛОСНОЙ
ИДЕНТИФИКАЦИИ ДИКТОРОВ
3.1 Реализация этапа обучения
Этап обучения проводится для того, чтобы определить пороговое
значение, относительно которого принимается решение об идентификации.
Идея алгоритма заключается в том, что значение коэффициента
сопоставления для записей, соответствующий одному и тому же диктору
F z X , X z , будет больше, чем значение коэффициента сопоставления для
записей двух разных дикторов F z X , Y z . Поэтому можно предположить, что
существует некоторое пороговое значение, которое F z X , Y z не может
превысить.
Если рассматривать случай, когда вероятность ошибки II рода должна
быть равна нулю, то имеет смысл принимать за порог h максимальное
значение F z X , Y z . Т.е. возможны два варианта:
F z X , X z h,
идентификация пройдена
z
z
max F X , Y h, отказ в идентификации
(3.1)
Смыслом (3.1) является то, что идентификация считается пройденной
успешно только в случае, если значение F z X , X z h,1 .
Для удобства использования рассмотренных в главе 2 алгоритмов была
разработана функциональная схема метода субполосной идентификации
дикторов (рисунок 3.1), которая включает в себя
1) блок удаления пауз;
2) блок сегментации речевых сигналов на однородные отрезки;
51
3) блок вычисления решающей функции;
4) блок принятия решения.
Рисунок 3.1 – Функциональная схема метода субполосной идентификации
дикторов
X – речевой сигнал диктора, проходящего процедуру идентификации
для построения обучающей выборки, содержащий многократные реализации
произнесения парольного слова. РС X поступает на вход блока удаления
пауз1 и селекции потока речи на отдельные слова. Выходными данными
блока являются набор речевых сигналов x1 , x2 ,.., xN , где N – количество
произнесения диктором парольного слова.
В блоке сегментации1 определяются границы участков сегментов с
использованием РФ, основанной на учете субполосного расстояния. На
выходе данного блока речевые сигналы x1 , x2 ,.., xN представляются в виде
наборов
сегментов:
x1 x11 ,.., x1i ,.., x1L ,
x2 x21 ,.., x2i ,.., x2 L ,..,
xN xN 1 ,.., xNi ,.., xNL .
Одновременно аналогичные операции происходят и с речевым
сигналом другого диктора Y .
52
На вход блока РФ1 поступают наборы сегментов: x1 x11 ,.., x1i ,.., x1L ,
для
которых
вычисляются
x2 x21 ,.., x2i ,.., x2 L ,.., xN xN 1 ,.., xNi ,.., xNL ,
значения коэффициентов сопоставления F x1 , x1 , F x1 , x2 ,.., F xN , xN ,
которые удобно сохраняться в виде матрицы F z X , X z , где Z 1,2,.., N .
На вход блока РФ2 поступают наборы сегментов для речевых сигналов
двух разных дикторов. Результатом работы данного сегмента являются
значения коэффициентов сопоставления F x1 , y1 , F x1 , y2 ,.., F xN , yN ,
которые удобно сохраняться в виде матрицы F z X , Y z , где Z 1,2,.., N .
В случае, рассмотренном на рисунке 3.1, а именно, когда вероятность
ошибок II рода равна 0, пороговое значение вычисляется как:
max F z X , Y z с h ,
(3.2)
где с – констанста, c 0 .
После чего принимается решение об идентификации в соответствии
с (3.1).
3.2 Вычисление порогового значения для метода субполосной
идентификация
дикторов,
где
качестве
признаков
используется
распределение энергии сигнала по частотным интервалам
Для того, чтобы наглядно продемонстрировать работу метода
субполосной
идентификации
дикторов,
построим
гистограмму
распределений коэффициентов соответствий F z X , X z
(обучающая
выборка) (рисунок 3.2) и гистограмму F z X , Y z (выборка идентификации)
(рисунок 3.3), где при вычислении решающей функции используется вектор
53
распределения энергии сигнала по частотным интервалам в качестве
стабильных информативных признаков.
Для реализации эксперимента была создана база из пяти дикторов,
каждому из которых соответствует по 100 реализаций произнесения слова
количество попаданий значения коэффицента сопоставления в интервал
«черепаха» (частота дискретизации 8000 Гц, 16 бит квантования)
500
450
400
350
300
250
200
150
100
50
0
0.4
Рисунок
3.2
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
Гистограмма
0.9
распределения
1
значений
количество попаданий значения коэффицента сопоставления в интервал
z
z
сопоставления F X , X , где в качестве X выступает Диктор 1
350
300
250
200
150
100
50
0
0.55
Рисунок
коэффициента
3.3
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
Гистограмма
распределения
0.9
0.95
1
значений
коэффициента
z
z
сопоставления F X , Y , где в качестве X выступает Диктор 1, Y - Диктор 2
54
Если совместить данные с рисунков 3.2 и 3.3, можно найти крайнее
значение
порога,
относительно
которого
происходит
решение
об
идентификации «свой/чужой». Под крайним значением порога будем
понимать такое значение, при незначительном увеличении которого на
количество попаданий значения коэффицента сопоставления в интервал
константу с может быть обеспечена нулевая вероятность ошибок II рода.
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.96
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок 3.4 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 1
На рисунках 3.5 – 3.7 представлены аналогичные гистограммы, только
при прохождении процедуры идентификации другими дикторами 3-5.
количество попаданий значения коэффицента сопоставления в интервал
55
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.967
Y =6
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок 3.5 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 3 как Диктора 1
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.97
Y =2
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок 3.6 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 4 как Диктора 1
количество попаданий значения коэффицента сопоставления в интервал
56
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.955
Y =4
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок 3.7 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 1
Если повторить подобные эксперименты для каждого из дикторов, то
все данные можно свести в таблицу 3.1, где указаны крайние пороговые
значения для каждой пары дикторов. Гистограммы для этих случаев
представлены в ПРИЛОЖЕНИИ А.
Таблица 3.1 – Пороговые значения для метода субполосной идентификация
дикторов, где качестве признаков используется распределение энергии сигнала по
частотным интервалам
Выборка идентификации
Обучающ
ая
выборка
1
Диктор 1
Диктор 2
Диктор 3
Диктор 4
Диктор 5
2
3
4
5
6
0.96
0.967
0.97
0.955
0.952
0.954
0.946
0.971
0.974
Диктор 1
Диктор 2
0.932
Диктор 3
0.965
0.964
57
Продолжение таблицы 3.1
2
3
4
Диктор 1
0.955
0.958
0.958
Диктор 5
0.948
0.961
0.964
Обуча
ющая
выбор
ка
1
5
6
0.959
0.965
Из таблицы 3.1 можно сделать вывод, что крайние пороговые значения
не превышают величину 0,974, которая и может использоваться для задания
порогового значения критической области принятия решений, полученное
при обучении.
3.3 Вычисление порогового значения для метода субполосной
идентификация
дикторов,
где
качестве
признаков
используется
распределение долей энергии информационных частотных интервалов
Если повторить исследования, аналогичные указанным в п.3.2, (см.
ПРИЛОЖЕНИЕ Б), то получим таблицу 3.2.
Таблица 3.2 – Пороговые значения для метода субполосной идентификация
дикторов, где качестве признаков используется распределение долей энергии
информационных частотных интервалов
Выборка идентификации
Диктор 1
выборка
Обучающая
Диктор 1
Диктор 2
Диктор 3
Диктор 4
Диктор 5
0.95
0.961
0.964
0.95
0.949
0.947
0.941
0.966
0.971
Диктор 2
0.927
Диктор 3
0.959
0.96
Диктор 4
0.955
0.95
0.956
Диктор 5
0.946
0.961
0.963
0.949
0.962
58
При сравнении значений из таблиц 3.1 и 3.2 можно отметить, что
крайние пороговые значения для метода субполосной идентификация
дикторов, где качестве признаков используется распределение долей энергии
информационных частотных интервалов, меньше, чем для в случае
использования в качестве признаков распределения энергии отрезка по
частотным интервалам. Подобный подход позволяет говорить о большей
эффективности использования подобных признаков для решения задач
идентификации дикторов.
Максимальное крайнее пороговое значение может приниматься за
порог,
на
основе
которого
и
будет
выноситься
решение
об
успешной/неуспешной идентификации.
Проведенные сравнительные эксперименты свидетельствуют о том, что
предлагаемые стабильные информативные признаки и разработанные
решающие функции могут найти своё применение в задачах идентификации
диктора.
3.4 Результаты и выводы главы
1. Исследовано поведение решающей функции и вычислены пороговые
значения для ограничения критической области для субполосного метода
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение частей энергии по частотным
интервалам;
2. Исследовано поведение решающей функции и вычислены пороговые
значения для ограничения критической области для субполосного метода
идентификации дикторов, где в качестве устойчивых информативных
признаков используются распределение долей энергии информационных
частотных интервалов.
59
3. Установлено, что пороговое значения разработанной решающей
функции,
когда
в
качестве
стабильных
информативных
признаков
используется распределение долей энергии информационных частотных
интервалов, меньше, чем пороговое значение решающей функции, когда в
качестве стабильных информативных признаков используется распределение
энергии сигнала по частотным интервалам. Подобный вывод позволяет
говорить о большей эффективности использования подобных признаков для
решения задач идентификации дикторов.
60
ЗАКЛЮЧЕНИЕ
1. Сформулированы требования к признакам, на основе которых
формируется признаковое пространство для идентификации дикторов, и
используемым
в
этих
сравнительный
анализ,
задачах
решающим
насколько
признаки,
функциям.
получаемые
Проведён
на
основе
спектрального, кепстрального и субполосного подходов, удовлетворяют
сформулированным
обрабатываемых
требованиям
речевых
и
сигналов.
адекватно
отражают
Отмечено,
что
свойства
использование
распределения энергии сигнала по частотным интервалам (субполосный
подход) в качестве стабильных информативных признаков является наиболее
адекватным с точки зрения удовлетворения этим требованиям. Также
предложена идея использовать в качестве стабильных информативных
признаков распределение долей энергии информационных частотных
интервалов,
для
повышения
стабильности
работы
алгоритмов
идентификации диктора.
2. Изложены и реализованы основные этапы, входящие в метод
субполосной идентификации дикторов. В основе каждого из этапов лежит
субполосный
подход,
который
позволяет
реализовывать
адаптивные
алгоритмы обработки речевых данных. Разработаны решающие функции для
метода субполосной идентификации дикторов, где в качестве признаков,
характеризующих особенности голоса диктора, могут выступать как
распределение
энергии
сигнала
по
частотным
интервалам,
так
и
распределение долей энергии информационных частотных интервалов.
Кроме того, задаётся понятие порога для ограничения критической области,
на основе которого будет осуществляться решение об идентификации при
заданной вероятности ошибки II рода.
61
3. Исследованная решающая функция построена таким образом, чтобы
вероятность попадания значения решающей функции в критическую область
была достаточно мала. Это было обосновано путём проведения ряда
предварительных экспериментов, формируя обучающую выборку. Целью
этих экспериментов было установление порогового значения решающей
функции, относительно которого принимается решение об идентификации
(отвергается первоначальная гипотеза H0). При этом значение порога может
варьироваться в зависимости от необходимой эффективности работы
алгоритма, а именно, насколько мала должна быть вероятность ошибки II
рода.
4. Было
установлено,
что
пороговое
значения
разработанной
решающей функции, когда в качестве стабильных информативных признаков
используется распределение долей энергии информационных частотных
интервалов, меньше, чем пороговое значение решающей функции, когда в
качестве стабильных информативных признаков используется распределение
энергии сигнала по частотным интервалам. Подобный вывод позволяет
говорить о большей эффективности подобных признаков для решения задач
идентификации дикторов.
5. Проведенные сравнительные эксперименты свидетельствуют о том,
что предлагаемые стабильные информативные признаки и разработанные
решающие функции могут найти своё применение в задачах идентификации
диктора. Поэтому из полученных результатов исследования следует
утверждать,
что
разработанные
методы
и
алгоритмы
позволяют
усовершенствовать существующие методы и алгоритмов идентификации
дикторов по голосу.
62
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Агашин, О.С. Методы цифровой обработки речевого сигнала в
задаче распознавания изолированных слов с применением сигнальных
процессоров
/
О.С.Агашин,
О.Н.Корелин
//
Труды
Нижегородского
государственного технического университета им. Р.Е. Алексеева – 2012. - №4
(97). – С.32 –44.
2. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и
классификации речевых сигналов [Текст]/ А.В. Аграновский, Д.А. Леднов –
М.: Радио и связь, 2004. – 164 с.
3. Айфичер Э. Цифровая обработка сигналов: практический подход, 2-е
издание [Текст]: Пер. с англ. / Айфичер Э., Джервис Б. – М.: Издательский
дом «Вильямс», 2004. – 992 с.:ил.
4. Барнет Дж. А. Методы автоматического распознавания речи: В 2-х
книгах. [Текст]: Пер. с англ. / Дж.А. Барнет, М.И. Бернстейн и др. Под ред. У.
Ли. – М.: Мир, 1983. – Кн. 2. 392 с., ил.
5. Белов С.П. Об уменьшении объема трафика при пакетной передаче
речевых сообщений за счет кодирования пауз [Текст] / С.П. Белов, Е.И.
Прохоренко
//
Научные
ведомости
Белгородского
государственного
университета. Серия: Информатика и прикладная математика. - Белгород,
2006. - № 1 (21). – Вып. 2. - С. 141–148.
6. Богданович, В.А. Теория устойчивого обнаружения, различения и
оценивания сигналов. – 2-е изд., испр. [Текст]/ В.А. Богданович, А.Г.
Вострецов.-М.: ФИЗМАТЛИТ, 2004. – 320 с.
7. Бондарев, В.Н. Цифровая обработка сигналов. Методы и средства
[Текст]: Учеб. Пособие для вузов. 2-е изд / Бондарев В.Н., Трестре Г.,
Чернега В.С. – Х: Конус, 2001. – 398 с.:ил.
63
8. Вапник, В.Н. Теория распознавания образов (статистические
проблемы обучения) [Текст]/ В.Н. Вапник, А.Я. Червоненкис.- Издательство
«Наука», 1974. – 416 с.
9. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых
сигналов [Текст]/ Т.К. Винцюк - Киев: Наук.думка, 1987. - 264с.
10.
Волченков
В.
А.
Методы
и
алгоритмы
детектирования
активности речи [Текст] / В.А. Волченков, В.В. Витязев // Цифровая
Обработка Сигналов. – 2013. - № 1. – С. 54-60.
11.
Глинченко, А. С. Цифровая обработка сигналов [Текст]: Учеб.
пособие: В 2 ч. Ч. 2. / А.С. Глинченко. – Красноярск: ИПЦ КГТУ, 2001. 184 с.
12.
Голд, Б. Цифровая обработка сигналов [Текст] / Б. Голд, Ч.
Рейдер. – М.: Сов. Радио, 1973. – 368 с.
13.
Гольденберг Л.М. Цифровая обработка сигналов. [Текст] / Л.М.
Гольденберг. – М.: Радио и связь, 1985. – 312 с.
14.
Гоноровский И.С. Радиотехнические цепи и сигналы. Учебник
для вузов. – 4-е изд., перераб. и доп. [Текст] / И.С. Гоноровский.– М.: Радио
и связь, 1977. – 512 с.:ил.
15.
Грибанов Ю.И. Спектральный анализ случайных процессов
[Текст] / Ю.И. Грибанов, В.Л. Мальков. – М.: «Энергия», 1974. – 240 с.:ил.
16.
Гудонавичюс, Р.В. Распознавание речевых сигналов по их
структурным свойствам [Текст]/Р.В. Гудонавичюс, П.П. Кемешис, А.Б.
Читавичюс – Л.: «Энергия», 1977. – 64 с.
17.
Динамические спектры речевых сигналов [Текст] М.Ф. Деркач,
Р.Я. Гумецкий, Б.М. Гура, М.Е. Чабан. – Львов: Вища школа. Изд-во при
Львов. Ун-те, 1983. - 168 с.
18.
Заковряшин, А.С. Применение распределений мел-частотных
кепстральных коэффициентов для голосовой идентификации личности
[Текст] / А.С. Заковряшин, П. В. Малинин, А. А. Лепендин // Известия
64
Алтайского Государственного университета, Том 1 – 2014. - №1 (81). – С.156
–160.
19.
Жиляков Е.Г. Вариационные методы анализа и построения
функций по эмпирическим данным: моногр.
[Текст] / Е.Г. Жиляков. -
Белгород: Изд-во БелГУ, 2007. – 160 с.
20.
Жиляков Е.Г. Методы анализа и построения функций по
эмпирическим данным на основе частотных представлений: монография
[Текст] / Е.Г. Жиляков. - Белгород: Изд-во БелГУ, 2007. – 160 с.
21.
Жиляков
Е.Г.
Методы
обработки
речевых
данных
в
информационно-телекоммуникационных системах на основе частотных
представлений [Текст] / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко. –
Белгород: БелГУ, 2007. – 136 с.
22.
Жиляков Е. Г. О сегментации речевых сигналов на однородные
отрезки [Текст] / Е.Г. Жиляков, C.П. Белов, А.С. Белов, А.А. Фирсова //
Научные ведомости белгородского государственного университета. Серия:
Экономика. Информатика . Том 34 – 2015. - №7-1. – С. 194-199.
23.
Жиляков Е. Г. Об анализе и синтезе речевых сигналов в
IP-телефонии
[Текст]
/
Е.Г.
Жиляков,
А.А.
Фирсова
//
Вестник
Национального технического университета Харьковский политехнический
институт. Серия: Информатика и моделирование. – 2009. - № 43. – С. 84-91.
24.
Жиляков Е.Г. Об эффективности различных подходов, к
сегментации речевых сигналов на основе обнаружения пауз [Текст] / Е.Г.
Жиляков, С.П. Белов, А.С. Белов и др. ; БелГУ // Научные ведомости БелГУ.
Сер. История. Политология. Экономика. Информатика. - 2010. - №7(78),
вып.14/1.-С. 187-193.
25.
Жиляков, Е.Г. Сегментация речевых сигналов на основе анализа
распределения энергии по частотным интервалам [Текст] / Е.Г. Жиляков,
Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова, М.В. Фатова // Научные
ведомости Белгородского государственного университета. Серия: История.
65
Политология. Экономика. Информатика, Том 18 – 2011. - №7-1 (102). – С.
187-196.
26.
Залманзон Л.А. Преобразование Фурье, Уолша, Хаара и их
применение в управлении, связи и других областях. [Текст] / Залманзон Л.А.
– М.: Наука. Гл. ред. Физ.-мат.лит., 1989 год. 496 с.
27.
Карпов, Н.В. Автоматический анализ качества устной речи
[Текст] / Н.В. Карпов // Вестник Нижегородского университета им.
Н.И.Лобачевского. – 2013. - №1(1). – С.219-224.
28.
Кисиленко А.В. Субполосная идентификация диктора [Текст]/
А.В. Кисиленко // XIII-я Курчатовская молодёжная научная школа: сборник
аннотаций 27 – 30 октября 2015 г. – Москва, 2015. – С. 158.
29.
Кисиленко А.В. Субполосное распознавание дикторов [Текст] /
А.В. Кисиленко, Д.И. Трубицына // Проблемы передачи и обработки
информации в сетях и системах телекоммуникаций: Материалы 18-й
Международной науч.-техн. конф.: Горячая-линия Телеком, 2015. – С.76–78.
30.
Кипяткова, И.С. Автоматическая обработка разговорной русской
речи: монография / И.С. Кипяткова, А.Л. Ронжин, А.А. Карпов. СПИИРАН. −
СПб.: ГУАП, 2013. − 314 с.
31.
Компьютерные технологии распознавания речевых сигналов
[Текст] / О.Н. Карпов, А.Г. Габович, Б.Г. Марченко и др. – К.: ООО
«ПолиграфКонсалтинг», 2005. – 138 с.
32.
Котомин, А.В. Распознавание речевых команд с использованием
сверточных нейронных сетей/ А.В. Котомин // Наукоёмкие информационные
технологии // Труды XVI Моло- дежной научно-практической конференции
SIT-2012 : г. Переславль- Залесский : апрель 2011 : УГП имени А. К.
Айламазяна. – 2012. – С.17-28.
33.
Кудашев, О.Ю. Система разделения дикторов на основе
вероятностного линейного дискриминантного анализа. Диссертация на
66
соискание учёной степени кандидата технических наук –- Санкт-Петербург,
2014. — 158 с.
34.
Куприянов, М.С. Цифровая обработка сигналов: процессоры,
алгоритмы, средства проектирования [Текст] / М.С. Куприянов. – СПб.:
Политехника, 1999. – 592 с.
35.
Лайонс, Р. Цифровая обработка сигналов / Лайонс Р; - 2-е изд. ;
Пер. с англ. − М.: ООО "Бином-Пресс", 2006 − 656 с.: ил.
36.
Марпл-мл,
С.Л.
Цифровой
спектральный
анализ
и
его
приложения / Марпл-мл. С.Л.; Пер. с англ. −М.: Мир, 1990.
37.
Методы цифровой обработки сигналов для решения прикладных
задач. Монография [Текст] / Под ред. В.И. Марчука. – М.:: Радиотехника,
2012. – 128 с.:ил.
38.
Михайлов В.Г., Златоусов Л.В. Измерение параметров речи
[текст]/ В.Г. Михайлов, Л.В. Златоусова; Под.ред. М.А. Сапожникова. –
Москва: Радио и связь, 1987. – 168с.: ил.
39.
Мясникова Е.Н. Объективное распознавание звуков речи [Текст]
/ Е.Н. Мясникова. – Л.: Энергия, 1967. – 150 с.: рис.
40.
Назаров М.В. Методы цифровой обработки и передачи речевых
сигналов [Текст] / М.В. Назаров, Ю.Н. Прохоров. – М.: Радио и связь, 1985. –
176 с.
41.
Николенко,
С.
Лекция
6.
Признаки.
Кепстральные
коэффициенты. MFCC / Е.Селифонов, А.Тихомиров / [Электронный ресурс]
URL: http://logic.pdmi.ras.ru/~sergey/teaching/asr/notes-06-features.pdf
(дата
обращения: 5.05.2015).
42.
Обнаружение радиосигналов [Текст] / П.С. Акимов, Ф.Ф.
Евстратов, С.И. Захаров и др.; Под. ред. А.А. Колосова. – М.: Радио и связь,
1989. – 288 с.: ил.
43.
Оппенгейм А. Цифровая обработка сигналов [Текст] / А.
Оппенгейм, Р. Шафер. – М.: Техносфера, 2006. – 856 с.
67
44.
Первушин,
Е.А.
Обзор
основных
методов
распознавания
дикторов / Е.Н. Первушин // Математические структуры и моделирование. –
2011. - вып.24. – С.41-54.
45.
Половикова, О.Н. Использование евклидова и манхэттенского
расстояний в качестве меры близости для решения задачи классификации
[Текст] / О.Н. Половикова, В.В. Фокина // Известия АлтГУ. – 2010. – №1-1.
С.101-102
46.
Применение цифровой обработки сигналов [Текст] / под ред. Э.
Оппенгейма. М.: Мир, 1980. – 556 с.
47.
Рабинер Л. Р., Шафер Р.В. Цифровая обработка речевых сигналов
= Digital processing of speech signals[текст]/ Л.Р. Рабинер, Р.В. Шафер.;Пер. с
англ.М.В. Назарова, Ю.Н. Прохорова; Под ред. М.В.Назарова, Ю.Н.
Прохорова. – Москва: Радио и связь, 1981. – 496с.:ил.
48.
Рамишвили, Г.С. Автоматическое опознавание говорящего по
голосу[Текст]/Г.С.Рамишвили. – М.: Радио и связь, 1981. - 224 с.
49.
Рандалл, Р. Б. Частотный анализ [Текст] / Р. Б. Рандалл. –
Глоструп, Дания: К. Ларсен и сын А/О, 1989. – 389 с.
50.
Раушер К. Основы спектрального анализа [Текст]: Пер. с англ. С.
М. Смольского / Под ред. Ю. А. Гребенко - М.: Горячая линия-Телеком, 2006.
– 225 с.
51.
Романюк Ю.А. Дискретное преобразование Фурье в цифровом
спектральном анализе. Учебное пособие [Текст] / Ю.А. Романюк – М.:
МФТИ, 2007. – 120 с.
52.
Сергиенко А.Б. Цифровая обработка сигналов: учебное пособие.
— 3-е изд.— М.: БХВ-Петербург, 2011. — 768 с.
53.
Смит
С.
Цифровая
обработка
сигналов:
практическое
руководство для инженеров и научных работников [Текст] / Стивен Смит ;
пер. с англ. А. Ю. Линовича, С. В. Витязева. - Москва : Додэка-XXI, 2008. –
718 с.
68
54.
Солонина, А.И. Основы цифровой обработки сигналов [Текст]/
А.И. Солонина, Д.А. Улахович, С.М. Арбузов, Е.Б.Соловьева. – СПб.: БХВПетербург, 2005. – 768с.: ил.
55.
параметрам
Сорокин, В.Н. Верификация диктора по спектрально - временным
речевого
сигнала
/
В.Н.
Сорокин,
А.И.
Цыплихин
//
Информационные процессы, Том 10. – 2010. - №2. – С.87 –104.
56.
обзор
Сорокин, В.Н. Распознавание личности по голосу: аналитический
/ В.Н. Сорокин, В.В.Вьюгин, А.А.Тананыкин // Информационные
процессы, Том 12. – 2012. - №1. – С.1 –30.
57.
Сорокин В.Н. Сегментация речи на кардинальные элементы
[Текст] / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы, 2006,
Т. 6, №3, с. 177-207.
58.
Сюзев В.В. Основы теории цифровой обработки сигналов [Текст]
/ В.А. Сюзев – М.: РТСофт, 2014. – 752 с.
59.
Трахтман А.М. Введение в обобщённую спектральную теорию
сигналов [Текст] / А.М. Трахтман– М.: Изд-во «Советское радио», 1972. – 352
с.
60.
Трахтман, А.М. Основы теории дискретных сигналов на
конечных интервалах [Текст]/ А.М. Трахтман, В.А. Трахтман.- М.: «Сов.
радио», 1975. – 208 с.
61.
Ту, Дж., Гонсалес, Р. Принципы распознавания образов / Дж. Ту,
Р. Гонсалес; Пер. с англ. И.Б. Гуревича; Под ред. Ю.И. Журавлева. − М.:
Мир, 1978 − 411 с.
62.
Фирсова, А.А. Разработка и исследование субполосных методов
и алгоритмов сегментации речевых сигналов. Диссертация на соискание
учёной степени кандидата технических наук – Белгород, 2013. — 165 с.
63.
Фланаган, Джеймс Л. Анализ, синтез и восприятие речи =Speech
analysis synthesis and perception [Текст]/ Джеймс Л. Фланаган.;Пер. с англ.
69
А.А. Пирогова; Под ред. А.А. Пирогова. – М.: Издательство «Связь», 1968. –
360с.: ил.
64.
Френкс, Л. Теория сигналов [Текст] / Л. Френкс; Пер. с англ., под
ред. Д.Е.Вакмана. − М.: Сов. радио, 1974 − 344 с.
65.
Фу, К. Структурные методы в распознавании образов / К. Фу;
Пер. с англ. Н.В. Завалишина, С.В. Петрова, Р.Л. Шейнина; Под ред. М.А.
Айзермана. − М.: Мир, 1977 − 319 с.
66.
Фукунага К. Введение в статистическую теорию распознавания
образов [Текст] / К. Фукунага; пер. с анлг. – М.: Наука, 1979. – 368 с.
67.
Цыпкин, Я.З. Информационная теория идентификации [Текст] /
Я.З. Цыпкин. – М.: Наука, 1995. – 336 с.
68.
Харкевич А.А. Спектры и анализ [Текст] Изд. 5-е / А.А.
Харкевич. – М.:: Книжный дом «ЛИБРОКОМ», 2009. – 240 с.
69.
Шелухин О.И. Цифровая обработка и передача речи [Текст] /
О.И. Шелухин, Н.Ф. Лукьянцев; под ред. О.И. Шелухина. – М.: Радио и
связь, 2000. – 456 с.
70.
Lu X., Dang J. (2007). An investigation of dependencies between
frequency components and speaker characteristics for text-independent speaker
identification. Speech Communication, v.50, N4, 312–322.
71.
В.Г.Потемкин. Справочник по MATLAB [Электронный ресурс] //
QRZ.RU: центр компетенций MathWorks. Дата обновления: 15.05.2017. URL:
http://matlab.exponenta.ru/ml/book2/.html (дата обращения: 10.05.2017).
70
ПРИЛОЖЕНИЕ А
Определение крайних пороговые значений для метода субполосной идентификация
дикторов, где качестве признаков используется распределение энергии сигнала по
количество попаданий значения коэффицента сопоставления в интервал
частотным интервалам.
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.932
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок А.1 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 2
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.952
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок А.2 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 3 как Диктора 2
количество попаданий значения коэффицента сопоставления в интервал
71
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.954
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок А.3 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 4 как Диктора 2
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.946
Y =2
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.4 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 2
количество попаданий значения коэффицента сопоставления в интервал
72
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.965
Y =2
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.5 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 3
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.964
Y =1
0
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.6 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 3
количество попаданий значения коэффицента сопоставления в интервал
73
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
0
0.55
X = 0.971
Y =6
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.7 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 4 как Диктора 3
600
обучающая выборка
выборка идентификации
500
400
300
200
100
X = 0.974
Y = 11
0
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.8 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 3
количество попаданий значения коэффицента сопоставления в интервал
74
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.955
Y =4
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок А.9 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 4
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.958
Y =2
0
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.10 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 4
количество попаданий значения коэффицента сопоставления в интервал
75
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.958
Y =1
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.11 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 3 как Диктора 4
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.954
Y =2
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.12 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 4
количество попаданий значения коэффицента сопоставления в интервал
76
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.948
Y =3
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок А.13 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 5
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.961
Y =1
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.14 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 5
количество попаданий значения коэффицента сопоставления в интервал
77
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.964
Y =1
0
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.15 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 3 как Диктора 5
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.965
Y =5
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок А.16 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 4 как Диктора 5
78
ПРИЛОЖЕНИЕ Б
Определение крайних пороговые значений для метода субполосной идентификация
дикторов,
где
качестве
признаков
используется
распределение
долей
энергии
количество попаданий значения коэффицента сопоставления в интервал
информационных частотных интервалов.
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.95
Y =4
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.1 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 2 как Диктора 1
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.961
Y =2
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.2 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 3 как Диктора 1
количество попаданий значения коэффицента сопоставления в интервал
79
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.964
Y =2
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.3 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 4 как Диктора 1
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.95
Y =2
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.4 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 1
количество попаданий значения коэффицента сопоставления в интервал
80
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.927
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.5 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 2
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.949
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.6 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 3 как Диктора 2
количество попаданий значения коэффицента сопоставления в интервал
81
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.947
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.7 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 4 как Диктора 2
450
обучающая выборка
выборка идентификации
400
350
300
250
200
150
100
50
X = 0.941
Y =3
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.8 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 2
количество попаданий значения коэффицента сопоставления в интервал
82
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.959
Y =4
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.9 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 3
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
X = 0.96
Y =1
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.10 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 3
количество попаданий значения коэффицента сопоставления в интервал
83
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
0
0.5
X = 0.966
Y =6
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.11 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 4 как Диктора 3
500
обучающая выборка
выборка идентификации
450
400
350
300
250
200
150
100
50
0
0.55
X = 0.971
Y =9
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.12 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 3
количество попаданий значения коэффицента сопоставления в интервал
84
350
обучающая выборка
выборка идентификации
300
250
200
150
100
50
X = 0.955
Y =1
0
0.4
0.5
0.6
0.7
0.8
значение коэффициента сопоставления
0.9
1
Рисунок Б.13 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 4
350
обучающая выборка
выборка идентификации
300
250
200
150
100
50
X = 0.95
Y =2
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.14 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 4
количество попаданий значения коэффицента сопоставления в интервал
85
350
обучающая выборка
выборка идентификации
300
250
200
150
100
50
X = 0.956
Y =1
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.15 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 3 как Диктора 4
350
обучающая выборка
выборка идентификации
300
250
200
150
100
50
X = 0.949
Y =2
0
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.16 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 5 как Диктора 4
количество попаданий значения коэффицента сопоставления в интервал
86
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.946
Y =1
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.17 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 1 как Диктора 5
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.961
Y =3
0
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.18 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 2 как Диктора 5
количество попаданий значения коэффицента сопоставления в интервал
87
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.963
Y =2
0
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.19 – Определение крайнего значения порога для принятия решения
количество попаданий значения коэффицента сопоставления в интервал
при идентификации Диктора 3 как Диктора 5
400
обучающая выборка
выборка идентификации
350
300
250
200
150
100
50
X = 0.962
Y =4
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
значение коэффициента сопоставления
0.9
0.95
1
Рисунок Б.20 – Определение крайнего значения порога для принятия решения
при идентификации Диктора 4 как Диктора 5
Магистерская
диссертация
выполнена
мной
совершенно
самостоятельно. Все использованные в работе материалы и концепции из
опубликованной научной литературы и других источников имеют ссылки на
них.
«___» ________________ _____ г.
__________________________
(подпись)
_____________________
(Ф.И.О.)
Отзывы:
Авторизуйтесь, чтобы оставить отзыв