Правительство Российской Федерации Федеральное государственное
бюджетное образовательное учреждение высшего профессионального
образования
«Санкт-Петербургский Государственный Университет»
Кафедра Теоретической Кибернетики
Лебедев Владимир Вячеславович
Синтез речевого сигнала
Дипломная работа
Допущен к защите.
Зав. кафедрой:
д. т. н., профессор Фрадков А. Л.
Научный руководитель:
д. ф.-м. н., профессор Барабанов А. Е.
Рецензент:
к. ф.-м. н., доцент Бондарко В. А.
Санкт-Петербург
2016
SAINT-PETERSBURG STATE UNIVERSITY
Department of Theoretical Cybernetics
Vladimir Lebedev
Synthesis of speech signal
Graduation Thesis
Admitted for defense.
Head of department:
Professor Alexander Fradkov
Scientific supervisor:
Professor Andrey Barabanov
Reviewer:
Docent Vladimir Bondarko
Saint-Petersburg
2016
Оглавление
Введение
4
1. Постановка задачи
1.1. Цель работы . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
2. Математическая часть
2.1. Соединение двух голосовых фреймов в непрерывном времени . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Расчет сигнала в дискретном времени . . . . . . . . . . .
7
3. Методы выделения пар гармоник
3.1. Объединение по номеру гармоники . . . . . . . . . . . . .
3.2. Равномерное соединение гармоник . . . . . . . . . . . . .
3.3. Анализ через синтез . . . . . . . . . . . . . . . . . . . . . .
10
10
11
13
Заключение
15
Список литературы
16
3
7
9
Введение
В данной работе будет решаться задача улучшения качества синтезированного сигнала. Всегда есть смысл делать это, например, для
фонетиков - людей изучающих речь, важно работать с сигналом наиболее приближенным к идеалу. Иногда, из-за недостаточно достоверной
модели возникают так называемые «хлопки». На вход программы подается речевой сигнал. В таких согласных как «ж», «ш», «ц» происходят
быстроменяющиеся оценки частоты основого тона. Все программы были написаны в математическом пакете MATLAB. Имеется программа
VOCODER с помощью которой происходит высчитывание параметров
модели по данному сигналу, а затем воспроизведение сигнала по построенной модели.[2]
4
1. Постановка задачи
На вход программы подается речевой сигнал. Фрагмент записи будет рассматриваться наполовину перекрывающимися частями, которые
называют фреймами. Звуки речи делятся на вокализованные(тоны)
и невокализованные(шумы). В данной работе будут рассматриваться
только вокализованные. На вокализованном участке голосовые связки
совершают периодические колебания с частотой основного тона. Далее
представлен фрагмент аудиозаписи «жу»:
Рис. 1: Речевой сигнал
1.1. Цель работы
Целью работы является разработка методов синтеза речевого сигнала по параметрическим моделям его коротких сегментов, а также
оптимизация параметров моделей речевого сигнала по методу ”анализ
через синтез”. Предполагается, что фиксирован способ оценки амплитуд и фаз всех гармоник полигармонической модели речевого сигнала
в коротком сегменте при фиксированной частоте основного тона. Для
этого применяется метод наименьших квадратов в комплексном расши5
рении задачи. Требуется оценить быстро меняющуюся частоту основного тона и принять решение о вокализованности звука.
6
2. Математическая часть
Рассмотрим задачу о стыковке соседних голосовых фреймов[1]. Заданы амплитуды, фазы и период основного тона для левого и правого
Kl
l
фреймов. Для левого фрейма это (Ak,l )K
k=0 , (ϕk,l )k=0 и P . Для правого
Kr
r
фрейма соответственно, (Ak,r )K
k=0 , (ϕk,r )k=0 и P . Фазы относятся к середине промежутка времени соответствующего фрейма. Задана дробная
часть τl середины левого фрейма.
Требуется синтезировать сглаженный сигнал, который в середине
левого и правого фрейма имеет частоты, амплитуды и фазы, соответствующие своей модели, а на границе фреймов сохраняет гладкость
перехода гармоник.
2.1. Соединение двух голосовых фреймов в непрерывном времени
Введем шкалу времени с нулевым значением на границе фреймов.
Модели сигналов для левого и правого отрезков:
Kl
∑
sl (t) =
Akl cos(2πkFl ∗ (t − tl ) + ϕk,l ),
t ∈ [−P, 0]
k=0
sr (t) =
Kr
∑
Akr cos(2πkFr ∗ (t − tr ) + ϕk,r ),
t ∈ [0, P ]
k=0
Предполагается, что предыдущий фрейм уже построен до точки t =
−P /2. Для одной гармоники из левого фрейма ставится в соответствие
гармоника из правого. Каждой паре гармоник сопоставляется гармоника в сумме s(t), которая определяет декодированный сигнал на промежутке [−P /2, P /2]. Она задается по формуле:
s(t) =
K
∑
Ak (t) cos(2πFk (t)t + ϕk ),
t ∈ [−P /2, P /2]
k=0
Предполагается, что гармоники сигналов sl и sr распадаются на па-
7
ры стандартным образом по сеткам частот, пропорциональным числам
Fl =
1
,
P
Fr =
1
P
Каждой паре гармоник ставится в соответствие индекс k и гармоника в сумме s(t) Рассмотри некоторую пару гармоник с левым индексом
kl и правым индексом kr . Введем обозначение для частот слева и справа
fl = kl Fl ,
fr = kr Fr ,
Функция амплитуды Ak (t) рассчитывается следующим образом: на
концах промежутка [−P /2, P /2] устанавливается значение Ak1 ,1 Ak2 ,2 и
линейно интерполируется внутрь.
Функция амплитуды Ak (t) рассчитывается следующим образом. Пара амплитуд (Akl ,l , Akr ,r ) устанавливается на краях промежутка времени
[−P /2, P /2] и линейно интерполируются внутрь этого промежутка.
Функция для фазы ϕk (t) и частоты Fk (t) рассчитывается следующим
образом: на границах должны быть точные значения фаз и частот:
Fk (−P /2) = kl Fl ,
Fk′ (−P /2) = 0,
Fk (P /2) = kr Fr ,
ϕk (−P /2) = ϕkl ,l ,
Fk′ (P /2) = 0,
ϕk (P /2) = ϕkr ,r ,
ϕ′k (−P /2) = 0,
ϕ′k (P /2) = 0
Далее вводится сглаживающая функция γ(t) соединяющая гладко
две гармоники, которая удовлетворяет следующим критериям:
γ(−P /2) = −1/2,
γ(−P /2) = 0,
γ(P /2) = 1/2,
γ(−P /2) = 0
Следующие значения помогут для вычисления фазы и частоты:
1. Среднее значение и приращение частоты
1
f 0 = (f1 + f2 )
2
∆f = f2 − f1
2. В средней точке t = 0 определяются фазы стационарных моделей
8
слева и справа:
ϕ− = (ϕl,kl + πk1 )
mod 2π
ϕ+ = (ϕr,kr − πk2 )
mod
2π
3. Среднее арифметическое и невязка фаз в центральной точке
1
ϕ0 = (ϕ+ + ϕ− )
2
∆ϕ+ = [(ϕ+ + ϕ− + π)
mod
2π] − π
4. Искомые функции определяются как
Fk (t) = f 0 + γ(t)∆f
ϕk (t) = ϕ0 + γ(t)∆ϕ
2.2. Расчет сигнала в дискретном времени
В полученной модели сглаженного сигнала нужно выбрать отсчеты
в равноотстоящие моменты времени
tn = −P /2 − τl + n,
1 ≤ n ≤ N,
где число N выбирается максимальным из условия tN ≤ P /2. А именно
N = [P + τl ]
Дробная часть середины правого фрейма по отношению к целой сетке
отсчетов равна
tr = P + τl
Отсчеты синтезированного сигнала рассчитываются по формуле
sn =
K
∑
Ak (tn )cos(2πFk (tn )tn + ϕk (tn )),
k=0
9
1 ≤ n ≤ N.
3. Методы выделения пар гармоник
При быстроменяющихся оценках частоты основого тона количество
гармоник в соседних фреймах неодинаково, тогда возникает проблема:
как соединить по парам гармоники от левого и правого фреймов так,
чтобы получившийся сигнал оказался лучшим. Будем рассматривать
фреймы, в которых число гармоник различно.
3.1. Объединение по номеру гармоники
Допустим P1 > P2 , где P1 и P2 период основного тона левого и правого фрейма соответственно. Так как P1 > P2 , то количество гармоник
в левом фрейме будет больше. Соединим первую гармонику из левого
и первую из второго фрейма, вторую со второй и так далее. В конечном результате, в первом массиве останутся несовмещенные. Добавим
во второй гармонику с той же частотой, но с амплитудой равной нулю.
Соединим их непрерывно, тем самым проиcходит избегание возникновения щелчков.
10
3.2. Равномерное соединение гармоник
Начальные данные те же: P1 > P2 , где P1 и P2 период основного тона левого и правого фрейма соответственно. Соединим i-ю гармонику
справа с i ∗ P 1/P 2 гармоникой слева. Несовмещенные таким же способом, совместим непрерывно с гармоникой, у которой амплитуда равна
нулю. Приведены графики построенного сигнала на одном выбранном
фрейме(Рис: 2 и Рис: 3). Синим обозначен спектр исходного сигнала,
красным спектр синтезированного сигнал по заданному методу, желтым разность между ними.
Затем были произведены опыты по улучшению данной модели. Например, рассмотрим соседние гармоники у выбранной гармоники: i ∗
P 1/P 2 + 1 и i ∗ P 1/P 2 − 1. Естественно было бы предположить, что если
у одной из них разность амплитуд с i-ой во много раз меньше чем у
i ∗ P 1/P 2, то возьмем ее, а предыдущую непрерывно соединить с ”нулевой” гармоникой. В ходе экспериментов, данное предположение только
ухудшило качество сигнала.
11
Рис. 2: Объединение по номеру гармоники
Рис. 3: Равномерное соединение гармоник
12
3.3. Анализ через синтез
Предыдущие два метода работали с построенной моделью сигнала.
Теперь рассмотрим как происходит нахождение параметров модели на
каждом фрейме. Строится график полигармонической модели, который наилучшим образом приближает сигнал на промежутке. Поэтому необходимо минимизировать функцию от конечного числа параметров(период основного тона, амплитуда и фаза). Эта функция по методу
наименьших квадратов сводится к минимизации по одной переменной периоду основного тона. В предыдущих методах искался минимум данной функции, и его значение присваивалось периоду. Найдем локальные минимумы, которые по значению отстоят от глобального минимума
на некоторое значение.
После выполнение предыдущей операции, в каждом фрейме имеются кандидаты на период. Теперь, из них требуется выбрать один. Для
этого воспользуемся динамическим программированием. Возьмем два
последовательных фрейма, по периоду, фазе и амплитуда можно однозначно построить сигнал на этих двух фреймах. Пусть bel(i, j) стоимость прихода в j-ый фрейм и в i-ый период в правом фрейме. Получем
следующую формулу:
bel(i, j) = min (bel(l, j − 1) + F (l, i))
∀l∈Kj−1
Где Kj−1 множество кандидатов на период в j − 1 фрейме, F (l, i) ошибка между исходным сигналом на данном промежутке и построенным
сигналом, где периодом в левом фрейме является l-ый член в Kj−1 , а в
правом i-ый член в Kj множестве. Период для первого фрейма определяется однозначно.
Во время работы предыдущей операции происходит запоминание
номера периода из левого множества, тем самым осуществляется запоминание оптимального пути, благодаря этому можно восстановить
последовательность взятых периодов. В результате найдены наилучшие периоды основного тона для каждого фрейма. Подставим их в
исходную модель. Так как периоды взяты оптимальным образом то
13
качествео сигнала соответственно улучшилось. Далее, для определенно
взятого фрейма, приведены графики до использования этого анализа и
после (Рис: 4 и Рис: 5). Обозначения такие же: синим обозначен спектр
исходного сигнала, красным спектр синтезированного сигнал по заданному методу, желтым разность между ними. На графике 6 изображен
исходный и восстановленный сигнал по методу «Анализ через синтез».
Рис. 4: До оптимизации
Рис. 5: После оптимизации
14
Рис. 6: График исходного и восстановленного сигнала
Заключение
В ходе проделанной работы был разработан метод по улучшению
существующей модели. Осуществлена программная реализация придуманного алгоритма. Тем самым, расширена программа оценивания параметров VOCODER. Показано, что новая модель лучше приближает
сигнал при возникновении проблемы быстроменяющихся оценках частоты основого тона.
15
Список литературы
[1] Benesty Jacob, Sondhi M. Mohan, Huang Yiteng (Arden). Springer
Handbook of Speech Processing. –– Secaucus, NJ, USA : Springer-Verlag
New York, Inc., 2007. –– ISBN: 3540491252.
[2] Daniel W. Griffin, Jae S. Lim. Multiband Excitation Vocoder. - IEEE
Trans. on Acoustic, Speech and Signal Processing, v. 36, no. 8, August
1988, pp. 1223-1235.
16
Отзывы:
Авторизуйтесь, чтобы оставить отзыв