МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ
РОССИЙСКОЙ ФЕДЕРАЦИИ
ФГБОУ ВО «РОСТОВСКИЙ ГОСУДАРСТВЕННЫЙ
ЭКОНОМИЧЕСКИЙ УНИВЕРСИТЕТ (РИНХ)»
ФАКУЛЬТЕТ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙ
И ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ
Кафедра Информационных систем и прикладной
информатики
Допустить к защите
Зав. кафедрой ________________
д.э.н., профессор И.Ю. Шполянская
«____»______________ 2017 г.
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
на тему:
«Разработка
подсистемы
автоматизированного распознавания эмоций в
голосе человека при обращении к экстренным
службам региона»
Выполнила
студентка группы
ПИZS-342
Направление
Профиль
Д.В.Рябкин
2.09.03.03
информатика»
2.09.03.03
информатика в
экономике»
Руководитель
выпускной
1
«Прикладная
«Прикладная
квалификационной
работы,
к.э.н., доцент, доцент
А.В. Курбесов
Ростов-на-Дону
2019
Ростовский
государственный
экономический
университет (РИНХ)
Факультет
Кафедра
Компьютерных
технологий
Информационных систем и
и
прикладной информатики
информационной
безопасности
Утверждаю:
Зав. кафедрой д.э.н., профессор
_____________
И.Ю.
Шполянская
«_____»________________ 2019 г.
ЗАДАНИЕ
НА
ВЫПУСКНУЮ
КВАЛИФИКАЦИОННУЮ РАБОТУ
Студентке Рябкину Денису Викторовичу
код ВКР 02069088-09030301-30-19
Тема:
«Разработка
подсистемы
автоматизированного
распознавания эмоций в голосе человека при обращении к
экстренным службам региона»
2
Тема утверждена приказом по РГЭУ от 12.11.2018 №
998/4к
Срок сдачи студентом законченного проекта 01.02.2019 г.
Содержание выпускной квалификационной работы (по
разделам):
а) Аналитическая часть задачи «Разработка подсистемы
автоматизированного распознавания эмоций в голосе человека
при обращении к экстренным службам региона»;
б)
Проектная
часть
задачи
«Разработка
подсистемы
автоматизированного распознавания эмоций в голосе человека
при обращении к экстренным службам региона»;
в) Эффективность применения программных средств и
вычислительной
техники
задачи
«Разработка
подсистемы
автоматизированного распознавания эмоций в голосе человека
при обращении к экстренным службам региона».
Перечень графического материала:
Структура «контактного центра межрайонного
ситуационного центра системы ЕДДС 112
Дата выдачи задания
01.11.2018 г.
3
Календарный график выполнения выпускной
квалификационной работы
Срок
Наименование этапов
выпускной квалификационной
работы
1.
Аналитическая
задачи
выполнения
Примеча
этапов
ние
проекта
часть
15.12.201
«Разработка
8 г.
подсистемы
автоматизированного
распознавания эмоций в голосе
человека
при
обращении
к
экстренным службам региона»
2. Проектная часть задачи
«Разработка
подсистемы
10.01.201
9 г.
автоматизированного
распознавания эмоций в голосе
человека
при
обращении
к
экстренным службам региона»
3.
Эффективность
применения
средств
техники
и
программных
22.01.201
9 г.
вычислительной
задачи
«Разработка
подсистемы
автоматизированного
распознавания эмоций в голосе
человека
при
обращении
к
экстренным службам региона»
4. Оформление выпускной
4
01.02.201
квалификационной
работы
и
9 г.
сдача ее на кафедру
Руководитель проекта
_______________________
А.
В.
Курбесов
Задание принял к исполнению ______________________ Д.В.
Рябкин
89 страницу, 8 таблиц, 21 рисунок, 3 приложения, 17
источников.
РАСПОЗНАВАНИЕ
ЭМОЦИЙ,
АВТОМАТИЗАЦИЯ,
ПРОЕКТИРОВАНИЕ,БАЗА ДАННЫХ, , MS SQL EXPRESS 2012,
ВХОДНАЯ
ИНФОРМАЦИЯ,
ОТЧЕТ,
НЕЙРОННЫЕ СЕТИ.
5
PYTHON,
PYCHARM,
Целью выпускной квалификационной работы является
разработка подсистемы автоматизированного распознавания
эмоций в голосе человека при обращении к экстренным
службам региона, а в частности, оценка уровня стресса в
голосе
людей
обращающихся
в
«контактный
центр
межрайонного ситуационного центра системы обеспечения
вызова экстренных оперативных служб по единому номеру
112»
Для
решения
задачи
использовался
индивидуальный
метод проектирования. В качестве средств проектирования
используются
Pycharm
и
инструментальные
MS
SQL
SERVER
средства,
для
такие
организации
как
IDE
хранения
информации.
Результат
решения
выбранной
цели
–
создание
информационной системы для автоматизации одной из задач
деятельности специалиста по отвечающего на звонки по
телефону экстренной связи.
Результатная информация будет представлена в виде
графика уровня стресса от времени.
Разработанное
использовано
программное
разными
средство
бюджетными
учреждениями
определения уровня стресса своих клиентов.
6
может
быть
для
Содержание
Введение
8
1. Аналитическая часть
11
1.1. Технико-экономическая характеристика предметной
области
11
1.1.1. Цель создания системы.
11
1.1.2. Структура системы-112
13
1.1.3. Региональный ситуационный центр (РСЦ)
15
1.1.4. Межрайонный Ситуационный Центр
17
1.1.5. Диспетчерская система (ЕДДС)
18
1.1.6. Архитектура системы 112
20
1.1.7. Обработка экстренных вызов от абонентов
23
1.1.8. Взаимодействие с геоинформационной системой (ГИС) 25
1.1.9. Прослушивание записей переговоров
26
1.1.10. Сбор статистической информации и учет вызовов
26
1.2. Характеристика предприятия
28
1.1.2. Краткая характеристика подразделения и видов его
30
деятельности
30
1.1.3 Описание информационного и технического обеспечения
контактного центра ЕДДС 112
33
1.3 Анализ существующих разработок
36
1.4 Разработка постановки задачи автоматизации
распознавания эмоций. Характеристика входной и
результатной информации
45
1.5 Обоснование проектных решений по техническому
обеспечению
47
1.6 Обоснование проектных решений по информационному
обеспечению
49
7
1.7 Обоснование проектных решений по программному
обеспечению
49
2 ТЕХНИЧЕСКОЕ ЗАДАНИЕ НА РАЗРАБОТКУ
51
2.1. Общие сведения о проекте
51
2.2. Назначение системы
51
2.3. Цели создания системы
52
2.4. Требования к системе
52
2.5.. Требования к надёжности
53
2.6. Требования к функциям, выполняемым системой
53
2.7 Разработка информационного обеспечения задачи
автоматизированного распознавания эмоций»
53
2.8 Логическая модель предметной области для задачи
автоматизированного распознавания эмоций»
54
2.9 Описание структуры базы данных задачи автоматизации 56
распознавания эмоций в голосе
56
2.10 Разработка программного обеспечения задачи
автоматизации распознавания эмоций
57
2.11 Описание существующих общедоступных наборов данных
60
2.12 Описание процесса обучения нейронной сети
63
3 Обоснование экономической эффективности
72
Заключение
78
Список использованных источников
80
Приложения
82
8
Введение
В сегодняшнем мире искусственные интеллектуальные
системы
приобрели
большую
популярность
благодаря
широкому функционалу и эффективному использованию во
многих отраслях, для автоматизации рутинных процессов.
Существует множество задач, в которых уже требуется
практическое решение с использованием интеллектуальных
систем: экономика и бизнес, робототехника, геологоразведка,
математика, биофизика, авионика, системы
медицина
и
применения
многие
другие.
предполагает,
что
Такое
безопасности,
изобилие
интеллектуальные
областей
системы
представляют собой уникальный набор для решения проблем
анализа
и
обработки
больших
объемов
данных,
решения
проблем различного уровня сложности.
Актуальность темы выпускной квалификационной работы
заключается в том, что оценка эмоционального состояния
сотрудников и клиентов позволяет повысить качество работы
контактного
центра
межрайонного
ситуационного
центра
системы обеспечения вызова экстренных оперативных служб
по
единому
номеру
112.
Использование
информационных
систем в организации контроля качества, позволит избежать
проблем, которые были обусловлены использованием ручного
труда в этой сфере деятельности:
информация
о
звонках
структурированном виде;
9
будет
храниться
в
поиск
информации
будет
занимать
считанные
секунды;
повысится оперативность реакции на плохую работу
сотрудников;
Объектом
квалификационной
исследования
работы
данной
является
выпускной
«контактный
центр
межрайонного ситуационного центра системы обеспечения
вызова экстренных оперативных служб по единому номеру
112»,
а
предметом
исследования
процесс
организации
контроля качества работы операторов и состояния звонящих в
учреждение граждан.
Целью ВКР является подсистема автоматизированного
распознавания эмоций в голосе человека при обращении к
экстренным службам региона. Для достижения этой цели
необходимо решить следующие задачи:
изучить предметную область и выявить недостатки
существующей организации обработки информации,
которые
определяют
необходимость
разработки
информационной системы;
разработать постановку задачи;
обосновать выбор основных проектных решений;
разработать все виды обеспечивающих подсистем;
обосновать экономическую эффективность проекта.
Выпускная квалификационная работа содержит введение,
три главы и заключение. В первой главе работы проводится
анализ предметной области, дается краткая характеристика
предприятия, рассматривается процесс контроля качества до
10
внедрения системы распознавания эмоций. Также в этой главе
приводится постановка задачи, и описываются требования к
информационной
существующие
системе.
Кроме
информационные
того,
рассматриваются
системы
с
похожим
функционалом. В завершении главы проводятся обоснования
проектных
решений
по
техническому,
информационному,
программному и технологическому обеспечению.
Вторая глава ВКР является практической и включает в
себя описание разработки информационного, программного и
технологического обеспечения задачи. В этой главе дается
описание характеристик первичных документов, логической и
физической
модели
базы
данных
и
результирующей
информации. Также во второй главе приводятся описания
структуры
программы
и
описание
программных
модулей.
Завершает
вторую
главу
описание
контрольного
примера
программы.
В третьей главе приведены выбор расчеты экономического
эффекта от внедрения информационной системы и описаны
этапы ее разработки.
Теоретической основой для написания работы послужили
публикации в российских и зарубежных изданиях, а также
должностные инструкции сотрудников « контактного центра
межрайонного ситуационного центра системы обеспечения
вызова экстренных оперативных служб по единому номеру
112».
В
выпускной
следующие
квалификационной
методы:
наблюдение,
обобщение, синтез.
11
работе
анализ,
использованы
моделирование,
Результатом работы над выпускной квалификационной
работой
стала
автоматизировать
информационная
контроль
система,
качества
учреждения.
12
работы
позволяющая
операторов
1. Аналитическая часть
1.1. Технико-экономическая
характеристика
предметной области
1.1.1.
Основными
экстренных
Цель создания системы.
задачами
оперативных
системы
служб
по
обеспечения
единому
вызова
номеру
в
Российской Федерации являются:
1. организация ряда мер для обеспечения ускорения
реагирования и улучшения взаимодействия между
службами экстренной помощи при вызове населения
(отчеты об инцидентах)
2. организация удобного вызова экстренных служб по
принципу «одного окна», позволяющего звонящему в
случае события не задумываться о том, какая услуга
ему нужна и какой номер необходимо использовать
для доступа к ней;
3. снижение
возможного
социально-экономического
ущерба от аварий и чрезвычайных ситуаций
4. гармонизация метода вызова экстренных служб
с
законодательством ЕС.
Основной целью создания системы обеспечения вызова
экстренных
оперативных
служб
по
единому
номеру
в
Российской Федерации, которая должна быть достигнута к
2020 году, является:
13
1. Создание единого канала для вызова оперативных
служб по типу
«одного окна» во всей стране
(телефон 112);
2. уменьшение
среднего
времени
реагирования
оперативных служб при авариях на 15-25%;
3. сокращение на 10-15% смертей от внешних причин
смерти
4. Снижение материальных потерь на 3-5% от пожаров и
аварийных ситуаций.
Система обеспечения вызова экстренных оперативных
служб по единому номеру должна решить следующие основные
задачи:
1. прием
вызова
оператора
чрезвычайных
«112»
ситуациях)
(сообщения
и
о
оказание
психологической поддержки звонящему
2. анализ поступающей информации о событии
3. передача информации об инциденте в ДДС дежурнодиспетчерская служба (ДДС) в соответствии с их
компетенцией в контексте чрезвычайной ситуации
4. создание статистических отчетов о входящих вызовах
5. автоматическая идентификация номера звонящего,
подтверждение
от
поставщика
услуг
доступных
данных о местонахождении абонента с этим номером
и другие
данные, необходимые
для обеспечения
ответа на вызов;
6. автоматический звонок вызывающему абоненту в
случае внезапного отключения;
14
7. запись
и
документирование
исходящих
звонков
с
всех
номера
входящих
«112»
и
(запись,
архивирование, поиск, передача и т. д.);
8. ведение
базы
данных
основных
характеристик
событий, начала и конца ответа на принятые звонки
и их основных результатов
9. Возможность
языках
приема
звонков
(французском,
на
5
иностранных
английском,
немецком,
испанском, китайском) в административном центре
субъекта
Российской
Федерации
и
в
других
муниципалитетах, а также в субъектах Российской
Федерации, для принятия решения независимо от
формирования.
Принимая
во
внимание
условия, необходимо использовать
местные
национальные
языки для использования служб экстренной помощи;
10.
обеспечение межведомственного сотрудничества
и координация реагирования ДДС на инциденты и
чрезвычайные ситуации (МВД России, МЧС России,
ФСБ
России,
Министерство
здравоохранения
и
социального развития России, оперативные службы
подразделений
Российской
Федерации
и
муниципальных образований Российской Федерации.
11.
поддержка
интеллектуальной
маршрутизации
входящих вызовов к операторам системы обеспечения
вызова экстренных оперативных служб по единому
номеру, что означает, что если операторы ЕДДС
недоступны,
вызовы
перенаправляться
в
должны
центр
15
автоматически
обработки
экстренных
вызовов (ЦОВ) Системы-112 или обратно в ССОП для
переключения на соседних ЕДДС.
1.1.2.
Рассмотрим
Структура системы-112
структуру
системы
обеспечения
вызова
экстренных оперативных служб по единому номеру 112.
Система обеспечения вызова экстренных оперативных
служб
по
единому
номеру
112
-
это
географически
распределенная информационная система, которая является
частью интегрированной системы безопасности региона как
его
неотъемлемая
объединения
муниципальных
часть.
единых
Она
формируется
на
дежурно-диспетчерских
образований,
межрайонные
основе
служб
ситуационные
центры, региональные ситуационные центры и диспетчерские
службы для следующих экстренных служб:
- служба пожарной охраны
- аварийно- спасательная службы;
- полицейская служба
- служба скорой помощи;
- аварийная служба газовой сети;
- служба антитеррора;
- служба теплосети;
- служба электросети
- служба водоканала;
- служба коммунального хозяйства
16
Для
обеспечения
координации
взаимодействия
при
ответах на звонки на муниципальный номер 112 ЕДДС связаны
между собой через
МСЦ и РСЦ, в основе которых лежат
программно-аппаратные
системы,
производимые
научно-
техническим центром (НТЦ) ПРОТЕЙ.
Рис. 1 - Структурная схема службы единого окна МЧС
На
диаграмме
«Системы-112»,
Рис.
более
1
показаны
подробная
приведена ниже.
17
основные
информация
элементы
о
которых
1.1.3.
Региональный
ситуационный
центр
(РСЦ)
Основным
элементом
«Системы-112»
является
региональный ситуационный центр. Серверы РСЦ содержат
базовое программное обеспечение, необходимое для работы
системы.
Для организации крупных региональных ситуационных
центров
используются
программные
системы,
производительных
обеспечивают
специализированные
основанные
Центров
и
мощных
и
на
Обслуживания
интеллектуальное
аппаратные
Вызовов.
управление
РСЦ
вызовами
,
распределяя их между операторами различных ЕДДС, которые
поддерживают
интерактивное
информационными
системами,
взаимодействие
например,
с
с
сервером
ситуационных карт.
РСЦ
обеспечивает
независимую
идентификацию
всех
жалоб и инцидентов. Когда вызов зарегистрирован, либо
создается
новая
карта
происшествия,
либо
новый
вызов
связывается с ранее записанным событием.
Региональный ситуационный центр выполняет следующие
функции:
Ведение
очереди
входящих
звонков,
регистрация
каждого обслуженного и необслуженного звонка;
распределение вызовов между операторами системы
112;
18
регистрация телефонного номера вызова, если эта
информация
передана
телекоммуникационной
компанией
приоретизация
вызова,
коммутационных
телефонным
на
основании
параметров,
номером,
более
анализа
связанных
высокий
с
приоритет
может быть назначен вызову, или вызов может
обслуживаться в первую очередь либо в соответствии
с конкретным сценарием, либо специальной группой
операторов;
определение
и
отображение
на
экране
места
установки телефона с которого совершен или принят
вызов абонента фиксированной телефонной сети, или
определение
местоположения
абонентского
устройства в сети мобильной связи, если имеются
технические и другие возможности операторов связи
предоставлять
телефона
информацию
или
о
месте
местонахождении
установки
вызывающего
абонентского устройства;
регистрация
информации
об
адресе
места
происшествия;
запись телефонного звонка во время разговора
автоматический
обратный
звонок
абоненту
для
восстановления соединения в случае прерывания или
обслуживания абонентов в конкретном сценарии;
переадресация вызова на ЕДДС, другого оператора,
группу операторов, эксперта, специалиста, психолога,
переводчика, или должностное лицо
19
учет следующих параметров в телефонной карточке:
дата, день недели, время, номер абонента, линия, с
которой был получен звонок
систему интерактивного голосового взаимодействия с
абонентом (IVR) для:
o удержания абонента в сети, когда есть очередь
на обслуживание;
o информирование
абонентов
об
очереди
или
ожидаемом времени ожидания;
o автоматическое
абонентов
по
голосование
заданному
списку
оповещение
телефонных
номеров;
o Автоматическое
распространение
SMS-
сообщений по протоколу SMPP в заданной зоне.
20
Так же, РСЦ обеспечивает взаимодействие и интеграцию с
внешними приложениями и сервисами, такими как :
1.
ЭРА ГЛОНАСС;
2.
Сирена МЧС;
3.
Геоинформационные системы;
4.
базы данных операторов связи;
1.1.4.
Межрайонный Ситуационный Центр
Межрайонный ситуационный центр позволяет объединить
несколько районных дежурно диспетчерских центров (РЕДДС)
в единую систему обработки обращений граждан, для того
чтобы обеспечить их взаимодействие и совместную работу.
Комбинированный
МСЦ
РЕДДС
получает
дополнительные функциональные возможности, сопоставимые
с возможностями всей региональной «Системы-112».
Объединенные МСЦ РЕДДС получают дополнительные
возможности:
Набор
функций,
достаточный
для
полноценной
работы системы-112 в рамках данного округа;
Повышение
надежности
использованием
экстренных
интеллектуальной
вызовов
с
маршрутизации
вызовов;
Автономная работа нескольких удаленных от центра
региона РЕДДС в случае неполадок каналов связи
или в случае ее потери;
Возможность полноценной работы со всеми службами
«01», «02», «03» и т.д. уже на уровне карточек, что
21
значительно сокращает время отклика на сообщение
о чрезвычайной ситуации;
Управление силами и ресурсами специальных служб;
Резервирование карточной базы данных РЕДДС;
Возможность
привлечения
сил
из
близлежащих
районов в случае крупномасштабных чрезвычайных
ситуаций.
Рис. 2 – Схема организации взаимодействия в рамках
МСЦ.
1.1.5.
Диспетчерская система (ЕДДС)
На диаграмме (рисунок 3) показаны основные элементы
ЕДДС 112.
22
Рис. 3 - Организационная структура ЕДДС 112.
ЕДДС состоит из следующих элементов:
MGate , NG - это магистральный шлюз IP телефонии
интегрированный с коммутатором управляющим абонентскими
подключениями.
Эта
система
позволяет
преобразовывать
звонки, поступающие из сети ТФОП, в форму, подходящую для
передачи через сеть IP телефонии. Кроме того, процесс
контролируется
путем
установления
связи
с
нужным
оператором.
Сервер
ситуационных
карточек
(карточная
платформа) – это сервер, который позволяет контролировать
процесс
создания,
ситуационных
изменения,
карточек,
хранения
создаваемых
и
при
анализа
получении
экстренных вызовов.
mAccess.MTU
24-портовый
абонентский
шлюз,
позволяющий подключать аналоговые телефонные аппараты
предназначенные
для
двупроводныз
телефонии;
23
линий
к
сетям
IP
РМО
-
специализированное
приложение,
установленное на ПК, благодаря которому оператор может
создавать ситуационные карты, обновлять их и получать доступ
к серверу карт для поиска и создания статистических отчетов.
Для обеспечения координации ответов на звонки
на
номер «112», ЕДДС соседних регионов связаны между собой.
В рамках ЕДДС реализован функционал, позволяющий
автономно работать с системой для обслуживания звонков
граждан на номер «112».
Эта
функциональность
включает
в
себя
следующие
функции:
Прием звонков граждан на единый номер «112»;
Возможность создания ситуационной карты;
Общая система сбора данных со всех критически
важных объектов в районе, сбор и анализ всей
статистики чрезвычайных ситуаций;
Распределение звонков на операторов ЕДДС 112;
Запись всех разговоров, а также возможность поиска
и прослушивания любого разговора;
Использование
IP
телефонии.
Одним
нажатием
кнопки на телефоне, уведомление соответствующих
служб (01, 02, 03 и т.д.), Возможность организации
общих звонков с одной или несколькими службами,
подключение служб к звонку с звонящим, перевод
звонка на желаемую экстренную службу и т.д.
После включения РЕДДС в систему 112, РЕДДС
может работать в автономном режиме в случае
обрыва связи. Карты событий, созданные во время
24
автономной работы, автоматически переносятся в
Систему 112 при восстановлении связи.
1.1.6.
Для
Архитектура системы 112
организации
крупных
межрегиональных
ситуационных центров и региональных ситуационных центров
используются специализированные программные и аппаратные
системы, основанные на мощных и высокопроизводительных
центрах обслуживания вызовов.
При
отсутствии
доступных
операторов,
имеющих
возможность правильно обработать запрос, вызов помещается в
очередь центра обслуживания вызовов, а оператор может
выбрать абонента, находящегося в очереди и сообщить ему
присвоенный
номер
в очереди и приблизительное
ожидания.
25
время
Последовательность обслуживания вызовов состоит из
следующих шагов.
Абонент
отправляется
набирает
на
номер
сервер
экстренной
распределения
службы,
вызовов,
звонок
который
может работать по следующим сценариям:
o звонок отправляется непосредственно на рабочее
место оператора, в случае если свободные операторы
в группе;
o при
отсутствии
доступных
операторов,
вызов
отправляется в очередь;
o Вызов может быть направлен в автоинформатор, а
затем направлен непосредственно на рабочее место
оператора (при необходимости), если МЦОВ оснащен
соответствующими
программными
и
аппаратными
настройками;
o Вызов отправляется автоинформатору, после чего он
помещается
в
нужную
очередь,
если
в
соответствующей группе нет доступных операторов;
o При отсутствии доступных операторов и места в
очереди вызов сбрасывается.
Система поддерживает гибкую маршрутизацию вызовов.
Вызов
может
быть
направлен
на
ту
или
иную
группу
операторов по следующим критериям:
набранный номер;
информация АОН;
число вызовов, ожидающих в очереди к данной группе
операторов;
квалификация оператора;
26
количество операторов в группе, способных обслужить
заявку;
Объединение этих параметров позволяет разрабатывать
гибкие алгоритмы управления вызовами.
Для оптимизации работы центра обслуживания вызовов и
более
равномерной
нагрузки
на
операторов
в
системе
предусмотрены гибкие алгоритмы маршрутизации. Настройка
алгоритмов
выполняется
на
параметров
межрегионального
основе
анализа
центра
обработки
целей
и
вызовов
(МЦОВ).
Для
равномерного
распределения
нагрузки
между
операторами используются три основных алгоритма:
циклическое распределение звонков, т.е. на первого
свободного оператора
Выбор наиболее свободного оператора, т.е. выбор
оператора,
которому
будет
отправлен
вызов
из
очереди,
производится с учетом двух параметров: времени, свободного
от обслуживания клиентов, и уровня квалификации оператора;
выбор наименее занятого оператора, т.е. вызов из
очереди отправляется оператору, который имеет самую низкую
загруженность. В качестве критерия выбора используется либо
общее время разговора оператора, либо общее количество
вызовов, обслуживаемых этим оператором.
Оператор,
который
принимает
вызов,
также
имеет
возможность ввести информацию об инциденте в базу данных,
заполнив электронную ситуационную карту.
27
1.1.7.
Обработка
экстренных
вызов
от
абонентов
Звонки обрабатываются путем ответа оператора на вызов,
созданием и заполнением ситуационной карты, индивидуально
для каждой из служб.
При
поступлении
вызова
оператор
вручную
создает
ситуационную карту со своего рабочего компьютера. В то же
время на сервере так же создается ситуационная карта в
единственном экземпляре в специализированной базе данных.
Рис. 4 - Пример ситуационной карты оператора ЕДДС 112.
Если вызов поступает в общую аварийную службу 112, он
принимается
диспетчером
службы,
28
который
заполняет
информацию
о
первичном
вызове
и
сохраняет
на
карте
примечание о том, какую службу нужно задействовать.
В
этом
случае
весь
процесс
создания
и
обработки
ситуационных карт происходит на сервере ситуационных карт,
который обновляет информацию, введенную в карту, а так же
сохраняет ее в системе.
Весь процесс обработки заявки представлен на рисунке 5.
Рис. 5 - Процесс обработки ситуационной карты в системе
112.
1.1.8.
Взаимодействие с геоинформационной
системой (ГИС)
Геоинформационная система - это специализированное
программное
обеспечение,
предназначенное
29
для
сбора,
хранения, обработки и отображения географических данных.
ГИС позволяет оператору ситуационного центра получать
оперативную информацию о месте происшествия.
Взаимодействие
ситуационного
центра
с
ГИС
предоставляет специальным службам мощные инструменты
для
координации
действий
отдельных
подразделений,
возможность прогнозировать события, анализировать ситуацию
и принимать оперативные решения.
30
ЕДДС
112
взаимодействие
системной
от
с
компании
ГИС
интеграции
поступлении
вызова
разных
с
с
Протей
ГИС
-
обеспечивает
производителей.
показан
городского
рисунке
телефонного
Пример
6,
при
номера,
выделены дом, в котором расположен телефон, на электронной
карте города.
Рис. 6 - Интеграция с ГИС
1.1.9.
Прослушивание записей переговоров
Оператор имеет возможность прослушивания принятых
звонков.
Система предлагает возможность записи до 100% переговоров.
Записанные разговоры помещаются в специальную папку, из
которой они могут быть прослушаны
31
1.1.10.
Сбор
статистической
информации
и
учет вызовов
Сбор отчетов и статистики является неотъемлемой частью
любой ЕДДС 112. Благодаря четко определенным отчетам и
диаграммам
работу
руководитель
определенной
помощью
группы
службы,
накопленного
может
оператора
материала
прогнозировать
дальнейшее
эффективность
работы
развитие,
операторов
анализировать
или
группы.
можно
а
и
также
С
точно
оценивать
обслуживающего
персонала.
Для решения этих задач система 112 компании НТЦ
ПРОТЕЙ предоставляет обширную систему для генерации
отчетов и сбора статистической информации. Это позволяет
удобно
просматривать
интересующую
информацию
и
использовать ее для мониторинга работы системы 112, анализа
и прогнозирования ситуаций.
Система
обеспечивает
статистической
возможность
и
создание
оперативной
генерировать
отчеты
и
информации,
в
реальном
хранение
а
также
времени,
исторические долгосрочные отчеты.
Информация, которая накапливается в системе, может
быть разбита на информацию, накопленную в базе данных для
каждого вызывающего абонента, и информацию, накопленную
в процессе учета вызовов.
Система позволяет генерировать отчеты (по согласованию
с заказчиком).
32
Оператор
может
собрать
различную
статистическую
информацию по одному звонку, например:
номер звонящего
характер предыдущих запросов
дата первого обращения и т. д.
Система позволяет создавать отчеты в текстовом виде.
Кроме того, имеется
можете создавать графики для
различных видов деятельности.
33
1.2. Характеристика предприятия
Постановлением Правительства Ростовской области от 24
августа 2017 № 33 . «О внедрении системы поддержки
экстренных вызовов по единому номеру« 112 »в Ростовской
области» была утверждена структура системы поддержки
экстренных вызовов по единому номеру 112.
Эта
структура
и
«Положение
о
функционировании
системы поддержки служб экстренного вызова через единый
номер 112 в Ростовской области, утвержденное тем же указом,
определили систему обмена информацией и уровни управления
в ответ на различные чрезвычайные ситуации.
Определены три уровня управления:
1. Территориальный - охватывает все службы субъектного
уровня, управляет решением чрезвычайных ситуаций и их
последствиями, которые влияют на жизнь населения в двух или
более муниципальных районах области
2. Местный - охватывает все службы муниципального
уровня и управляет ликвидацией чрезвычайных ситуаций и их
последствиями, влияющими на жизнь населения на территории
района.
3.
Объектовый
последствия
не
-
если
выходят
чрезвычайная
за
пределы
ситуация
предприятия
и
ее
или
организации.
В рамках данной выпускной квалификационной работы
разработана подсистема автоматизированного распознавания
эмоций
в
голосе
человека,
34
призванная
контролировать
эмоциональное состояние как сотрудников контактного-центра
ЕДДС так и звонящих в него людей.
Контакт-центр
межрайонного
ситуационного
центра
системы обеспечения вызова экстренных оперативных служб
по единому номеру 112 создан в 2012г. Как центр обработки
обращений
граждан,
экстренной
помощи
который
помогает
гражданам
с
МЧС
помощью
в
оказании
удобных
и
доступных способов коммуникации.
В
собственности
контактного
-
центра
современное
помещение с развитой инфраструктурой, площадью более 2000
кв. м., позволяющее разместить до 300 операторских мест.
Контакт
-
центр
полнофункциональным
оснащен
высоконадежным
оборудованием
и
и
программным
обеспечением.
Коллектив
прошел обучение и практику в крупнейших
образовательных центрах, и контакт - центрах г. Ростова на
Дону.
Организационная
структура
контактного
входящего в состав ЕДДС представлена на рисунке 7
35
центра
Рис. 7 – Организационная структура контактного центра
межрайонного ситуационного центра ЕДДС 112
Все отделы
оснащены
балансе
всей
контактного цента ЕДДС 112 полностью
необходимой
учреждения
компьютерной
находится
58
рабочих
техникой.
На
станций
под
управлением операционной системы Microsoft Windows 7. Все
рабочие станции учреждения обладают одним из вариантов
конфигурации, представленной в таблице 1.
На сервере баз данных установлена СУБД Microsoft SQL
Server 2014. На этом сервере размещена база данных ПРОТЕЙ,
а
также
база
данных
информационной
системы
государственного контроля.
На сервере приложений установлена информационная
система государственного контроля, а также сервер ПРОТЕЙ.
Все рабочие станции учреждения имеют установленный
набор программ:
пакет Microsoft Office 2010;
справочно-правовая система Консультант Плюс;
36
браузер Internet Explorer;
WinRar – файловый архиватор;
клиент 1С: Предприятия 8.3;
клиент системы ПРОТЕЙ
антивирусное программное обеспечение – Kaspersky
Endpoint Security.
1.1.2.
Краткая
характеристика
подразделения
и
видов его
деятельности
Контролем качества работы операторов в контактном
центре ЕДДС 112 занимается руководитель группы, в задачи
которого входит:
проверка записей звонков методом случайной выборки;
проверка записей звонков по жалобам звонящих;
принятие управленческих решений;
Для
отражения
взаимосвязей
функциональных
необходимо
построить
диаграмму процесса контроля качества в
и
информационных
функциональную
контактном центре
ЕДДС 112
На рисунке 8 представлена
процесса контроля качества.
37
контекстная диаграмма
Рис. 8 – Контекстная диаграмма процесса контроля качества
На диаграмме видно, что деятельность осуществляют
руководитель группы, руководствуясь своими должностными
инструкциями.
Он обрабатывает следующую входную информацию:
Жалобы клиентов;
База записей звонков;
Он готовит следующие выходные документы:
Отчет по жалобам;
Отчет по звонкам;
Управленческие решения по работе с операторами.
Чтобы
необходимо
показана
конкретизировать
выполнить
диаграмма
его
процесс
контроля
декомпозицию.
декомпозиции
качества.
38
На
процесса
качества
рисунке
9
контроля
Рис. 9 – Диаграмма декомпозиции процесса контроля качества
На диаграмме видно, что процесс контроля качества
разбивается на три подпроцесса:
Обработка жалоб;
Обработка случайно выбранных звонков;
Принятие управленческих решений.
На первом этапе специалист просматривает список жалоб,
прослушивает указанные аудиозаписи и оценивает их согласно
своим должностным инструкциям.
Подготавливает отчет по жалобам, а затем принимает
управленческие решения для их устранения.
39
На втором этапе специалист заходит в базу данных и
случайным образом выбирает 10 звонков совершенных за
последнюю неделю и прослушивает их и формирует отчет.
На третьем этапе специалист принимает управленческие
решения по поощрению сотрудников контактного центра,
оказанию
им
психологической
помощи,
дополнительного
обучения, или проверки компетентности.
1.1.3 Описание информационного и технического
обеспечения контактного центра ЕДДС 112
Состав технических средств, находящихся в распоряжении
контактного центра ЕДДС 112, обеспечивающих обработку и
хранение данных представлен в таблице 1.
Таблица 1 – Состав технических средств обработки данных в
контактном центре ЕДДС 112
Наименование технических средств
Компьютеры:
Intel
Atom
(Intel
Количест
во
50
Atom
N280
1.66
GHz/ОЗУ2
50
Gb/HDD 500Gb RAID)
Терминальные серверы:
Сервер Windows 2008 R2 Standard (Intel Core
i74.00GHz 4Core/8Thread 8MB Cache CPU /ОЗУ24
1
Gb/HDD 2TB Gb RAID, SAS Raid контроллер)
Принтеры:
Лазерный HP LJ 1810 А4
38
40
В пакет программного обеспечения контактного центра
межрайонного ситуационного центра системы обеспечения
вызова экстренных оперативных служб по единому номеру 112
входят пакеты прикладных программ и служебные утилиты:
пакет Microsoft Office 2010;
справочно-правовая система Консультант Плюс;
браузер Internet Explorer;
WinRar – файловый архиватор;
клиент 1С: Предприятия 8.3;
клиент системы ПРОТЕЙ
Рабочие
станции
каждого
отделения
объединены
в
лoкальную сeть и имеют выход в Интернет. На кaждой рабочей
станции yстановлена oпeрациoнная cиcтема MS Windows 7
Professional.
Рис. 10 – Схема ЛВС контактного центра ЕДДС 112
41
1.2 Экономическая сущность задачи автоматизации
распознавания эмоций в голосе человека при обращении к
экстренным службам региона
Цель автоматизации – снижение трудозатрат и повышение
качества оказания услуг и ведения документации, в частности
при проведении контроля качества работы операторов.
Основной задачей автоматизации является организация
истории изменения эмоционального окраса звонка по каждому
отдельному сеансу связи.
Разрабатываемая
информационная
подсистема
автоматизированного распознавания эмоций в голосе человека
при обращении к экстренным службам региона автоматизирует
часть функций, выполняемых руководителем группы.
Основными
задачами,
подвергаемыми
автоматизации,
являются:
автоматическое
распознавание
повышения
уровня
тревожности в
аудиозаписях звонков;
создание отчета о изменениях уровня тревожности в
звонках
операторов за неделю;
Эти задачи являются наиболее трудоемкими в работе
специалиста. Обработка большого количества информации без
использования информационных технологий может вызывать
42
ошибки в заполнении документов, а также высокий риск
утраты данных.
Тревожность
-
это
индивидуальная
психологическая
особенность, проявляющаяся в склонности человека часто
испытывать сильную тревогу по относительно малым или
значительным поводам. Это рассматривается либо как признак
тревожной ситуации, либо как признак характера оператора,
связанный со слабостью нервных процессов, или с тем и
другим.
Использование
информационной
системы
в
позволит
избежать проблем, которые были обусловлены использованием
неавтоматизированного
способа,
перечислим
основные
преимущества использования информационной системы:
информация будет храниться в структурированном виде;
поиск информации будет занимать считанные секунды;
повысится оперативность учета;
1.3 Анализ существующих разработок
На рынке программных
продуктов можно найти
готовые
решения, автоматизирующие распознавание эмоций в голосе.
Среди этих решений можно выделить следующие программные
продукты:
1. audEERING
2. Beyond Verbal
3. Affectiva
4. Nemesysco
43
5. Audio Analytic
6. VoiceSense
44
AudEERING
AudEERING
-
аудиоанализом,
это
компания,
расположенная
занимающаяся
недалеко
от
Мюнхена,
Германия. Команда является экспертами в области анализа
голосовых эмоций, машинного обучения и обработки сигналов,
и многие из их основателей имеют докторские степени. С 2012
года они осуществляли проекты для крупных брендов во
многих
отраслях
промышленности,
включая
исследования
рынка, центры обработки вызовов, социальную робототехнику,
здравоохранение и многие другие.
Ассортимент их продукции включает в себя программные
системы
для
автоматического
распознавания
эмоций
и
состояния. Они предлагают целый ряд коммерческих веб-API,
мобильных SDK и встроенных Linux и Windows SDK.
AudEERING - ориентированная на исследования компания,
которая также является разработчиком openSMILE, открытого
исследовательского
инструментария
аудиофункций.
Это
инструмент
задач
для
наиболее
для
широко
распознавания
извлечения
используемый
эмоций
в
научных
исследованиях и промышленности, и он считается самым
современным в области аффективных вычислений для звука.
AudEERING также отвечает за разработку рекомендации по
стандартным акустическим параметрам
Beyond Verbal
Beyond Verbal была основана в 2012 году в Тель-Авиве,
Израиль. Их запатентованная технология анализа голосовых
эмоций извлекает различные акустические характеристики из
голоса в режиме реального времени, давая представление о
45
состоянии здоровья и эмоциональном состоянии. Технология не
анализирует
лингвистический
контекст
или
содержание
разговоров, а также не фиксирует высказывания оратора. Он
обнаруживает изменения в голосовом диапазоне, которые
указывают на такие вещи, как гнев, беспокойство, счастье или
удовлетворение,
и
охватывают
нюансы
в
настроении,
отношении и характеристиках принятия решений.
Помимо голосовых эмоций анализ Verbal используется в
различных случаях использования клиентами в различных
отраслях промышленности. К ним относятся компании по
страхованию
жизни
и
фармации,
а
также
колл-центры,
производители робототехники и носимых изделий, а также
исследовательские институты. Примером использования может
быть помощь представителям службы поддержки клиентов в
улучшении
их
собственной
производительности
путем
мониторинга звонка в режиме реального времени.
Менеджеру может быть отправлено оповещение, если он
начинает
выходить
из
себя
с
клиентом
по
телефону,
информируя его об изменении настроения и предоставляя ему
возможность исправить свой тон.
Affectiva
Компания Affectiva взяла свое начало в MIT Media Lab в
2009 году в Бостоне, США. Компания
специализируется в
области анализа эмоций лица и голоса, способна определить 7
эмоций,
20
выражений
и
13
типов
улыбок,
а
также
классифицировать возраст, пол и этническую принадлежность.
В то время как первоначальный фокус
Affectiva был на
рекламодателей, бренды и розничные торговые точки, их
46
услуги стали пользоваться популярностью на многих других
рынках.
К
ним
относятся
политические
опросчики,
производители игр, образовательные приложения, приложения
для здоровья, юридические, веб-медиа продукты
и даже
роботы и устройства IOT (в автономном режиме, через их SDK).
В настоящее время они используются одной третью брендов
Fortune
Global
100
и
более
1400+,
а
также
фирмами,
занимающимися исследованиями рынка.
Ассортимент предлагаемой продукции:
• Emotion as a Service - облачное решение, которое
анализирует изображения, видео и аудио людей, выражающих
эмоции. Возвращает лицевые и голосовые метрики эмоций по
требованию
• Emotion SDK - приложения, устройства и цифровые
впечатления
с
поддержкой
воспринимать
эмоции
и
эмоций,
адаптироваться
позволяющие
к
ним
без
необходимости подключения к Интернету.
•
Affectiva
Automotive
AI
-
мультимодальный
искусственный интеллект в салоне, который по лицу и голосу
определяет сложные и нюансированные эмоциональные и
когнитивные состояния водителей и пассажиров.
• Affdex for Market Research - облачное кодирование лица и
анализ
эмоций
для
рекламодателей,
позволяющее
им
дистанционно измерять эмоциональные реакции потребителей
на цифровой контент.
• In-lab Biometric Solution - предоставляет исследователям
целостный
взгляд
на
поведение
47
человека,
объединяя
технологию распознавания эмоций и биометрические датчики
в одном месте.
Nemesysco
Nemesysco является разработчиком передовых технологий
анализа голоса для выявления эмоций, оценки личности и
риска. Компания основана
в 2000 году в Нетании, Израиль,
предоставляет передовые и неинвазивные инструменты для
обеспечения
безопасности,
решения
для
предотвращения
мошенничества, приложения CRM, потребительские продукты
и инструменты психологической диагностики. Все продукты и
услуги Nemesysco для анализа голосовых эмоций основаны на
Layered Voice Analysis (LVA), их собственной и защищенной
патентом технологии голосового анализа.
Клиентами
страховые
Nemesysco
обычно
компании,
являются
финансовые
колл-центры,
учреждения
и
правоохранительные органы.
Контактные-центры используют Nemesysco для контроля
качества своих звонков, либо в режиме реального времени,
либо сразу после них, чтобы идентифицировать те, с которыми
плохо обращаются операторы. Их система также собирает
эмоциональные профили клиентов и агентов в системе CRM,
позволяя
подбирать
эмоционального
наиболее
профиля
подходящего
клиента
и
агента
предлагать
для
наиболее
подходящие продукты.
Страховые компании используют продукты Nemesysco для
оценки рисков и выявления случаев мошенничества в звонках
по
страховым
претензиям
в
48
режиме
реального
времени.
Технология
анализирует
характеристики,
которые
уникальные
могут
голосовые
указывать
на
высокую
вероятность мошенничества или сокрытия информации.
Банки и финансовые учреждения используют Nemesysco
для оценки кредитного риска, немедленной проверки фактов и
выявления намерений мошенничества. Платформа голосового
анализа
улучшает
модели
оценки
рисков
и
снижает
неопределенность для кредиторов, позволяя им проверять
прошлые события и текущую информацию, а также выявлять
потенциальную уязвимость.
Правоохранительные
органы
используют
инструмент
«Криминальное расследование» для выявления и измерения
психофизиологических
реакций
у
подозреваемых.
Это
позволяет им выполнять анализ в режиме реального времени
во время расследований (как лицом к лицу, так и по телефону)
и анализировать записанные аудио и видео материалы в
автономном
режиме.
Можно
обнаружить
много
разных
эмоциональных реакций, при этом система отображает метку
для
каждого
сегмента
звука,
например,
«Низкий
риск»,
«высокий риск», «возбужденный или« напряженный ». В
дополнение к уголовным расследованиям, эти методы могут
также использоваться в процессе найма на ответственные
рабочие должности.
На рынке программных
продуктов можно найти
готовые
решения, автоматизирующие распознавание эмоций в голосе.
Среди этих решений можно выделить следующие программные
продукты:
audEERING,
Beyond
Nemesysco,Audio Analytic, VoiceSense.
49
Verbal,
Affectiva,
AudEERING
-
аудиоанализом,
это
компания,
расположенная
занимающаяся
недалеко
от
Мюнхена,
Германия. Команда является экспертами в области анализа
голосовых эмоций, машинного обучения и обработки сигналов,
и многие из их основателей имеют докторские степени. С 2012
года они осуществляли проекты для крупных брендов во
многих
отраслях
промышленности,
включая
исследования
рынка, центры обработки вызовов, социальную робототехнику,
здравоохранение и многие другие.
Ассортимент их продукции включает в себя программные
системы
для
автоматического
распознавания
эмоций
и
состояния. Они предлагают целый ряд коммерческих веб-API,
мобильных SDK и встроенных Linux и Windows SDK.
Beyond Verbal - была основана в 2012 году в Тель-Авиве,
Израиль. Их запатентованная технология анализа голосовых
эмоций извлекает различные акустические характеристики из
голоса в режиме реального времени, давая представление о
состоянии здоровья и эмоциональном состоянии. Технология не
анализирует
лингвистический
контекст
или
содержание
разговоров, а также не фиксирует высказывания оратора. Он
обнаруживает изменения в голосовом диапазоне, которые
указывают на такие вещи, как гнев, беспокойство, счастье или
удовлетворение,
и
охватывают
нюансы
в
настроении,
отношении и характеристиках принятия решений.
Помимо голосовых эмоций анализ Verbal используется в
различных случаях использования клиентами в различных
отраслях промышленности. К ним относятся компании по
страхованию
жизни
и
фармации,
50
а
также
колл-центры,
производители робототехники и носимых изделий, а также
исследовательские институты. Примером использования может
быть помощь представителям службы поддержки клиентов в
улучшении
их
собственной
производительности
путем
мониторинга звонка в режиме реального времени.
Менеджеру может быть отправлено оповещение, если он
начинает
выходить
из
себя
с
клиентом
по
телефону,
информируя его об изменении настроения и предоставляя ему
возможность исправить свой тон.
Affectiva – компания взяла свое начало в MIT Media Lab в
2009 году в Бостоне, США. Компания
специализируется в
области анализа эмоций лица и голоса, способна определить 7
эмоций,
20
выражений
и
13
типов
улыбок,
а
также
классифицировать возраст, пол и этническую принадлежность.
В то время как первоначальный фокус
Affectiva был на
рекламодателей, бренды и розничные торговые точки, их
услуги стали пользоваться популярностью на многих других
рынках.
К
ним
относятся
политические
опросчики,
производители игр, образовательные приложения, приложения
для здоровья, юридические, веб-медиа продукты
и даже
роботы и устройства IOT (в автономном режиме, через их SDK).
В настоящее время они используются одной третью брендов
Fortune
Global
100
и
более
1400+,
а
также
фирмами,
занимающимися исследованиями рынка.
Nemesysco является разработчиком передовых технологий
анализа голоса для выявления эмоций, оценки личности и
риска. Компания основана
в 2000 году в Нетании, Израиль,
51
предоставляет передовые и неинвазивные инструменты для
обеспечения
безопасности,
решения
для
предотвращения
мошенничества, приложения CRM, потребительские продукты
и инструменты психологической диагностики. Все продукты и
услуги Nemesysco для анализа голосовых эмоций основаны на
Layered Voice Analysis (LVA), их собственной и защищенной
патентом технологии голосового анализа.
Клиентами
страховые
Nemesysco
обычно
компании,
являются
финансовые
колл-центры,
учреждения
и
правоохранительные органы.
Колл-центры
используют
Nemesysco
для
контроля
качества своих звонков, либо в режиме реального времени,
либо сразу после них, чтобы идентифицировать те, с которыми
плохо обращаются операторы. Их система также собирает
эмоциональные профили клиентов и агентов в системе CRM,
позволяя
подбирать
эмоционального
наиболее
профиля
подходящего
клиента
и
агента
предлагать
для
наиболее
подходящие продукты.
Страховые компании используют продукты Nemesysco для
оценки рисков и выявления случаев мошенничества в звонках
по
страховым
Технология
характеристики,
претензиям
в
режиме
анализирует
которые
реального
уникальные
могут
указывать
времени.
голосовые
на
высокую
вероятность мошенничества или сокрытия информации.
Банки и финансовые учреждения используют Nemesysco
для оценки кредитного риска, немедленной проверки фактов и
выявления намерений мошенничества. Платформа голосового
анализа
улучшает
модели
оценки
рисков
и
снижает
неопределенность для кредиторов, позволяя им проверять
52
прошлые события и текущую информацию, а также выявлять
потенциальную уязвимость.
Audio Analytic
Audio Analytic была основана в 2010 году в Кембридже,
Великобритания.
распознавания
Их
звука
программная
обладает
платформа
способностью
для
понимать
контекст через звук, что позволяет обнаруживать не только
эмоции, такие как агрессия, но также и многие другие
специфические
звуки,
такие
как
выстрелы,
дымовая
сигнализация, разбитие окон, плач детей и лай собак.
Программное обеспечение Audio Analytic было встроено в
широкий спектр потребительских технологических устройств
для использования дома, на улице и в автомобиле.
Технология работает исключительно
устройстве),
используя
не
облачный
«оффлайн» (т.е. на
ИИ.
Вся
звуковая
идентификация, анализ и принятие решений осуществляется
локально,
что
использует
минимальные
ресурсы
и
обеспечивает полную конфиденциальность.
Чтобы обучить своим алгоритмам обнаружения, Audio
Analytic
создала
крупнейший
в
мире
выделенный
набор
реальных аудиоданных, записанный в их специализированных
звуковых
лабораториях.
Звуки
помечены,
организованы
и
проанализированы в Александрии, их собственной платформе
данных.
VoiceSense
VoiceSense - компания по анализу голосовых эмоций,
базирующаяся в Израиле, которая использует прогнозную
53
аналитику
больших
данных,
а
не
демографическую
и
историческую информацию, для прогнозирования тенденций
поведения
отдельных
специализируются
на
клиентов.
психологии,
Основатели
обработке
компании
сигналов
и
анализе речи.
VoiceSense
разработал
аналитический
механизм
обнаружения эмоций, который в реальном времени отображает
четыре
основных
эмоции:
счастье,
гнев,
грусть
и
удовлетворенность. Анализ полностью не зависит от языка, не
зависит от говорящего и имеет короткое время ответа 5-10
секунд. Он отражает эмоциональные изменения в речи за
последние 30 секунд.
С учетом аудиоданных в реальном времени аналитический
механизм предоставляет описание отношения и поведения
человека в текущий момент.
54
1.4 Разработка постановки задачи автоматизации
распознавания
эмоций.
Характеристика
входной
и
результатной информации
Целью автоматизации распознавания эмоций является
повышение
эффективности
исполнения
процесса
контроля
качества работы операторов контактного центра ЕДДС 112.
Информационная
автоматизации
система
распознавания
предназначена
эмоций.
для
Основным
пользователем информационной системы будет руководитель
группы контактного центра. С помощью подсистемы он сможет
получать данные о эмоциональной окраске звонков и отчеты о
работе операторов.
С точки зрения достижения прямого экономического
эффекта
при
внедрении
информационной
системы
будут
улучшены следующие показатели:
— своевременная классификация степени важности звонка и
тревожности ситуации
— повышение оперативности учета;
— структурирование информации;
— повышение скорости создания необходимых документов;
Для
решения
поставленных
задач
нужно
разработать
программный продукт, который будет выполнять следующие
функции:
обработка аудиозаписей звонков и распознавание их
эмоционального окраса;
55
загрузку этих данных в корпоративную базу данных MY
SQL;
создание
недельных
отчетов
по
эмоциональному
состоянию операторов;
Разрабатываемая информационная система должна быть
предназначена
данных
для
должна
работе
на
храниться
выделенном
на
сервере.
сервере
База
учреждения,
информационная система должна связываться с базой данных
и выполнять функции для обеспечения обработки данных.
Для интеграции с имеющейся системой должны быть
использованы запросы к базе данных MY SQL.
Рассмотрим основные необходимые в программе методы.
Таблица 2 – Характеристика входных методов задачи
Сообщение
Идентификатор
Проверка
Периодичност
представлен
ь выдачи
ия
Входной
По мере
документ
необходимост
Входной
и
По мере
документ
необходимост
Программа
БД на новые
записи
Загрузка
Форма
Программа
новой
записи из
и
БД в
программу
Выходными
документами
системы
являются
эмоциональный окрас аудиозаписи и еженедельный отчет.
Характеристика этих документов представлена в таблице 3.
56
Таблица 3 – Характеристика результатов решения задачи
Наименование
Эмоциональный
Форма
Периодичнос
представлени
ть
я
Запрос к БД
По мере
Получатель
БД
окрас
необходимост
аудиозаписи
Еженедельный
Файл MS
и
По мере
Руководител
отчет
Word
необходимост
ь
После
внедрения
необходимо
и
вменить
группы
руководителю
группы функции работы с информационной системой. Это
должно быть отражено в его должностных обязанностях.
1.5
Обоснование
проектных
решений
по
техническому обеспечению
Техническое обеспечение представляет собой комплекс
технических средств, предназначенных для обработки данных в
рамках информационной системы. В состав комплекса входят
ЭВМ,
осуществляющие
обработку
информации,
средства
подготовки данных на машинных носителях, средства сбора и
регистрации
информации,
средства
накопления,
хранения
данных и выдачи результатной информации, вспомогательное
оборудование и организационная техника.
Технологическое обеспечение – это совокупность методов
и средств сбора, хранения, передачи, обработки и защиты
57
информации
на
базе
вычислительной
техники
и
средств
коммуникаций.
Технологический процесс обработки данных состоит из
нескольких
этапов.
В
рассматриваемой
в
выпускной
квалификационной работе, подсистеме автоматизированного
распознавания эмоций в голосе человека при обращении к
экстренным
службам
региона,
технологический
процесс
делится на три основных этапа:
сбор информации о входящих звонках. На этом этапе
группы
контактного
центра
принимают
звонки,
а
автоматизированная система записывает их и добавляет запись
с временем звонка и названием аудиозаписи в БД ;
обработка информации автоматизированной системой.
На этом этапе программа обрабатывает новые аудиозаписи и
загружает результаты в БД;
формирование еженедельного отчета эмоционального
состояния операторов, этот этап выполняется раз в неделю и
его результатом становится сформированный отчет.
На
всех
вычислительная
этапах
данного
техника,
процесса
однако
для
используется
повышения
продуктивности работы специалиста целесообразно внедрение
информационной
системы,
которая
повысит
производительность труда.
Все основные функции информационной системе должны
работать стабильно и не вызывать сбоев в существующей
информационной системе.
Вся информация необходимая для работы пользователя
должна храниться в базе данных.
58
Для внедрения данного проекта потребуется сервер с
характеристиками, представленными в таблице 4.
Таблица 4 – Характеристика сервера
Наименование
Характеристика
Процессор
4 гигагерц (ГГц) и выше, х64
Оперативная память
8 гигабайт (ГБ) ОЗУ х64
Жесткий диск (HDD)
не менее 100Гб
Сетевая плата
100Мбит/с
Монитор
не менее17 дюймов,
разрешение 1024х768
59
1.6
Обоснование
проектных
решений
по
информационному обеспечению
Информационное
обеспечение
контактного
центра
разделено на два основных уровня :
Уровень
1
-
программное
обеспечение
-
набор
компьютерных программ, необходимых для выполнения задач
контактного центра.
Уровень
2
-
организационно-методический
-
набор
документов, устанавливающих состав проектной организации,
а так же ее подразделений, взаимосвязь между ними и их
функциями, набор документов, устанавливающих состав и
правила
выбора
и
эксплуатации
программно
аппаратных
средств.
В
разрабатываемой
информационной
системе
используются следующие входные документы:
Записи в БД о совершенных звонках
Выходными
документами
информационной
системы
являются:
Запись в БД о эмоциональной окраске звонка
DOCX документ с еженедельным отчетом
1.7
Обоснование
проектных
решений
по
программному обеспечению
На
сегодняшний
день
программисту
предоставлен
широкий выбор средств разработки приложений. Для каждого
языка
программирования
существует
60
несколько
сред
программирования,
которые
различаются
функционалом.
Каждый разработчик может выбрать средство под потребности.
Для
решения
квалификационной
задачи
работы
в
рамках
была
выпускной
выбрана
среда
программирования PyCharm. Одним из решающих факторов
выбора среды стало то, что наиболее изученным автором
работы был язык программирования Python.
Данная среда программирования обладает рядом важных
особенностей:
Имеет удобный редактор кода со полезными функциями:
подсветка
синтаксиса,
автоматическое
форматирование,
отступы и отступы. PyCharm позволяет проверить версию
интерпретатора языка на совместимость, а также использовать
шаблоны кода.
Позволяет быстро проводить рефакторинг кода, а также
использовать удобный графический отладчик.
Позволяет
проводить интегрированный модульный тест,
использовать интерактивные консоли для Python, Django, SSH,
отладчика и баз данных.
PyCharm имеет большую коллекцию плагинов, и его
можно использовать вместе с различными трекерами, такими
как JIRA, Youtrack, Lighthouse, Redmine, Trac и так далее.
Для хранения данных информационной системы будет
использована СУБД MY SQL
язык
SQL,
реализует
– это СУБД, которая используя
пересылку
сообщений
между
компьютерами клиента и компьютером, где работает SQL
Server, создавая при этом сетевую структуру.
61
СУБД MY SQL отвечает за поддержку структуры БД и
решает следующие задачи:
поддержка связей между данными;
обеспечение корректного хранение данных, выполнение
правил, которые регламентируют связи между ними;
восстановление данных после аварии системы, перевод их
в состояние, зафиксированное до сбоя (откат базы данных).
62
2 ТЕХНИЧЕСКОЕ ЗАДАНИЕ НА РАЗРАБОТКУ
2.1. Общие сведения о проекте
Название:
Подсистема
автоматизированного
распознавания эмоций в голосе человека при обращении к
экстренным службам региона.
Заказчик: ООО «ЛИТ».
Разработчик: Рябкин Д.В..
Начало работы: 5.11.2018.
Окончание работы: 1.2.2019.
Результаты
работы
передаются
заказчику
в
виде
комплекса программного обеспечения подготовленного для
использования в рабочем процессе.
2.2. Назначение системы
Программа
предназначена
для
автоматизированного
распознавания эмоций в голосе человека при обращении
граждан в контактный центр межрайонного ситуационного
центра системы обеспечения вызова экстренных оперативных
служб по единому номеру 112.
В
рамках
проекта
автоматизируется
деятельность
следующих бизнес-процессах:
Добавление в БД эмоционального окраса аудиозаписи;
создание еженедельного отчета;
63
в
2.3. Цели создания системы
Целью
создания
информационной
системы
является
автоматизация распознавания эмоций в голосе человека, для
повышение
качества
обработки
информации
и
качества
обслуживания.
2.4. Требования к системе
Информационная
система
должна
выполняться
на
отдельном сервере и обеспечивать своевременную обработку
поступающих данных.
В
программном
продукте
выделяются
следующие
подсистемы:
подсистема работы с БД;
подсистема распознавания эмоций;
подсистема составления отчетов;
Для нахождения новых записей и внесения результата в
БД,
необходимо
разработать
модуль,
предоставляющий
возможность чтения информации из БД и внесение в нее
изменений.
Для составления отчетов, необходимо создать модуль
который раз в неделю собирает информацию из БД и приводит
статистику по следующим пунктам:
Рейтинг 10 лучших операторов, по проценту звонков
эмоциональная обстановка которых улучшалась.
64
Рейтинг 10 худших операторов, по проценту звонков
эмоциональная обстановка которых ухудшалась.
2.5.. Требования к надёжности
Уровень надежности должен достигаться согласованным
применением организационных, организационно-технических
мероприятий и программно-аппаратных средств.
Для обеспечения надежного функционирования системы
должны выполняться следующие требования:
обеспечение контроля входной и выходной информации;
информирование администратора об ошибках.
2.6.
Требования
к
функциям,
выполняемым
системой
Требования
к
функциям
подсистемы
распознавания
эмоций:
обнаружение данных о новых звонках;
обработка аудиозаписей звонков;
сохранение результатов анализа в БД.
Требования к функциям подсистемы создания отчетов:
получение данных из БД;
создание отчета;
сохранение результатов в DOCX.
65
2.7
Разработка
информационного
обеспечения
задачи автоматизированного распознавания эмоций»
Основой для разработки информационного обеспечения
является диаграмма модулей. Представляет собой логическую
модель данных проектируемой системы, на основе которой
базируется вся программная логика.
2.8
Логическая
модель
предметной
области
для
задачи автоматизированного распознавания эмоций»
На рисунке 12 представлена диаграмма модулей системы
автоматизированного распознавания эмоций. Представлены
следующие модули и отношения между ними: «модификации
записей»,
«распознавания
эмоций»,
«создания
отчета»,
«Модуль поиска новых записей в базе данных».
Между модулями существуют связи один-к-одному, одинко-многим,
отношение
ассоциации
для
демонстрации
специфических атрибутов.
Также
введено
отношение
агрегации
для
включения
подкласса в систему.
Отношение агрегации имеет место между несколькими
классами в том случае, если один из классов представляет
собой сущность, которая включает в себя в качестве составных
частей другие сущности.
Данное отношение имеет фундаментальное значение для
описания структуры сложных систем, поскольку применяется
для представления системных взаимосвязей типа "часть целое".
66
Раскрывая внутреннюю структуру системы, отношение
агрегации показывает, из каких элементов состоит система, и
как они связаны между собой.
67
Модуль
модификации
записей базы
данных
Путь к БД
Логин БД
Пароль БД
ID Записи в БД
Изменяемое поле
Новое значение
поля
Добавить запись()
Модифицировать
запись()
Модуль
распознавания
эмоций
Путь до Wav файла
ID записи в БД
Путь
до
файла
обученной
нейронной сети
Распознать
эмоции()
Модуль
создания
отчета
Диапазон дат за
которые
нужен
отчет
Путь
по
папки
сохранения отчета
Создание отчета()
Модуль поиска
новых записей в
базе данных
Путь к БД
Логин БД
Пароль БД
Получение
последней()
необработанной
записи()
Получение
параметра()
разрешающего
создание()
еженедельного
отчета()
Рис. 12 – Диаграмма модулей
68
2.9
Описание
структуры
базы
данных
задачи
отношений
между
автоматизации
распознавания эмоций в голосе
Для
демонстрации
процессами,
обозначение
логических
использована
SADT),
диаграмма
которая
функционального
моделирования.
продемонстрированы
основные
IDEF0
(аналогичное
отражает
принципы
На
входящие
диаграмме
данные
–
номер
абонента и ID оператора, процессы управления – верхняя
входящая стрелка – Устав межрайонного ситуационного центра
системы обеспечения вызова экстренных оперативных служб
по
единому
Федерации,
номеру
112
механизмы
и
законодательство
обработки
–
Российской
автоматизированный
модуль для распознавания эмоций. Результатом проведенных
внутрисистемных операций является выходная информация –
статистический отчет и запись в базе данных.
Функциональное моделирование играет решающую роль
на этапе проектирования базы данных.
функционирования
информационной
Для правильного
системы
необходимо
придерживаться логики процессов, заранее заложенной в
диаграммах.
69
Рис. 11 – Диаграмма IDEF0 задачи автоматизации
распознавания эмоций в голосе
База данных содержит две таблицы – первая содержит
информацию о звонках, а вторая о созданных отчетах
Таблица 5 – Описание структуры базы данных(информация
о звонках)
Названи
е поля
ID
Тип
данных
int
Телефо
н
абонен
та
int
ID
операто
ра
Время
начала
звонка
int
int
Время
окончан
ия
звонка
int
Путь к Распозна
wav
нная
файлу эмоция
str
str
Таблица 6 – Описание структуры базы данных(о созданных
отчетах)
Названи
е поля
ID
Тип
данных
int
Дата
составления
отчета
int
Путь к
файлу
str
70
2.10 Разработка программного обеспечения задачи
автоматизации распознавания эмоций
Информационная
отражающую
модель
процесс
представляет
обработки
собой
схему,
информации
в
информационной системе.
В
разработанной
информационной
системе
входными
данными служат:
записи в БД о совершенных звонках (Эти данные
попадают в информационную систему по средствам CRM.
Входные данные хранятся таблице MY SQL а в процессе их
обработки преобразуются в выходные данные);
эмоциональная окраска звонка;
Технологический
последовательность
процесс
–
упорядоченная
взаимосвязанных
действий,
выполняющихся с момента возникновения информации до
получения результата.
Технологический процесс решения задачи «Подсистема
автоматизированного распознавания эмоций в голосе человека
при обращении к экстренным службам региона » представлен в43
виде таблицы 7.
Таблица 7 - Описание схемы программы решения задачи
Номер
Функции блока
блока
71
1
2
Начало работы
Запрос к БД
для
проверки
списка
3
обработанных записей
Распознавание
эмоций
4
5
нейронной сети
Добавление информации в БД
Ожидание, что бы не перегружать БД
6
7
запросами
Проверка дня создания недельного отчета
Проверка факта создания недельного
8
9
10
отчета
Подготовка отчета
Сохранение отчета
Добавление информации и ссылки на отчет
в БД
11
База данных
72
при
помощи
1
Начало работы
2
Есть ли
необработанная запись
в бд?
Нет
Да
3
Распознать эмоции
11
4
База данных
Добавить
информацию о
эмоциях в базу
данных
5
Подождать 5
секунд
6
Сегодня
суббота?
Да
7
Создан ли
недельный
отчет?
10
9
Добавить ссылку
на отчет в БД
Рисунок
12
–
Нет
Да
Нет
8
Сохранить отчет на
диск
Схема
Создать отчет
работы
системы
–
первый
уровень
детализации технологического процесса решения задачи
73
2.11
Описание
существующих
общедоступных
наборов данных
За
последние
продвигалось
десять
благодаря
лет
изучение
недорогим
эмоций
быстро
интеллектуальным
технологиям и широкому интересу со стороны исследователей
в области неврологии, психологии, психиатрии, аудиологии и
информатики.
Неотъемлемой
частью
этих
исследований
является наличие подтвержденных и надежных выражений
эмоций. Чтобы удовлетворить эти потребности, стало доступно
все больше наборов эмоциональных данных. Большинство
наборов содержат либо статические выражения лица, либо
голосовые записи. Немногие содержат аудиовизуальные записи
носителей на североамериканском английском. И все же есть
несколько
подтвержденных
выражений.
Чтобы
наборов
удовлетворить
эти
эмоциональных
потребности,
был
разработан набор данных RAVDESS, большой проверенный
набор аудиовизуальной информации на североамериканском
английском языке.
RAVDESS - это размеченная мультимодальная база данных
с записанными голосами.
База данных сбалансирована по полу и состоит из 24
голосов профессиональных актеров, озвучивающих лексически
подобранные высказывания североамериканским акцентом.
Речь включает в себя спокойные, счастливые, грустные,
злые, испуганные, удивительные и отвращающие выражения, а
в песне содержатся спокойные, счастливые, грустные, злые и
страшные эмоции. Каждое выражение произнесено на двух
уровнях эмоциональной интенсивности. Все записи доступны в
формате «лицо и голос», «только лицо» и «только голос». Набор
74
из 7356 записей оценивали по 10 раз по эмоциональной
достоверности и интенсивности. Оценки были предоставлены
247 лицами, неподготовленным участникам исследования из
Северной Америки.
Дальнейший набор из 72 участников предоставил данные
тест-ретест. Сообщалось о высоком уровне эмоциональной
достоверности и надежности
проверки. Все записи доступны
бесплатно по лицензии Creative Commons.
База данных SAVEE была записана четырьмя носителями
английского языка (обозначенными как DC, JE, JK, KL), это
голоса аспирантов и исследователей университета Суррея в
возрасте от 27 до 31 года.
Эмоции были разделены в отдельные категории: гнев,
отвращение,
страх,
счастье,
грусть
и
удивление.
Это
подтверждается кросс-культурными исследованиями Экмана.
Текстовый материал состоит из 15 предложений TIMIT на
эмоции: 3 общих, 2 специфических и 10 общих предложений,
которые были разными для каждой эмоции и фонетически
сбалансированы.
Итого
3
общих
и
12
эмоционально-
специфичных предложений были записаны как нейтральные,
чтобы дать 30 нейтральных предложений. Это привело к 120
высказываниям на каждого говорящего, например:
Гнев: Who authorized the unlimited expense account?
Отвращение: Please take this dirty table cloth to the cleaners
for me.
Страх: Call an ambulance for medical assistance.
Счастье: Those musicians harmonize marvelously.
75
Грусть: The
prospect of cutting back spending is an
unpleasant one for any governor.
Удивление: The carpet cleaners shampooed our oriental rug.
Нейтральная: The best way to learn is to solve extra
problems.
База данных была собрана в лаборатории трехмерного
зрения CVSSP в течение нескольких месяцев в течение
различных времен года четырьмя актерами. Студия сбора
данных показана на рисунке 1, а записи показаны на рисунке
2.
Эмоции и текстовые подсказки отображались на мониторе
перед актерами во время записи. Подсказки эмоций состояли
из видеоклипа и трех картинок для каждой эмоции. Данные
были записаны путем разделения текстовых подсказок на три
группы
таким
образом,
чтобы
в
каждой
группе
были
предложения для каждой эмоции. Цель состояла в том, чтобы
избежать смещения из-за усталости. Те высказывания, для
которых
актер
повторялись
до
не
мог
тех
выразить
пор,
пока
правильные
не
был
эмоции,
достигнут
удовлетворительный уровень.
Динамическая система захвата лица 3dMD
использовалась
для захвата 2D цветного фронтального видео и сигналов
Бейердинамического микрофона.
Чтобы выделить черты лица, лицо актера было окрашено
60 точками. Точки были нарисованы на лбу, бровях, щеках,
губах и челюсти, как показано на рисунке 2. Чтобы обеспечить
извлечение
признаков
для
верхней,
76
средней
и
нижней
областей лица в Буссо и Нараянане, маркеры были разделены
на три группы, как показано на рисунке 2. Верхняя область
включала маркеры над глазами в области лба и области бровей.
Нижняя область содержала маркеры ниже верхней губы,
включая рот и челюсть.
Средняя область покрыла область щеки между верхней и
нижней областями. Частота дискретизации составляла 44,1 кГц
для аудио и 60 к/с для видео. Общий размер базы данных
составляет 480 высказываний.
2.12 Описание процесса обучения нейронной сети
Для обучения нейронной сети было использовано два
набора данных, RAVDESS и SAVEE
На сайте RAVDESS из предложенных архивов был выбран
архив
содержащий
набор
данных
с
1000
аудиозаписями
голосов 24 актеров.
На сайте SAVEE выбран архив содержащий набор данных с
500 аудиозаписями голосов 4 актеров.
77
В итоге было подготовлено 1500 аудиофайлов в формат
wav,а их имена приведены к единой маске.
Имя файла состоит из 7-значного числового идентификатора
вида XX-XX-XX-XX-XX-XX-XX.wav
где:
1. элемент - Тип записи (01 = аудио + видео, 02 =
только видео, 03 = только аудио)
2. элемент - Тип голосовой активности (01 = речь, 02 =
пение)
3. элемент - Эмоции (01 = нейтральная, 02 = спокойная,
03 = счастливая, 04 = грустная, 05 = злая, 06 =
яростная, 07 = отвращение, 08 = удивление)
4. элемент
-
Эмоциональная
интенсивность
(01
=
нормальная, 02 = сильная)
5. элемент - Фраза (00 = "Другая фраза" 01 = "Дети
разговаривают у двери", 02 = "Собаки сидят у двери").
6. элемент - Номер повторв (01 = 1-е повторение, 02 = 2е повторение).
7. элемент - ID актера
Например имя файла : 03-01-02-01-02-01-12.waw
тогда оно расшифровывается следующим образом
Только аудио (03)
Речь (01)
спокойная (02)
Нормальная интенсивность (01)
фраза "02" (02)
78
1-е повторение (01)
12-й актер (12)
Для обучения был использован удаленный сервер Google
Colaboratory
Google
Colaboratory
-
это
облачный
сервис,
предназначенный для упрощения исследований в области
машинного обучения. Используя Colaboratory можно получить
удаленный доступ к машине с Graphics processing unit или
Tensor Processing Unit абсолютно бесплатно, что значительно
упрощает
обучение
разного
рода
классификаторов
и
нейронных сетей. Можно сказать, что это своего рода аналог
Google docs для Jupyter Notebook.
В
Colaboratory
предустановлены
практически
все
необходимое библиотеки Python. А если какой-либо пакет
отсутствует, он легко устанавливается с помощью команды pip
или apt-get.
Colaboratory
удаленной
обычные
позволяет запускать Jupyter Notebook на
машине.
.ipynb
Существует
Файлы
«ноутбуки»
также
набор
и
для
представляют
хранятся
функций,
на
Google
который
собой
Drive.
позволяет
загружать файлы с удаленного компьютера на Google Drive и
наоборот.
Так же Colaboratory
предоставляет косвенный доступ к
терминалу: для этого перед командой терминала необходимо
добавить восклицательный знак, например !mkdir documents. В
79
целом, можно предположить, что это обычный компьютер, на
котором
установлена
Ubuntu
18.04,
но
подключение
производится удаленно. Из этого следует, что на данном
компьютере можно делать все, что можно сделать через
терминал.
После формирования набора данных и выбора сервера для
обучения
сети
была
начата
разработка
кода
который
предоставлен в приложении 1
Что бы протестировать работоспособность библиотек, а
так же узнать характеристики аудиофайла, был построен
графики формы сигнала и спектрограмма.
Рисунок 13 – Форма сигнала аудиозаписи
Рисунок 14 – Спектрограмма аудиозаписи
Следующий шаг разработки включает в себя загрузку
аудио файлов.
80
Каждый аудиофайл имеет уникальное имя вида XX-XX-XXXX-XX-XX-XX.wav,
третий
элемент
которого
может
использоваться для определения эмоции, которая представлена
в аудиофайле.
Набор данных содержит файлы с такими эмоциями как:
нейтральная
спокойная
счастливая
грустная
злая
яростная
отвращение
удивление
Для обработки и извлечения характеристик аудиофайлов
была использована библиотека Librosa.
Librosa - это библиотека Python предназначенная для
анализа аудио. Используя библиотеку librosa, стало возможно
извлечь характеристики голоса, то есть MFCC (мел- частотные
кепстральные коэффициенты). MFCC - это
представление
энергии спектра сигнала.
Положительные стороны данного метода заключаются в
том, что:
Используется
разложение
по
базису
ортогональных
(ко)синусоидальных функций, то есть спектр сигнала, что
позволяет
учитывать
волновую
природу
сигнала
при
дальнейшем анализе;
Спектр
спроецированный
на
mel-шкалу,
позволяет
выделить частоты наиболее воспринимаемые человеком;
81
Для снижения количества обрабатываемой информации
количество
вычисляемых
коэффициентов
может
быть
ограничено любым необходимым значением, что позволяет
сжать фрейм.
Рисунок 15 – MFCC голосов
Каждый аудиофайл преобразован список коэффициентов.
Следующим
шагом
было
устранение
отсутствующих
коэффициентов для некоторых аудиофайлов, которые были
короче по длине, чем нужно. Затем была вдвое увеличена
частота
дискретизации,
чтобы
получить
уникальные
особенности каждой эмоции речи. Дальнейшее увеличение
частоты дискретизации было не целесообразно,
появляется
шум, влияющий на результаты
Следующие
шаги
включают
перетасовку
данных,
разделение на тренировку и тестирование, а затем сохранение
модели нейронной сети.
Были созданы многослойные перцептроны, LSTM и CNN.
MLP и LSTM не подходили, поскольку при тестировании
они
дали низкую точность. Поскольку решается проблема
классификации, для классификации
выбрана модель CNN.
82
различных эмоций, была
Анализ:1. Модель MLP.
Созданная модель MLP имела очень низкую точность около 25% с 8 слоями и функцией softmax на выходе, c циклом
обучения в 550 эпох.
Рисунок 16 – график обучения сети MLP
LSTM:
модель
LSTM
имела
наименьшую
точность
обучения - около 15% с 5 слоями, функцией активации, c
циклом обучения в 50 эпох.
Рисунок 17 – график обучения сети LSTM
CNN: модель
84
Модель
CNN оказалась лучшей для данной задачи
классификации.
После
обучения
многочисленных
моделей
была получена лучшая точность 60%
Модель
обладает
18 слоями,
функциями
softmax и rmsprop, и циклом обучения в 1000 эпох.
Рисунок 18 – информация модели
85
активации
Рисунок 19 – график обучения сети CNN
После
найдена
создания
лучшая
множества
модель
-
различных
CNN
для
моделей
данной
была
задачи
классификации эмоций. Была достигнута точность 70%.
Работа программного кода в режиме отладки представлена на
рисунке 20:
Выполняется циклический поиск новых записей в
базе данных
Определение эмоционального окраса аудио через
равные промежутки
Определение
преобладающего
эмоционального
окраса начала, середины и конца аудиозаписи
Добавление информации об эмоциональном окрасе в
базу данных
86
Рисунок 20 – лог основной программы
определения эмоционального состояния
Сформированный отчет в формате DOC представлен на рисунку
21
В отчете представлены ID и результаты работы лучших и
худших операторов недели
Рисунок 21 – недельный отчет
87
3 Обоснование экономической эффективности
Эффективность применения информационных технологий
расценивается как одна из характеристик качества системы, а
именно
ее
характеристика
с
точки
зрения
соотношения
потраченных ресурсов и полученных результатов процессе
эксплуатации
системы.
Чтобы
оценить
эффективность
применения программного средства необходимо базироваться
на
численном
показателе,
который
наиболее
точно
характеризует степень качества выполнения системой своих
функций.
В качестве основных показателей оценки эффективности
информационных технологий наиболее часто используются:
чистый приведенный доход (разность дисконтированных на
один момент времени доходов и капитальных вложений);
внутренняя
норма
доходности;
срок
окупаемости;
рентабельность, экономический эффект от реализации новых
технологий.
Прямой экономический эффект может проявляться в
натуральных, стоимостных и трудовых факторах, таких как
экономия
трудозатрат
на
ручной
ввод
информации
и
высвобождение сотрудников для других нужд, сокращение
рабочего времени и эффективное его распределение в рамках
поставленной
задачи;
рост
оптимизации/распределения
дохода
ресурсов
предприятия
наиболее
за
счет
выгодным
способом, за счет оптимизации процесса. Иными словами,
прямой
эффект
–
это
ощутимый
результат
проявления
изменения в жизненном цикле предприятия или реализации
88
функциональной единицы продукции, в рамках специфики и
предметной области предприятия.
В
работе
для
автоматизированного
оценки
модуля
рентабельности
используется
внедрения
метод
расчета
прямого экономического эффекта от внедрения программного
средства как наиболее точный метод сравнения между ручной
обработкой данных и затраченных часов работы пользователя
и,в
последствие,
вывода
показателей
после
внедрения
автоматизированного модуля.
где Ср - затраты на подготовку и обработку информации в
базовом варианте, тыс. руб.;
См - затраты на обработку информации при внедрении
программного средства, тыс. руб.
Ср = (Qвх, б + Qвых, б) xЦрxГд / Нвыр, р,
89
(27)
где Qвх, б, Qвых, б - объём входной и выходной информации,
обрабатываемой в базовом варианте соответственно, тыс.зн.;
Цр - стоимость одного часа ручной обработки
информации, руб. / час;
Гд - коэффициент, учитывающий дополнительные
затраты времени на логические операции при ручной
обработке информации;
Нвыр, р - норма выработки при ручной работе, зн. / час.
Wh = PvxWxRy | 9?
(28)
где Зм - среднемесячная заработная плата, руб.;
W - коэффициент начисления на заработную плату;
Т - среднемесячный фонд рабочего времени, час;
Кн- коэффициент, учитывающий накладные расходы.
Затраты на обработку информации при использовании
внедрённого программного средства (См) определяются
следующим образом:
См = Сп + Соб,
(29)
где Сп - затраты на подготовку информации и ввод
информации для реализации функций, автоматизированных в
программном средстве, тыс. руб.;
Соб- затраты на машинное время для реализации
функций, автоматизированных в программном средстве, тыс.
руб.
Сп = (Цр + Цмч) Qвх, н / Нвыр, а,
90
(30)
где Qвх, н - объём входной информации, обрабатываемой с
помощью программного средства (новый вариант), тыс. зн.;
Нвыр, а - норма выработки пользователя при подготовке и
вводе информации в ЭВМ, тыс. зн. / час;
Цмч - стоимость одного машинного часа работы ЭВМ,
руб.
Соб = ТмxЦмч,
(31)
где Тм - затраты машинного времени, необходимые для
реализации функций, автоматизированных с помощью
программного средства, час.
Тм = (Qвх, н + Qвых, н) Тз,
(32)
где Qвых, н - объём выходной информации, получаемой при
использовании программного средства, тыс. зн.;
Тз - среднее время обработки 1000 знаков и вывода
информации с использованием программного средства, час /
тыс. зн.
Единовременные
затраты
на
создание
и
внедрение
программного средства (К) рассчитываются по формуле:
К = Кп + Кк,
(33)
где Кп - предпроизводственные затраты, тыс. руб.;
Кк - капитальные вложения, тыс. руб.
В
предпроизводственные
затраты
обычно
включают
затраты на разработку или поставку и привязку программного
91
средства,
Срок
а
также
окупаемости
капитальных
расходы,
вложений
свя-
(Ток)
рассчитывается по формуле:
Ток = К / C.
(35)
92
Источники формирования исходных данных для расчёта
эффективности
применения
внедренного
программного
средства приведены в таблице 41.
Таблица 8 - Источники формирования исходных данных
для
расчёта
эффективности
применения
программного
средства
Б
азовы
Наименование показателей для расчёта
й
Новый
в
вариант
ариан
т
Предпроизводственные затраты, тыс.
-
20,0
руб. (Кп)
Капитальные вложения, тыс. руб. (Кк)
Годовой объём информации, тыс. зн.:
-
42,0
входной (Qвх)
200
1200
выходной( Qвых)
Норма выработки при ручной
250
450
1450
-
обработке информации, зн. / час (Нвыр, р)
Норма выработки при подготовке
данных на машинный носитель, тыс. зн. /
-
5,8
час (Нвыр. а)
Коэффициент, учитывающий
дополнительные затраты времени на
1,15
-
логические операции при ручной
обработке информации (Гд)
Среднемесячная зарплата
пользователя, руб. (Зм)
Коэффициент начисления на
заработную плату (W)
93
1200
17000
0
1,4
1,4
Коэффициент, учитывающий
накладные расходы (Кн)
Среднемесячный фонд рабочего
2
2
167,
167,8
времени, час (Т)
Затраты времени для обработки 1000
знаков и вывод информации с
8
-
0,2
-
110
-
0,33
использованием программного средства,
час / тыс. зн. (Тз)
Стоимость одного машинного часа
работы ПЭВМ, руб. / час (Цмч)
Граничная величина коэффициента
эффективности капитальных вложений (Е)
Расчёт прямого эффекта по формулам 26-35:
Цр= 12000 x 1,4 x 2 / 167,8 = 200,24 руб. / час
Ср = (200 + 250) x200,24 x 1,15 / 450 = 230,276 тыс. руб.
Сп = (200,24 + 110) x1200 / 5,8 = 64187,59 руб.
Тм = (1200 + 1450) x 0,2= 530 час
Соб = 530x110 = 58300 руб.
См = 64187,59 + 58300= 122487,59 руб. =122,49 тыс. руб.
С = 230,276– 122,487= 107,789 тыс. руб.
К = 20 + 42 = 62 тыс. руб.
Ер = 107,789 / 62 = 1,730,33.
Ток = 62 / 107,789 = 0,57 года.
Произведенные вычисления и полученные в результате
значения явно демонстрируют целесообразность внедрения
модуля "Автоматизированного распознавания эмоций в голосе
человека". Проведенное внедрение является экономически
выгодным и произведенные капиталовложения для проведения
внедрения программного средства являются обоснованными.
94
Заключение
В качестве результата выпускной квалификационной
работы был разработан автоматизированная подсистема
распознавания эмоций.
Был создан алгоритм обработки входных данных и
построена архитектура нейронной сети, которая была успешно
прошла тестирование. Полученная нейронная сеть
удовлетворяет соотношению времени обучения / точности
алгоритма. Поскольку обучение нейронной сети является
очень долгим и сложным процессом, поэтому этот фактор
сыграл ключевую роль в выполнении работы. Самым сложным
шагом в этой работе был эмпирический выбор параметров сети,
который определил предельную точность.
При выполнении практической и теоретической части
работы были выполнены следующие задачи:
Изучение такого инструмента машинного обучения, как
нейронные сети, которые в настоящее время доминируют в
анализе данных и показывают лучшие результаты в сложных
задачах. На этом этапе были также определены и рассмотрены
95
различные существующие методы, с помощью которых была
решена задача определения эмоций,
Исследована структура единых дежурно диспетчерских
центров.
Создан и протестирован инструментарий основного
модуля подсистемы, который позволяет автоматизировать
анализ уровня стресса в каждой аудиозаписи, а так же
составлять отчеты.
Автоматизация позволила снизить временно-трудовые
затраты обработке данных как в ходе работы контактного
центра, так и при формировании отчетных документов.
В результате тестового эксплуатационного периода
информационной системы в целом и отдельного модуля
сотрудниками контактного центра межрайонного
ситуационного центра системы обеспечения вызова
экстренных оперативных служб по единому номеру 112 была
оценена и обоснована экономическая эффективность
внедрения разработки.
Важным показателем является универсальность
разработанного модуля и возможность его дальнейшего
использования в организациях имеющих контактные центры.
В ходе написания работы выяснилось, что в данной
области разработки есть много путей для совершенствования
алгоритмов распознавания эмоций в речи, с помощью
машинного обучения. Прежде всего, эмоции являются очень
субъективным параметром, очень часто даже человек не может
идентифицировать эмоцию имея в распоряжении только запись
96
голоса, если он не видит собеседника во время диалога.
Возникает необходимость обнаруживать такие детали, как
микродвижения лицевых мышц, движения тела и обстановку
вокруг собеседника. Обстановк, несомненно, влияет
восприятие ситуации, часто являясь источником изменений в
эмоций человека. Поэтому с точки зрения распознавания
эмоций необходимо создать комплекс алгоритмов, который бы
учитывал все тонкости. Обнаружение эмоций с помощью
микровыражений, отслеживание изменений а обстановке,
распознавание движений человеческого тела, все это вместе с
обнаружением эмоций в голосе увеличит точность любого
программного обеспечения, которое решает эту проблему.
Необходимость создания интегрированных систем
распознавания эмоций уже становится очевидной для многих
крупных компаний, поскольку это влечет за собой
заинтересованность государства и огромный финансовый успех
на рынке для различных систем безопасности.
97
Список использованных источников
1. Ростовский государственный экономический университет
(РИНХ) //Научно-исследовательский институт: сайт.
Ростов-на-Дону, 2017.
URL:http://www.rsue.ru/nauka/nii.aspx
2. Информационно-правовой портал «Гарант»: сайт. Москва,
2017
URL:http://garant.ru
3. Национальный открытый университет «ИНТУИТ»//Онлайнкурс Введение в UML. Автор: Александр Бабич,2003 –
2017.
URL:http://www.intuit.ru/studies/courses/1007/229/info
4. Технологии баз данных: SQL, T-SQL, PL/SQL, реляционные
БД: сайт, 2008.
URL:http://datasql.ru/
5.
Ростовский
государственный
экономический
университет (РИНХ) // Кафедра Информационных систем и
прикладной информатики сайт. Ростов-на-Дону, 2016.
URL: http://rsue.ru/Podrazdelenie.aspx?id=640
6.
Википедия: свободная энциклопедия: сайт. Москва,
2017.
URL: https://ru.wikipedia.org
7.
Методические
проектированию
указания
для
по
специальности
дипломному
«Прикладная
информатика в экономике»/ Под ред. Г.Н. Хубаев,
Шполянская. – Ростов-на-Дону: РГЭУ (РИНХ), 2008.
98
И.Ю.
8. Шполянская И.Ю. Имитационное моделирование бизнеспроцессов и систем: Научно-практическое пособие / РГЭУ
«РИНХ». – Ростов н/Д., 2005. – 13,75 п.л.
9. Методология
функционального
idef0//Руководящий
документ:
моделирования
электронная
книга,
Госстандарт России Москва, 2000 г.
URL: http://www.nsu.ru/smk/files/idef.pdf
10.
Протокол
заседания
Правительства
Ростовской
области
URL:http://www.donland.ru/documents/Protokol-zasedaniyaPravitelstva-Rostovskojj-oblasti?pageid=128483
11.
Онлайн редактор архитектурных диаграмм нейронных
сетей
URL:http://alexlenail.me/NN-SVG/index.html
12.
ЕДДС-112
URL: http://protei.ru/products/edds-112
13.
Онлайн
сервис
запуска
Jupyter
Notebook
с
возможностью обучения нейронных сетей на CPU. TPU и
GPU
URL: https://colab.research.google.com
14.
Набор данных RAVDESS
URL: https://smartlaboratory.org/ravdess/
15.
Набор данных SAVEE
URL: http://kahlan.eps.surrey.ac.uk/savee/Introduction.html
16.
Определение частоты основного тона в речи
URL:http://ainews.ru/2018/07/
pitch_tracking_ili_opredelenie_chastoty_osnovnogo_tona_v_rechi_n
a_primerah.html
99
17.
Автоматическое распознавание эмоций человека на
основе реконструкций аттракторов
URL: https://www.nbpublish.com/library_get_pdf.php?id=21913
100
Приложения
Приложение 1.
Приложение 1. – Обучение нейронной сети.
# -*- coding: utf-8 -*from google.colab import drive
drive.mount('/content/gdrive')
import os
os.chdir('/content/gdrive/My Drive/prj')
from keras.layers import Conv1D, MaxPooling1D
from keras.layers import Dense
from keras.layers import Flatten, Dropout, Activation
from keras.models import model_from_json
from keras.models import Sequential
from keras.utils import np_utils
from sklearn.preprocessing import LabelEncoder
from sklearn.utils import shuffle
import keras
import librosa.display
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd
import scipy.io.wavfile
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
mylist = os.listdir('dataset/')
101
feeling_list = []
for sitem in mylist:
item = sitem.split('-')
emotion = {
'01': 'neutral',
'02': 'calm',
'03': 'happy',
'04': 'sad',
'05': 'angry',
'06': 'fearful',
'07': 'disgust',
'08': 'surprised',
}
intensity = {
'01': 'normal',
'02': 'strong',
}
print(emotion[item[2]] + '_' + intensity[item[3]])
feeling_list.append(emotion[item[2]] + '_' + intensity[item[3]])
labels = pd.DataFrame(feeling_list)
print(labels[:10])
df = pd.DataFrame(columns=['feature'])
bookmark = 0
print ('mylist',len(mylist))
for index, y in enumerate(mylist):
102
print('index',index)
X, sample_rate = librosa.load('RawData/' + y,
res_type='kaiser_fast', duration=2.5, sr=22050 * 2, offset=0.5)
sample_rate = np.array(sample_rate)
mfccs = np.mean(librosa.feature.mfcc(y=X, sr=sample_rate,
n_mfcc=13), axis=0)
feature = mfccs
df.loc[bookmark] = [feature]
bookmark = bookmark + 1
df3 = pd.DataFrame(df['feature'].values.tolist())
newdf = pd.concat([df3, labels], axis=1)
rnewdf = newdf.rename(index=str, columns={"0": "label"})
rnewdf = shuffle(newdf)
rnewdf = rnewdf.fillna(0)
newdf1 = np.random.rand(len(rnewdf)) < 0.8
train = rnewdf[newdf1]
test = rnewdf[~newdf1]
print(train[250:260])
trainfeatures = train.iloc[:, :-1]
trainlabel = train.iloc[:, -1:]
testfeatures = test.iloc[:, :-1]
testlabel = test.iloc[:, -1:]
X_train = np.array(trainfeatures)
y_train = np.array(trainlabel)
103
X_test = np.array(testfeatures)
y_test = np.array(testlabel)
lb = LabelEncoder()
y_train = np_utils.to_categorical(lb.fit_transform(y_train))
y_test = np_utils.to_categorical(lb.fit_transform(y_test))
x_traincnn = np.expand_dims(X_train, axis=2)
x_testcnn = np.expand_dims(X_test, axis=2)
model = Sequential()
model.add(Conv1D(256, 15, padding='same',input_shape=(216,
1)))
model.add(Activation('relu'))
model.add(Conv1D(128, 15, padding='same'))
model.add(Activation('relu'))
model.add(Dropout(0.1))
model.add(MaxPooling1D(pool_size=(8)))
model.add(Conv1D(128, 15, padding='same', ))
model.add(Activation('relu'))
model.add(Conv1D(128, 15, padding='same', ))
model.add(Activation('relu'))
model.add(Flatten())
model.add(Dense(15))#10
model.add(Activation('softmax'))
opt = keras.optimizers.rmsprop(lr=0.00001, decay=1e-6)
model.compile(loss='categorical_crossentropy', optimizer=opt,
metrics=['accuracy'])
104
mc =
keras.callbacks.ModelCheckpoint('saved_models/weights{epoch:08
d}.h5', save_weights_only=True, period=5)
model.fit(x_traincnn, y_train, batch_size=16, epochs=10000,
validation_data=(x_testcnn, y_test), callbacks=[mc])
Приложение 2.
Приложение 2. – Модуль преобразования и извлечения
эмоций из аудио.
import numpy as np
from keras.models import load_model
import scipy.io.wavfile
from constants import *
def get_arr(audio_path):
arr = []
model = load_model(saved_Emotion_Voice_model)
sr, datab = scipy.io.wavfile.read(audio_path)
if (len(datab.shape)) > 1:
datab = datab[:, 0] # leave one channel if more one channel
exist
lenn = (datab.shape)[0] # reshape
lim = 0
while lim + 216 < lenn:
x = datab[lim:lim + 216]
x = x.reshape(1, 216, 1)
result = ((model.predict(x))[0])
formattedresult = ['%.2f' % elem for elem in result]
105
arr.append(formattedresult)
lim = lim + 216
return arr
def get_voice_emo(filename):
audio_path = Faudio + str(filename) + '.wav'
result = get_arr(audio_path)
devider = (int(np.around( len(result)/250 , decimals=0))*3 )
def split_list(alist, wanted_parts=1):
length = (int(len(alist)/wanted_parts))*wanted_parts
pred = [ alist[i*length // wanted_parts: (i+1)*length //
wanted_parts]
for i in range(wanted_parts)]
avearage = int(len(alist)/wanted_parts) - 20
ret = []
for i in pred:
if len(i) > avearage:
ret.append(i)
return ret
splitres = split_list(result, devider)
arr_amount = []
for aaa in splitres:
count = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
i=0
while i < len(aaa):
106
count[0] = count[0] + float(aaa[i][0])
count[1] = count[1] + float(aaa[i][1])
count[2] = count[2] + float(aaa[i][2])
count[3] = count[3] + float(aaa[i][3])
count[4] = count[4] + float(aaa[i][4])
count[5] = count[5] + float(aaa[i][5])
count[6] = count[6] + float(aaa[i][6])
count[7] = count[7] + float(aaa[i][7])
count[8] = count[8] + float(aaa[i][8])
count[9] = count[9] + float(aaa[i][9])
i=i+1
arr_amount.append(count)
arrmax = 0
for small in arr_amount:
for item in small:
if item > arrmax:
arrmax = item
for index_arr ,small in enumerate(arr_amount):
for index_small,item in enumerate(small):
arr_amount[index_arr][index_small] =
np.around( arr_amount[index_arr][index_small] / arrmax ,
decimals=3)
data = {
'female_angry': [],
'female_calm': [],
'female_fearful': [],
'female_happy': [],
'female_sad': [],
107
'male_angry': [],
'male_calm': [],
'male_fearful': [],
'male_happy': [],
'male_sad': []}
for item in arr_amount:
data['female_angry'].append(item[0])
data['female_calm'].append(item[1])
data['female_fearful'].append(item[2])
data['female_happy'].append(item[3])
data['female_sad'].append(item[4])
data['male_angry'].append(item[5])
data['male_calm'].append(item[6])
data['male_fearful'].append(item[7])
data['male_happy'].append(item[8])
data['male_sad'].append(item[9])
return data
Приложение 3.
Приложение 3. – ЗапросSQL к базе данных cцелью
вставки полей для отчета
def add_emotions_data(record_id, emot):
c = sqlite3.connect(database=logindata, timeout=500)
108
myCursor = c.cursor()
myCursor.execute("UPDATE Records SET emotions =
'?'WHERE record_id = ?;", [record_id, emot])
c.commit()
c.close()
time.sleep(0.5)
109
Отзывы:
Авторизуйтесь, чтобы оставить отзыв