Информационная технология распознавания жестов для человеко-машинного взаимодействия на базе сверточных нейронных сетей

Распознавание жестов относится к математической интерпретации человеческих движений вычислительным устройством. Чтобы взаимодействовать с человеком, роботизированные системы должны правильно понимать человеческие жесты и выполнять соответствующие команды в достаточной степени точности. В настоящее время такие отраслевые гиганты как Google, Apple, Kuka Robotics, BMW, Facebook, Netflix и другие активно развивают направление перспективных интерфейсов человеко-машинного взаимодействия, где жестовое взаимодействие одно из наиболее востребованных, а задача качественного и уверенного распознавания жестовых команд является одной из основных. В дополнение, создание эффективных каналов взаимодействия, в том числе на базе жестовых команд, может освободить людей от тяжелых и потенциально опасных задач. Актуальность проведенных исследований заключается в разработке прототипа системы распознавания жестовых команд для его последующего усовершенствования и коммерциализации. В рамках диссертации реализованы следующие модули системы: — уникальный набор данных (изображения статических жестов) для обучения и тестирования алгоритмов машинного обучения; — программное обеспечение для предварительной подготовки данных и обучения классификатора на базе сверточной нейронной сети; — программное обеспечение для классификации статических жестов и визуализации результата. Основными задачами исследования являются: — анализ методов классификации изображений, основанных на использовании искусственных нейронных сетей; — выбор оптимального метода выделения информативной части на изображениях; — выбор оптимальной архитектуры нейронной сети для распознавания статических жестов в видеопотоке; — оптимизация параметров используемой нейронной сети; — выбор методов и параметров аугментации (расширения) набора данных для обучения классификатора; — реализация и исследование работоспособности и эффективности алгоритма распознавания статических жестов, основанного на использовании искусственной нейронной сети. В диссертационной работе при решении поставленных задач использованы методы теории искусственных нейронных сетей, математического моделирования, теории вероятностей и математической статистики. Для разработки программных компонентов были использованы алгоритмы компьютерного зрения, а именно: — морфологические преобразования изображения; — поиск объекта (ROI — Region of Interest) по цвету и контуру; — изменение размеров (Resize) и выделение фрагментов изображений. В качестве одного из ключевых компонентов программного модуля были использованы алгоритмы машинного обучения, а именно сверточные нейронные сети. Также были разработаны вспомогательные программные компоненты для предварительной обработки данных, обучения нейронной сети и проверки точности классификатора. Проверка точности заключается в вычислении погрешности, точности и полноты. Научная новизна заключается в способах оптимизации методов обучения нейронной сети, повышении качества и увеличении объема набора данных, увеличения точности классификации. В качестве способов оптимизации применяются: — оптимизация набора данных для обучения; — аугментация набора данных для обучения; — подбор параметров классификатора. Уникальный набор данных, разработанная архитектура сверточной нейронной сети, алгоритмы предварительной обработки данных и обучения классификатора являются основой для создания программной системы распознавания жестовых команд. Целью разрабатываемого программного комплекса является внедрение в мультимедийные системы транспортных средств (Infotainment Systems), а также обеспечение возможности отдельным разработчикам и исследователям использовать разрабатываемые алгоритмы и набор данных в целях доработки и использования в собственных исследованиях. Практическая значимость заключается в разработке системы распознавания жестовых команд, которую можно использовать в качестве интерфейса для человеко-машинного взаимодействия, а также в обеспечении возможности тестирования алгоритмов классификации и применении пользовательских наборов данных и параметров нейронной сети (метод обучения, топология нейронной сети и др.) для решения смежных задач. Тема и материалы диссертации были представлены в трех научных работах, опубликованных в «CEUR-WS series»: — статья «Static gestures classification using Convolutional Neural Networks on the example of the Russian Sign Language» для конференции AIST-2018; — постер с графическими материалами для статьи «Static gestures classification using Convolutional Neural Networks on the example of the Russian Sign Language» для конкурса постеров на конференции AIST-2018; — статья «Hand gestures detection, tracking and classification using Convolutional Neural Network» для конференции AIST-2019;

Кибернетика
Диссертации

Вуз: Московский государственный машиностроительный университет (МАМИ) (Университет машиностроения)

ID: 5f357162cd3d3e0001b8b5a6
UUID: 3db43d70-bfb4-0138-1915-0242ac180006
Язык: Русский
Опубликовано: около 4 лет назад
Просмотры: 437

29.24

Олег Поткин

Московский государственный машиностроительный университет (МАМИ) (Университет машиностроения)


1

Комментировать 0

Рецензировать 0

Скачать - 11,2 МБ


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -

Для лиц старше 18 лет