Распознавание жестов рук с помощью нейронной сети с архитектурой Mask-RCNN
Результатом данной работы обученная сеть Mask-RCNN, способная распознавать жесты рук. В ходе работы сконфигурирована нейронная сеть и собран набор данных. Также проведена оценка способности распознавать жесты, в зависимости от расстояния до камеры.
Введение 14
1 Обзор литературы 16
1.1 История изобретений, при помощи которых решалась данная
задача 16
1.2 Компания, которая занимается подобными решениями в
Томске: Rubius 19
1.3 Устройства, разрабатываемые в наше время 20
1.3.1 Распознавание жестов при помощи инфракрасных сенсоров
на основе Intel RealSense 20
1.3.2 Динамическое распознавание жестов по направленным
импульсным нейронным сетям 21
1.3.3 Распознавание жестов в реальном времени на основе сети
перекалибровки функций с многомасштабной информацией 22
1.3.4 Обработка и управление при помощи биомедицинских
сигналов 23
1.3.5 Система управления курсором мыши на основе жестов рук
человека 24
1.4 Анализ приведенных методов решения задачи распознавания
жестов 25
2 Исследование и анализ нейронной сети Mask-RCNN 27
2.1 Применение алгоритма решения изобретательской задачи
АРИЗ-61 27
2.2 Задачи компьютерного зрения 29
2.3 Описание архитектуры Mask-RCNN 30
2.3.1 Основа модели 30
2.3.2 Область интересов (RoI) 31
2.3.3 Region Proposal Network 32
2.3.4 Наложение маски 34
2.3.5 Feature Pyramid Networks 35
3 Подготовка нейронной сети Mask-RCNN для распознавания
жестов рук 37
3.1 Подготовка набора данных 37
3.2 Конфигурация Mask-RCNN 42
3.2.1 Выбор способа размещения обучающих и тестовых данных 42
3.2.2 Выбор backbone модели 44
3.2.3 Выбор параметра Learning Rate. 45
3.2.4 Выбор количества GPU 46
3.2.5 Выбор размера изображений 47
3.3 Итоги конфигурации Mask-RCNN 48
4 Оценка работы обученной нейронной сети на тестовой выборке 50
4.1 Зависимость точности распознавания жеста от расстояния
между камерой и самим жестом 53
4.2 Оценка распознавания нейронной сетью каждого жеста 57
4.3 Оценка способности распознавания жестов, скрытых за
преградой 59
5 Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение 61
5.1 Оценка коммерческого потенциала и перспективности
проведения научных исследований с позиции
ресурсоэффективности и ресурсосбережения. 61
5.1.1 Потенциальные потребители результатов исследования 61
5.1.2 Анализ конкурентных технических решений 61
5.1.3 Морфологический анализ 64
5.2 Планирование научно-исследовательских работ 66
5.2.1 Структура работ в рамках научного исследования 66
5.2.2 Определение трудоемкости выполнения работ 67
5.2.3 Разработка графика проведения научного исследования 69
5.3.1 Расчет материальных затрат 71
5.3.2 Основная заработная плата исполнителям темы 72
5.3.3 Дополнительная заработная плата 74
5.3.4 Отчисления во внебюджетные фонды (страховые отчисления) 74
5.3.5 Накладные расходы 75
5.3.6 Формирование бюджета затрат научно-исследовательского
проекта 76
5.4 Определение ресурсной, финансовой и экономической
эффективности ресурсов 77
5.4.1 Оценка экономической эффективности проекта 77
5.4.2 Интегральный показатель ресурсоэффективности 77
6 Социальная ответственность 81
6.1 Правовые и организационные вопросы обеспечения
безопасности 81
6.2 Производственная безопасность 83
6.3 Анализ вредных производственных факторов 84
6.3.1 Отклонения показателей микроклимата 84
6.3.2 Превышение уровня шума 86
6.3.4 Вибрации 89
6.3.5 Психофизиологические факторы 90
6.3.6 Перенапряжение зрительных анализаторов 91
6.4.2 Статическое электричество 93
6.5 Экологическая безопасность 94
6.6 Безопасность в чрезвычайных ситуациях 95
Заключение к главе “Социальная ответственность” 97
Заключение 98
Список используемых источников литературы 99
Список научных публикаций студента 103
Приложение А (справочное) Раздел на иностранном языке 104
В настоящее время всё больше исследований направлено на решение
задач с применением компьютерного зрения и искусственного интеллекта.
Наиболее частыми являются решения и подходы с использованием
распознавания жестов на основании инфракрасных сенсоров или нейронных
сетей.
Актуальность распознавания жестов при помощи видеокамер
обусловлена возможностью применения предлагаемого подхода для
управления работой объектов без тактильного контакта и голосовой
идентификации команд, а также своей простотой с точки зрения конечного
пользователя.
В последнее время искусственный интеллект получил мощный толчок в
своём развитии. Одним из направлений его развития является обработка и
извлечение информации из изображений. Для этой задачи были специально
разработаны свёрточные нейронные сети. На данной архитектуре и будет
спроектирована работа.
Основной целью данной работы является обучение специальной
архитектуры Mask-RCNN, способной одновременно распознавать несколько
жестов рук человека без дополнительных устройств, а также обозначать их
положение в кадре.
Данный тип управления имеет ряд преимуществ перед управлением при
помощи голосовых команд или управления при помощи кнопок, а именно:
1) простота использования;
2) отсутствие физического контакта.
Данное устройство имеет множество применений:
1) командование мобильными роботами. Множественное
распознавание жестов в кадре может позволить выдавать роботу несколько
команд. Также есть возможность комбинировать жесты рук для увеличения
числа возможных команд.
2) разработка с целью его внедрения в медицинские учреждения:
поликлиники и больницы. Очень часто микробы и болезни передаются
здоровому человеку от больного вследствие физического контакта с
поверхностями. Чаще всего этими поверхностями являются обыкновенные
двери. Также стоит отметить, что обычные датчики, стоящие в дверях у
магазинов, не являются решением задачи, так как открывают двери всегда,
когда приближается человек, что крайне неудобно в условиях поликлиники.
Для того, чтобы снизить риск заболевания стоит задача разработки
бесконтактного способа взаимодействия с предметами и устройствами.
1 Обзор литературы
1.1 История изобретений, при помощи которых решалась данная
задача
История распознавания жестов рук для компьютерного управления
началась с изобретения интерфейсов управления на основе перчаток.
Исследователи поняли, что жесты могут использоваться в качестве простых
команд для взаимодействия с компьютером. Данное направление развивалось с
разработкой очень точных акселерометров, инфракрасных камер и даже
волоконно-оптических датчиков изгиба (оптических гониометров).
Первыми прототипами перчаток были: перчатка Sayre, перчатка LIT
Массачусетского технологического института (MIT) и перчатка данных
цифрового ввода [1]. В Sayre Glove, которая была разработана в 1977 году,
использовались гибкие трубки с источником света на одном конце и
фотоэлементом на другом, которые были установлены вдоль каждого пальца
перчатки. Изгиб пальцев приводил к уменьшению количества света,
проходящего между светодиодом и фотодиодом. Таким образом, система
обнаруживала степень изгиба пальцев, используя напряжение, измеренное
фотодиодом [2].
В течение 1980-х сенсорные технологии развивались быстрыми темпами
отчасти из-за опасений холодной войны и естественного расширения
промышленности во многих европейских странах. Эти сенсорные технологии
проложили путь к быстрому развитию компьютерных технологий и
периферийных устройств. Многие ведущие исследовательские группы по всему
миру создали новую компьютерную периферию с ориентацией на рынок.
Первая коммерчески доступная Data Glove появилась в 1987 году. Это
была улучшенная версия первого DataGlove, разработанного Циммерманом в
1982 году, который показан на рисунке 1 [3].
Рисунок 1 – Data Glove
Технология была похожа на ту, что использовалась в Sayre Glove в 1977
году. Однако в версии 1987 года вместо световых трубок использовалась
волоконная оптика.
Также перчатка была оснащена датчиками в количестве от 5 до 15,
увеличивающие его способность различать различные жесты. Многочисленные
датчики, доступные на DataGlove, сделали его популярным среди
исследователей в различных областях, и было разработано множество
подобных устройств. Data Glove вдохновили на разработку Power Glove [4],
который был продан Mattel Intellivision в качестве устройства управления для
игровой консоли Nintendo в 1989 году.
Благодаря своим разработкам в начале 1980-х годов MIT Data Glove
разительно развивалась, предлагая различные возможности для разных
моделей. В настоящее время разработанная в рамках дочерней компании MIT
AnthroTronix, acceleGlove, как показано на рисунке 2, представляет собой
программируемую пользователем перчатку, которая регистрирует движения
рук и пальцев в 3D. Другие модели, доступные от этой компании, включают
Data Glove от 5DT для виртуальной реальности стоимостью от 1000 до 5000
долларов. Компания изначально разработала Data Gloves для обороны США
для управления роботами. Их acceleGlove также используется в видеоиграх,
спортивных тренировках или физической реабилитации.
Рисунок 2 – acceleGlove
Как показано на рис. 2, акселерометр лежит чуть ниже каждого кончика
пальца и на тыльной стороне ладони. Акселерометры могут определять
трехмерную ориентацию пальцев и ладони относительно силы тяжести, когда
делается жест или любое движение. Точность этих измерений находится в
пределах нескольких градусов, что позволяет программам различать небольшие
изменения положения рук. Перчатка имеет отверстия для кончиков пальцев,
которые позволяют пользователю печатать или писать во время ношения
перчатки.
В 1996 году Iwai [5] предложили метод цветных перчаток, в котором
были идентифицировано 10 областей пальцев. Они использовали несколько
цветов для обозначения разных частей пальца и участков ладони, чтобы
избежать проблемы окклюзии, от которой страдали многие подходы
компьютерного зрения. В случае проблемы окклюзии некоторые части руки
или пальцы закрыты окклюзией, и камера не может точно интерпретировать
жест. Когда разные цветовые области обозначают разные участки руки
(пальцы, ладонь), система может полагаться на цвет и границу для принятия
обоснованных решений. Они использовали метод дерева решений для
автоматического распознавания ограниченного количества жестов.
В последние годы все больше и больше исследований было
сосредоточено на распознавании жестов на основе видения. По сравнению с
распознаванием без зрения (проводные перчатки), распознавание на основе
зрения более естественно и удобно, так как оно не ограничивает гибкость
движений рук. На основе данных перчаток и электромагнитных волн была
разработана цветная перчатка Ламберти, которую легко носить, не стесняя
пользователя. Как показано на рисунке 3, цветная перчатка содержит
отдельный цвет для отслеживания ладони, а пальцы помечены чередующимися
цветами.
В ходе выполнения работы над разделом “Социальная ответственность”
были выявлены опасные и вредные факторы, воздействию которых может
подвергнуться человек, использующий Mask-RCNN для распознавания жестов
рук.
Был проведён анализ нормативной документации. В целом, рабочее
место удовлетворяет требованиям безопасности.
Освещение на рабочем месте соответствует нормам – используется
несколько энергосберегающих ламп.
Уровни шума находятся в допустимых пределах – источником шума при
эксплуатации ПК могут являться системы охлаждения, а также жесткий диск,
однако уровень создаваемого ими шума невысок.
Микроклиматические условия соблюдаются за счет использования
систем отопления и кондиционирования.
Защита от повреждений электроники статическим электричеством не
обеспечивается, однако так как корпус ПК закрыт, вероятность поражения
элементов или работника минимальна (если не прикасаться мокрыми руками к
корпусу).
Во время работы делаются перерывы для снижения нагрузки и
предотвращения нервно-психических перегрузок.
Помещение оборудовано согласно требованиям электробезопасности.
В случае выхода из строев используемой электроники или ламп, отходы
передаются в соответствующие компании.
Рабочее помещение оборудовано в соответствии с требованиями
пожарной безопасности. Имеется порошковый огнетушитель и пожарная
сигнализация.
Заключение
Результатом данной выпускной квалификационной работы магистра
является обученная нейронная сеть Mask-RCNN для решения задачи
распознавания жестов рук. Была проанализирована работа нейронной сети на
синтезированном и реальном наборе данных.
В процессе разработки было выполнено следующее:
– изучена структура нейронной сети Mask-RCNN;
– собран обучающий набор данных в размере 300 изображений для
обучения, поделенный на 5 класса: “Кисть”, “Победа”, “Кулак”,
“Большой палец” и “Телефон”;
– получены навыки работы с библиотеками TensorFlow, PIL, OpenCV и
Keras;
– получены навыки обучения нейронных сетей;
В результате работы обучена свёрточная нейронная сеть, распознающая
жесты с точностью 90 %. Этой точности не всегда достаточно для успешного
распознавания, из-за того, что нейронная сеть путает жесты из-за общей
схожести. В дальнейшем планируется увеличить выборку данных для
повышения точности работы нейронной сети.
Также в ходе работы была исследована зависимость наиболее
успешного распознавания жеста в зависимости от расстояния до камеры.
Экспериментальным путем было установлено, что наиболее высокую точность
можно получить при расположении жеста на расстоянии 60 сантиметров от
камеры. При таком расположении, общая точность стремится к значению 90%.
Помимо этого, исследована работа нейронной сети на способность
распознавания каждого жеста. Наименее точно Mask-RCNN распознает жесты
Fist и Big Finger из-за их общей схожести. Остальные жесты имеют вероятность
распознавания выше 83%.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!