Алгоритм обнаружения речевой активности в акустическом сигнале с применением сверточных нейронных сетей
Существуют различные варианты применения технологий обработки речевого сигнала, такие как голосовой пользовательский интерфейс или усиление речевого сигнала для людей с нарушениями слуха. Однако разработанные алгоритмы сталкиваются с общей проблемой: необходимо обнаружить присутствие речи в акустическом сигнале, который зачастую искажен шумом. В данной работе рассматривается алгоритм обнаружения голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины с помощью сверточной нейронной сети.
Введение ……………………………………………………………………………………………………. 9
1. Теоретические сведения ……………………………………………………………………….. 11
1.1. Представление звукового сигнала в вычислительной технике …………. 11
1.2. Признаки, позволяющие отличить речевую активность от шума …….. 12
1.3. Искусственные нейронные сети ……………………………………………………… 18
2. Обзор существующих методов обнаружения речевой активности …………. 22
2.1. Речевой кодек G.729 Annex B …………………………………………………………. 22
2.2. WebRTC VAD ………………………………………………………………………………… 22
2.3. VadNet …………………………………………………………………………………………… 23
3. Обзор инструментов реализации алгоритма ………………………………………….. 25
3.1. TensorFlow……………………………………………………………………………………… 25
3.2. MXNet ……………………………………………………………………………………………. 26
3.3. PyTorch ………………………………………………………………………………………….. 26
4. Модуль формирования выборок ……………………………………………………………. 27
4.1. Используемые наборы данных ……………………………………………………….. 27
4.2. Проектирование модуля формирования выборок ……………………………. 28
4.3. Реализация модуля формирования выборок ……………………………………. 29
4.4. Сценарий использования разработанного модуля …………………………… 34
5. Реализация алгоритма обнаружения голосовой активности …………………… 36
5.1. Проектирование модуля для обучения модели ………………………………… 36
5.2. Критерии оценки качества работы алгоритмов ……………………………….. 38
5.3. Эксперименты с архитектурой сверточной нейронной сети …………….. 40
5.4. Сравнение разработанного алгоритма с WebRTC VAD …………………… 48
6. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение .. 52
6.1. Планирование и организация работ ………………………………………………… 52
6.2. Определение трудоемкости выполнения работ ……………………………….. 54
6.3. Расчет сметы затрат на выполнение проекта …………………………………… 56
6.3.1. Расчет заработной платы исполнителей ……………………………………… 56
6.3.2. Расчет страховых отчислений ……………………………………………………. 57
6.3.3. Расчет расходов на электроэнергию …………………………………………… 58
6.3.4. Расчет амортизационных расходов …………………………………………….. 58
6.3.5. Расчет накладных расходов ……………………………………………………….. 60
6.3.6. Формирование бюджета научно-исследовательского проекта …….. 60
6.4. Оценка экономической эффективности проекта ……………………………… 60
7. Социальная ответственность ………………………………………………………………… 64
7.1. Правовые и организационные вопросы обеспечения безопасности …. 65
7.1.1. Специальные правовые нормы трудового законодательства ………. 65
7.1.2. Организационные мероприятия при компоновке рабочей зоны ….. 66
7.2. Производственная безопасность …………………………………………………….. 67
7.2.1. Анализ выявленных вредных и опасных факторов …………………….. 67
7.2.2. Обоснование мероприятий по защите от воздействия вредных и
опасных факторов ………………………………………………………………………………. 68
7.3. Экологическая безопасность…………………………………………………………… 75
7.3.1. Анализ влияния процесса разработки объекта на окружающую
среду ………………………………………………………………………………………………….. 75
7.3.2. Обоснование мероприятий по защите окружающей среды …………. 76
7.4. Безопасность в чрезвычайных ситуациях………………………………………… 77
7.4.1. Анализ вероятных ЧС при разработке объекта исследований …….. 77
7.4.2. Обоснование мероприятий по предотвращению ЧС и разработка
порядка действия в случае возникновения ЧС …………………………………….. 77
Заключение ……………………………………………………………………………………………… 79
Список публикаций студента ……………………………………………………………………. 80
Список используемых источников ……………………………………………………………. 81
Приложение A …………………………………………………………………………………………. 85
В настоящее время голосовой пользовательский интерфейс приобрел
широкую популярностью. Такие голосовые помощники как Cortana, Siri,
Google Assistant, Алиса ежедневно обрабатывают значительное количество
запросов, повышая комфорт пользователя при выполнении рутинных
операций [1]. Значительное количество как зарубежных, так и российских
банков используют технологию интерактивного голосового ответа, снижая
расходы на персонал.
В автомобильной промышленности приложения громкой связи и
голосового управления позволяют водителю взаимодействовать с людьми и
самой машиной во время вождения, не отвлекаясь от дорожного движения.
Также усовершенствованная обработка речевого сигнала может
помочь людям с нарушениями слуха. Современные слуховые аппараты
усиливают желаемый речевой сигнал и подавляют мешающие шумовые
компоненты [2].
Хотя существуют различные варианты применения технологий
обработки речевого сигнала, разработанные алгоритмы сталкиваются с общей
проблемой: необходимо обнаружить присутствие речи в акустическом
сигнале, который зачастую искажен шумом.
Целью данной работы является разработка и реализация алгоритма
обнаружения речевой активности (Voice Activity Detection) во входном
акустическом сигнале для отделения человеческой речи от фонового шума или
тишины.
Данную цель можно разделить на следующие задачи:
1. изучение предметной области;
2. поиск существующих аналогов алгоритма, рассмотрение их
преимуществ и недостатков;
3. обзор инструментов, с помощью которых возможна разработка
данного алгоритма;
4. реализация алгоритма обнаружения голосовой активности;
5. сравнение реализованного алгоритма с аналогами по точности
детектирования речевой активности.
1. Теоретические сведения
1.1. Представление звукового сигнала в вычислительной технике
Как известно, звук – это физическое явление, которое представляет
собой продольное распространение механических колебаний в различных
средах. При этом звукозаписывающее устройство, часто называемое
микрофоном, преобразует звуковые волны в изменения напряжения. Если
микрофон подключен к звуковой карте, то напряжение можно измерять через
равные промежутки времени (с заданной частотой дискретизации) и каждое
значение преобразовывать в двоичное число. Данный процесс называется
квантованием по уровню звука и выполняется аналого-цифровым
преобразователем на звуковой карте, после чего серия двоичных чисел может
быть сохранена в виде звукового файла. На рисунке 1 представлен пример
квантования по уровню и времени непрерывного сигнала.
Под частотой дискретизации понимают количество измерений
разности потенциалов аналоговой звуковой волны, взятых в секунду. Эта
частота измеряется в Герцах (Гц).
Звуковая карта может воссоздать сохраненный звук с помощью цифро-
аналогового преобразователя, то есть последовательность двоичных чисел
преобразуется обратно в изменяющееся напряжение, которое вызывает
вибрацию динамика для воспроизведения звука [3].
Подводя итог проведенной работе, хотелось бы отметить, что
поставленные задачи были решены. Во-первых, получено представление об
области цифровой обработки аудиосигналов, изучены признаки речевой
активности, а также методы машинного обучения для её обнаружения. Во-
вторых, проведен обзор существующих алгоритмов обнаружения речевой
активности, рассмотрены их преимущества и недостатки. В-третьих,
выполнен обзор инструментов, с помощью которых возможна разработка
детектора речевой активности на основе сверточных нейронных сетей. В-
четвертых, спроектированы и реализованы модули для формирования
выборок и обучения модели на языке программирования Python. В-пятых,
проведено сравнение реализованного алгоритма с WebRTC VAD. Хотя
разработанные модели уступают аналогу в скорости обработки аудиозаписей,
точность обнаружения речевой активности сверточными нейронными сетями
значительно выше на обеих тестовых выборках.
В дальнейшем планируется исследовать другие формы входных
данных для модели, в частности, общепринятые в сфере автоматической
обработки речи мел-кепстральные коэффициенты [30]. Не менее важным
является рассмотрение различных архитектур нейронных сетей, например,
рекуррентных моделей.
Также следует отметить, что используемый в данном исследовании
подход может быть применен для решения других задач классификации
акустических событий, например, в рамках ежегодного соревнования по
обнаружению и классификации акустических сцен и событий DCASE [31].
Список публикаций студента
1. Тепляков А. Б. Алгоритм обнаружения речевой активности в акустическом
сигнале с применением свёрточных нейронных сетей / А. Б. Тепляков, В.
Г. Спицын // Молодежь и современные информационные технологии:
сборник трудов XVII Международной научно-практической конференции
студентов, аспирантов и молодых ученых, г. Томск, 17-20 февраля 2020 г.:
— Томск: Изд-во ТПУ, 2020. — [С. 134-135].
2. Коваль Д. И. Выделение смысловых понятий в медицинских диагнозах при
помощи машинного обучения / Д. И. Коваль, И. В. Сушков, А. Б. Тепляков
// Молодежь и современные информационные технологии: сборник трудов
XVII Международной научно-практической конференции студентов,
аспирантов и молодых ученых, г. Томск, 17-20 февраля 2020 г.: — Томск:
Изд-во ТПУ, 2020. — [С. 160-161].
1. The Best Voice Assistants [Электронный ресурс] / Anne Dennon. – Электрон.
текстовые дан. – Режим доступа: https://www.reviews.com/voice-assistant/,
(дата обращения: 13.07.2019)
2. Deep Learning Reinvents the Hearing Aid [Электронный ресурс] / DeLiang
Wang. – Электрон. журн. – Spectrum IEEE, 2016. – Режим доступа:
https://spectrum.ieee.org/consumer-electronics/audiovideo/deep-learning-
reinvents-the-hearing-aid, (дата обращения: 14.07.2019)
3. Sound Representation [Электронный ресурс] / Teach Computer Science –
Режим доступа: https://teachcomputerscience.com/sound-representation/ (дата
обращения: 15.07.2019)
4. J-C Junqua. The influence of acoustics on speech production: a noise-induced
stress phenomenon known as the Lombard reflex. Speech Commun. 20(1), 13–
22, 1996
5. Cooley, J.W. and Tukey, J.W., An algorithm for the machine calculation of
complex Fourier series, Mathematics of Computation, 19(90):297–301, 1965
6. Лайонс Р. Цифровая обработка сигналов: Второе издание. Пер. с англ. –
М.: ООО “Бином-Пресс”, 2006 г. – 656 с.: ил.
7. Голосовая биометрия в сфере VoIP [Электронный ресурс] / Олег
Тундайкин. – Электрон. журн. – Режим доступа: https://www.it-
world.ru/tech/science/142282.html, (дата обращения: 16.07.2019)
8. Moattar, Mohammad & Homayoonpoor, Mahdi. A simple but efficient real-time
voice activity detection algorithm. European Signal Processing Conference.
2010
9. Voice Activity Detection for Voice User Interface [Электронный ресурс] /
RudyBaraglia.–Электрон.текстовыедан.–Режимдоступа:
https://medium.com/linagoralabs/voice-activity-detection-for-voice-user-
interface-2d4bb5600ee3 (дата обращения: 18.07.2019)
10. Graf, Simon & Herbig, Tobias & Buck, Markus & Schmidt, Gerhard. Features
for voice activity detection: a comparative analysis. EURASIP Journal on
Advances in Signal Processing. 2015
11. Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. The MIT
Press. 2016.
12. Y. Lecun, L. Bottou, Y. Bengio and P. Haffner, “Gradient-based learning applied
to document recognition,” in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-
2324, Nov. 1998. doi: 10.1109/5.726791
13. ImageNetLarge ScaleVisualRecognitionChallenge (ILSVRC)//
[Электронный ресурс]. URL: http://www.image-net.org/challenges/LSVRC/
(Дата обращения: 10.10.2019)
14. ITU-T Recommendation G.729 – Annex B: A silence compression scheme for
G.729 optimized for terminals conforming to ITU-T Recommendation V.70
15. Python interface to the WebRTC Voice Activity Detector [Электронный
ресурс] / GitHub – URL: https://github.com/wiseman/py-webrtcvad (дата
обращения: 14.06.2019)
16. Wagner, Johannes & Schiller, Dominik & Seiderer, Andreas & Andre, Elisabeth.
(2018). Deep Learning in Paralinguistic Recognition Tasks: Are Hand-crafted
Features Still Relevant? 147-151. 10.21437/Interspeech.2018-1238.
17. Deep Learning Frameworks Comparison – Tensorflow, PyTorch, Keras,
MXNet, The Microsoft Cognitive Toolkit, Caffe, Deeplearning4j, Chainer
[Электронный ресурс] / Mateusz Opala. – Электрон. текстовые дан. – Режим
доступа:https://www.netguru.com/blog/deep-learning-frameworks-
comparison (дата обращения: 12.07.2019)
18. CommonVoice[Электронныйресурс]/Mozilla–URL:
http://voice.mozilla.org (дата обращения: 18.07.2019)
19. VoxForge [Электронный ресурс] / URL: http://www.voxforge.org/ (дата
обращения: 18.07.2019)
20. J. Salamon, C. Jacoby and J. P. Bello, “A Dataset and Taxonomy for Urban
Sound Research”, 22nd ACM International Conference on Multimedia, Orlando
USA, Nov. 2014.
21. K. J. Piczak, “ESC: Dataset for environmental sound classification,” in
Proceedings of the ACM International Conference on Multimedia. ACM, 2015,
in press
22. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC
Curves. // Proceedings of the 23rd International Conference on Machine
Learning, Pittsburgh, PA, 2006
23. Simonyan, Karen and Andrew Zisserman. Very Deep Convolutional Networks
for Large-Scale Image Recognition. CoRR abs/1409.1556, 2015
24. Howard, Andrew G., Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun
Wang, Tobias Weyand, Marco Andreetto and Hartwig Adam. MobileNets:
EfficientConvolutionalNeuralNetworksforMobileVision
Applications. ArXiv abs/1704.04861, 2017
25. He, Kaiming, Xiangyu Zhang, Shaoqing Ren and Jian Sun. Deep Residual
Learning for Image Recognition. 2016 IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2016, 770-778
26. Ioffe, Sergey and Christian Szegedy. Batch Normalization: Accelerating Deep
Network Training by Reducing Internal Covariate Shift. ArXiv abs/1502.03167,
2015
27. Computing Receptive Fields of Convolutional Neural Networks [Электронный
ресурс] / URL: https://distill.pub/2019/computing-receptive-fields (дата
обращения 16.04.2020)
28. Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only
look once: Unified, real-time object detection. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 779–788, 2016
29. Kingma, Diederik P. and Jimmy Ba. Adam: A Method for Stochastic
Optimization. CoRR abs/1412.6980, 2015
30. Steven Davis and Paul Mermelstein. Comparison of parametric representations
for monosyllabic word recognition in continuously spoken sentences. Acoustics,
Speech and Signal Processing, IEEE Transactions on, 28(4):357– 366, 1980.
31. Detection and Classification of Acoustic Scenes and Events [Электронный
ресурс] / URL: http://dcase.community (дата обращения: 20.08.2019)
32. Основы функционально-стоимостного анализа: Учебное пособие / Под
ред. М. Г. Карпунина и Б. И. Майданчика. – М.: Энергия, 1980. – 175с.
33. Методические указания к выполнению раздела «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение» для всех специальностей/
сост. В. Ю. Конотопский; Томский политехнический университет. –
Томск: Изд-во Томского политехнического университета, 2015. – 29 с.
34. Безопасность жизнедеятельности: Учебник для вузов / Под ред. К. З.
Ушакова. – М.: Изд-во Московского гос. горного университета, 2000. – 430
с.
35. ГОСТ 12.0.003-74 (с измен. №1, октябрь 1978 г., переиздание 1999 г.)
«Классификация вредных и опасных производственных факторов».
36. СанПиН 2.2.4.1191-03. «Электромагнитные поля в производственных
условиях».
37. ГОСТ 12.1.009-76 «Электробезопасность. Термины и определения»
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!