Алгоритм обнаружения речевой активности в акустическом сигнале с применением сверточных нейронных сетей

Тепляков, Андрей Борисович Отделение информационных технологий (ОИТ)
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Существуют различные варианты применения технологий обработки речевого сигнала, такие как голосовой пользовательский интерфейс или усиление речевого сигнала для людей с нарушениями слуха. Однако разработанные алгоритмы сталкиваются с общей проблемой: необходимо обнаружить присутствие речи в акустическом сигнале, который зачастую искажен шумом. В данной работе рассматривается алгоритм обнаружения голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины с помощью сверточной нейронной сети.

Введение ……………………………………………………………………………………………………. 9
1. Теоретические сведения ……………………………………………………………………….. 11
1.1. Представление звукового сигнала в вычислительной технике …………. 11
1.2. Признаки, позволяющие отличить речевую активность от шума …….. 12
1.3. Искусственные нейронные сети ……………………………………………………… 18
2. Обзор существующих методов обнаружения речевой активности …………. 22
2.1. Речевой кодек G.729 Annex B …………………………………………………………. 22
2.2. WebRTC VAD ………………………………………………………………………………… 22
2.3. VadNet …………………………………………………………………………………………… 23
3. Обзор инструментов реализации алгоритма ………………………………………….. 25
3.1. TensorFlow……………………………………………………………………………………… 25
3.2. MXNet ……………………………………………………………………………………………. 26
3.3. PyTorch ………………………………………………………………………………………….. 26
4. Модуль формирования выборок ……………………………………………………………. 27
4.1. Используемые наборы данных ……………………………………………………….. 27
4.2. Проектирование модуля формирования выборок ……………………………. 28
4.3. Реализация модуля формирования выборок ……………………………………. 29
4.4. Сценарий использования разработанного модуля …………………………… 34
5. Реализация алгоритма обнаружения голосовой активности …………………… 36
5.1. Проектирование модуля для обучения модели ………………………………… 36
5.2. Критерии оценки качества работы алгоритмов ……………………………….. 38
5.3. Эксперименты с архитектурой сверточной нейронной сети …………….. 40
5.4. Сравнение разработанного алгоритма с WebRTC VAD …………………… 48
6. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение .. 52
6.1. Планирование и организация работ ………………………………………………… 52
6.2. Определение трудоемкости выполнения работ ……………………………….. 54
6.3. Расчет сметы затрат на выполнение проекта …………………………………… 56
6.3.1. Расчет заработной платы исполнителей ……………………………………… 56
6.3.2. Расчет страховых отчислений ……………………………………………………. 57
6.3.3. Расчет расходов на электроэнергию …………………………………………… 58
6.3.4. Расчет амортизационных расходов …………………………………………….. 58
6.3.5. Расчет накладных расходов ……………………………………………………….. 60
6.3.6. Формирование бюджета научно-исследовательского проекта …….. 60
6.4. Оценка экономической эффективности проекта ……………………………… 60
7. Социальная ответственность ………………………………………………………………… 64
7.1. Правовые и организационные вопросы обеспечения безопасности …. 65
7.1.1. Специальные правовые нормы трудового законодательства ………. 65
7.1.2. Организационные мероприятия при компоновке рабочей зоны ….. 66
7.2. Производственная безопасность …………………………………………………….. 67
7.2.1. Анализ выявленных вредных и опасных факторов …………………….. 67
7.2.2. Обоснование мероприятий по защите от воздействия вредных и
опасных факторов ………………………………………………………………………………. 68
7.3. Экологическая безопасность…………………………………………………………… 75
7.3.1. Анализ влияния процесса разработки объекта на окружающую
среду ………………………………………………………………………………………………….. 75
7.3.2. Обоснование мероприятий по защите окружающей среды …………. 76
7.4. Безопасность в чрезвычайных ситуациях………………………………………… 77
7.4.1. Анализ вероятных ЧС при разработке объекта исследований …….. 77
7.4.2. Обоснование мероприятий по предотвращению ЧС и разработка
порядка действия в случае возникновения ЧС …………………………………….. 77
Заключение ……………………………………………………………………………………………… 79
Список публикаций студента ……………………………………………………………………. 80
Список используемых источников ……………………………………………………………. 81
Приложение A …………………………………………………………………………………………. 85

В настоящее время голосовой пользовательский интерфейс приобрел
широкую популярностью. Такие голосовые помощники как Cortana, Siri,
Google Assistant, Алиса ежедневно обрабатывают значительное количество
запросов, повышая комфорт пользователя при выполнении рутинных
операций [1]. Значительное количество как зарубежных, так и российских
банков используют технологию интерактивного голосового ответа, снижая
расходы на персонал.
В автомобильной промышленности приложения громкой связи и
голосового управления позволяют водителю взаимодействовать с людьми и
самой машиной во время вождения, не отвлекаясь от дорожного движения.
Также усовершенствованная обработка речевого сигнала может
помочь людям с нарушениями слуха. Современные слуховые аппараты
усиливают желаемый речевой сигнал и подавляют мешающие шумовые
компоненты [2].
Хотя существуют различные варианты применения технологий
обработки речевого сигнала, разработанные алгоритмы сталкиваются с общей
проблемой: необходимо обнаружить присутствие речи в акустическом
сигнале, который зачастую искажен шумом.
Целью данной работы является разработка и реализация алгоритма
обнаружения речевой активности (Voice Activity Detection) во входном
акустическом сигнале для отделения человеческой речи от фонового шума или
тишины.
Данную цель можно разделить на следующие задачи:
1. изучение предметной области;
2. поиск существующих аналогов алгоритма, рассмотрение их
преимуществ и недостатков;
3. обзор инструментов, с помощью которых возможна разработка
данного алгоритма;
4. реализация алгоритма обнаружения голосовой активности;
5. сравнение реализованного алгоритма с аналогами по точности
детектирования речевой активности.
1. Теоретические сведения
1.1. Представление звукового сигнала в вычислительной технике
Как известно, звук – это физическое явление, которое представляет
собой продольное распространение механических колебаний в различных
средах. При этом звукозаписывающее устройство, часто называемое
микрофоном, преобразует звуковые волны в изменения напряжения. Если
микрофон подключен к звуковой карте, то напряжение можно измерять через
равные промежутки времени (с заданной частотой дискретизации) и каждое
значение преобразовывать в двоичное число. Данный процесс называется
квантованием по уровню звука и выполняется аналого-цифровым
преобразователем на звуковой карте, после чего серия двоичных чисел может
быть сохранена в виде звукового файла. На рисунке 1 представлен пример
квантования по уровню и времени непрерывного сигнала.
Под частотой дискретизации понимают количество измерений
разности потенциалов аналоговой звуковой волны, взятых в секунду. Эта
частота измеряется в Герцах (Гц).
Звуковая карта может воссоздать сохраненный звук с помощью цифро-
аналогового преобразователя, то есть последовательность двоичных чисел
преобразуется обратно в изменяющееся напряжение, которое вызывает
вибрацию динамика для воспроизведения звука [3].

Подводя итог проведенной работе, хотелось бы отметить, что
поставленные задачи были решены. Во-первых, получено представление об
области цифровой обработки аудиосигналов, изучены признаки речевой
активности, а также методы машинного обучения для её обнаружения. Во-
вторых, проведен обзор существующих алгоритмов обнаружения речевой
активности, рассмотрены их преимущества и недостатки. В-третьих,
выполнен обзор инструментов, с помощью которых возможна разработка
детектора речевой активности на основе сверточных нейронных сетей. В-
четвертых, спроектированы и реализованы модули для формирования
выборок и обучения модели на языке программирования Python. В-пятых,
проведено сравнение реализованного алгоритма с WebRTC VAD. Хотя
разработанные модели уступают аналогу в скорости обработки аудиозаписей,
точность обнаружения речевой активности сверточными нейронными сетями
значительно выше на обеих тестовых выборках.
В дальнейшем планируется исследовать другие формы входных
данных для модели, в частности, общепринятые в сфере автоматической
обработки речи мел-кепстральные коэффициенты [30]. Не менее важным
является рассмотрение различных архитектур нейронных сетей, например,
рекуррентных моделей.
Также следует отметить, что используемый в данном исследовании
подход может быть применен для решения других задач классификации
акустических событий, например, в рамках ежегодного соревнования по
обнаружению и классификации акустических сцен и событий DCASE [31].
Список публикаций студента
1. Тепляков А. Б. Алгоритм обнаружения речевой активности в акустическом
сигнале с применением свёрточных нейронных сетей / А. Б. Тепляков, В.
Г. Спицын // Молодежь и современные информационные технологии:
сборник трудов XVII Международной научно-практической конференции
студентов, аспирантов и молодых ученых, г. Томск, 17-20 февраля 2020 г.:
— Томск: Изд-во ТПУ, 2020. — [С. 134-135].
2. Коваль Д. И. Выделение смысловых понятий в медицинских диагнозах при
помощи машинного обучения / Д. И. Коваль, И. В. Сушков, А. Б. Тепляков
// Молодежь и современные информационные технологии: сборник трудов
XVII Международной научно-практической конференции студентов,
аспирантов и молодых ученых, г. Томск, 17-20 февраля 2020 г.: — Томск:
Изд-во ТПУ, 2020. — [С. 160-161].

1. The Best Voice Assistants [Электронный ресурс] / Anne Dennon. – Электрон.
текстовые дан. – Режим доступа: https://www.reviews.com/voice-assistant/,
(дата обращения: 13.07.2019)
2. Deep Learning Reinvents the Hearing Aid [Электронный ресурс] / DeLiang
Wang. – Электрон. журн. – Spectrum IEEE, 2016. – Режим доступа:
https://spectrum.ieee.org/consumer-electronics/audiovideo/deep-learning-
reinvents-the-hearing-aid, (дата обращения: 14.07.2019)
3. Sound Representation [Электронный ресурс] / Teach Computer Science –
Режим доступа: https://teachcomputerscience.com/sound-representation/ (дата
обращения: 15.07.2019)
4. J-C Junqua. The influence of acoustics on speech production: a noise-induced
stress phenomenon known as the Lombard reflex. Speech Commun. 20(1), 13–
22, 1996
5. Cooley, J.W. and Tukey, J.W., An algorithm for the machine calculation of
complex Fourier series, Mathematics of Computation, 19(90):297–301, 1965
6. Лайонс Р. Цифровая обработка сигналов: Второе издание. Пер. с англ. –
М.: ООО “Бином-Пресс”, 2006 г. – 656 с.: ил.
7. Голосовая биометрия в сфере VoIP [Электронный ресурс] / Олег
Тундайкин. – Электрон. журн. – Режим доступа: https://www.it-
world.ru/tech/science/142282.html, (дата обращения: 16.07.2019)
8. Moattar, Mohammad & Homayoonpoor, Mahdi. A simple but efficient real-time
voice activity detection algorithm. European Signal Processing Conference.
2010
9. Voice Activity Detection for Voice User Interface [Электронный ресурс] /
RudyBaraglia.–Электрон.текстовыедан.–Режимдоступа:
https://medium.com/linagoralabs/voice-activity-detection-for-voice-user-
interface-2d4bb5600ee3 (дата обращения: 18.07.2019)
10. Graf, Simon & Herbig, Tobias & Buck, Markus & Schmidt, Gerhard. Features
for voice activity detection: a comparative analysis. EURASIP Journal on
Advances in Signal Processing. 2015
11. Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. The MIT
Press. 2016.
12. Y. Lecun, L. Bottou, Y. Bengio and P. Haffner, “Gradient-based learning applied
to document recognition,” in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-
2324, Nov. 1998. doi: 10.1109/5.726791
13. ImageNetLarge ScaleVisualRecognitionChallenge (ILSVRC)//
[Электронный ресурс]. URL: http://www.image-net.org/challenges/LSVRC/
(Дата обращения: 10.10.2019)
14. ITU-T Recommendation G.729 – Annex B: A silence compression scheme for
G.729 optimized for terminals conforming to ITU-T Recommendation V.70
15. Python interface to the WebRTC Voice Activity Detector [Электронный
ресурс] / GitHub – URL: https://github.com/wiseman/py-webrtcvad (дата
обращения: 14.06.2019)
16. Wagner, Johannes & Schiller, Dominik & Seiderer, Andreas & Andre, Elisabeth.
(2018). Deep Learning in Paralinguistic Recognition Tasks: Are Hand-crafted
Features Still Relevant? 147-151. 10.21437/Interspeech.2018-1238.
17. Deep Learning Frameworks Comparison – Tensorflow, PyTorch, Keras,
MXNet, The Microsoft Cognitive Toolkit, Caffe, Deeplearning4j, Chainer
[Электронный ресурс] / Mateusz Opala. – Электрон. текстовые дан. – Режим
доступа:https://www.netguru.com/blog/deep-learning-frameworks-
comparison (дата обращения: 12.07.2019)
18. CommonVoice[Электронныйресурс]/Mozilla–URL:
http://voice.mozilla.org (дата обращения: 18.07.2019)
19. VoxForge [Электронный ресурс] / URL: http://www.voxforge.org/ (дата
обращения: 18.07.2019)
20. J. Salamon, C. Jacoby and J. P. Bello, “A Dataset and Taxonomy for Urban
Sound Research”, 22nd ACM International Conference on Multimedia, Orlando
USA, Nov. 2014.
21. K. J. Piczak, “ESC: Dataset for environmental sound classification,” in
Proceedings of the ACM International Conference on Multimedia. ACM, 2015,
in press
22. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC
Curves. // Proceedings of the 23rd International Conference on Machine
Learning, Pittsburgh, PA, 2006
23. Simonyan, Karen and Andrew Zisserman. Very Deep Convolutional Networks
for Large-Scale Image Recognition. CoRR abs/1409.1556, 2015
24. Howard, Andrew G., Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun
Wang, Tobias Weyand, Marco Andreetto and Hartwig Adam. MobileNets:
EfficientConvolutionalNeuralNetworksforMobileVision
Applications. ArXiv abs/1704.04861, 2017
25. He, Kaiming, Xiangyu Zhang, Shaoqing Ren and Jian Sun. Deep Residual
Learning for Image Recognition. 2016 IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2016, 770-778
26. Ioffe, Sergey and Christian Szegedy. Batch Normalization: Accelerating Deep
Network Training by Reducing Internal Covariate Shift. ArXiv abs/1502.03167,
2015
27. Computing Receptive Fields of Convolutional Neural Networks [Электронный
ресурс] / URL: https://distill.pub/2019/computing-receptive-fields (дата
обращения 16.04.2020)
28. Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only
look once: Unified, real-time object detection. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 779–788, 2016
29. Kingma, Diederik P. and Jimmy Ba. Adam: A Method for Stochastic
Optimization. CoRR abs/1412.6980, 2015
30. Steven Davis and Paul Mermelstein. Comparison of parametric representations
for monosyllabic word recognition in continuously spoken sentences. Acoustics,
Speech and Signal Processing, IEEE Transactions on, 28(4):357– 366, 1980.
31. Detection and Classification of Acoustic Scenes and Events [Электронный
ресурс] / URL: http://dcase.community (дата обращения: 20.08.2019)
32. Основы функционально-стоимостного анализа: Учебное пособие / Под
ред. М. Г. Карпунина и Б. И. Майданчика. – М.: Энергия, 1980. – 175с.
33. Методические указания к выполнению раздела «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение» для всех специальностей/
сост. В. Ю. Конотопский; Томский политехнический университет. –
Томск: Изд-во Томского политехнического университета, 2015. – 29 с.
34. Безопасность жизнедеятельности: Учебник для вузов / Под ред. К. З.
Ушакова. – М.: Изд-во Московского гос. горного университета, 2000. – 430
с.
35. ГОСТ 12.0.003-74 (с измен. №1, октябрь 1978 г., переиздание 1999 г.)
«Классификация вредных и опасных производственных факторов».
36. СанПиН 2.2.4.1191-03. «Электромагнитные поля в производственных
условиях».
37. ГОСТ 12.1.009-76 «Электробезопасность. Термины и определения»

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дарья С. Томский государственный университет 2010, Юридический, в...
    4.8 (13 отзывов)
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссерт... Читать все
    Практикую гражданское, семейное право. Преподаю указанные дисциплины в ВУЗе. Выполняла работы на заказ в течение двух лет. Обучалась в аспирантуре, подготовила диссертационное исследование, которое сейчас находится на рассмотрении в совете.
    #Кандидатские #Магистерские
    18 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Дарья П. кандидат наук, доцент
    4.9 (20 отзывов)
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных... Читать все
    Профессиональный журналист, филолог со стажем более 10 лет. Имею профильную диссертацию по специализации "Радиовещание". Подробно и серьезно разрабатываю темы научных исследований, связанных с журналистикой, филологией и литературой
    #Кандидатские #Магистерские
    33 Выполненных работы
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Дмитрий М. БГАТУ 2001, электрификации, выпускник
    4.8 (17 отзывов)
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал стать... Читать все
    Помогаю с выполнением курсовых проектов и контрольных работ по электроснабжению, электроосвещению, электрическим машинам, электротехнике. Занимался наукой, писал статьи, патенты, кандидатскую диссертацию, преподавал. Занимаюсь этим с 2003.
    #Кандидатские #Магистерские
    19 Выполненных работ

    Другие учебные работы по предмету