Алгоритм обнаружения речевой активности в акустическом сигнале с применением сверточных нейронных сетей

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Тепляков, Андрей Борисович Отделение информационных технологий (ОИТ)
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Существуют различные варианты применения технологий обработки речевого сигнала, такие как голосовой пользовательский интерфейс или усиление речевого сигнала для людей с нарушениями слуха. Однако разработанные алгоритмы сталкиваются с общей проблемой: необходимо обнаружить присутствие речи в акустическом сигнале, который зачастую искажен шумом. В данной работе рассматривается алгоритм обнаружения голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины с помощью сверточной нейронной сети.

Введение ……………………………………………………………………………………………………. 9
1. Теоретические сведения ……………………………………………………………………….. 11
1.1. Представление звукового сигнала в вычислительной технике …………. 11
1.2. Признаки, позволяющие отличить речевую активность от шума …….. 12
1.3. Искусственные нейронные сети ……………………………………………………… 18
2. Обзор существующих методов обнаружения речевой активности …………. 22
2.1. Речевой кодек G.729 Annex B …………………………………………………………. 22
2.2. WebRTC VAD ………………………………………………………………………………… 22
2.3. VadNet …………………………………………………………………………………………… 23
3. Обзор инструментов реализации алгоритма ………………………………………….. 25
3.1. TensorFlow……………………………………………………………………………………… 25
3.2. MXNet ……………………………………………………………………………………………. 26
3.3. PyTorch ………………………………………………………………………………………….. 26
4. Модуль формирования выборок ……………………………………………………………. 27
4.1. Используемые наборы данных ……………………………………………………….. 27
4.2. Проектирование модуля формирования выборок ……………………………. 28
4.3. Реализация модуля формирования выборок ……………………………………. 29
4.4. Сценарий использования разработанного модуля …………………………… 34
5. Реализация алгоритма обнаружения голосовой активности …………………… 36
5.1. Проектирование модуля для обучения модели ………………………………… 36
5.2. Критерии оценки качества работы алгоритмов ……………………………….. 38
5.3. Эксперименты с архитектурой сверточной нейронной сети …………….. 40
5.4. Сравнение разработанного алгоритма с WebRTC VAD …………………… 48
6. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение .. 52
6.1. Планирование и организация работ ………………………………………………… 52
6.2. Определение трудоемкости выполнения работ ……………………………….. 54
6.3. Расчет сметы затрат на выполнение проекта …………………………………… 56
6.3.1. Расчет заработной платы исполнителей ……………………………………… 56
6.3.2. Расчет страховых отчислений ……………………………………………………. 57
6.3.3. Расчет расходов на электроэнергию …………………………………………… 58
6.3.4. Расчет амортизационных расходов …………………………………………….. 58
6.3.5. Расчет накладных расходов ……………………………………………………….. 60
6.3.6. Формирование бюджета научно-исследовательского проекта …….. 60
6.4. Оценка экономической эффективности проекта ……………………………… 60
7. Социальная ответственность ………………………………………………………………… 64
7.1. Правовые и организационные вопросы обеспечения безопасности …. 65
7.1.1. Специальные правовые нормы трудового законодательства ………. 65
7.1.2. Организационные мероприятия при компоновке рабочей зоны ….. 66
7.2. Производственная безопасность …………………………………………………….. 67
7.2.1. Анализ выявленных вредных и опасных факторов …………………….. 67
7.2.2. Обоснование мероприятий по защите от воздействия вредных и
опасных факторов ………………………………………………………………………………. 68
7.3. Экологическая безопасность…………………………………………………………… 75
7.3.1. Анализ влияния процесса разработки объекта на окружающую
среду ………………………………………………………………………………………………….. 75
7.3.2. Обоснование мероприятий по защите окружающей среды …………. 76
7.4. Безопасность в чрезвычайных ситуациях………………………………………… 77
7.4.1. Анализ вероятных ЧС при разработке объекта исследований …….. 77
7.4.2. Обоснование мероприятий по предотвращению ЧС и разработка
порядка действия в случае возникновения ЧС …………………………………….. 77
Заключение ……………………………………………………………………………………………… 79
Список публикаций студента ……………………………………………………………………. 80
Список используемых источников ……………………………………………………………. 81
Приложение A …………………………………………………………………………………………. 85

В настоящее время голосовой пользовательский интерфейс приобрел
широкую популярностью. Такие голосовые помощники как Cortana, Siri,
Google Assistant, Алиса ежедневно обрабатывают значительное количество
запросов, повышая комфорт пользователя при выполнении рутинных
операций [1]. Значительное количество как зарубежных, так и российских
банков используют технологию интерактивного голосового ответа, снижая
расходы на персонал.
В автомобильной промышленности приложения громкой связи и
голосового управления позволяют водителю взаимодействовать с людьми и
самой машиной во время вождения, не отвлекаясь от дорожного движения.
Также усовершенствованная обработка речевого сигнала может
помочь людям с нарушениями слуха. Современные слуховые аппараты
усиливают желаемый речевой сигнал и подавляют мешающие шумовые
компоненты [2].
Хотя существуют различные варианты применения технологий
обработки речевого сигнала, разработанные алгоритмы сталкиваются с общей
проблемой: необходимо обнаружить присутствие речи в акустическом
сигнале, который зачастую искажен шумом.
Целью данной работы является разработка и реализация алгоритма
обнаружения речевой активности (Voice Activity Detection) во входном
акустическом сигнале для отделения человеческой речи от фонового шума или
тишины.
Данную цель можно разделить на следующие задачи:
1. изучение предметной области;
2. поиск существующих аналогов алгоритма, рассмотрение их
преимуществ и недостатков;
3. обзор инструментов, с помощью которых возможна разработка
данного алгоритма;
4. реализация алгоритма обнаружения голосовой активности;
5. сравнение реализованного алгоритма с аналогами по точности
детектирования речевой активности.
1. Теоретические сведения
1.1. Представление звукового сигнала в вычислительной технике
Как известно, звук – это физическое явление, которое представляет
собой продольное распространение механических колебаний в различных
средах. При этом звукозаписывающее устройство, часто называемое
микрофоном, преобразует звуковые волны в изменения напряжения. Если
микрофон подключен к звуковой карте, то напряжение можно измерять через
равные промежутки времени (с заданной частотой дискретизации) и каждое
значение преобразовывать в двоичное число. Данный процесс называется
квантованием по уровню звука и выполняется аналого-цифровым
преобразователем на звуковой карте, после чего серия двоичных чисел может
быть сохранена в виде звукового файла. На рисунке 1 представлен пример
квантования по уровню и времени непрерывного сигнала.
Под частотой дискретизации понимают количество измерений
разности потенциалов аналоговой звуковой волны, взятых в секунду. Эта
частота измеряется в Герцах (Гц).
Звуковая карта может воссоздать сохраненный звук с помощью цифро-
аналогового преобразователя, то есть последовательность двоичных чисел
преобразуется обратно в изменяющееся напряжение, которое вызывает
вибрацию динамика для воспроизведения звука [3].

Подводя итог проведенной работе, хотелось бы отметить, что
поставленные задачи были решены. Во-первых, получено представление об
области цифровой обработки аудиосигналов, изучены признаки речевой
активности, а также методы машинного обучения для её обнаружения. Во-
вторых, проведен обзор существующих алгоритмов обнаружения речевой
активности, рассмотрены их преимущества и недостатки. В-третьих,
выполнен обзор инструментов, с помощью которых возможна разработка
детектора речевой активности на основе сверточных нейронных сетей. В-
четвертых, спроектированы и реализованы модули для формирования
выборок и обучения модели на языке программирования Python. В-пятых,
проведено сравнение реализованного алгоритма с WebRTC VAD. Хотя
разработанные модели уступают аналогу в скорости обработки аудиозаписей,
точность обнаружения речевой активности сверточными нейронными сетями
значительно выше на обеих тестовых выборках.
В дальнейшем планируется исследовать другие формы входных
данных для модели, в частности, общепринятые в сфере автоматической
обработки речи мел-кепстральные коэффициенты [30]. Не менее важным
является рассмотрение различных архитектур нейронных сетей, например,
рекуррентных моделей.
Также следует отметить, что используемый в данном исследовании
подход может быть применен для решения других задач классификации
акустических событий, например, в рамках ежегодного соревнования по
обнаружению и классификации акустических сцен и событий DCASE [31].
Список публикаций студента
1. Тепляков А. Б. Алгоритм обнаружения речевой активности в акустическом
сигнале с применением свёрточных нейронных сетей / А. Б. Тепляков, В.
Г. Спицын // Молодежь и современные информационные технологии:
сборник трудов XVII Международной научно-практической конференции
студентов, аспирантов и молодых ученых, г. Томск, 17-20 февраля 2020 г.:
— Томск: Изд-во ТПУ, 2020. — [С. 134-135].
2. Коваль Д. И. Выделение смысловых понятий в медицинских диагнозах при
помощи машинного обучения / Д. И. Коваль, И. В. Сушков, А. Б. Тепляков
// Молодежь и современные информационные технологии: сборник трудов
XVII Международной научно-практической конференции студентов,
аспирантов и молодых ученых, г. Томск, 17-20 февраля 2020 г.: — Томск:
Изд-во ТПУ, 2020. — [С. 160-161].

1. The Best Voice Assistants [Электронный ресурс] / Anne Dennon. – Электрон.
текстовые дан. – Режим доступа: https://www.reviews.com/voice-assistant/,
(дата обращения: 13.07.2019)
2. Deep Learning Reinvents the Hearing Aid [Электронный ресурс] / DeLiang
Wang. – Электрон. журн. – Spectrum IEEE, 2016. – Режим доступа:
https://spectrum.ieee.org/consumer-electronics/audiovideo/deep-learning-
reinvents-the-hearing-aid, (дата обращения: 14.07.2019)
3. Sound Representation [Электронный ресурс] / Teach Computer Science –
Режим доступа: https://teachcomputerscience.com/sound-representation/ (дата
обращения: 15.07.2019)
4. J-C Junqua. The influence of acoustics on speech production: a noise-induced
stress phenomenon known as the Lombard reflex. Speech Commun. 20(1), 13–
22, 1996
5. Cooley, J.W. and Tukey, J.W., An algorithm for the machine calculation of
complex Fourier series, Mathematics of Computation, 19(90):297–301, 1965
6. Лайонс Р. Цифровая обработка сигналов: Второе издание. Пер. с англ. –
М.: ООО “Бином-Пресс”, 2006 г. – 656 с.: ил.
7. Голосовая биометрия в сфере VoIP [Электронный ресурс] / Олег
Тундайкин. – Электрон. журн. – Режим доступа: https://www.it-
world.ru/tech/science/142282.html, (дата обращения: 16.07.2019)
8. Moattar, Mohammad & Homayoonpoor, Mahdi. A simple but efficient real-time
voice activity detection algorithm. European Signal Processing Conference.
2010
9. Voice Activity Detection for Voice User Interface [Электронный ресурс] /
RudyBaraglia.–Электрон.текстовыедан.–Режимдоступа:
https://medium.com/linagoralabs/voice-activity-detection-for-voice-user-
interface-2d4bb5600ee3 (дата обращения: 18.07.2019)
10. Graf, Simon & Herbig, Tobias & Buck, Markus & Schmidt, Gerhard. Features
for voice activity detection: a comparative analysis. EURASIP Journal on
Advances in Signal Processing. 2015
11. Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. The MIT
Press. 2016.
12. Y. Lecun, L. Bottou, Y. Bengio and P. Haffner, “Gradient-based learning applied
to document recognition,” in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-
2324, Nov. 1998. doi: 10.1109/5.726791
13. ImageNetLarge ScaleVisualRecognitionChallenge (ILSVRC)//
[Электронный ресурс]. URL: http://www.image-net.org/challenges/LSVRC/
(Дата обращения: 10.10.2019)
14. ITU-T Recommendation G.729 – Annex B: A silence compression scheme for
G.729 optimized for terminals conforming to ITU-T Recommendation V.70
15. Python interface to the WebRTC Voice Activity Detector [Электронный
ресурс] / GitHub – URL: https://github.com/wiseman/py-webrtcvad (дата
обращения: 14.06.2019)
16. Wagner, Johannes & Schiller, Dominik & Seiderer, Andreas & Andre, Elisabeth.
(2018). Deep Learning in Paralinguistic Recognition Tasks: Are Hand-crafted
Features Still Relevant? 147-151. 10.21437/Interspeech.2018-1238.
17. Deep Learning Frameworks Comparison – Tensorflow, PyTorch, Keras,
MXNet, The Microsoft Cognitive Toolkit, Caffe, Deeplearning4j, Chainer
[Электронный ресурс] / Mateusz Opala. – Электрон. текстовые дан. – Режим
доступа:https://www.netguru.com/blog/deep-learning-frameworks-
comparison (дата обращения: 12.07.2019)
18. CommonVoice[Электронныйресурс]/Mozilla–URL:
http://voice.mozilla.org (дата обращения: 18.07.2019)
19. VoxForge [Электронный ресурс] / URL: http://www.voxforge.org/ (дата
обращения: 18.07.2019)
20. J. Salamon, C. Jacoby and J. P. Bello, “A Dataset and Taxonomy for Urban
Sound Research”, 22nd ACM International Conference on Multimedia, Orlando
USA, Nov. 2014.
21. K. J. Piczak, “ESC: Dataset for environmental sound classification,” in
Proceedings of the ACM International Conference on Multimedia. ACM, 2015,
in press
22. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC
Curves. // Proceedings of the 23rd International Conference on Machine
Learning, Pittsburgh, PA, 2006
23. Simonyan, Karen and Andrew Zisserman. Very Deep Convolutional Networks
for Large-Scale Image Recognition. CoRR abs/1409.1556, 2015
24. Howard, Andrew G., Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun
Wang, Tobias Weyand, Marco Andreetto and Hartwig Adam. MobileNets:
EfficientConvolutionalNeuralNetworksforMobileVision
Applications. ArXiv abs/1704.04861, 2017
25. He, Kaiming, Xiangyu Zhang, Shaoqing Ren and Jian Sun. Deep Residual
Learning for Image Recognition. 2016 IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2016, 770-778
26. Ioffe, Sergey and Christian Szegedy. Batch Normalization: Accelerating Deep
Network Training by Reducing Internal Covariate Shift. ArXiv abs/1502.03167,
2015
27. Computing Receptive Fields of Convolutional Neural Networks [Электронный
ресурс] / URL: https://distill.pub/2019/computing-receptive-fields (дата
обращения 16.04.2020)
28. Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only
look once: Unified, real-time object detection. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 779–788, 2016
29. Kingma, Diederik P. and Jimmy Ba. Adam: A Method for Stochastic
Optimization. CoRR abs/1412.6980, 2015
30. Steven Davis and Paul Mermelstein. Comparison of parametric representations
for monosyllabic word recognition in continuously spoken sentences. Acoustics,
Speech and Signal Processing, IEEE Transactions on, 28(4):357– 366, 1980.
31. Detection and Classification of Acoustic Scenes and Events [Электронный
ресурс] / URL: http://dcase.community (дата обращения: 20.08.2019)
32. Основы функционально-стоимостного анализа: Учебное пособие / Под
ред. М. Г. Карпунина и Б. И. Майданчика. – М.: Энергия, 1980. – 175с.
33. Методические указания к выполнению раздела «Финансовый менеджмент,
ресурсоэффективность и ресурсосбережение» для всех специальностей/
сост. В. Ю. Конотопский; Томский политехнический университет. –
Томск: Изд-во Томского политехнического университета, 2015. – 29 с.
34. Безопасность жизнедеятельности: Учебник для вузов / Под ред. К. З.
Ушакова. – М.: Изд-во Московского гос. горного университета, 2000. – 430
с.
35. ГОСТ 12.0.003-74 (с измен. №1, октябрь 1978 г., переиздание 1999 г.)
«Классификация вредных и опасных производственных факторов».
36. СанПиН 2.2.4.1191-03. «Электромагнитные поля в производственных
условиях».
37. ГОСТ 12.1.009-76 «Электробезопасность. Термины и определения»

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Алгоритм обнаружения речевой активности в акустическом сигнале с применением сверточных нейронных сетей»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Анастасия Л. аспирант
    5 (8 отзывов)
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибост... Читать все
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибостроение, управление качеством
    #Кандидатские #Магистерские
    10 Выполненных работ
    Логик Ф. кандидат наук, доцент
    4.9 (826 отзывов)
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские дисс... Читать все
    Я - кандидат философских наук, доцент кафедры философии СГЮА. Занимаюсь написанием различного рода работ (научные статьи, курсовые, дипломные работы, магистерские диссертации, рефераты, контрольные) уже много лет. Качество работ гарантирую.
    #Кандидатские #Магистерские
    1486 Выполненных работ
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ
    Елена Л. РЭУ им. Г. В. Плеханова 2009, Управления и коммерции, пре...
    4.8 (211 отзывов)
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно исполь... Читать все
    Работа пишется на основе учебников и научных статей, диссертаций, данных официальной статистики. Все источники актуальные за последние 3-5 лет.Активно и уместно использую в работе графический материал (графики рисунки, диаграммы) и таблицы.
    #Кандидатские #Магистерские
    362 Выполненных работы
    Анна Н. Государственный университет управления 2021, Экономика и ...
    0 (13 отзывов)
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уни... Читать все
    Закончила ГУУ с отличием "Бухгалтерский учет, анализ и аудит". Выполнить разные работы: от рефератов до диссертаций. Также пишу доклады, делаю презентации, повышаю уникальности с нуля. Все работы оформляю в соответствии с ГОСТ.
    #Кандидатские #Магистерские
    0 Выполненных работ
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ
    Оксана М. Восточноукраинский национальный университет, студент 4 - ...
    4.9 (37 отзывов)
    Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политоло... Читать все
    Возможно выполнение работ по правоведению и политологии. Имею высшее образование менеджера ВЭД и правоведа, защитила кандидатскую и докторскую диссертации по политологии.
    #Кандидатские #Магистерские
    68 Выполненных работ

    Другие учебные работы по предмету