Анализ аудиоданных и распознавание событий для систем безопасности

Доржиев Зоригто Жаргалович
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается задача классификации аудио информации, а также применяется архитектура свёрточных нейронной сетей, которая достигает хороших результатов в других прикладных задачах. Помимо этого, описывается реализация алгоритма извлечения характеристик, скачивания и подготовки данных. Для повышения качества работы классификатора представлены методы увеличения объёма данных и регуляризации. Веса нейронной сети, которая предварительно обучается на большом наборе данных, используются для небольшого узкоспециализированного набора городских звуков. Полученные модели сравниваются по точности и времени обучения в задачах бинарной классификации и мультиклассификации.

Введение …………………………………………………………………………………………. 3
Постановка задачи …………………………………………………………………………… 7
Обзор литературы …………………………………………………………………………… 11
Глава 1. Подготовка данных ……………………………………………………………. 13
1.1. Наборы данных ……………………………………………………………….. 13
1.2. Скачивание данных …………………………………………………………. 15
Глава 2. Характеристики аудио ……………………………………………………….. 18
2.1. Характеристики, связанные со временем ………………………….. 18
2.2. Спектральные характеристики …………………………………………. 20
2.3. Извлечение характеристик ……………………………………………….. 25
Глава 3. Классификация ………………………………………………………………….. 30
3.1. Предыдущие результаты ………………………………………………….. 30
3.2. Используемые методы ……………………………………………………… 31
3.3. Data Augmentation ……………………………………………………………. 32
3.4. Batch Normalization ………………………………………………………….. 34
3.5. Dropout ……………………………………………………………………………. 35
3.6. Transfer Learning ……………………………………………………………… 35
3.7. Архитектура сети …………………………………………………………….. 36
Глава 4. Тестирование и результаты ………………………………………………… 40
Заключение …………………………………………………………………………………….. 45
Список литературы …………………………………………………………………………. 47

Современные методы обработки информации сделали большой шаг вперёд в различных задачах обработки и анализа данных. В этом постоянно возрастающем объёме цифровой информации особую роль играет аудио, так как около 20% информации человек получает через слух [1]. Существует огромное количество различных стриминговых платформ и сервисов, которые предоставляют доступ к мультимедийному контенту в разных формах.
Всё это привело к тому, что появляется необходимость в разработке различных методов и систем для автоматического анализа такого контента. Новые техники и подходы помогают решать большой спектр задач: распознавание речи, поиск информации на основе аудиофайлов, мультимодальный анализ, классификация аудиофайлов, сегментация, распознавание событий для систем безопасности и автоматизации процессов и т.д.
Ранние работы на тему извлечения музыкальной информации использовали символьные представления или нотации, такие как MIDI файлы [2]. С символьными представлениями было довольно легко работать, так как они не требуют высоких производительных мощностей. Это привело к разработке инструментов для синтаксического анализа таких представлений. Монофонические и полифонические транскрипции помогали работать с аудио, используя анализ символьных представлений. Однако распространяемая цифровым путём музыка в основном имеют форму неструктурированных аудиофайлов.
Различные исследования показали, что слушатели обращают внимание не на отдельные ноты, а на другие аспекты звука, которые пропадают из поля зрения автоматических систем, делающих упор на музыкальную теорию [3]. Ни одна из
3
систем, использующих монофонические и полифонические транскрипции, не была достаточно успешной для работы с сигналами реального мира.
Развивающаяся междисциплинарная наука извлечения информации из аудио объединила различные области: информатику, машинное обучение, обработку сигналов, психологию, психоакустику. Дисциплина имеет множество практических приложений для категоризации, манипуляции и даже для генерации новой информации.
Методы, которые основываются на семантическом сходстве экземпляров, используются для создания рекомендательных систем [4]. Раннее такие системы основывались только на метаданных – информации об исполнителе, жанре, годе выпуска и т.д. Другой подход использовал информацию о прослушиваниях других пользователей и делал предложения, основываясь на соответствующих коллекциях. Современные системы позволяют взглянуть на внутреннюю структуру сигнала и анализируют непосредственно характеристики аудио.
Извлечённые характеристики помогают решить задачу сепарации трека без доступа к изначальной студийной версии. Соответствующие программы, могут распознать и разделить трек на отдельные инструменты. Таким образом создаются караоке версии музыкальных композиций, однако качество не всегда бывает идеальным, потому что диапазон частот вокала находится внутри диапазонов некоторых других инструментов.
Часть приложений делает упор на автоматической транскрипции музыки, то есть процесса приведения аудиозаписи к символьной нотации. Результатом работы таких программ могут быть данные о ритме, мелодии, гармоническая информация и конечные MIDI файлы. Эта задача усложняется при увеличении количества инструментов в миксе и высокой полифонии в случаях, когда независимые мелодии накладываются друг на друга.
4

Помимо этого, проводится большое количество исследований в области автоматической генерации аудио. Также, как и с автоматическим созданием изображений разработанные алгоритмы имеют ограниченный успех с точки зрения человеческого восприятия и оценки результата. Например, в 2019 году в день рождения немецкого композитора Иоганна Себастьяна Баха компания Google выпустила интерактивный Doodle. Пользователи могли выбрать ноты, которые использовались для составления композиции в стиле известного композитора. Модель обучалась на наборе из 306 композиций Иоганна Себастьяна Баха, составляя закономерности при помощи алгоритмов машинного обучения [5].
Область машинного обучения, связанная с использованием глубоких нейросетей, проникает во все сферы. На примере набора данных MNIST (Modified National Institute of Standards and Technology database) для классификации рукописных цифр появляются аналогичные наборы аудиоданных для анализа произнесённых цифр и пола говорящего [6, 7].
Данная работа фокусируется на решении задачи классификации аудио событий. В отличии от классификации музыки, совокупность классов событий не ограничивается жанрами, инструментами, а принимает во внимание и аудиозаписи с другим содержанием. Множество классов, которое рассматривается в работе, варьируется от звуков природы и животных до звуков городской среды. Некоторые из таких классов имеют большой интерес в области безопасности. Например, своевременное распознавание звуков стрельбы или шума разбившегося стекла может помочь соответствующим службам вовремя отреагировать на экстренную ситуацию.
В современном мире системы безопасности можно встретить повсюду. Некоторые из таких систем имеют возможность записывать не только видео, но
5

и аудио. Аудиосигнал после обработки может нести информацию, которая будет помогать работе “умного дома”.
Распознаванию звуковых событий уделяется немалый интерес в последние годы. Появляются приложения, которые решают задачи мониторинга в области здравоохранения, анализа городских звуков и даже отслеживания популяции птиц [8, 9].

В ходе работы удалось выполнить поставленные задачи. Были реализованы
алгоритмы скачивания данных, извлечения характеристик. Помимо этого, были
найдены решения для увеличения объёма выборки для небольших наборов
данных.

Полученные модели, основанные на нейросетях, способны
классифицировать широкий спектр звуковых событий. Они не уступают по
показателям ранее разработанным алгоритмам на основе методов k-ближайших
соседей и опорных векторов.

Модели, обученные на большом наборе AudioSet, неплохо показали себя
для расширенного набора Urban Sound Classification. Предыдущие работы
достигали 74% точности, предварительно обученным VGG моделям удалось
улучшить этот результат, доведя точность до 85%.

Можно отметить, что увеличение количества скрытых слоёв в VGG-
подобных моделях повышает точность лишь на небольшие значения. Возможно,
стоит обратить внимание на более простые модели с меньшим количеством
параметров, потому что для некоторых задач увеличение вычислительной
сложности только повышает время обучения.

Классификация аудиозаписей происходит со скоростью, достаточной для
работы в реальном времени. Следующими шагами в исследовании будут
внедрение автоматического захвата аудио и одновременного анализа
аудиопотока, что позволит классифицировать звуковые события, захваченные
микрофоном на любом устройстве.

Реализованные классификаторы могут быть использованы в различных
областях. Они могут помочь заранее оповестить службы об экстренной ситуации,
либо о состоянии пациента, который проходит мониторинг. Некоторые
приложение даже включают в себя отслеживание миграции животных на основе
звукового анализа.

Кроме того, подобные сети можно использовать для автоматической
генерации новых аудиозаписей. Большой интерес составляет применение
вариационных автоэнкодеров и генеративно-состязательных сетей в области
музыки.

Вероятно, новейшие алгоритмы, основанные на остаточном обучении, и
более тонкая настройка параметров смогут значительно повысить эффективность
решения задач классификации и анализа аудиоданных.

1. Dale E. Audio-Visual Methods in Teaching, 3rd ed., Holt, Rinehart & Winston,
New York, 1969, P. 108.
2. Tzanetakis G., Cook P. Audio Information Retrieval (AIR) Tools. 2002.
3. Martin K., Scheirer E., Vercoe B. Musical content analysis through models of
audition. In Proc. ACM Multimedia Workshop on Content-Based Processing of
Music, Bristol, UK, 1998.
4. Chen H., Chen A.L.P. A Music Recommendation System Based on Music and
User Grouping. J Intell Inf Syst 24, 113–132 (2005).
5. День Иоганна Себастьяна Баха.
https://www.google.com/doodles/celebrating-johann-sebastian-bach
6. LeCun Y., Cortes C., Burges CJ. MNIST handwritten digit database. // ATT
Labs. Vol. 2. 2010.
7. Free Spoken Digit Dataset (FSDD). https://github.com/Jakobovski/free-spoken-
digit-dataset
8. Goetze S., Schroder J., Gerlach S., Hollosi D., Appell J.-E., Wallhoff F. Acoustic
monitoring and localization for social care // Journal of Computing Science and
Engineering, vol. 6, no. 1, pp. 40–50.
9. 2012.Stowell D., Clayton D. Acoustic event detection for multiple overlapping
similar sources // 2015 IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics (WASPAA), 2015, pp. 1-5.
10. Jayant N., Johnston J., Safranek R. // “Signal Compression Based on Models of
Human Perception”. Proceedings of the IEEE. 81 (10): 1385–1422. (October
1993).
11. Çakir E., Parascandolo G., Heittola T., Huttunen H., Virtanen T. Convolutional
Recurrent Neural Networks for Polyphonic Sound Event Detection. 2017.
12. Giannakopoulos T. pyAudioAnalysis: An Open-Source Python Library for
Audio Signal Analysis. 2015.
13. Defferrard M., Benzi K., Vandergheynst P., Bresson X. FMA: A dataset for
music analysis. 2017.
14. Bertin-Mahieux T., Ellis D., Whitman B., Lamere P. The Million Song Dataset
// Proceedings of the 12th International Conference on Music Information
Retrieval (ISMIR). 2011.
15. Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large-scale speaker
identification dataset // INTERSPEECH. 2017.
16. Baumann T., Köhn A., Hennig F. The Spoken Wikipedia Corpus collection:
Harvesting, alignment and an application to hyperlistening // Language
Resources and Evaluation. 2018.
17. Gemmeke J., Ellis D., Freedman D., Jansen A., Lawrence W., Moore R.C.,
Plakal M., Ritter M. Audio Set: An ontology and human-labeled dataset for audio
events // Proc. IEEE ICASSP. 2017.
18. Salamon J., Jacoby C., Bello J. P. A Dataset and Taxonomy for Urban Sound
Research // 22nd ACM International Conference on Multimedia. 2014.
19. pytube3 9.6.4 documentation. https://python-pytube.readthedocs.io/en/latest/
20. FFMpeg. https://ffmpeg.org/
21. scikit-learn: machine learning in Python. https://scikit-learn.org/stable/
22. NumPy. https://numpy.org/
23. Librosa. https://librosa.github.io/
24. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training
by reducing internal covariate shift // Proceedings of Machine Learning
Research, vol. 37. PMLR, 07–09 Jul 2015, pp. 448–456.
25. Santurkar S., Tsipras D., Ilyas A., Madry A. How does batch normalization help
optimization? // Curran Associates, Inc., 2018, pp. 2483–2493.
26. G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov.
Improving neural networks by preventing co-adaptation of feature detectors //
CoRR, vol. abs/1207.0580, 2012.
27. PyTorch. https://pytorch.org/
28. K. Song and Y. Yan. A noise robust method based on completed local binary
patterns for hot-rolled steel strip surface defects // Applied Surface Science, vol.
285, pp. 858 – 864, 2013.
29. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-
scale image recognition // CoRR, vol. abs/1409.1556, 2014.
30. D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” 2014.
31. Google Colaboratory. https://colab.research.google.com/

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Мария М. УГНТУ 2017, ТФ, преподаватель
    5 (14 отзывов)
    Имею 3 высших образования в сфере Экологии и техносферной безопасности (бакалавриат, магистратура, аспирантура), работаю на кафедре экологии одного из опорных ВУЗов РФ... Читать все
    Имею 3 высших образования в сфере Экологии и техносферной безопасности (бакалавриат, магистратура, аспирантура), работаю на кафедре экологии одного из опорных ВУЗов РФ. Большой опыт в написании курсовых, дипломов, диссертаций.
    #Кандидатские #Магистерские
    27 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ
    Юлия К. ЮУрГУ (НИУ), г. Челябинск 2017, Институт естественных и т...
    5 (49 отзывов)
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - ин... Читать все
    Образование: ЮУрГУ (НИУ), Лингвистический центр, 2016 г. - диплом переводчика с английского языка (дополнительное образование); ЮУрГУ (НИУ), г. Челябинск, 2017 г. - институт естественных и точных наук, защита диплома бакалавра по направлению элементоорганической химии; СПХФУ (СПХФА), 2020 г. - кафедра химической технологии, регулирование обращения лекарственных средств на фармацевтическом рынке, защита магистерской диссертации. При выполнении заказов на связи, отвечаю на все вопросы. Индивидуальный подход к каждому. Напишите - и мы договоримся!
    #Кандидатские #Магистерские
    55 Выполненных работ
    Катерина М. кандидат наук, доцент
    4.9 (522 отзыва)
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    Кандидат технических наук. Специализируюсь на выполнении работ по метрологии и стандартизации
    #Кандидатские #Магистерские
    836 Выполненных работ
    Александр О. Спб государственный университет 1972, мат - мех, преподав...
    4.9 (66 отзывов)
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальн... Читать все
    Читаю лекции и веду занятия со студентами по матанализу, линейной алгебре и теории вероятностей. Защитил кандидатскую диссертацию по качественной теории дифференциальных уравнений. Умею быстро и четко выполнять сложные вычислительные работ
    #Кандидатские #Магистерские
    117 Выполненных работ

    Другие учебные работы по предмету