В данной работе рассматривается задача классификации аудио информации, а также применяется архитектура свёрточных нейронной сетей, которая достигает хороших результатов в других прикладных задачах. Помимо этого, описывается реализация алгоритма извлечения характеристик, скачивания и подготовки данных. Для повышения качества работы классификатора представлены методы увеличения объёма данных и регуляризации. Веса нейронной сети, которая предварительно обучается на большом наборе данных, используются для небольшого узкоспециализированного набора городских звуков. Полученные модели сравниваются по точности и времени обучения в задачах бинарной классификации и мультиклассификации.

Введение …………………………………………………………………………………………. 3
Постановка задачи …………………………………………………………………………… 7
Обзор литературы …………………………………………………………………………… 11
Глава 1. Подготовка данных ……………………………………………………………. 13
1.1. Наборы данных ……………………………………………………………….. 13
1.2. Скачивание данных …………………………………………………………. 15
Глава 2. Характеристики аудио ……………………………………………………….. 18
2.1. Характеристики, связанные со временем ………………………….. 18
2.2. Спектральные характеристики …………………………………………. 20
2.3. Извлечение характеристик ……………………………………………….. 25
Глава 3. Классификация ………………………………………………………………….. 30
3.1. Предыдущие результаты ………………………………………………….. 30
3.2. Используемые методы ……………………………………………………… 31
3.3. Data Augmentation ……………………………………………………………. 32
3.4. Batch Normalization ………………………………………………………….. 34
3.5. Dropout ……………………………………………………………………………. 35
3.6. Transfer Learning ……………………………………………………………… 35
3.7. Архитектура сети …………………………………………………………….. 36
Глава 4. Тестирование и результаты ………………………………………………… 40
Заключение …………………………………………………………………………………….. 45
Список литературы …………………………………………………………………………. 47

Современные методы обработки информации сделали большой шаг вперёд в различных задачах обработки и анализа данных. В этом постоянно возрастающем объёме цифровой информации особую роль играет аудио, так как около 20% информации человек получает через слух [1]. Существует огромное количество различных стриминговых платформ и сервисов, которые предоставляют доступ к мультимедийному контенту в разных формах.
Всё это привело к тому, что появляется необходимость в разработке различных методов и систем для автоматического анализа такого контента. Новые техники и подходы помогают решать большой спектр задач: распознавание речи, поиск информации на основе аудиофайлов, мультимодальный анализ, классификация аудиофайлов, сегментация, распознавание событий для систем безопасности и автоматизации процессов и т.д.
Ранние работы на тему извлечения музыкальной информации использовали символьные представления или нотации, такие как MIDI файлы [2]. С символьными представлениями было довольно легко работать, так как они не требуют высоких производительных мощностей. Это привело к разработке инструментов для синтаксического анализа таких представлений. Монофонические и полифонические транскрипции помогали работать с аудио, используя анализ символьных представлений. Однако распространяемая цифровым путём музыка в основном имеют форму неструктурированных аудиофайлов.
Различные исследования показали, что слушатели обращают внимание не на отдельные ноты, а на другие аспекты звука, которые пропадают из поля зрения автоматических систем, делающих упор на музыкальную теорию [3]. Ни одна из
3
систем, использующих монофонические и полифонические транскрипции, не была достаточно успешной для работы с сигналами реального мира.
Развивающаяся междисциплинарная наука извлечения информации из аудио объединила различные области: информатику, машинное обучение, обработку сигналов, психологию, психоакустику. Дисциплина имеет множество практических приложений для категоризации, манипуляции и даже для генерации новой информации.
Методы, которые основываются на семантическом сходстве экземпляров, используются для создания рекомендательных систем [4]. Раннее такие системы основывались только на метаданных – информации об исполнителе, жанре, годе выпуска и т.д. Другой подход использовал информацию о прослушиваниях других пользователей и делал предложения, основываясь на соответствующих коллекциях. Современные системы позволяют взглянуть на внутреннюю структуру сигнала и анализируют непосредственно характеристики аудио.
Извлечённые характеристики помогают решить задачу сепарации трека без доступа к изначальной студийной версии. Соответствующие программы, могут распознать и разделить трек на отдельные инструменты. Таким образом создаются караоке версии музыкальных композиций, однако качество не всегда бывает идеальным, потому что диапазон частот вокала находится внутри диапазонов некоторых других инструментов.
Часть приложений делает упор на автоматической транскрипции музыки, то есть процесса приведения аудиозаписи к символьной нотации. Результатом работы таких программ могут быть данные о ритме, мелодии, гармоническая информация и конечные MIDI файлы. Эта задача усложняется при увеличении количества инструментов в миксе и высокой полифонии в случаях, когда независимые мелодии накладываются друг на друга.
4

Помимо этого, проводится большое количество исследований в области автоматической генерации аудио. Также, как и с автоматическим созданием изображений разработанные алгоритмы имеют ограниченный успех с точки зрения человеческого восприятия и оценки результата. Например, в 2019 году в день рождения немецкого композитора Иоганна Себастьяна Баха компания Google выпустила интерактивный Doodle. Пользователи могли выбрать ноты, которые использовались для составления композиции в стиле известного композитора. Модель обучалась на наборе из 306 композиций Иоганна Себастьяна Баха, составляя закономерности при помощи алгоритмов машинного обучения [5].
Область машинного обучения, связанная с использованием глубоких нейросетей, проникает во все сферы. На примере набора данных MNIST (Modified National Institute of Standards and Technology database) для классификации рукописных цифр появляются аналогичные наборы аудиоданных для анализа произнесённых цифр и пола говорящего [6, 7].
Данная работа фокусируется на решении задачи классификации аудио событий. В отличии от классификации музыки, совокупность классов событий не ограничивается жанрами, инструментами, а принимает во внимание и аудиозаписи с другим содержанием. Множество классов, которое рассматривается в работе, варьируется от звуков природы и животных до звуков городской среды. Некоторые из таких классов имеют большой интерес в области безопасности. Например, своевременное распознавание звуков стрельбы или шума разбившегося стекла может помочь соответствующим службам вовремя отреагировать на экстренную ситуацию.
В современном мире системы безопасности можно встретить повсюду. Некоторые из таких систем имеют возможность записывать не только видео, но
5

и аудио. Аудиосигнал после обработки может нести информацию, которая будет помогать работе “умного дома”.
Распознаванию звуковых событий уделяется немалый интерес в последние годы. Появляются приложения, которые решают задачи мониторинга в области здравоохранения, анализа городских звуков и даже отслеживания популяции птиц [8, 9].

В ходе работы удалось выполнить поставленные задачи. Были реализованы
алгоритмы скачивания данных, извлечения характеристик. Помимо этого, были
найдены решения для увеличения объёма выборки для небольших наборов
данных.

Полученные модели, основанные на нейросетях, способны
классифицировать широкий спектр звуковых событий. Они не уступают по
показателям ранее разработанным алгоритмам на основе методов k-ближайших
соседей и опорных векторов.

Модели, обученные на большом наборе AudioSet, неплохо показали себя
для расширенного набора Urban Sound Classification. Предыдущие работы
достигали 74% точности, предварительно обученным VGG моделям удалось
улучшить этот результат, доведя точность до 85%.

Можно отметить, что увеличение количества скрытых слоёв в VGG-
подобных моделях повышает точность лишь на небольшие значения. Возможно,
стоит обратить внимание на более простые модели с меньшим количеством
параметров, потому что для некоторых задач увеличение вычислительной
сложности только повышает время обучения.

Классификация аудиозаписей происходит со скоростью, достаточной для
работы в реальном времени. Следующими шагами в исследовании будут
внедрение автоматического захвата аудио и одновременного анализа
аудиопотока, что позволит классифицировать звуковые события, захваченные
микрофоном на любом устройстве.

Реализованные классификаторы могут быть использованы в различных
областях. Они могут помочь заранее оповестить службы об экстренной ситуации,
либо о состоянии пациента, который проходит мониторинг. Некоторые
приложение даже включают в себя отслеживание миграции животных на основе
звукового анализа.

Кроме того, подобные сети можно использовать для автоматической
генерации новых аудиозаписей. Большой интерес составляет применение
вариационных автоэнкодеров и генеративно-состязательных сетей в области
музыки.

Вероятно, новейшие алгоритмы, основанные на остаточном обучении, и
более тонкая настройка параметров смогут значительно повысить эффективность
решения задач классификации и анализа аудиоданных.

1. Dale E. Audio-Visual Methods in Teaching, 3rd ed., Holt, Rinehart & Winston,
New York, 1969, P. 108.
2. Tzanetakis G., Cook P. Audio Information Retrieval (AIR) Tools. 2002.
3. Martin K., Scheirer E., Vercoe B. Musical content analysis through models of
audition. In Proc. ACM Multimedia Workshop on Content-Based Processing of
Music, Bristol, UK, 1998.
4. Chen H., Chen A.L.P. A Music Recommendation System Based on Music and
User Grouping. J Intell Inf Syst 24, 113–132 (2005).
5. День Иоганна Себастьяна Баха.
https://www.google.com/doodles/celebrating-johann-sebastian-bach
6. LeCun Y., Cortes C., Burges CJ. MNIST handwritten digit database. // ATT
Labs. Vol. 2. 2010.
7. Free Spoken Digit Dataset (FSDD). https://github.com/Jakobovski/free-spoken-
digit-dataset
8. Goetze S., Schroder J., Gerlach S., Hollosi D., Appell J.-E., Wallhoff F. Acoustic
monitoring and localization for social care // Journal of Computing Science and
Engineering, vol. 6, no. 1, pp. 40–50.
9. 2012.Stowell D., Clayton D. Acoustic event detection for multiple overlapping
similar sources // 2015 IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics (WASPAA), 2015, pp. 1-5.
10. Jayant N., Johnston J., Safranek R. // “Signal Compression Based on Models of
Human Perception”. Proceedings of the IEEE. 81 (10): 1385–1422. (October
1993).
11. Çakir E., Parascandolo G., Heittola T., Huttunen H., Virtanen T. Convolutional
Recurrent Neural Networks for Polyphonic Sound Event Detection. 2017.
12. Giannakopoulos T. pyAudioAnalysis: An Open-Source Python Library for
Audio Signal Analysis. 2015.
13. Defferrard M., Benzi K., Vandergheynst P., Bresson X. FMA: A dataset for
music analysis. 2017.
14. Bertin-Mahieux T., Ellis D., Whitman B., Lamere P. The Million Song Dataset
// Proceedings of the 12th International Conference on Music Information
Retrieval (ISMIR). 2011.
15. Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large-scale speaker
identification dataset // INTERSPEECH. 2017.
16. Baumann T., Köhn A., Hennig F. The Spoken Wikipedia Corpus collection:
Harvesting, alignment and an application to hyperlistening // Language
Resources and Evaluation. 2018.
17. Gemmeke J., Ellis D., Freedman D., Jansen A., Lawrence W., Moore R.C.,
Plakal M., Ritter M. Audio Set: An ontology and human-labeled dataset for audio
events // Proc. IEEE ICASSP. 2017.
18. Salamon J., Jacoby C., Bello J. P. A Dataset and Taxonomy for Urban Sound
Research // 22nd ACM International Conference on Multimedia. 2014.
19. pytube3 9.6.4 documentation. https://python-pytube.readthedocs.io/en/latest/
20. FFMpeg. https://ffmpeg.org/
21. scikit-learn: machine learning in Python. https://scikit-learn.org/stable/
22. NumPy. https://numpy.org/
23. Librosa. https://librosa.github.io/
24. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training
by reducing internal covariate shift // Proceedings of Machine Learning
Research, vol. 37. PMLR, 07–09 Jul 2015, pp. 448–456.
25. Santurkar S., Tsipras D., Ilyas A., Madry A. How does batch normalization help
optimization? // Curran Associates, Inc., 2018, pp. 2483–2493.
26. G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov.
Improving neural networks by preventing co-adaptation of feature detectors //
CoRR, vol. abs/1207.0580, 2012.
27. PyTorch. https://pytorch.org/
28. K. Song and Y. Yan. A noise robust method based on completed local binary
patterns for hot-rolled steel strip surface defects // Applied Surface Science, vol.
285, pp. 858 – 864, 2013.
29. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-
scale image recognition // CoRR, vol. abs/1409.1556, 2014.
30. D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” 2014.
31. Google Colaboratory. https://colab.research.google.com/

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Последние выполненные заказы

Хочешь уникальную работу?

Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.

#Кандидатские #Магистерские

21 Выполненная работа

Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по и... Читать все

Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по истории. Увлекаюсь литературой и темой космоса.

#Кандидатские #Магистерские

11 Выполненных работ

Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все

#Кандидатские #Магистерские

13 Выполненных работ

Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все

Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)

#Кандидатские #Магистерские

38 Выполненных работ

Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все

Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.

#Кандидатские #Магистерские

224 Выполненных работы

Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все

Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.

#Кандидатские #Магистерские

47 Выполненных работ

Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибост... Читать все

#Кандидатские #Магистерские

10 Выполненных работ

Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все

#Кандидатские #Магистерские

31 Выполненная работа

Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все

Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.

#Кандидатские #Магистерские

592 Выполненных работы