Анализ аудиоданных и распознавание событий для систем безопасности

Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0
Доржиев Зоригто Жаргалович
Бесплатно
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

В данной работе рассматривается задача классификации аудио информации, а также применяется архитектура свёрточных нейронной сетей, которая достигает хороших результатов в других прикладных задачах. Помимо этого, описывается реализация алгоритма извлечения характеристик, скачивания и подготовки данных. Для повышения качества работы классификатора представлены методы увеличения объёма данных и регуляризации. Веса нейронной сети, которая предварительно обучается на большом наборе данных, используются для небольшого узкоспециализированного набора городских звуков. Полученные модели сравниваются по точности и времени обучения в задачах бинарной классификации и мультиклассификации.

Введение …………………………………………………………………………………………. 3
Постановка задачи …………………………………………………………………………… 7
Обзор литературы …………………………………………………………………………… 11
Глава 1. Подготовка данных ……………………………………………………………. 13
1.1. Наборы данных ……………………………………………………………….. 13
1.2. Скачивание данных …………………………………………………………. 15
Глава 2. Характеристики аудио ……………………………………………………….. 18
2.1. Характеристики, связанные со временем ………………………….. 18
2.2. Спектральные характеристики …………………………………………. 20
2.3. Извлечение характеристик ……………………………………………….. 25
Глава 3. Классификация ………………………………………………………………….. 30
3.1. Предыдущие результаты ………………………………………………….. 30
3.2. Используемые методы ……………………………………………………… 31
3.3. Data Augmentation ……………………………………………………………. 32
3.4. Batch Normalization ………………………………………………………….. 34
3.5. Dropout ……………………………………………………………………………. 35
3.6. Transfer Learning ……………………………………………………………… 35
3.7. Архитектура сети …………………………………………………………….. 36
Глава 4. Тестирование и результаты ………………………………………………… 40
Заключение …………………………………………………………………………………….. 45
Список литературы …………………………………………………………………………. 47

Современные методы обработки информации сделали большой шаг вперёд в различных задачах обработки и анализа данных. В этом постоянно возрастающем объёме цифровой информации особую роль играет аудио, так как около 20% информации человек получает через слух [1]. Существует огромное количество различных стриминговых платформ и сервисов, которые предоставляют доступ к мультимедийному контенту в разных формах.
Всё это привело к тому, что появляется необходимость в разработке различных методов и систем для автоматического анализа такого контента. Новые техники и подходы помогают решать большой спектр задач: распознавание речи, поиск информации на основе аудиофайлов, мультимодальный анализ, классификация аудиофайлов, сегментация, распознавание событий для систем безопасности и автоматизации процессов и т.д.
Ранние работы на тему извлечения музыкальной информации использовали символьные представления или нотации, такие как MIDI файлы [2]. С символьными представлениями было довольно легко работать, так как они не требуют высоких производительных мощностей. Это привело к разработке инструментов для синтаксического анализа таких представлений. Монофонические и полифонические транскрипции помогали работать с аудио, используя анализ символьных представлений. Однако распространяемая цифровым путём музыка в основном имеют форму неструктурированных аудиофайлов.
Различные исследования показали, что слушатели обращают внимание не на отдельные ноты, а на другие аспекты звука, которые пропадают из поля зрения автоматических систем, делающих упор на музыкальную теорию [3]. Ни одна из
3
систем, использующих монофонические и полифонические транскрипции, не была достаточно успешной для работы с сигналами реального мира.
Развивающаяся междисциплинарная наука извлечения информации из аудио объединила различные области: информатику, машинное обучение, обработку сигналов, психологию, психоакустику. Дисциплина имеет множество практических приложений для категоризации, манипуляции и даже для генерации новой информации.
Методы, которые основываются на семантическом сходстве экземпляров, используются для создания рекомендательных систем [4]. Раннее такие системы основывались только на метаданных – информации об исполнителе, жанре, годе выпуска и т.д. Другой подход использовал информацию о прослушиваниях других пользователей и делал предложения, основываясь на соответствующих коллекциях. Современные системы позволяют взглянуть на внутреннюю структуру сигнала и анализируют непосредственно характеристики аудио.
Извлечённые характеристики помогают решить задачу сепарации трека без доступа к изначальной студийной версии. Соответствующие программы, могут распознать и разделить трек на отдельные инструменты. Таким образом создаются караоке версии музыкальных композиций, однако качество не всегда бывает идеальным, потому что диапазон частот вокала находится внутри диапазонов некоторых других инструментов.
Часть приложений делает упор на автоматической транскрипции музыки, то есть процесса приведения аудиозаписи к символьной нотации. Результатом работы таких программ могут быть данные о ритме, мелодии, гармоническая информация и конечные MIDI файлы. Эта задача усложняется при увеличении количества инструментов в миксе и высокой полифонии в случаях, когда независимые мелодии накладываются друг на друга.
4

Помимо этого, проводится большое количество исследований в области автоматической генерации аудио. Также, как и с автоматическим созданием изображений разработанные алгоритмы имеют ограниченный успех с точки зрения человеческого восприятия и оценки результата. Например, в 2019 году в день рождения немецкого композитора Иоганна Себастьяна Баха компания Google выпустила интерактивный Doodle. Пользователи могли выбрать ноты, которые использовались для составления композиции в стиле известного композитора. Модель обучалась на наборе из 306 композиций Иоганна Себастьяна Баха, составляя закономерности при помощи алгоритмов машинного обучения [5].
Область машинного обучения, связанная с использованием глубоких нейросетей, проникает во все сферы. На примере набора данных MNIST (Modified National Institute of Standards and Technology database) для классификации рукописных цифр появляются аналогичные наборы аудиоданных для анализа произнесённых цифр и пола говорящего [6, 7].
Данная работа фокусируется на решении задачи классификации аудио событий. В отличии от классификации музыки, совокупность классов событий не ограничивается жанрами, инструментами, а принимает во внимание и аудиозаписи с другим содержанием. Множество классов, которое рассматривается в работе, варьируется от звуков природы и животных до звуков городской среды. Некоторые из таких классов имеют большой интерес в области безопасности. Например, своевременное распознавание звуков стрельбы или шума разбившегося стекла может помочь соответствующим службам вовремя отреагировать на экстренную ситуацию.
В современном мире системы безопасности можно встретить повсюду. Некоторые из таких систем имеют возможность записывать не только видео, но
5

и аудио. Аудиосигнал после обработки может нести информацию, которая будет помогать работе “умного дома”.
Распознаванию звуковых событий уделяется немалый интерес в последние годы. Появляются приложения, которые решают задачи мониторинга в области здравоохранения, анализа городских звуков и даже отслеживания популяции птиц [8, 9].

В ходе работы удалось выполнить поставленные задачи. Были реализованы
алгоритмы скачивания данных, извлечения характеристик. Помимо этого, были
найдены решения для увеличения объёма выборки для небольших наборов
данных.

Полученные модели, основанные на нейросетях, способны
классифицировать широкий спектр звуковых событий. Они не уступают по
показателям ранее разработанным алгоритмам на основе методов k-ближайших
соседей и опорных векторов.

Модели, обученные на большом наборе AudioSet, неплохо показали себя
для расширенного набора Urban Sound Classification. Предыдущие работы
достигали 74% точности, предварительно обученным VGG моделям удалось
улучшить этот результат, доведя точность до 85%.

Можно отметить, что увеличение количества скрытых слоёв в VGG-
подобных моделях повышает точность лишь на небольшие значения. Возможно,
стоит обратить внимание на более простые модели с меньшим количеством
параметров, потому что для некоторых задач увеличение вычислительной
сложности только повышает время обучения.

Классификация аудиозаписей происходит со скоростью, достаточной для
работы в реальном времени. Следующими шагами в исследовании будут
внедрение автоматического захвата аудио и одновременного анализа
аудиопотока, что позволит классифицировать звуковые события, захваченные
микрофоном на любом устройстве.

Реализованные классификаторы могут быть использованы в различных
областях. Они могут помочь заранее оповестить службы об экстренной ситуации,
либо о состоянии пациента, который проходит мониторинг. Некоторые
приложение даже включают в себя отслеживание миграции животных на основе
звукового анализа.

Кроме того, подобные сети можно использовать для автоматической
генерации новых аудиозаписей. Большой интерес составляет применение
вариационных автоэнкодеров и генеративно-состязательных сетей в области
музыки.

Вероятно, новейшие алгоритмы, основанные на остаточном обучении, и
более тонкая настройка параметров смогут значительно повысить эффективность
решения задач классификации и анализа аудиоданных.

1. Dale E. Audio-Visual Methods in Teaching, 3rd ed., Holt, Rinehart & Winston,
New York, 1969, P. 108.
2. Tzanetakis G., Cook P. Audio Information Retrieval (AIR) Tools. 2002.
3. Martin K., Scheirer E., Vercoe B. Musical content analysis through models of
audition. In Proc. ACM Multimedia Workshop on Content-Based Processing of
Music, Bristol, UK, 1998.
4. Chen H., Chen A.L.P. A Music Recommendation System Based on Music and
User Grouping. J Intell Inf Syst 24, 113–132 (2005).
5. День Иоганна Себастьяна Баха.
https://www.google.com/doodles/celebrating-johann-sebastian-bach
6. LeCun Y., Cortes C., Burges CJ. MNIST handwritten digit database. // ATT
Labs. Vol. 2. 2010.
7. Free Spoken Digit Dataset (FSDD). https://github.com/Jakobovski/free-spoken-
digit-dataset
8. Goetze S., Schroder J., Gerlach S., Hollosi D., Appell J.-E., Wallhoff F. Acoustic
monitoring and localization for social care // Journal of Computing Science and
Engineering, vol. 6, no. 1, pp. 40–50.
9. 2012.Stowell D., Clayton D. Acoustic event detection for multiple overlapping
similar sources // 2015 IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics (WASPAA), 2015, pp. 1-5.
10. Jayant N., Johnston J., Safranek R. // “Signal Compression Based on Models of
Human Perception”. Proceedings of the IEEE. 81 (10): 1385–1422. (October
1993).
11. Çakir E., Parascandolo G., Heittola T., Huttunen H., Virtanen T. Convolutional
Recurrent Neural Networks for Polyphonic Sound Event Detection. 2017.
12. Giannakopoulos T. pyAudioAnalysis: An Open-Source Python Library for
Audio Signal Analysis. 2015.
13. Defferrard M., Benzi K., Vandergheynst P., Bresson X. FMA: A dataset for
music analysis. 2017.
14. Bertin-Mahieux T., Ellis D., Whitman B., Lamere P. The Million Song Dataset
// Proceedings of the 12th International Conference on Music Information
Retrieval (ISMIR). 2011.
15. Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large-scale speaker
identification dataset // INTERSPEECH. 2017.
16. Baumann T., Köhn A., Hennig F. The Spoken Wikipedia Corpus collection:
Harvesting, alignment and an application to hyperlistening // Language
Resources and Evaluation. 2018.
17. Gemmeke J., Ellis D., Freedman D., Jansen A., Lawrence W., Moore R.C.,
Plakal M., Ritter M. Audio Set: An ontology and human-labeled dataset for audio
events // Proc. IEEE ICASSP. 2017.
18. Salamon J., Jacoby C., Bello J. P. A Dataset and Taxonomy for Urban Sound
Research // 22nd ACM International Conference on Multimedia. 2014.
19. pytube3 9.6.4 documentation. https://python-pytube.readthedocs.io/en/latest/
20. FFMpeg. https://ffmpeg.org/
21. scikit-learn: machine learning in Python. https://scikit-learn.org/stable/
22. NumPy. https://numpy.org/
23. Librosa. https://librosa.github.io/
24. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training
by reducing internal covariate shift // Proceedings of Machine Learning
Research, vol. 37. PMLR, 07–09 Jul 2015, pp. 448–456.
25. Santurkar S., Tsipras D., Ilyas A., Madry A. How does batch normalization help
optimization? // Curran Associates, Inc., 2018, pp. 2483–2493.
26. G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov.
Improving neural networks by preventing co-adaptation of feature detectors //
CoRR, vol. abs/1207.0580, 2012.
27. PyTorch. https://pytorch.org/
28. K. Song and Y. Yan. A noise robust method based on completed local binary
patterns for hot-rolled steel strip surface defects // Applied Surface Science, vol.
285, pp. 858 – 864, 2013.
29. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-
scale image recognition // CoRR, vol. abs/1409.1556, 2014.
30. D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” 2014.
31. Google Colaboratory. https://colab.research.google.com/

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Читать «Анализ аудиоданных и распознавание событий для систем безопасности»

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    user1250010 Омский государственный университет, 2010, преподаватель,...
    4 (15 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    21 Выполненная работа
    Татьяна П. МГУ им. Ломоносова 1930, выпускник
    5 (9 отзывов)
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по и... Читать все
    Журналист. Младший научный сотрудник в институте РАН. Репетитор по английскому языку (стаж 6 лет). Также знаю французский. Сейчас занимаюсь написанием диссертации по истории. Увлекаюсь литературой и темой космоса.
    #Кандидатские #Магистерские
    11 Выполненных работ
    Шиленок В. КГМУ 2017, Лечебный , выпускник
    5 (20 отзывов)
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертационной работ. Помогу в медицинских науках и прикладных (хим,био,эколог)
    #Кандидатские #Магистерские
    13 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Катерина В. преподаватель, кандидат наук
    4.6 (30 отзывов)
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации... Читать все
    Преподаватель одного из лучших ВУЗов страны, научный работник, редактор научного журнала, общественный деятель. Пишу все виды работ - от эссе до докторской диссертации. Опыт работы 7 лет. Всегда на связи и готова прийти на помощь. Вместе удовлетворим самого требовательного научного руководителя. Возможно полное сопровождение: от статуса студента до получения научной степени.
    #Кандидатские #Магистерские
    47 Выполненных работ
    Анастасия Л. аспирант
    5 (8 отзывов)
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибост... Читать все
    Работаю в сфере метрологического обеспечения. Защищаю кандидатскую диссертацию. Основной профиль: Метрология, стандартизация и сертификация. Оптико-электронное прибостроение, управление качеством
    #Кандидатские #Магистерские
    10 Выполненных работ
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа
    Лидия К.
    4.5 (330 отзывов)
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии ... Читать все
    Образование высшее (2009 год) педагог-психолог (УрГПУ). В 2013 году получено образование магистр психологии. Опыт преподавательской деятельности в области психологии и педагогики. Написание диссертаций, ВКР, курсовых и иных видов работ.
    #Кандидатские #Магистерские
    592 Выполненных работы

    Другие учебные работы по предмету