Применение генеративно-состязательных сетей в задаче генерации сложных музыкальных произведений
В выпускной квалификационной работе представлены исследования применения сверточных генеративно состязательных сетей в задаче генерации сложных музыкальных произведений. Разработаны программы, позволяющие автоматизировать процесс получения и подготовки данных для обучения. Проведены эксперименты с различными типами генеративно состязательных сетей и автоэнкодеров. А завершении работы были проанализированы результаты генерации, а также предложен ряд экспериментов по улучшению качества сгенерированных данных.
Введение…………………………………………………………………………………………… 12
1. Обзор литературы……………………………………………………………………….. 13
1.1 Генеративно-состязательные сети………………………………………….. 13
1.2 MuseGAN ……………………………………………………………………………… 14
1.3 WaveGAN ……………………………………………………………………………… 15
1.4 GANSynth ……………………………………………………………………………… 17
2. Получение и подготовка данных для обучения ……………………………. 20
2.1 Загрузка неподготовленных данных из видеохостинга Youtube 20
2.2 Подготовка данных ……………………………………………………………….. 21
2.2.1 Преобразование аудио в одинаковый формат …………………… 21
2.2.2 Разделение аудио на музыкальные составляющие ……………. 21
2.2.3 Удаление шумов из вокальной партии ……………………………… 22
2.2.4 Разделение аудио на отрезки, содержащие вокал ……………… 22
2.2.5 Извлечение акустических характеристик. Спектрограммы. . 23
3. Эксперименты с АЕ и ВАЕ …………………………………………………………. 27
3.1 Обучение сети автоэнкодера …………………………………………………. 27
3.2 Обучение сети вариационного автоэнкодера………………………….. 29
4. Эксперименты с сверточными генеративно-состязательными сетями
…………………………………………………………………………..32
4.1 Глубокая сверточная генеративно-состязательная сеть ………….. 32
4.2 Эксперименты с генеративно-состязательной сетью,
использующей функцию потерь Вассерштейна и градиентный штраф . 33
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение …………………………………………………………………………… 39
6. Социальная ответственность……………………………………………………….. 54
Заключение ………………………………………………………………………………………. 68
Список источников …………………………………………………………………………… 69
Приложение А (Downloading and preparing data for training) ………………. 73
Приложение Б …………………………………………………………………………………… 85
Синтез звука для определенных областей имеет множество
практических применений в творческом звуковом дизайне для музыки и кино.
Музыканты и артисты просматривают большие базы данных звуковых
эффектов, чтобы найти конкретные аудиозаписи, подходящие для конкретных
сценариев. Эта стратегия кропотлива и может не дать результатов, если
идеальный звуковой эффект отсутствует в библиотеке.
Несмотря на огромное, постоянное растущее количество музыкального
контента в интернете, создание новых музыкальных произведений все еще
остается актуальным, как актуально создание произведений других видов
искусства. Появляются и исчезают новые жанры, исполнители и музыканты.
Вместе с тем становится все более заметным рост интереса к автоматической
генерации музыкальных произведений. Однако существующие на текущий
момент результаты в большинстве случаев являются монофоническими или
используют синтезированные звуки музыкальных инструментов. Это в свою
очередь оставляет большой простор для исследований.
В данной работе рассматриваются современные подходы к генерации
музыкальных произведений с помощью генеративно-состязательных сетей, их
особенности. Рассматривается процесс автоматизированного получения, и
подготовки данных для обучения. Также, исследуется возможность
представления данных, посредством извлечения скрытого вектора из
обученного вариационного автоэнкодера. Проводятся эксперименты по
созданию музыки с помощью генеративно-состязательных сетей.
Объектом исследования является изучение моделей генеративно-
состязательных сетей для генерации аудиопоследовательностей.
Предмет исследования: исследование возможностей генеративно-
состязательных сетей создавать реалистичные многоканальные
аудиопоследовательности.
В ходе проделанной работы были проведены эксперименты с
генеративно-состязательными сетями в задаче генерации сложных
музыкальных произведений. Для этого был разработан ряд скриптов,
позволяющих автоматизировать процесс получения и подготовки данных.
Проведены эксперименты с автоэнкодерами и вариационными автоэнкодерами,
которые показали, что автоэнкодеры достаточно хорошо могут
реконструировать спектрограмм вокальной партии, однако даже с применением
вариационных автоэнкодеров не удается создать качественное непрерывное
распределение, из которого можно было бы генерировать новые композиции
или использовать в качестве скрытого представления. Вокальная партия
оказалась слишком сложной для обычной архитектуры генеративно-
состязательной сети, которая не смогла сойтись и обучение пришлось
остановить. В противовес этому генеративно-состязательная сеть с
использованием функции потерь Вассерштейна и штрафом градиента смогла
справиться с генерацией вокальной и инструментальных партий, пусть и
добавив к ним заметное количество шума. Слишком большое разнообразие
партий остальных инструментов не позволило сети изучить их распределение
достаточно хорошо, чтобы она могла сгенерировать хотя бы одну партию,
похожую на реальную.
В дальнейшем предполагается провести ряд экспериментов, которые
приводятся в конце раздела 4. Предполагается, что их комбинация может
значительно повысить генеративные возможности сети и позволить сделать
генерацию управляемой и более качественной.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!