Сравнительный анализ алгоритмов машинного обучения в задачах исследования фондового рынка
Объект исследования – Проведение анализа различных методов машинного обучения, архитектур нейросетей, библиотек и инструментов, с целью их дальнейшего применения для рассматриваемой задачи. Поиск, предобработка, оптимизация и нормализация данных для обучения и тестирования и программная реализация модели.
Работа состоит из введения, обзора литературы, постановки задачи, четырёх глав, вывода, заключения и списка использованной литературы.
В ведении раскрывается актуальность выбранной темы. В обзоре литературы мною рассматриваются книги, интернет-статьи и публикации относящиеся к данной задаче. Далее ставится задача проводимого исследования.
В первой и второй главе проводится анализ различных алгоритмов машинного обучения, обзор библиотек и фреймворков используемых в работе.
В третьей и четвертой главе проводится построение и настройка моделей и визуализация результатов в виде графиков.
В выводе перечислены и охарактеризованы полученные результаты исследования, и предложены способы улучшения результатов в дальнейшем.
В заключении кратко проведено описание выполненных передо мною задач и подводятся итоги данной работы.
Используемые сокращения и определения 3
Введение 4
Постановка задачи 7
Обзор литературы 8
ГЛАВА 1. Анализ методов глубинного обучения, библиотек и
инструментов 10
1.1. Рекуррентная нейронная сеть (RNN) – LSTM………………………………………11
1.2. MLP…………………………………………………………………………………………………..13
ГЛАВА 2. Алгоритмы машинного обучения 16
2.1. Регуляризация………………..………………………………………………………….16
2.2. Линейная регрессия…………………………………………………………………………..19
2.3. Случайный лес…………………………………………………………………………..22
2.4. K-соседи……………………………………………………………………………………24
2.5. Функции потерь…………………………………………………………………………..25
2.6. Библиотеки и инструменты………………………………………………………………26
ГЛАВА 3. Подготовка данных и построение предсказательной модели.
Обучение 28
3.1. Набор данных. Методика прогноза. OHLC….…………………………………28
3.2. Подготовка данных………………………………………………………………………….30
3.3. Нормализация данных..…………………………………………………..33
3.4. Настройка и построение моделей……………………………………………………..34
ГЛАВА 4. Визуализация и результаты 43
4.1. Реализация……………………………………………………………………………………..43
Выводы 53
Заключение 54
Список литературы 55
Используемые сокращения и определения
Приведём основные понятия и термины, используемые в данной работе:
RNN – рекуррентная нейронная сеть, это вид нейронных сетей, где связи
между элементами образуют направленную последовательность. Благодаря
этому появляется возможность обрабатывать серии событий во времени или
последовательные пространственные цепочки.
LSTM – Долгая краткосрочная память. Разновидность архитектуры
рекуррентных нейронных сетей.
Нейрон — это вычислительная единица, которая получает
информацию, производит над ней простые вычисления и передает ее дальше.
Синапс – связь между несколькими нейронами.
Цена закрытия (closing price) –цена последней сделки,
зарегистрированная при закрытии срочной биржи по окончании рабочего
дня.
Объём (volume) – технический индикатор, отражающий реальный
объём (оборот) торгов по количеству купленных, проданных к примеру, акций
за выбранный промежуток времени.
Эпоха – один проход по всему набору данных, используемый для
разделения обучения на отдельные фазы, важно для ведения логов и
периодической оценки.
МО- Машинное обучение
НС – Нейронная сеть
LR – Linear Regression
Прогнозирование фондового рынка – это попытка определить будущую
стоимость акций компании или другого финансового инструмента, торгуемого
на бирже. Успешное прогнозирование будущей цены акций может принести
хорошую прибыль.
Гипотеза об эффективном рынке говорит, что цены на акции отражают
всю имеющуюся в настоящее время информацию, и любые изменения цен,
которые не основаны на недавно выявленной информации, по своей сути
непредсказуемы. Другие не согласны, и те, у кого есть эта точка зрения,
обладают бесчисленными методами и технологиями, которые
предположительно позволяют им получать информацию о будущих ценах.
Из полученных результатов следует, что точнее всего оказались модели
LinearRegression и RandomForestRegressor. Причём модели Линейной
регрессии именно без применения различных регуляризаций даже
после тщательной нормализации данных. Возможно, такой результат
был обусловлен спецификой исследуемых данных.
Выполненная работа показывает отсутствие паттернов в
техническом анализе данных данного рода задач. Возможно такие
паттерны имели место, если производилась бы классификация и к тому
же брались, к примеру, минутные цены внутри одного дня и для них
осуществлялись бы предсказания.
В результате исследования также можно отметить, что если в
одном случае имеется картина прогноза за 10 дней и поведение цены
произошло одним образом на 11-й день, то в следующий раз при
повторении точно такой же ситуации она может повести себя
совершенно случайным образом.
Поэтому, и нейронные сети, и обычные алгоритмы либо сильно
ошибаются, либо наконец понимают, что самой выигрышной
стратегией будет являться предсказание где цена останется на уровне
предыдущего дня. То есть с равной вероятностью подъёма вниз или
вверх. Тогда ошибка начнёт уменьшаться, и предсказания начнёт
строиться по этому принципу.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!