Алгоритмическое обеспечение нейронной сети с полиномиальными кусочно-непрерывными функциями активации для обнаружения закономерностей в данных
ВВЕДЕНИЕ ………………………………………………………………………………………………………. 4
1 ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ: ОСНОВНЫЕ ДОСТИЖЕНИЯ И
ПРОБЛЕМЫ, НЕОБХОДИМОСТЬ СОЗДАНИЯ НОВЫХ ФУНКЦИЙ
АКТИВАЦИИ …………………………………………………………………………………………………. 13
1.1 Искусственные нейронные сети ………………………………………………………………… 13
1.2 Алгоритмы обучения нейронных сетей ……………………………………………………… 23
1.3 Новые функции активации, основанные на функциях принадлежности нечетких
чисел …………………………………………………………………………………………………………….. 29
1.4 Выводы по первой главе …………………………………………………………………………… 38
2 МНОГОСЛОЙНЫЕ ОДНОНАПРАВЛЕННЫЕ НЕЙРОННЫЕ СЕТИ С НОВЫМИ
ФУНКЦИЯМИ АКТИВАЦИИ ДЛЯ ПРОГНОЗА И ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ
СИГНАЛОВ…………………………………………………………………………………………………….. 40
2.1 Использование новых функций активации в многослойной однонаправленной
нейронной сети для прогноза значений временных рядов ………………………………… 40
2.1.1 Временный ряд ……………………………………………………………………………………. 40
2.1.2 Создание нейронной сети с использованием метода скользящего окна для
прогноза временных рядов …………………………………………………………………………… 41
2.2 Определение амплитуды детерминированного сигнала на фоне белого шума с
помощью ННС второго типа ………………………………………………………………………….. 50
2.3 Выводы по второй главе …………………………………………………………………………… 55
3 НЕЧЕТКАЯ НЕЙРОСЕТЕВАЯ КЛАССИФИКАЦИЯ ИНТЕНСИВНОСТИ
МАРКОВСКОГО СЛУЧАЙНОГО ПОТОКА СОБЫТИЙ …………………………………… 57
3.1 Марковские случайные процессы ……………………………………………………………… 57
3.2 Настройка функций активации ………………………………………………………………….. 59
3.3 Обучение ННС …………………………………………………………………………………………. 62
3.4 Эксперименты по классификации интенсивности потоков событий …………….. 66
3.5 Выводы по третьей главе ………………………………………………………………………….. 75
4 НЕЙРО-НЕЧЕТКАЯ КЛАССИФИКАЦИЯ ОБЪЕКТОВ И ИХ СОСТОЯНИЙ …… 76
4.1 Нейро-нечеткий классификатор ………………………………………………………………… 78
4.2 Обучение нейро-нечеткого классификатора ……………………………………………….. 81
4.3 Тестирование нейро-нечеткого классификатора …………………………………………. 86
4.4 Выводы по четвертой главе ………………………………………………………………………. 89
ЗАКЛЮЧЕНИЕ ……………………………………………………………………………………………….. 91
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ …………………………….. 94
СПИСОК ЛИТЕРАТУРЫ …………………………………………………………………………………. 96
Приложение А. Акт внедрения в учебный процесс …………………………………………… 110
Приложение Б. Акт внедрения в компании Midas Core Pte Ltd ………………………….. 111
Приложение В. Акт внедрения в компании Center of Education and Technology
Transfer VIET4C …………………………………………………………………………………………….. 112
Актуальность темы исследования. Методы и технологии искусственного
интеллекта используются для решения многих практических задач: автоматизации и
роботизации технологических процессов и производств, проектирования
информационно-вычислительных систем, телекоммуникационных и компьютерных
сетей и т.д. Искусственные нейронные сети и технологии, базирующиеся на них,
занимают лидирующие позиции среди методов и технологий искусственного
интеллекта. В естественных и технических науках задачи делятся на формализуемые
и неформализуемые. Постановка любой задачи заключается в том, чтобы перевести
ее словесное, вербальное описание в формальное. В случае относительно простых
задач такой переход осуществляется в сознании (естественном интеллекте) человека.
Если полученная формальная модель (математическая зависимость между
величинами в виде формулы, уравнения, системы уравнений) опирается на
фундаментальный закон или подтверждается экспериментом, то этим доказывается
ее адекватность отображаемой ситуации, и модель рекомендуется для решения задач
соответствующего класса. Неформализуемые задачи невозможно представить,
используя только естественный интеллект человека, в виде каких-то формальных
моделей. С развитием науки и техники количество таких неформализуемых задач
постоянно растет. К числу неформализуемых задач относятся и задачи обнаружения
скрытых закономерностей в наборах данных. Для их решения развиваются
специальные приемы и методы, обобщенные в теории систем и системном анализе,
создаются экспертные системы – интеллектуальные системы, основанные на
знаниях. Роль методов искусственного интеллекта, теории нейронных сетей и
нейросетевых технологий в реализации методик системного анализа и разработке
интеллектуальных систем трудно переоценить. Решение неформализуемых задач
осложняется различными видами НЕ-факторов знаний: неопределенность,
нечеткость, неточность, недоопределенность и неполнота знаний эксперта о
свойствах проблемной области.
Таким образом, задача обнаружения скрытых закономерностей в наборах
данных на основе нейросетевых технологий является актуальной в научном аспекте
и практически значимой.
Степень научной разработанности проблемы. Для повышения
эффективности систем обработки информации и снижения вычислительных затрат, в
теории нейронных сетей и нейросетевых технологий разрабатываются новые
функции активации. Большая работа в этом направлении проведена такими
авторами, как Билски Дж., Вонг К.В., Леунг К.С., Нага К., Накаямма К., и др. Билски
Дж. предложил новую логарифмическую функцию активации. Подробное сравнение
между этой логарифмической функцией активации и различными простыми
функциями активации, основанными на экспонентах сделано Азизом С.М.,
Камруззаманом Дж. Авторы исследуют скорость обучения и скорость сходимости по
проблеме распознавания символов и классической проблеме классификации XOR,
предлагая использовать обратную функцию тангенса как функцию активации. Они
так же сравнивают эффективность обучения в терминах эпох, необходимых для
изучения задачи, с предложенной обратной функцией тангенса, с классическими
сигмоидальными и гиперболическими функциями тангенса и новой
логарифмической функции активации, найденной Билски Дж, обнаруживая
значительный прирост производительности. Пиккневский Ф., Рыбицкий Л.
предложили две функции активации, одна из которых основана на интеграции
треугольной функции, а другая – на разнице между двумя сигмоидами (лог-
экспоненциальная), и сравнивается с помощью метода барицентрического
построения, который проецирует возможности отображения сети в гиперразмерный
куб. Исследование показало, что лог-экспоненциальная функция медленно
ускорялась, но она была эффективной в многослойном перцептроне с обучением
методом обратного распространения. Гуарнери С., Камполуччи П., Каппарелли Ф.,
Пьяцца Ф., Унчини А. используют в качестве функции активации кусочную
интерполяцию на основе кубических сплайнов, обеспечивающую характеристики,
сравнимые с сигмоидальной функцией, с уменьшенными вычислительными
затратами. Ма Л., Хорасани К. предложили функцию активации, которая
представляется ортонормированными полиномами Эрмита. Каждый добавленный
нейрон в скрытом слое характеризуется функцией активации, которая является более
сложной по сравнению с имеющимися нейронами. С помощью обширного
моделирования авторы доказывают, что такая сеть демонстрирует отличные
характеристики по сравнению с аналогичными нейронными сетями с идентичными
сигмовидными функциями активации. Функция активации также исследован Вонгом
К. В., Леунгом С. С., Чанегом С. Авторы исследовали обучение нейронных сетей с
помощью алгоритма расширенного фильтра Калмана. Сеть протестирована на
классические сигмоидальные и синусоидальные функции активации, распознавание
рукописного ввода, прогнозирование временных рядов, создание четности и
отображение XOR. Они доказывают, что предложенная периодическая функция
превосходит обе классические функции активации с точки зрения конвергенции
обучения. Накаямма К., Хара К., предлагают комбинацию сигмоидальной и
синусоидальной и гауссовской функции активации, чтобы использовать их
независимые свойства деления пространства. Авторы сравнивают гибридную
структуру в задаче классификации многочастотных сигналов, делая вывод, что
комбинация трех функции активации работает эффективнее, чем сигмоидальная (по
скорости сходимости) и гауссовская (по шумоподавлению) и синусоидальная
функция активации, даже если каждая из них обеспечивает достижение лучших
результатов по отмеченным выше критериям.
Объединение нейронных сетей с функциями принадлежности из теории
нечетких систем нашло применение для решения задач прогнозирования и
классификации состояний объектов. Гомес-Чова Л., Кэмпс-Вальс Г., Кальпе-
Маравилья Ж., Мартин-Герреро Ж.Д., Сория-Оливас Э., Серрано-Лопес А.
определяют передачу гиперболического тангенса с помощью трех различных
функций принадлежности, фактически определяя классическую функцию активации
с помощью нечеткой логики. Основным преимуществом на этапе обучения является
низкая вычислительная стоимость, обеспечиваемая тем, что обновление веса не
всегда необходимо. Дополнительное применение нейронных сетей с нечеткими
функцями активации можно найти в работе Субаси А. Автор использует нейронные
сети для обнаружения эпилептического припадка, обработки и классификации
электроэнцефалографии сигналов. Вон И., Хунь Х.Т. предлагают метод
аналитического обучения, отмеченный как экстремальное машинное обучение, для
нейронных сетей с нечеткими функциями активации. Авторы тестируют методику
по проблемам медицинской диагностики, классификации изображений и анализа
спутниковых изображений. Ярушкиной Н.Г. представлена генетическая нейро-
нечеткая система, которая построена на основе многослойной архитектуры с
использованием И-, ИЛИ-нейронов и принципом «конкуренции и кооперации». В
работе Ярушкиной Н.Г. также отметим совместное применение генетических
алгоритмов и нейронных сетей – это настройка функций принадлежности нечетких и
нейро-нечетких систем.
Таким образом, существует обширное научное поле, в котором
рассматриваются проблемы разработки функций активации в теории нейронных
сетей и функции принадлежности, изучаемые в теории нечетких систем, на основе
которых можно создать новые нейронные сети с нечеткими функциями активации
для решения задач обнаружения закономерностей в наборах данных.
Объектом исследования являются нейронные сети нового типа с функциями
активации, базирующимися на функциях принадлежности теории нечетких систем.
Предметом исследования является моделирование и применение новых
нейронных сетей для решения типовых задач обнаружения закономерностей в
наборах данных: прогнозирования временных рядов, амплитуды
детерминированного сигнала на фоне белого шума, классификации интенсивности
марковского случайного потока событий и классификации объектов и их состояний.
Целью работы является разработка и исследовании нейронных сетей нового
типа с полиномиальными кусочно-непрерывными функциями активации для
обнаружения закономерностей в наборах данных, алгоритмов обучения и
программных средств создания нечетких нейронных сетей для решения типовых
задач обнаружения закономерностей в наборах данных.
Задачи исследования. Для достижения намеченной цели были решены
следующие задачи:
1. Анализ существующих полиномиальных кусочно-непрерывных функций
принадлежности в теории нечетких систем с целью их использования в качестве
функции активации нечетких нейронных сетей.
2. Разработка тестовых наборов данных для типовых задач обнаружения
закономерностей в данных.
3. Построение моделей нечетких нейронных сетей для тестовых задач
обнаружения закономерностей в данных:
− прогнозирование временных рядов со стохастическим трендом;
− определение параметров детерминированного сигнала на фоне белого
шума;
− классификация интенсивности марковского случайного потока событий;
− классификация объектов и их состояний.
4. Разработка алгоритмов обучения нечетких нейронных сетей для выше
перечисленных тестовых задач обнаружения закономерностей в данных.
5. Математическое моделирование нечетких нейронных сетей для выше
перечисленных тестовых задач обнаружения закономерностей в данных.
Научная новизна работы заключается в следующем:
1. Разработаны новые функции активации для нейронных сетей, которые
основаны на функциях принадлежности теории нечетких систем и теории
надежности, и на их базе разработаны новые нейронные сети.
2. Модифицированы алгоритмы обучения нейронных сетей для типовых
задач обнаружения закономерностей в наборах данных. Усовершенствованы метод
Левенберга – Марквардта, алгоритм кластеризации K – средних, вычисление весов
выходного слоя нечетких нейронных сетей с использованием псевдообратного
метода, алгоритм масштабированного cопряженного градиента.
3. Созданы модели новых нейронных сетей для типовых задач
обнаружения закономерностей в наборах данных: прогнозирование временных
рядов, определение амплитуды детерминированного сигнала на фоне белого шума,
классификация интенсивности марковского случайного потока событий и
классификация объектов и их состояний.
Теоретическая значимость и практическая значимость работы.
Предложенные в диссертации модели и алгоритмы могут быть применены для
создания программного обеспечения нечеткого нейросетевого классификатора для
повышения эффективности решения следующих практических задач:
1. Прогнозирование временных рядов со стохастическим трендом.
2. Определение параметров сигнала на фоне помех (шум) при диагностике
технических систем.
3. Определение трафика в телекоммуникационных и компьютерных сетях
как интенсивности марковского случайного потока событий.
4. Классификация сложных объектов и определение их состояний.
Результаты диссертации использованы в учебном процессе кафедры
«Автоматизированные системы управления» в федеральном государственном
бюджетном образовательном учреждении высшего образования «Томский
государственный университет систем управления и радиоэлектроники».
Методы исследования основаны на теории нечетких систем, теории принятия
решений, нейроинформатике, методах обучения нейронных сетей, цифровой
обработки сигналов.
Научные положения, выносимые на защиту:
1. Новые функция активации нейронных сетей, основанные на функциях
принадлежности LR-типа в теории нечетких систем и теории надежности, на базе
этих функций разработаны новые нейронные сети.
Соответствует пункту 1 паспорта специальности 05.13.01: Теоретические
основы и методы системного анализа, оптимизации, управления, принятия решений
и обработки информации.
2. Модификация алгоритмов обучения нейронных сетей для типовых задач
обнаружения закономерностей в наборах данных для повышения эффективности
систем обработки информации.
Соответствует пункту 7 паспорта специальности 05.13.01: Методы и
алгоритмы структурно-параметрического синтеза и идентификации сложных
систем.
3. Модели новых нейронных сетей для типовых задач обнаружения
закономерностей в наборах данных: прогнозирование временных рядов, определение
амплитуды детерминированного сигнала на фоне белого шума, классификация
интенсивности марковского случайного потока событий и классификация объектов и
их состояний.
Соответствует пункту 11 паспорта специальности 05.13.01: Методы и
алгоритмы прогнозирования и оценки эффективности, качества и надежности
сложных систем.
Апробация результаты исследования. Основные положения и результаты
диссертации докладывались и обсуждались на:
Международной научно-практической конференции «Электронные средства и
системы управления», г. Томск, 2016 г.
Международной научно-практической конференции студентов, аспирантов и
молодых учёных «Молодёжь и современные информационные технологии», г.
Томск, 2016 г.
Международной научно-практической конференции «Электронные средства и
системы управления», г. Томск, 2017 г.
Международной научно-практической конференции студентов, аспирантов и
молодых учёных «Молодёжь и современные информационные технологии», г.
Томск, 2017 г.
Международной научной конференции «Информационные технологии в
науке, управлении, социальной сфере и медицине », г. Томск, 2017 г.;
The 22nd National Scientific Conference for Fluid Mechanics, Hai Phong, Viet
Nam, 2019.
The International Symposium on Applied Science (ISAS), Ho Chi Minh city, Viet
Nam, 2019.
Научных семинарах кафедры «Автоматизированные системы управления» в
федеральном государственном бюджетном образовательном учреждении высшего
образования «Томский государственный университет систем управления и
радиоэлектроники» в 2015 – 2019 гг.
Основные результаты диссертационного исследования апробированы в
научных исследованиях двух учреждений (Midas Core Pte LTD, Singapore; Center of
Education and Technology Transfer VIET4C, Viet Nam) и в учебный процесс в 1
образовательном учреждении (Кафедра АСУ ТУСУР).
Публикации по теме работы. По материалам диссертационных исследований
опубликовано 12 работ, в том числе 5 публикаций в изданиях, включенных в
перечень ведущих рецензируемых научных журналов и изданий, рекомендованных
ВАК Российской Федерации; 1 публикация в WoS, 2 публикации в Scopus.
Структура и объём работы. Диссертация состоит из введения, 4 глав,
заключения, списка литературы. Объем диссертации составляет 112 страниц,
включая 39 рисунков, 5 таблиц и список литературы из 118 наименований.
1 ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ: ОСНОВНЫЕ
ДОСТИЖЕНИЯ И ПРОБЛЕМЫ, НЕОБХОДИМОСТЬ СОЗДАНИЯ
В диссертации решена актуальная научно-техническая задача
алгоритмического обеспечения нейронной сети нового типа с полиномиальными
кусочно-непрерывными функциями активации для обнаружения закономерностей в
наборах данных. Основные научные и практические результаты, полученные в
диссертационной работе, состоят в следующем.
1. Проведён анализ процессов обучения НС для различных типов функций
активации ФА НС. Предложено применение в НС новых ФА (ФА вида а, б, в, г),
базирующихся на полиномиальных кусочно-непрерывных функциях
принадлежности нечетких чисел LR – типа. Новый тип НС с полиномиальными
кусочно-непрерывными функциями активации предложено именовать нечеткими НС
(ННС) второго типа. В ННС первого типа реализуются нечеткие отношения между
нейронами как элементами нейронной сети, т.е. ННС первого типа реализуют
системы нечеткого логического вывода методами теории нейронных сетей. В ННС
второго типа нечеткость является атрибутом нейрона как элемента нейронной сети.
На основе ННС второго типа создано алгоритмическое обеспечение нейронных
систем обработки информации для обнаружения закономерностей в наборах данных
и решения следующих задач:
прогнозирование временных рядов со стохастическим трендом;
определение параметров детерминированного сигнала на фоне белого
шума;
классификация интенсивности марковского случайного потока событий;
классификация объектов и их состояний.
2. Разработана структура МОНС с использованием метода скользящего
окна для прогноза временных рядов с ФА вида а, б, в, г. Процесс обучения
реализуется с помощью алгоритма Левенберга – Марквардта обратного
распространения. Реальные наборы данных иcпользуются для тестирования.
Среднеквадратичная ошибка (СКО) используется для определения лучшей модели
МОНС. СКО в МОНС с ФА вида а, б, в, г не значительно отличаются от СКО в
обычной МОНС. Эксперименты показывают, что модель НС с ФА вида б, в наиболее
эффективна.
3. Выполнена разработка структуры МОНС с ФА вида а, б, в, г для
определения амплитуды детерминированного сигнала на фоне белого шума.
Алгоритм обратного распространения Левенберга – Марквардта используется для
обучения. Cинусоидальные сигналы с добавлением к нему аддитивного гауссовского
белого шума c отношением сигнал/шум = 0,05 дБ используются в качестве наборов
данных для тестирования. Лучшие результаты показали в МОНС с ФА вида а, б, в, г
(особенно МОНС с ФА вида в) по сравнению с результатами в обычной МОНС.
4. Исследована возможность применения ННС нового типа для
классификации интенсивности потоков событий (марковских случайных процессов).
Создана структура ННС второго типа в виде многослойной однонаправленной сети с
использованием ФА вида а, б, в, г. Процесс обучения ННС второго типа состоит в
выборе трех наборов параметров: центра и ширины для ФА вида а, б, в, г
нейронов ННС и матриц выходных весов между нейронами ННС и выходными
узлами ННС. С помощью алгоритма кластеризации K-средних получен набор
параметров центра . Набор параметров ширины определяется по среднему
расстоянию между данными соответствующего кластера. Метод псевдообращения
матриц используется для определения матрицы весов выходного слоя ННС.
Результаты экспериментов доказывают что, разрабатываемые нами модели нечетких
нейронных сетей, успешно решают задачи классификации интенсивности
марковских случайных потоков событий. ННС с ФА вида б обеспечивает лучший
результат во всех экспериментах.
5. Выполнена разработка нейро-нечеткого классификатора (ННК). ННК
представляет собой многослойную однонаправленную сеть, состоящую из
следующих слоев: входной слой, слой нечетких ФА, слой фаззификации, слой
дефаззификации, слой нормализации и выходной слой. Антецедентные параметры
сети определяются методом кластеризации К – средних. Алгоритм
масштабированного сопряженного градиента (МСГ) используется для обучения
ННК. Для тестирования используются типовые наборы данных: ирисы Фишера и
шкала баланса. Проведен сравнительный анализ разработанных ННК с известными
ННК: ННК с гауссовой ФА и радиальной базисной нейронной сетью (РБНС).
Сравнительный анализ доказывает конкурентоспособность двух из четырех
разработанных ННК по эффективности и точности классификации. ННС с ФА вида
а и б показывают лучшие результаты по классификации объектов и их состояний.
Отметим перспективы развития темы диссертации по следующим
направлениям:
– возможно использование в качестве ФА НС полиномиальных кусочно –
непрерывных функций третьего и более высокого порядка, а также сплайн –
функций высоких порядков.
– исследованные нами ННС именуются ННС второго типа, однако
представляют также научный интерес ННС третьего типа, в которых нечеткость
является как атрибутом нейронов (ФА нейронов), так свойствами отношений
(связей) между нейронами (элементами ННС).
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
ВНС – Вероятностная нейронная сеть.
ДНС – Детерминированная нейронная сеть.
ЕИ – Естественный интеллект.
ИИ – Искусственный интеллект.
ИНС – Искусственная нейронная сеть.
ЛМОР – Левенберга – Марквардта обратного распространение.
МОНС – Многослойная однонаправленная нейронная сеть.
МП – Многослойный персептрон.
МСГ – Масштабированный cопряженный градиент.
НАНС – Нелинейная авторегрессионная нейронная сеть.
ННК – Нейро-нечеткий классификатор.
ННС – Нечеткая нейронная сеть.
НС – Нейронная сеть.
РБНС – Радиальная базисная нейронная сеть.
РБФ – Радиальная базисная функция.
РБФНС – Радиально-базисная функциональная нейронная сеть.
СКО – Среднеквадратичная ошибка.
ФА – Функция активации.
ФП – Функция принадлежности.
ANFIS – Adaptive Network Based Fuzzy Inference System.
MAP – Markovian Arrival Process.
МС – Markov Chain.
n
X x
i 1
i – норма матрицы X .
A1 – обратная матрица, A1 A I , где I – единичная матрица.
xT ( x1 , x2 ,…, xn ) ( xi , i 1, n) – вектор строка, T – символ
транспонирования.
sup X – супремум, или точной (наименьшей) верхней гранью (границей)
множества X.
1.McCulloch, W. S. A logical calculus of the ideas imminent in nervous activity
/ W. S. McCulloch, W. A. Pitts // Bull. Math. Biophys. – 1943. – Vol. 5. – P.115-133
Помогаем с подготовкой сопроводительных документов
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!