Модифицированный метод логического анализа данных для задач классификации

Кузьмич, Роман Иванович

ВВЕДЕНИЕ ………………………………………………………………………………………………. 4

1 АНАЛИЗ ЛОГИЧЕСКИХ АЛГОРИТМОВ КЛАССИФИКАЦИИ ……………… 10

1.1 Основные понятия логических алгоритмов классификации ………………. 10

1.2 Алгоритмы поиска закономерностей в форме конъюнкций ……………….. 13

1.3 Анализ основных логических алгоритмов классификации и способов их
построения ………………………………………………………………………………………….. 18

1.3.1 Решающие списки …………………………………………………………………… 18
1.3.2 Решающие деревья ………………………………………………………………….. 21
1.3.3 Алгоритмы простого и взвешенного голосования правил …………… 28
1.4 Анализ программных систем для решения задач классификации ………. 35

Выводы ………………………………………………………………………………………………. 42

2 МЕТОД ЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ И ЕГО МОДИФИКАЦИИ 44

2.1 Описание подхода ………………………………………………………………………….. 44

2.2 Бинаризация признаков …………………………………………………………………… 45

2.3 Построение опорного множества …………………………………………………….. 48

2.4 Формирование закономерностей ……………………………………………………… 51

2.5 Построение классификатора ……………………………………………………………. 55

2.6 Модификации для метода логического анализа данных ……………………. 57

2.7 Решение задач псевдобулевой оптимизации …………………………………….. 64

Выводы ………………………………………………………………………………………………. 68

3 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И ЭКСПЕРИМЕНТАЛЬНЫЕ
ИССЛЕДОВАНИЯ НА ПРАКТИЧЕСКИХ ЗАДАЧАХ ……………………………….. 71

3.1 Программная реализация метода логического анализа данных и
особенности использования программной системы ……………………………….. 71
3.2 Результаты экспериментальных исследований метода логического
анализа данных и разработанных для него модификаций на практических
задачах классификации ………………………………………………………………………… 77

3.3 Настройка параметров метода логического анализа данных с учетом
специфики решаемых задач ………………………………………………………………….. 93

3.4 Сравнительный анализ метода логического анализа данных с другими
алгоритмами классификации на практических задачах …………………………… 96

Выводы …………………………………………………………………………………………….. 105

ЗАКЛЮЧЕНИЕ ……………………………………………………………………………………… 107

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ……………………………………. 109

ПРИЛОЖЕНИЕ А (Справочное) Названия полей базы данных и расшифровка
их значений ……………………………………………………………………………………………. 122

ПРИЛОЖЕНИЕ Б (Справочное) Признаки с нулевой и максимальной
важностью для задачи прогнозирования осложнений инфаркта миокарда ….. 130

В настоящее время при решении задач распознавания образов, помимо
требования высокой точности, часто возникает необходимость в
интерпретируемости и обоснованности получаемых решений. Особенно
интерпретируемость и обоснованность являются ключевыми факторами при
решении тех практических задач, в которых потери от принятия неверного
решения могут быть велики. Поэтому система поддержки принятия решений,
используемая для таких задач, должна обосновывать возможные решения и
интерпретировать результат.
Для создания такой системы потребуются алгоритмы классификации
данных, которые помимо самого решения предоставляют в явном виде
решающее правило, то есть выявляют знания из имеющихся данных. Это
справедливо для логических алгоритмов классификации, принцип работы
которых состоит в выявлении закономерностей в данных и формализации их в
виде набора правил, т.е. набора закономерностей, описываемых простой
логической формулой.
Процесс формирования логических правил сопровождается решением
задач выбора наилучших альтернатив в соответствии с некоторым критерием. В
предлагаемом методе логического анализа данных формализация процесса
формирования логических правил осуществляется в виде ряда задач
комбинаторной оптимизации, что формирует гибкий и эффективный алгоритм
логического анализа для классификации данных. Объединив некоторое
количество закономерностей в композицию, получаем классификатор, который
решает поставленную задачу.
Однако в настоящее время существует ряд проблем, связанных с
применением метода логического анализа данных при решении практических
задач классификации. Одной из них является построение оптимизационных
моделей для формирования информативных закономерностей. При
рассмотрении данного вопроса, прежде всего, необходимо определиться с теми
критериями и ограничениями, которые лежат в основе этих оптимизационных
моделей. Другой проблемой исследуемого метода является построение
классификатора, который смог бы верно отнести новое наблюдение, т.е.
наблюдение, не принимавшее участие при его построении, к тому или иному
классу. Основной задачей на данном этапе метода является повышение
интерпретируемости классификатора и качества классификации новых
наблюдений, т. е. улучшение обобщающих способностей классификатора.
Таким образом, разработка модификаций для метода логического
анализа данных, позволяющих улучшить интерпретируемость и обобщающие
способности классификатора, является актуальной научно-технической
задачей.
Следует отметить, что большой вклад в развитие логических алгоритмов
классификации внесли следующие ученые: Ю. И. Журавлев, К. В. Рудаков, К.
В. Воронцов, Н. Г. Загоруйко, Г. С. Лбов, Е. В. Дюкова, О. В. Сенько,
В. И. Донской, P. L. Hammer, G. Alexe, S. Alexe, Y. Freund, R. E. Schapire.
Цель диссертационной работы состоит в повышении точности решения
задач классификации и улучшении интерпретируемости классификатора,
основанного на логических закономерностях.
Поставленная цель определила необходимость решения следующих
задач:
1. Провести анализ существующих логических алгоритмов
классификации, алгоритмов поиска информативных закономерностей для них,
и основных программных систем, решающих практические задачи
классификации.
2. Разработать алгоритмическую процедуру выбора базовых наблюдений
для формирования закономерностей в методе логического анализа данных.
3. Разработать алгоритмическую процедуру улучшения закономерностей
для повышения их информативности и усиления обобщающих способностей
классификатора, построенного на базе данных закономерностей.
4. Создать модель оптимизации для формирования закономерностей,
покрывающих существенно различные подмножества наблюдений обучающей
выборки в методе логического анализа данных.
5. Разработать алгоритмическую процедуру построения классификатора,
учитывающую информативность закономерностей, для метода логического
анализа данных.
6. Модифицировать метод логического анализа данных на основе
разработанных алгоритмических процедур.
7. Алгоритмизировать и реализовать метод логического анализа данных
в виде программной системы, провести его апробацию и сравнительный анализ
по точности с другими алгоритмами классификации на практических задачах.
Методы исследования. В диссертационной работе использовались
методы системного анализа, теория множеств, теория вероятностей,
комбинаторика, методы оптимизации.
Новые научные результаты, выносимые на защиту:
1. Разработана алгоритмическая процедура выбора базовых наблюдений
для формирования закономерностей, отличающаяся от известных
целенаправленным выбором базовых наблюдений, получаемых путем
применения алгоритма «k-средних» к множеству наблюдений обучающей
выборки, позволяющая сократить количество правил в классификаторе и
снизить трудоемкость его построения при сохранении высокой точности.
2. Разработана алгоритмическая процедура наращивания
закономерностей, полученных на базе оптимизационной модели с
максимальным покрытием наблюдений обучающейся выборки, позволяющая
повысить информативность правил, тем самым, способствуя увеличению
точности принимаемых классификатором решений.
3. Создана модель оптимизации для формирования закономерностей,
отличающаяся от известных наличием в целевой функции весового
коэффициента покрываемого наблюдения, а также возможностью захвата
наблюдений другого класса, позволяющая формировать правила, которые
выделяют существенно различные подмножества наблюдений обучающей
выборки.
4. Разработана алгоритмическая процедура построения классификатора
как композиции информативных закономерностей, отличающаяся от известных
совместным использованием критерия бустинга для оценки информативности
закономерностей и новой итеративной процедуры выбора порога
информативности, позволяющая сократить количество правил в
классификаторе при сохранении высокой точности.
5. Модифицирован метод логического анализа данных на основе
разработанных алгоритмических процедур, позволяющих повысить
интерпретируемость классификатора, сокращая количество правил в нем, и
сохранить при этом высокую точность при решении практических задач
классификации.
Теоретическая значимость результатов диссертационного исследования
состоит в разработке и исследовании модификаций для метода логического
анализа данных, основанных на создании оптимизационных моделей для
формирования информативных закономерностей и алгоритмических процедур
сокращения количества правил в классификаторе, что является существенным
вкладом в теорию интеллектуальных технологий и представления знаний,
практики их применения в системах обработки информации и
интеллектуального анализа данных.
Практическая значимость. На основе метода логического анализа
данных реализована программная система поддержки принятия решений,
которая позволяет, используя рекомендации по настройке ее параметров,
широкому кругу специалистов эффективно решать практические задачи
классификации.
Материалы диссертационного исследования и разработанная
программная система использованы для решения следующих практических
задач: классификация результатов радарного сканирования, выявление спама,
прогнозирование осложнений инфаркта миокарда.
Достоверность и обоснованность результатов диссертации
подтверждается: исследованием существующих логических алгоритмов
классификации и алгоритмов поиска информативных закономерностей для них,
корректным обоснованием постановок задач, результатами применения
предложенных моделей, методов и алгоритмических процедур, сравнительным
анализом по точности с существующими алгоритмами классификации на
практических задачах.
Реализация результатов работы. Диссертационная работа поддержана
Фондом содействия развития малых форм предприятий в научно-технической
сфере по программе «У.М.Н.И.К.» («Участник молодежного научно-
инновационного конкурса») в рамках НИОКР «Разработка программной
системы на базе логических алгоритмов классификации для решения задач
медицинской диагностики и прогнозирования» на 2011-2013 гг. Результаты
диссертации использовались в гранте Президента РФ МК-463.2010.9
«Комбинаторная оптимизация в задачах распознавания при диагностике и
прогнозировании». Разработанная программная система «Логические анализ
данных в задачах классификации» зарегистрирована в Реестре программ для
ЭВМ 17 марта 2011 г. (свидетельство № 2011612265).
Апробация работы. Основные положения и результаты диссертации
докладывались и обсуждались на XIV, XV Международной научной

В ходе выполнения диссертационной работы получены следующие
результаты:
1. Проведен анализ существующих логических алгоритмов
классификации, алгоритмов поиска информативных закономерностей для них,
и основных программных систем, решающих практические задачи
классификации. Отмечено, что для классификации наиболее приемлем
алгоритм, основанный на голосовании правил.
2. Разработана алгоритмическая процедура выбора базовых наблюдений
для формирования закономерностей, отличающаяся от известных
целенаправленным выбором базовых наблюдений, получаемых путем
применения алгоритма «k-средних» к множеству наблюдений обучающей
выборки.
3. Разработана алгоритмическая процедура наращивания
закономерностей, полученных на базе оптимизационной модели с
максимальным покрытием наблюдений обучающей выборки.
4. Создана модель оптимизации для формирования закономерностей,
отличающаяся от известных наличием в целевой функции весового
коэффициента покрываемого наблюдения, а также возможностью захвата
наблюдений другого класса.
5. Разработана алгоритмическая процедура построения классификатора
как композиции информативных закономерностей, отличающаяся от известных
совместным использованием критерия бустинга для оценки информативности
закономерностей и новой итеративной процедуры выбора порога
информативности.
6. Модифицирован метод логического анализа данных на основе
разработанных алгоритмических процедур, при использовании которых
повышается интерпретируемость классификатора и качество классификации
новых наблюдений, т. е. улучшаются обобщающие способности
классификатора.
7. В результате решения практических задач эмпирически проверена
пригодность оптимизационных моделей для формирования информативных
закономерностей и эффективность разработанных алгоритмических процедур
для метода логического анализа данных.
8. Проведено сравнение по точности метода логического анализа данных
с другими алгоритмами классификации на практических задачах. В результате
метод показал лучшие результаты по точности решения предложенных задач.
Таким образом, в диссертационной работе разработаны, исследованы и
проверены на практических задачах модификации для метода логического
анализа данных, основанные на создании оптимизационных моделей для
формирования информативных закономерностей и алгоритмических процедур
сокращения количества правил в классификаторе при сохранении высокой
точности, что является вкладом в теорию и практику интеллектуального
анализа данных.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Помогаем с подготовкой сопроводительных документов

    Совместно разработаем индивидуальный план и выберем тему работы Подробнее
    Помощь в подготовке к кандидатскому экзамену и допуске к нему Подробнее
    Поможем в написании научных статей для публикации в журналах ВАК Подробнее
    Структурируем работу и напишем автореферат Подробнее

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Виктор В. Смоленская государственная медицинская академия 1997, Леч...
    4.7 (46 отзывов)
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выв... Читать все
    Имеют опыт грамотного написания диссертационных работ по медицине, а также отдельных ее частей (литературный обзор, цели и задачи исследования, материалы и методы, выводы).Пишу статьи в РИНЦ, ВАК.Оформление патентов от идеи до регистрации.
    #Кандидатские #Магистерские
    100 Выполненных работ
    Петр П. кандидат наук
    4.2 (25 отзывов)
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт напис... Читать все
    Выполняю различные работы на заказ с 2014 года. В основном, курсовые проекты, дипломные и выпускные квалификационные работы бакалавриата, специалитета. Имею опыт написания магистерских диссертаций. Направление - связь, телекоммуникации, информационная безопасность, информационные технологии, экономика. Пишу научные статьи уровня ВАК и РИНЦ. Работаю техническим директором интернет-провайдера, имею опыт работы ведущим сотрудником отдела информационной безопасности филиала одного из крупнейших банков. Образование - высшее профессиональное (в 2006 году окончил военную Академию связи в г. Санкт-Петербурге), послевузовское профессиональное (в 2018 году окончил аспирантуру Уральского федерального университета). Защитил диссертацию на соискание степени "кандидат технических наук" в 2020 году. В качестве хобби преподаю. Дисциплины - сети ЭВМ и телекоммуникации, информационная безопасность объектов критической информационной инфраструктуры.
    #Кандидатские #Магистерские
    33 Выполненных работы
    Вики Р.
    5 (44 отзыва)
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написан... Читать все
    Наличие красного диплома УрГЮУ по специальности юрист. Опыт работы в профессии - сфера банкротства. Уровень выполняемых работ - до магистерских диссертаций. Написание письменных работ для меня в удовольствие.Всегда качественно.
    #Кандидатские #Магистерские
    60 Выполненных работ
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Анастасия Б.
    5 (145 отзывов)
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическо... Читать все
    Опыт в написании студенческих работ (дипломные работы, магистерские диссертации, повышение уникальности текста, курсовые работы, научные статьи и т.д.) по экономическому и гуманитарному направлениях свыше 8 лет на различных площадках.
    #Кандидатские #Магистерские
    224 Выполненных работы
    Андрей С. Тверской государственный университет 2011, математический...
    4.7 (82 отзыва)
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на... Читать все
    Учился на мат.факе ТвГУ. Любовь к математике там привили на столько, что я, похоже, никогда не перестану этим заниматься! Сейчас работаю в IT и пытаюсь найти время на продолжение диссертационной работы... Всегда готов помочь! ;)
    #Кандидатские #Магистерские
    164 Выполненных работы
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Вирсавия А. медицинский 1981, стоматологический, преподаватель, канди...
    4.5 (9 отзывов)
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - ... Читать все
    руководитель успешно защищенных диссертаций, автор около 150 работ, в активе - оппонирование, рецензирование, написание и подготовка диссертационных работ; интересы - медицина, биология, антропология, биогидродинамика
    #Кандидатские #Магистерские
    12 Выполненных работ

    Другие учебные работы по предмету