
BI-технологии в анализе данных Федеральной контрактной системы
В данной работе описывается процесс создания предиктивной модели для оценки вероятности успешного завершения проекта проекта на основе его начальных показателей, а также текстовых данных о нем в виде заключенного с заказчиком договора. Для обучения модели использовались данные Федеральной контрактной системы по федеральному закону №223-ФЗ.
РЕФЕРАТ ……………………………………………………………………………………………………… 8
ОПРЕДЕЛЕНИЯ И ОБОЗНАЧЕНИЯ …………………………………………………………….. 9
ВВЕДЕНИЕ …………………………………………………………………………………………………. 12
1.1 Интеллектуальный анализ данных в управлении проектами …………………. 13
1.2 Методика оценки успешности выполнения проекта ……………………………… 15
1.3 Описание федерального закона №223-ФЗ …………………………………………….. 15
1.4 Методы решения задачи классификации ………………………………………………. 17
1.4.1 Наивный байесовский алгоритм ……………………………………………………… 17
1.4.2 Искусственные нейронные сети………………………………………………………. 19
1.4.3 Кросс-валидация …………………………………………………………………………….. 22
1.5 Описание инструментов разработки …………………………………………………….. 23
1.5.1 RapidMiner ……………………………………………………………………………………… 23
1.5.2 Python …………………………………………………………………………………………….. 24
1.5.3 C# …………………………………………………………………………………………………… 25
1.6 Цели и задачи разработки …………………………………………………………………….. 25
2 ИЗВЛЕЧЕНИЕ И ПОДГОТОВКА ДАННЫХ …………………………………………….. 28
2.1 Структура данных контрактов по 223-ФЗ …………………………………………….. 28
2.2 Выгрузка и первичная обработка данных ……………………………………………… 30
3 ОБУЧЕНИЕ МОДЕЛИ С ПОМОЩЬЮ НБА ……………………………………………… 34
3.2 Реализация наивного байесовского алгоритма ……………………………………… 36
4 ОБУЧЕНИЕ МОДЕЛИ С ПОМОЩЬЮ ИНС……………………………………………… 38
4.1 ИНС с методом обратного распространения ошибки ……………………………. 39
4.2 ИНС с использованием эволюционного алгоритма……………………………….. 41
5 АПРОБИРОВАНИЕ РАЗРАБОТАННЫХ МЕТОДОВ ……………………………….. 44
5.1 Анализ результатов выгрузки данных ………………………………………………….. 44
5.2 Анализ результатов обучения модели …………………………………………………… 45
5.3 Перспективы использования результатов……………………………………………… 47
6 ФИНАНСОВЫЙ МЕНЕДЖМЕНТ, РЕСУРСОЭФФЕКТИВНОСТЬ И
РЕСУРСОСБЕРЕЖЕНИЕ …………………………………………………………………………….. 48
6.1 Оценка коммерческого потенциала и перспективности проведения
научных исследований с позиции ресурсоэффективности и
ресурсосбережения ……………………………………………………………………………………. 48
6.1.1 Потенциальные потребители результатов исследования …………………. 48
6.1.2 Диаграмма Исикавы ………………………………………………………………………. 50
6.1.3 SWOT-анализ ………………………………………………………………………………… 51
6.2 Определение возможных альтернатив проведения научных
исследований …………………………………………………………………………………………….. 52
6.3 Планирование научно-исследовательских работ ……………………………….. 53
6.3.1 Структура работ в рамках научного исследования ………………………….. 53
6.3.2 Определение трудоемкости работ ………………………………………………….. 54
6.3.3 Разработка графика проведения научного исследования ………………… 55
6.3.4 Бюджет научно-технического исследования (НТИ) ………………………… 57
6.4 Определение ресурсной (ресурсосберегающей), финансовой,
бюджетной, социальной и экономической эффективности исследования …… 60
7 Социальная ответственность ……………………………………………………………………… 63
7.1 Производственная безопасность ……………………………………………………….. 63
7.1.1 Анализ выявленных вредных факторов при разработке и эксплуатации
проектируемого решения ………………………………………………………………………… 64
7.1.2 Анализ выявленных опасных факторов при разработке и эксплуатации
проектируемого решения ………………………………………………………………………… 66
7.2 Экологическая безопасность …………………………………………………………….. 68
7.3 Безопасность в чрезвычайных ситуациях ………………………………………….. 68
7.3.1 Наиболее типичная ЧС – пожар………………………………………………………. 69
7.3.2 Меры по предотвращению ЧС ……………………………………………………….. 69
7.4 Правовые и организационные вопросы обеспечения безопасности ……. 70
7.4.1 Требования к рабочему помещению для работы с ПЭВМ……………….. 70
7.4.2 Требования к рабочему месту с ПЭВМ …………………………………………… 71
ЗАКЛЮЧЕНИЕ …………………………………………………………………………………………… 73
ПРИЛОЖЕНИЕ А ……………………………………………………………………………………….. 77
ПРИЛОЖЕНИЕ Б ………………………………………………………………………………………… 80
Программное обеспечение (ПО) для интеллектуального анализа данных
(ИАД) позволяет пользователям применять полуавтоматический и
прогнозирующий методы для анализа необработанных данных и поиска новых
способов получения информации. Данное ПО обычно применяется к очень
большим наборам данных и связанным с ними функциям, или любой набор
данных, слишком большой или сложный для человеческого анализа.
Приложения для интеллектуального анализа данных помогают
пользователям обнаруживать корреляции и соединения в больших наборах
данных. Они часто включают многочисленные записи с несколькими
переменными и могут содержать даже смешанные структурированные и
неструктурированные данные. Из-за размера и сложности этих наборов данных
любые ценные корреляции внутри них оставались бы незамеченными, если бы
не неустанный алгоритмический анализ, выполненный с инструментами
интеллектуального анализа данных.
Целью данной работы является создание предиктивной модели для
оценки возможного результата выполнения проекта, где выходным параметром
модели должна стать вероятность успешного завершения оцениваемого
проекта.
В ходе выполнения работы выполнялись следующие задачи:
1. Анализ предметной области;
2. Выгрузка и подготовка данных по выполнению договоров согласно
федеральному закону №223-ФЗ;
По результатам выполнения выпускной квалификационной работы было
разработано программное приложение, позволяющее прогнозировать
результаты выполнения проекта на основе его основных показателей и
текстовой информации о нем в виде заключенного договора на исполнение.
В ходе выполнения работы были выполнены следующие задачи:
1. Было разработано программное приложение для выгрузки и
обработки более полумиллиона файлов в формате XML с FTP-сервера
Федеральной контрактной системы, а также нескольких тысяч договоров с ее
официального портала;
2. На основе полученных данных о договорах по проектам была обучена
модель с помощью наивного байесовского алгоритма с некоторыми
модификациями для улучшения показателей обучения;
3. На основе полученных из данных и отдельно выведенных показателей
проектов были обучены модели с помощью искусственных нейронных сетей
двух видов.
Полученные результаты показали высокую точность всех методов
обучения.
Стоит отметить, что НБА как один из наиболее простых методов
классификации показал довольно высокую точность и полноту обучения (79%
и 83% процента соответственно), что может свидетельствовать о его удачной
модификации в процессе разработки.
Однако неоспоримым лидером среди всех методов обучения выступила
ИНС, обученная методом обратного распространение ошибки, показавшая в
результате точность в 93% и полноту равную 96,5%.

Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!