Подготовка исходных данных для построения кредитного скоринга
Объектом исследования в качестве тестовой задачи рассматривается данные о кредитоспособности заемщиков.
Предметом исследования является методика обработки данных для кредитного скоринга.
Цель данной работы – разработка и исследование методики обработки данных для кредитного скоринга.
Объект и предмет исследования
Дата выдачи задания на выполнение выпускной
квалификационной работы по линейному графику
Задание выдал руководитель:
Должность ФИО Ученая степень, Подпись Дата
звание
доцент ОИТ ИШИТР Губин Е.И. к.ф.-м.н
Задание принял к исполнению студент:
Группа ФИО Подпись Дата
В данном разделе рассмотрены основные вопросы соблюдения прав
персонала на труд, выполнения правил к безопасности труда, промышленной
безопасности, экологии и ресурсосбережения. Установлено, что рабочее место
исполнителя удовлетворяет требованиям безопасности и гигиены труда во время
реализации проекта, а также вредное воздействие объекта исследования на
окружающую среду не превышает норму.
Заключение
В ходе выполнения выпускной квалификационной работы создана
методика подготовки данных для построения кредитного скоринга, которая
включает в себя обязательные этапы: разбиение данных, очистка данных,
трансформация данных и выбор переменных. Полученная методика реализована
в программных пакетах Python, SAS, SAS Enterprise Miner. Исследование
методики проводилось на примере анкетных данных заемщиков.
Проведено сравнение точности результатов, полученных в различных
пакетах, и результатов классификации без подготовки данных и с применением
предложенной методики подготовки данных.
Качественно во всех случаях применение методики повышает точность
полученных результатов на 10-18%. Наибольшую точность (75%)
демонстрирует решение, полученное с помощью SAS Enterprise Miner.
В будущем планируется исследование методики на большем количестве
данных и в дальнейшем внедрение.
Список публикаций студента
1. Inkhireeva T. A. , Zimin V. P. Quasianalytical solution of inhomogeneous
differential equation with cubic nonlinearity // Advances in Computer Science
Research. – 2017 – Vol. 72. – p. 103-107
2. Kazakyavichyus I.S., Inkhireeva T. A. Gender recognition by voice //
Электронные средства и системы управления: материалы докладов XIV
Международной научно-практической конференции: в 2 ч. – Ч. 2., Томск,
28-30 Ноября 2018. – Томск: В-Спектр, 2018 – C. 282-286
3. Инхиреева Т. А. , Козловских А. В. Квазианалитическое решение
неоднородного дифференциального уравнения с кубической
нелинейностью // Молодежь и современные информационные
технологии: сборник трудов XV Международной научно- практической
конференции студентов, аспирантов и молодых ученых , Томск, 4-7
Декабря 2017. – Томск: ТПУ, 2018 – C. 43-44
4. Inkhireeva T.A. Data mining classification techniques for credit scoring in
banks // Математическое и программное обеспечение информационных,
технических и экономических систем: материалы VI международной
молодежной научной конференции, Томск, 24-26 мая 2018 г. – Томск:
ТГУ, 2018 – С. 362-365
1.Сергеевич С.А. Построение скоринговых карт с использованием модели
логистической регрессии // Интернет-журнал Науковедение. 2014. Vol. 2.
2.Anshu B. Data Preprocessing Techniques for Data Mining // Data Mining
Techniques and Tools for Knowledge Discovery in Agricultural Datasets. New
Delhi, 2011. P. 6.
3.Abbott D. Applied Predictive Analytics: Principles and Techniques for the
Professional Data Analyst. Indianapolis: Wiley, 2014. 427 p.
4.Полищук, Ф.С., Романов А.Ю. КРЕДИТНЫЙ СКОРИНГ: РАЗРАБОТКА
РЕЙТИНГОВОЙСИСТЕМЫОЦЕНКИРИСКАКРЕДИТОВАНИЯ
ФИЗИЧЕСКИХЛИЦ//Новыеинформационныетехнологиив
автоматизированных системах. 2016. Vol. 19.
5.Федресурс. Единый федеральный реестр юридически значимых сведений о
фактахдеятельностиюридическихлиц,индивидуальных
предпринимателей и иных субъектов экономической деятельности
[Electronic resource] // В России за год число граждан-банкротов удвоилось.
2018.
6.Филатова Ю. Число несостоятельных граждан в России выросло в 1,5 раза,
потенциальных банкротов – на 6%. Москва, 2018. 4 p.
7.Piatetsky G. Knowledge Discovery Nuggets [Electronic resource] // CRISP-DM,
still the top methodology for analytics, data mining, or data science projects.
2014.P.1.URL:https://www.kdnuggets.com/2014/10/crisp-dm-top-
methodology-analytics-data-mining-data-science-projects.html(accessed:
25.05.2019).
8.IBM Corporation. IBM SPSS Modeler CRISP-DM Guide. Armonk, 2011. 45 p.
9.SAS Institute Inc. Introduction to SEMMA [Electronic resource]. 2018. URL:
https://documentation.sas.com/?docsetId=emref&docsetTarget=n061bzurmej4j
3n1jnj8bbjjm1a2.htm&docsetVersion=15.1&locale=en.
10.Ng A. Machine learning yearning. 5th ed. deeplearning.ai, 2018. 116 p.
11.Pedregosa F. et al. Scikit-learn: Machine Learning in {P}ython // J. Mach. Learn.
Res. 2011. Vol. 12. P. 2825–2830.
12.Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation
and Model Selection. 2001. Vol. 14.
13.Little R.J.A. A Test of Missing Completely at Random for Multivariate Data with
Missing Values // J. Am. Stat. Assoc. Taylor & Francis, 1988. Vol. 83, № 404.
P. 1198–1202.
14.RUBIN D.B. Inference and missing data // Biometrika. 1976. Vol. 63, № 3. P.
581–592.
15.Moritz S. et al. Comparison of different Methods for Univariate Time Series
Imputation in R.
16.SAS Institute Inc. Building Credit Scorecards Using Credit Scoring for SAS
Enterprise Miner. Cary, 2014. 21 p.
17.Zekic-Susac M., Sarlija N., Bensic M. Small business credit scoring: a
comparison of logistic regression, neural network, and decision tree models //
26th International Conference on Information Technology Interfaces, 2004.
2004. P. 265-270 Vol.1.
18.Svolba G. Data Preparation for Analytics Using SAS. SAS Institute Inc., 2015.
440 p.
19.Tischler R., Grosser T. Data Preparation – Refining Raw Data into Value. CXP
Group, 2017. 43 p.
20.Huang J. et al. An Empirical Analysis of Three-Stage Data-Preprocessing for
Analogy-Based Software Effort Estimation on the ISBSG Data // 2017 IEEE
International Conference on Software Quality, Reliability and Security (QRS).
2017. P. 442–449.
21.Nalić J., Švraka A. Importance of data pre-processing in credit scoring models
based on data mining approaches // 2018 41st International Convention on
Information and Communication Technology, Electronics and Microelectronics
(MIPRO). 2018. P. 1046–1051.
22.García V., Marqués A.I., Sánchez J.S. Improving Risk Predictions by
Preprocessing Imbalanced Credit Data // Neural Inf. Process. 2012. Vol. 7664.
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!