Математические методы оценки кредитного риска при различных типах пропусков в данных

Жак Роман Викторович
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Важную роль в системе финансовых рисков банка играет кредитный риск, который оказывает существенное влияние на устойчивость и эффективность его работы. При оценке кредитного риска используют сформированные определенным образом выборки данных, в которых часто наблюдаются пропуски, искажающие прогнозы по выдаче займов. В результате это приводит к потере прибыли, поскольку банк выдает невозвращаемые кредиты. В этой связи, возникает необходимость прогнозирования кредитного риска с как можно более высокой точностью, решая проблему замещения пропусков. Цель исследования состоит в разработке методов снижения ошибки при оценке кредитного риска в условиях систематических пропусков для улучшения точности предсказания неблагоприятных исходов, вызванных невозможностью погашения заемщиком ссуды. Цель была достигнута путем решения частных научно-практических задач: оценка точности прогнозных значений при различных режимах пропусков, а также в зависимости от распределения исходных величин, разработка методов для улучшения точности прогноза за счет преобразования статистических данных, разработка прототипа программного обеспечения с апробацией полученных теоретических результатов на реальных выборках и разработка набора эвристических методов выбора способа прогнозирования пропущенных значений. В результате проведенного исследования был предложен совершенно новый подход к замещению пропущенных значений при оценке кредитного риска, основывающийся на знании об эмпирическом распределении пропусков. К предложенному подходу были разработаны алгоритмы на статистическом языке R, адаптированные к различным типам данных – временные ряды и многомерные структуры, и проведены множественные испытания, которые показали состоятельность данного подхода путем улучшения точности прогнозов в несколько раз по сравнению с базовыми методами. Отметим, что методология работы с пропусками во временных рядах ранее не предлагалась к рассмотрению. Кроме того, разработаны классификации пропусков в соответствии с предметной областью. Также были предложены управленческие рекомендации по совершенствованию процесса оценки кредитного риска банковской организацией, среди которых: изменение стратегии исследования с применением квантильной регрессии на случай высокой концентрации пропусков, разработка специальных словарей моделей и включение этапа уточнения режима пропусков. Установив три компонента при анализе пропусков – классификация источников, словарь моделей и новый подход при восстановлении пропусков, банковские организации могут существенно оптимизировать свою деятельность в направлении анализа данных при оценке кредитного риска.

Кредитный риск занимает центральное место в общей системе финансовых рисков банка, оказывая существенное влияние на устойчивость и эффективность его работы, и как следствие – уровень прибыли. Определение кредитного риска во многом зависит от целей, которые преследует банковская организация. В общем случае, кредитный риск можно рассматривать как вероятность неуплаты заемщиком долга или начисленных процентов, то есть вероятность его дефолта.
При оценке кредитного риска используют сформированные определенным образом выборки данных, в которых часто наблюдаются пропуски, возникающих по различным причинам. Наличие пропусков, точно так же как и их удаление, может привести к снижению точности прогнозных значений при оценке кредитного риска, что приводит к увеличению заемщиков, неспособных полностью или частично выплатить полученную ссуду и, как следствие, кредитные организации теряют часть прибыли или имеют искаженные данные для анализа.
В этой связи, возникает необходимость прогнозирования кредитного риска с как можно более высокой точностью, причем затрагивая не только технические стороны вопроса, но и уделяя внимание эвристическим методам, подводящим к правильному выбору модели в условиях неполных данных. Иными словами, необходимо изучить все стороны работы кредитных организаций при анализе рисков, механизмы порождающие пропущенные значения и сформировать набор правил и методов минимизации ошибки прогноза кредитного риска, возникающей в результате наличия пропусков в данных. В ряде случаев классический подход приводит к большой ошибке или выбору неправильного инструментария для дальнейшего прогнозирования.
Методологической основой послужили работы как отечественных, так и зарубежных специалистов по анализу кредитных рисков, исследованиям неполных данных и математической статистике. Данная проблема решается по-разному – многие исследователи склонны к удалению пропусков или замещению их определёнными фиксированными значениями, однако более рациональное решение – восстановление исходной зависимости.
Важно ввести разграничение между работами посвященными только проблеме пропусков и работами, ориентированными на данную проблему в разрезе оценки кредитного риска. Так, имеется обширная литература по анализу пропусков в контексте науки о данных: традиционные методы в данном направлении развивали Д. Рубин, Р. Литтл, Р. Елашоф, П. Эллисон, М. Бокс, В. Хантер, Дж. Дрейпер, А. Демпстер, Б. Эфрон, Д. Маркер, М. Азур, Е. Стюарт. Указанные авторы особое внимание уделяли многомерным методам обработки пропущенных значений и разработке эффективных алгоритмов.
Предметная область не учитывалась авторами классической теории замещения пропусков, следовательно, не был и учтен механизм порождающий пропуски. Среди исследователей в прикладной области можно выделить следующих ученых: С. Чен, Н. Сиддики, Р. Флорес-Лопес, Б. Галлер, Ю. Кэрол. В своих работах авторы приводят апробации существующих методов, их корректировки и особенности применения. Однако никто не рассматривает распределение пропусков в рамках исходных признаков, возможно, с учетом их собственного распределения. Это позволило бы не только усовершенствовать математические методы прогнозирования пропущенных значений, но и сконструировать научно обоснованную модель их классификации.
Нельзя не отметить работы по математической статистике и алгоритмизации ее методов, которые позволили расширить существующий инструментарий. Прежде всего необходимо отметить: Д. Хосмер, С. Лемешов, В. Хардле, Б. Прантнер, С. Бурен, Ю. Прохоров, Г. Харман.
В целом, разработанные методы и модели не учитывали особенности распределения пропусков до настоящего времени. Также не были разработаны алгоритмы для их анализа, которые бы в ситуации неопределённости позволили выбрать корректный подход и, как следствие, сэкономить как временные, так и вычислительные ресурсы. В результате это открывает широкие возможности для научных исследований в данном направлении.
Цель исследования состоит в разработке методов снижения ошибки при оценке кредитного риска в условиях систематических пропусков для улучшения точности предсказания неблагоприятных исходов, вызванных невозможностью погашения заемщиком ссуды. Цель была достигнута путем решения частных научно-практических задач:
Оценка точности прогнозных значений при различных режимах пропусков, а также в зависимости от распределения исходных величин
Разработка методов для улучшения точности прогноза за счет преобразования статистических данных
Разработка прототипа программного обеспечения с апробацией полученных теоретических результатов на реальных выборках
Разработка управленческих рекомендаций по совершенствованию процесса оценки кредитного риска
Разработка набора эвристических методов выбора способа прогнозирования пропущенных значений

В работе выполнен системный анализ как отечественных, так и зарубежных работ по рассматриваемой проблематике; предложены классификации пропусков с учетом особенностей предметной области и разработан совершенно новый подход к анализу пропущенных значений в данных, который позволяет снизить ошибку при оценке кредитного риска с целью улучшения точности предсказания неблагоприятных исходов, вызванных невозможностью погашения заемщиком ссуды. Кроме того, важным элементом работы является изучение прогнозирования пропусков с учетом основных тенденций в области анализа данных, таких как большие данные и машинное обучение. Современные банковские организации уже не обходятся без их применения.
Основные итоги выполненного исследования заключаются в следующем: разработаны классификации пропусков в зависимости от их источника с учетом банковских систем: профильные, общие и случайные. Анализ источника позволяет разработать комплекс мер для дальнейшей работы с ними. В процессе исследования были предложены эвристические методы выбора способа прогнозирования пропущенных значений в зависимости от режима пропусков. Среди предложенных рекомендаций особенно следует отметить изменение стратегии исследования с применением квантильной регрессии на случай высокой концентрации пропусков. Кроме того, при распределениях, базирующихся на нормальном, рекомендуется использоваться базовые характеристики распределения исходной случайной величины на участках, где наблюдается сгущение пропусков. Такой подход выигрывает как в скорости обработки данных, так и в точности прогнозных значений.
Ключевой этап работы состоит в разработанных алгоритмах по улучшению точности прогнозирования пропусков и апробации полученных теоретических результатов на реальных выборках. В Главах 2 и 3 предложен подход, который базируется на установлении совместного условного распределения исходной случайной величины и пропусков, причем исследование проведено для различных типов данных – временные ряды и многомерные структуры. Отметим, что методология работы с пропусками во временных рядах ранее не предлагалась к рассмотрению. В результате в зависимости от типа данных удалось повысить точность прогнозирования пропущенных значений в несколько раз, и тем самым снизить ошибку при оценке кредитного риска.
Точность оценок при прогнозировании и скорость обработки данных – это две взаимосвязанные проблемы современного анализа данных, особенно актуальные для банковского сектора. При работе со скоринговыми моделями банкам требуется быстро адаптировать модели под регулярно поступающие данные, следовательно, появляется необходимость в новых методологиях и подходах. Таким образом, структурным подразделения коммерческих банков, занимающимся оценкой кредитных рисков при выдаче займов физическим лицам в работе с пропущенными значениями автором данного рекомендуется включить этап уточнения режима пропусков в соответствии со схемой, представленной на рисунке 2.3 Главы 2. Это позволит решить рассмотренные фундаментальные проблемы: повысить точность прогнозных значений за счет изучения поведения пропусков, а также ускорить обработку пропущенных значений, поскольку предоставляется возможность моментального определения метода для замещения пропусков, следовательно, у ЭВМ нет необходимости в переборе всех методов. Также отметим рекомендацию по ведению специального словаря моделей с ранжированием: при исследовании режимов необходимо отмечать наиболее пригодные модели и ситуации по их применению. Несмотря на то, что предложенный подход является универсальными – особенности данных могут оказывать также влияние на специфику выбора модели. Последняя рекомендация состоит в ведении внутрибанковских классификаций источников пропусков, что дает возможность заранее понять, какие данные могут быть восстановлены и какие ресурсы необходимы для выполнения данной задачи. Установив три компонента при анализе пропусков – классификация источников, словарь моделей и новый подход при восстановлении пропусков, банковские организации могут существенно оптимизировать свою деятельность в направлении анализа данных при оценке кредитного риска.

Cox, D.R., and Hinkley, D.V. (1974). Theoretical Statistics. New York: Wiley.
Everitt B.S. (2002) Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2001. 533 pages.
Кабаков Р.И. Анализ и визуализация данных на языке R. Москва: ДМК Пресс, 2016. 587 pp.
R (язык программирования) [Электронный ресурс] // Википедия: [сайт]. URL: https://en.wikipedia.org/wiki/R_(programming_language) (дата обращения: 01.05.2018).
Raghunathan TE, Lepkowski JM, van Hoewyk J, Solenberger P (2001). “A multivariate technique for multiply imputing missing values using a sequence of regression models.” Survey Methodology, 27, 85–95
Rubin DB (2003). “Nested multiple imputation of NMES via partially incompatible MCMC.” Statistica Neerlandica, 57(1), 3–18.
R Documentation and manuals [Электронный ресурс] // Rdocumentation: [сайт]. URL: https://www.rdocumentation.org/ (дата обращения: 01.05.2018).
О типичных банковских рисках: Банка России от 23.06.2004 N 70-Т
Козлов Д. Диверсификация модельного риска в скоринговых моделях. Агрегат-ный подход/ Д.Козлов, В. Левин//ОАО Банк ЗЕНИТ Москва .- Презентация. – 18С.
Андерсон К. Аналитическая культура: От сбора данных до бизнес-результатов. Отдельное издание изд. Манн, Иванов и Фербер, 2017. 336 с.
Chen S. Jumping the hurdle of missing risk data, Vol. |, No. 5, May 2013. pp. 1-4.
Florez-Lopez R. Effects of missing data in credit risk scoring. A comparative analysis of methods to gain robustness in presence of sparce data // Credit Scoring and Credit Control X, Vol. 5, No. 1, 29 2007. pp. 1-20.
Siddiqi N. Intelligent Credit Scoring, Building and Implementing Better Credit Risk Scorecards. Second Edition ed. New Jersey: Wiley, 2017. 464 pp.
Кабаков Р.И. Анализ и визуализация данных на языке R. Москва: ДМК Пресс, 2016.
Kaggle // Википедия: [сайт]. URL: https://en.wikipedia.org/wiki/Kaggle (дата обращения: 01.05.2018).
Abayomi K, Gelman A, Levy M (2008). “Diagnostics for multivariate imputations.” Journal of the Royal Statistical Society Series C: Applied Statistics, 57(3), 273–291.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — 270 с. — ISBN 5-86134-060-9
Hastie, Trevor. 8.5 The EM algorithm // The Elements of Statistical Learning / Trevor Hastie, Tibshirani, Friedman. — New York : Springer, 2001. — P. 236–243.
William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. 2.6 Singular Value Decomposition // Numerical Recipes in C. — 2nd edition. — Cambridge: Cambridge University Press. — ISBN 0-521-43108-5.
Pepe, Margaret S. The statistical evaluation of medical tests for classification and prediction. — New York, NY : Oxford, 2003. — ISBN 0-19-856582-8.
Rubin DB (1996). “Multiple Imputation after 18+ Years.” Journal of the American Statistical Association, 91(434), 473–489.
Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant’s Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305–332. ISBN 90-79418-01-3.
Samant IV UB, MacK CD, Koepsell T, Rivara FP, Vavilala MS (2008). “Time of hypotension and discharge outcome in children with severe traumatic brain injury.” Journal of Neurotrauma, 25(5), 495–502.
Internal ratings-based approach (credit risk) // Википедия: [сайт]. URL: https://en.wikipedia.org/wiki/Internal_ratings-based_approach_(credit_risk) (дата обращения: 01.05.2018).
Плэтт В. Стратегическая разведка. Основные принципы. Учебное пособие.. — М.: ФОРУМ, 1997. — 376 с. — ISBN 5-86225-600-8.
Creditset in CSV format // Github: [сайт]. URL: https://gist.github.com/Bart6114/8675941 (дата обращения: 01.05.2018).
Alexander N. Gorban, Balázs Kégl, Donald Wunsch, and Andrei Zinovyev (2008). Principal Manifolds for Data Visualization and Dimension Reduction. LNCSE 58. Springer.
Кнут. Э.Д. Искусство программирования. Вып. 2. Вильямс, 2017. С. 832.
Watcher and Trussel, The Biological Standard of Living in Comparative Perspective, 1997
Хардле В. Прикладная непараметрическая регрессия. Кембридж: Издательство Кембриджского университета, 1993. С. 345.
Labs B. Скоринг в МФО на минимальных данных // MyShared. 2010. URL: http://www.myshared.ru/slide/1283203/ (дата обращения: 21.05.2017).
Sturges H. (1926). The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.
The R Development Core Team. Simulating AR, MA, and ARMA Time Series, 1-5, 2003
Buuren S.V. Multivariate Imputation by Chained Equations // R-project. 2017. URL: https://cran.r-project.org/web/packages/mice/mice.pdf (дата обращения: 01.05.2018).
Mikolov T., Deoras A., Povey D., Strategies for Training Large Scale Neural Network Language Models, HLT-COE, CLSP, Johns Hopkins University, Baltimore, MD, USA, pp. 3, 2017
SAS Credit Scoring // Integrate scorecard development, deployment and monitoring for better decisions. 2017. URL: https://www.sas.com/content/dam/SAS/en_us/doc/productbrief/sas-credit-scoring-100665.pdf (дата обращения: 01.05.2018).
Park, Sung Y.; Bera, Anil K. (2009). “Maximum entropy autoregressive conditional heteroskedasticity model”. Journal of Econometrics. Elsevier. 150 (2): 219–230.
Shore, H (2012). “Estimating Response Modeling Methodology Models”. WIREs Comp Stat. 4: 323–333.
Austin, M.P., and T.M. Smith, 1989. A new model for the continuum concept. Vegetatio 83
Koenker, Roger (2005). Quantile Regression. Cambridge University Press. ISBN 0-521-60827-9.
Data Enrichment // Techopedia. 2017. URL: https://www.techopedia.com/definition/28037/data-enrichment (дата обращения: 01.05.2018).
Cleaning Data in R [Электронный ресурс] // DataCamp: [сайт]. URL: https://www.datacamp.com/courses/cleaning-data-in-r (дата обращения: 01.05.2018).
Barlow, Jesse L. (1993). “Chapter 9: Numerical aspects of Solving Linear Least Squares Problems”. In Rao, C.R. Computational Statistics. Handbook of Statistics. 9. North-Holland. ISBN 0-444-88096-8
Lawrence, Jeanette (1994). Introduction to neural networks : design, theory and applications. California Scientific Software. ISBN 1883157005. OCLC 32179420
A List of Common and Uncommon Types of Variables [Электронный ресурс] // Statisticshowto: [сайт]. URL: http://www.statisticshowto.com/types-variables/ (дата обращения: 01.05.2018).
Credit Risk Modelling for Banks – 2018 European Forum [Электронный ресурс] // Finance: [сайт]. URL: https://finance.knect365.com/credit-risk-modelling-for-banks/agenda/1
Scott M Zoldi, 2013. Big Data Developments in Transaction Analytics // Credit Scoring and Credit Control XIII August 28-30, 2013
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Mathematical Statistics with Applications (7 ed.). Belmont, CA, USA: Thomson Higher Education. ISBN 0-495-38508.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Кормчий В.
    4.3 (248 отзывов)
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    Специализация: диссертации; дипломные и курсовые работы; научные статьи.
    #Кандидатские #Магистерские
    335 Выполненных работ
    Ксения М. Курганский Государственный Университет 2009, Юридический...
    4.8 (105 отзывов)
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитыв... Читать все
    Работаю только по книгам, учебникам, статьям и диссертациям. Никогда не использую технические способы поднятия оригинальности. Только авторские работы. Стараюсь учитывать все требования и пожелания.
    #Кандидатские #Магистерские
    213 Выполненных работ
    Ольга Р. доктор, профессор
    4.2 (13 отзывов)
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласован... Читать все
    Преподаватель ВУЗа, опыт выполнения студенческих работ на заказ (от рефератов до диссертаций): 20 лет. Образование высшее . Все заказы выполняются в заранее согласованные сроки и при необходимости дорабатываются по рекомендациям научного руководителя (преподавателя). Буду рада плодотворному и взаимовыгодному сотрудничеству!!! К каждой работе подхожу индивидуально! Всегда готова по любому вопросу договориться с заказчиком! Все работы проверяю на антиплагиат.ру по умолчанию, если в заказе не стоит иное и если это заранее не обговорено!!!
    #Кандидатские #Магистерские
    21 Выполненная работа
    Сергей Е. МГУ 2012, физический, выпускник, кандидат наук
    4.9 (5 отзывов)
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым напра... Читать все
    Имеется большой опыт написания творческих работ на различных порталах от эссе до кандидатских диссертаций, решения задач и выполнения лабораторных работ по любым направлениям физики, математики, химии и других естественных наук.
    #Кандидатские #Магистерские
    5 Выполненных работ
    AleksandrAvdiev Южный федеральный университет, 2010, преподаватель, канд...
    4.1 (20 отзывов)
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    Пишу качественные выпускные квалификационные работы и магистерские диссертации. Опыт написания работ - более восьми лет. Всегда на связи.
    #Кандидатские #Магистерские
    28 Выполненных работ
    Шиленок В. КГМУ 2017, Лечебный , выпускник
    5 (20 отзывов)
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертац... Читать все
    Здравствуйте) Имею сертификат специалиста (врач-лечебник). На данный момент являюсь ординатором(терапия, кардио), одновременно работаю диагностом. Занимаюсь диссертационной работ. Помогу в медицинских науках и прикладных (хим,био,эколог)
    #Кандидатские #Магистерские
    13 Выполненных работ
    Родион М. БГУ, выпускник
    4.6 (71 отзыв)
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    Высшее экономическое образование. Мои клиенты успешно защищают дипломы и диссертации в МГУ, ВШЭ, РАНХиГС, а также других топовых университетах России.
    #Кандидатские #Магистерские
    108 Выполненных работ
    Сергей Н.
    4.8 (40 отзывов)
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных с... Читать все
    Практический стаж работы в финансово - банковской сфере составил более 30 лет. За последние 13 лет, мной написано 7 диссертаций и более 450 дипломных работ и научных статей в области экономики.
    #Кандидатские #Магистерские
    56 Выполненных работ

    Другие учебные работы по предмету

    Интегрированная отчётность: проблемы и перспективы в России
    📅 2020год
    🏢 Санкт-Петербургский государственный университет