Математические методы оценки кредитного риска при различных типах пропусков в данных

Жак Роман Викторович
Бесплатно
В избранное
Работа доступна по лицензии Creative Commons:«Attribution» 4.0

Важную роль в системе финансовых рисков банка играет кредитный риск, который оказывает существенное влияние на устойчивость и эффективность его работы. При оценке кредитного риска используют сформированные определенным образом выборки данных, в которых часто наблюдаются пропуски, искажающие прогнозы по выдаче займов. В результате это приводит к потере прибыли, поскольку банк выдает невозвращаемые кредиты. В этой связи, возникает необходимость прогнозирования кредитного риска с как можно более высокой точностью, решая проблему замещения пропусков. Цель исследования состоит в разработке методов снижения ошибки при оценке кредитного риска в условиях систематических пропусков для улучшения точности предсказания неблагоприятных исходов, вызванных невозможностью погашения заемщиком ссуды. Цель была достигнута путем решения частных научно-практических задач: оценка точности прогнозных значений при различных режимах пропусков, а также в зависимости от распределения исходных величин, разработка методов для улучшения точности прогноза за счет преобразования статистических данных, разработка прототипа программного обеспечения с апробацией полученных теоретических результатов на реальных выборках и разработка набора эвристических методов выбора способа прогнозирования пропущенных значений. В результате проведенного исследования был предложен совершенно новый подход к замещению пропущенных значений при оценке кредитного риска, основывающийся на знании об эмпирическом распределении пропусков. К предложенному подходу были разработаны алгоритмы на статистическом языке R, адаптированные к различным типам данных – временные ряды и многомерные структуры, и проведены множественные испытания, которые показали состоятельность данного подхода путем улучшения точности прогнозов в несколько раз по сравнению с базовыми методами. Отметим, что методология работы с пропусками во временных рядах ранее не предлагалась к рассмотрению. Кроме того, разработаны классификации пропусков в соответствии с предметной областью. Также были предложены управленческие рекомендации по совершенствованию процесса оценки кредитного риска банковской организацией, среди которых: изменение стратегии исследования с применением квантильной регрессии на случай высокой концентрации пропусков, разработка специальных словарей моделей и включение этапа уточнения режима пропусков. Установив три компонента при анализе пропусков – классификация источников, словарь моделей и новый подход при восстановлении пропусков, банковские организации могут существенно оптимизировать свою деятельность в направлении анализа данных при оценке кредитного риска.

Кредитный риск занимает центральное место в общей системе финансовых рисков банка, оказывая существенное влияние на устойчивость и эффективность его работы, и как следствие – уровень прибыли. Определение кредитного риска во многом зависит от целей, которые преследует банковская организация. В общем случае, кредитный риск можно рассматривать как вероятность неуплаты заемщиком долга или начисленных процентов, то есть вероятность его дефолта.
При оценке кредитного риска используют сформированные определенным образом выборки данных, в которых часто наблюдаются пропуски, возникающих по различным причинам. Наличие пропусков, точно так же как и их удаление, может привести к снижению точности прогнозных значений при оценке кредитного риска, что приводит к увеличению заемщиков, неспособных полностью или частично выплатить полученную ссуду и, как следствие, кредитные организации теряют часть прибыли или имеют искаженные данные для анализа.
В этой связи, возникает необходимость прогнозирования кредитного риска с как можно более высокой точностью, причем затрагивая не только технические стороны вопроса, но и уделяя внимание эвристическим методам, подводящим к правильному выбору модели в условиях неполных данных. Иными словами, необходимо изучить все стороны работы кредитных организаций при анализе рисков, механизмы порождающие пропущенные значения и сформировать набор правил и методов минимизации ошибки прогноза кредитного риска, возникающей в результате наличия пропусков в данных. В ряде случаев классический подход приводит к большой ошибке или выбору неправильного инструментария для дальнейшего прогнозирования.
Методологической основой послужили работы как отечественных, так и зарубежных специалистов по анализу кредитных рисков, исследованиям неполных данных и математической статистике. Данная проблема решается по-разному – многие исследователи склонны к удалению пропусков или замещению их определёнными фиксированными значениями, однако более рациональное решение – восстановление исходной зависимости.
Важно ввести разграничение между работами посвященными только проблеме пропусков и работами, ориентированными на данную проблему в разрезе оценки кредитного риска. Так, имеется обширная литература по анализу пропусков в контексте науки о данных: традиционные методы в данном направлении развивали Д. Рубин, Р. Литтл, Р. Елашоф, П. Эллисон, М. Бокс, В. Хантер, Дж. Дрейпер, А. Демпстер, Б. Эфрон, Д. Маркер, М. Азур, Е. Стюарт. Указанные авторы особое внимание уделяли многомерным методам обработки пропущенных значений и разработке эффективных алгоритмов.
Предметная область не учитывалась авторами классической теории замещения пропусков, следовательно, не был и учтен механизм порождающий пропуски. Среди исследователей в прикладной области можно выделить следующих ученых: С. Чен, Н. Сиддики, Р. Флорес-Лопес, Б. Галлер, Ю. Кэрол. В своих работах авторы приводят апробации существующих методов, их корректировки и особенности применения. Однако никто не рассматривает распределение пропусков в рамках исходных признаков, возможно, с учетом их собственного распределения. Это позволило бы не только усовершенствовать математические методы прогнозирования пропущенных значений, но и сконструировать научно обоснованную модель их классификации.
Нельзя не отметить работы по математической статистике и алгоритмизации ее методов, которые позволили расширить существующий инструментарий. Прежде всего необходимо отметить: Д. Хосмер, С. Лемешов, В. Хардле, Б. Прантнер, С. Бурен, Ю. Прохоров, Г. Харман.
В целом, разработанные методы и модели не учитывали особенности распределения пропусков до настоящего времени. Также не были разработаны алгоритмы для их анализа, которые бы в ситуации неопределённости позволили выбрать корректный подход и, как следствие, сэкономить как временные, так и вычислительные ресурсы. В результате это открывает широкие возможности для научных исследований в данном направлении.
Цель исследования состоит в разработке методов снижения ошибки при оценке кредитного риска в условиях систематических пропусков для улучшения точности предсказания неблагоприятных исходов, вызванных невозможностью погашения заемщиком ссуды. Цель была достигнута путем решения частных научно-практических задач:
Оценка точности прогнозных значений при различных режимах пропусков, а также в зависимости от распределения исходных величин
Разработка методов для улучшения точности прогноза за счет преобразования статистических данных
Разработка прототипа программного обеспечения с апробацией полученных теоретических результатов на реальных выборках
Разработка управленческих рекомендаций по совершенствованию процесса оценки кредитного риска
Разработка набора эвристических методов выбора способа прогнозирования пропущенных значений

В работе выполнен системный анализ как отечественных, так и зарубежных работ по рассматриваемой проблематике; предложены классификации пропусков с учетом особенностей предметной области и разработан совершенно новый подход к анализу пропущенных значений в данных, который позволяет снизить ошибку при оценке кредитного риска с целью улучшения точности предсказания неблагоприятных исходов, вызванных невозможностью погашения заемщиком ссуды. Кроме того, важным элементом работы является изучение прогнозирования пропусков с учетом основных тенденций в области анализа данных, таких как большие данные и машинное обучение. Современные банковские организации уже не обходятся без их применения.
Основные итоги выполненного исследования заключаются в следующем: разработаны классификации пропусков в зависимости от их источника с учетом банковских систем: профильные, общие и случайные. Анализ источника позволяет разработать комплекс мер для дальнейшей работы с ними. В процессе исследования были предложены эвристические методы выбора способа прогнозирования пропущенных значений в зависимости от режима пропусков. Среди предложенных рекомендаций особенно следует отметить изменение стратегии исследования с применением квантильной регрессии на случай высокой концентрации пропусков. Кроме того, при распределениях, базирующихся на нормальном, рекомендуется использоваться базовые характеристики распределения исходной случайной величины на участках, где наблюдается сгущение пропусков. Такой подход выигрывает как в скорости обработки данных, так и в точности прогнозных значений.
Ключевой этап работы состоит в разработанных алгоритмах по улучшению точности прогнозирования пропусков и апробации полученных теоретических результатов на реальных выборках. В Главах 2 и 3 предложен подход, который базируется на установлении совместного условного распределения исходной случайной величины и пропусков, причем исследование проведено для различных типов данных – временные ряды и многомерные структуры. Отметим, что методология работы с пропусками во временных рядах ранее не предлагалась к рассмотрению. В результате в зависимости от типа данных удалось повысить точность прогнозирования пропущенных значений в несколько раз, и тем самым снизить ошибку при оценке кредитного риска.
Точность оценок при прогнозировании и скорость обработки данных – это две взаимосвязанные проблемы современного анализа данных, особенно актуальные для банковского сектора. При работе со скоринговыми моделями банкам требуется быстро адаптировать модели под регулярно поступающие данные, следовательно, появляется необходимость в новых методологиях и подходах. Таким образом, структурным подразделения коммерческих банков, занимающимся оценкой кредитных рисков при выдаче займов физическим лицам в работе с пропущенными значениями автором данного рекомендуется включить этап уточнения режима пропусков в соответствии со схемой, представленной на рисунке 2.3 Главы 2. Это позволит решить рассмотренные фундаментальные проблемы: повысить точность прогнозных значений за счет изучения поведения пропусков, а также ускорить обработку пропущенных значений, поскольку предоставляется возможность моментального определения метода для замещения пропусков, следовательно, у ЭВМ нет необходимости в переборе всех методов. Также отметим рекомендацию по ведению специального словаря моделей с ранжированием: при исследовании режимов необходимо отмечать наиболее пригодные модели и ситуации по их применению. Несмотря на то, что предложенный подход является универсальными – особенности данных могут оказывать также влияние на специфику выбора модели. Последняя рекомендация состоит в ведении внутрибанковских классификаций источников пропусков, что дает возможность заранее понять, какие данные могут быть восстановлены и какие ресурсы необходимы для выполнения данной задачи. Установив три компонента при анализе пропусков – классификация источников, словарь моделей и новый подход при восстановлении пропусков, банковские организации могут существенно оптимизировать свою деятельность в направлении анализа данных при оценке кредитного риска.

Cox, D.R., and Hinkley, D.V. (1974). Theoretical Statistics. New York: Wiley.
Everitt B.S. (2002) Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2001. 533 pages.
Кабаков Р.И. Анализ и визуализация данных на языке R. Москва: ДМК Пресс, 2016. 587 pp.
R (язык программирования) [Электронный ресурс] // Википедия: [сайт]. URL: https://en.wikipedia.org/wiki/R_(programming_language) (дата обращения: 01.05.2018).
Raghunathan TE, Lepkowski JM, van Hoewyk J, Solenberger P (2001). “A multivariate technique for multiply imputing missing values using a sequence of regression models.” Survey Methodology, 27, 85–95
Rubin DB (2003). “Nested multiple imputation of NMES via partially incompatible MCMC.” Statistica Neerlandica, 57(1), 3–18.
R Documentation and manuals [Электронный ресурс] // Rdocumentation: [сайт]. URL: https://www.rdocumentation.org/ (дата обращения: 01.05.2018).
О типичных банковских рисках: Банка России от 23.06.2004 N 70-Т
Козлов Д. Диверсификация модельного риска в скоринговых моделях. Агрегат-ный подход/ Д.Козлов, В. Левин//ОАО Банк ЗЕНИТ Москва .- Презентация. – 18С.
Андерсон К. Аналитическая культура: От сбора данных до бизнес-результатов. Отдельное издание изд. Манн, Иванов и Фербер, 2017. 336 с.
Chen S. Jumping the hurdle of missing risk data, Vol. |, No. 5, May 2013. pp. 1-4.
Florez-Lopez R. Effects of missing data in credit risk scoring. A comparative analysis of methods to gain robustness in presence of sparce data // Credit Scoring and Credit Control X, Vol. 5, No. 1, 29 2007. pp. 1-20.
Siddiqi N. Intelligent Credit Scoring, Building and Implementing Better Credit Risk Scorecards. Second Edition ed. New Jersey: Wiley, 2017. 464 pp.
Кабаков Р.И. Анализ и визуализация данных на языке R. Москва: ДМК Пресс, 2016.
Kaggle // Википедия: [сайт]. URL: https://en.wikipedia.org/wiki/Kaggle (дата обращения: 01.05.2018).
Abayomi K, Gelman A, Levy M (2008). “Diagnostics for multivariate imputations.” Journal of the Royal Statistical Society Series C: Applied Statistics, 57(3), 273–291.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — 270 с. — ISBN 5-86134-060-9
Hastie, Trevor. 8.5 The EM algorithm // The Elements of Statistical Learning / Trevor Hastie, Tibshirani, Friedman. — New York : Springer, 2001. — P. 236–243.
William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. 2.6 Singular Value Decomposition // Numerical Recipes in C. — 2nd edition. — Cambridge: Cambridge University Press. — ISBN 0-521-43108-5.
Pepe, Margaret S. The statistical evaluation of medical tests for classification and prediction. — New York, NY : Oxford, 2003. — ISBN 0-19-856582-8.
Rubin DB (1996). “Multiple Imputation after 18+ Years.” Journal of the American Statistical Association, 91(434), 473–489.
Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant’s Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305–332. ISBN 90-79418-01-3.
Samant IV UB, MacK CD, Koepsell T, Rivara FP, Vavilala MS (2008). “Time of hypotension and discharge outcome in children with severe traumatic brain injury.” Journal of Neurotrauma, 25(5), 495–502.
Internal ratings-based approach (credit risk) // Википедия: [сайт]. URL: https://en.wikipedia.org/wiki/Internal_ratings-based_approach_(credit_risk) (дата обращения: 01.05.2018).
Плэтт В. Стратегическая разведка. Основные принципы. Учебное пособие.. — М.: ФОРУМ, 1997. — 376 с. — ISBN 5-86225-600-8.
Creditset in CSV format // Github: [сайт]. URL: https://gist.github.com/Bart6114/8675941 (дата обращения: 01.05.2018).
Alexander N. Gorban, Balázs Kégl, Donald Wunsch, and Andrei Zinovyev (2008). Principal Manifolds for Data Visualization and Dimension Reduction. LNCSE 58. Springer.
Кнут. Э.Д. Искусство программирования. Вып. 2. Вильямс, 2017. С. 832.
Watcher and Trussel, The Biological Standard of Living in Comparative Perspective, 1997
Хардле В. Прикладная непараметрическая регрессия. Кембридж: Издательство Кембриджского университета, 1993. С. 345.
Labs B. Скоринг в МФО на минимальных данных // MyShared. 2010. URL: http://www.myshared.ru/slide/1283203/ (дата обращения: 21.05.2017).
Sturges H. (1926). The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.
The R Development Core Team. Simulating AR, MA, and ARMA Time Series, 1-5, 2003
Buuren S.V. Multivariate Imputation by Chained Equations // R-project. 2017. URL: https://cran.r-project.org/web/packages/mice/mice.pdf (дата обращения: 01.05.2018).
Mikolov T., Deoras A., Povey D., Strategies for Training Large Scale Neural Network Language Models, HLT-COE, CLSP, Johns Hopkins University, Baltimore, MD, USA, pp. 3, 2017
SAS Credit Scoring // Integrate scorecard development, deployment and monitoring for better decisions. 2017. URL: https://www.sas.com/content/dam/SAS/en_us/doc/productbrief/sas-credit-scoring-100665.pdf (дата обращения: 01.05.2018).
Park, Sung Y.; Bera, Anil K. (2009). “Maximum entropy autoregressive conditional heteroskedasticity model”. Journal of Econometrics. Elsevier. 150 (2): 219–230.
Shore, H (2012). “Estimating Response Modeling Methodology Models”. WIREs Comp Stat. 4: 323–333.
Austin, M.P., and T.M. Smith, 1989. A new model for the continuum concept. Vegetatio 83
Koenker, Roger (2005). Quantile Regression. Cambridge University Press. ISBN 0-521-60827-9.
Data Enrichment // Techopedia. 2017. URL: https://www.techopedia.com/definition/28037/data-enrichment (дата обращения: 01.05.2018).
Cleaning Data in R [Электронный ресурс] // DataCamp: [сайт]. URL: https://www.datacamp.com/courses/cleaning-data-in-r (дата обращения: 01.05.2018).
Barlow, Jesse L. (1993). “Chapter 9: Numerical aspects of Solving Linear Least Squares Problems”. In Rao, C.R. Computational Statistics. Handbook of Statistics. 9. North-Holland. ISBN 0-444-88096-8
Lawrence, Jeanette (1994). Introduction to neural networks : design, theory and applications. California Scientific Software. ISBN 1883157005. OCLC 32179420
A List of Common and Uncommon Types of Variables [Электронный ресурс] // Statisticshowto: [сайт]. URL: http://www.statisticshowto.com/types-variables/ (дата обращения: 01.05.2018).
Credit Risk Modelling for Banks – 2018 European Forum [Электронный ресурс] // Finance: [сайт]. URL: https://finance.knect365.com/credit-risk-modelling-for-banks/agenda/1
Scott M Zoldi, 2013. Big Data Developments in Transaction Analytics // Credit Scoring and Credit Control XIII August 28-30, 2013
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Mathematical Statistics with Applications (7 ed.). Belmont, CA, USA: Thomson Higher Education. ISBN 0-495-38508.

Заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 5 000 ₽

Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям

    Нажимая на кнопку, я соглашаюсь на обработку персональных данных и с правилами пользования Платформой

    Последние выполненные заказы

    Хочешь уникальную работу?

    Больше 3 000 экспертов уже готовы начать работу над твоим проектом!

    Дмитрий К. преподаватель, кандидат наук
    5 (1241 отзыв)
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполня... Читать все
    Окончил КазГУ с красным дипломом в 1985 г., после окончания работал в Институте Ядерной Физики, защитил кандидатскую диссертацию в 1991 г. Работы для студентов выполняю уже 30 лет.
    #Кандидатские #Магистерские
    2271 Выполненная работа
    Александр Р. ВоГТУ 2003, Экономический, преподаватель, кандидат наук
    4.5 (80 отзывов)
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфин... Читать все
    Специальность "Государственное и муниципальное управление" Кандидатскую диссертацию защитил в 2006 г. Дополнительное образование: Оценка стоимости (бизнеса) и госфинансы (Казначейство). Работаю в финансовой сфере более 10 лет. Банки,риски
    #Кандидатские #Магистерские
    123 Выполненных работы
    Рима С.
    5 (18 отзывов)
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный универси... Читать все
    Берусь за решение юридических задач, за написание серьезных научных статей, магистерских диссертаций и дипломных работ. Окончила Кемеровский государственный университет, являюсь бакалавром, магистром юриспруденции (с отличием)
    #Кандидатские #Магистерские
    38 Выполненных работ
    Олег Н. Томский политехнический университет 2000, Инженерно-эконо...
    4.7 (96 отзывов)
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Явл... Читать все
    Здравствуйте! Опыт написания работ более 12 лет. За это время были успешно защищены более 2 500 написанных мною магистерских диссертаций, дипломов, курсовых работ. Являюсь действующим преподавателем одного из ВУЗов.
    #Кандидатские #Магистерские
    177 Выполненных работ
    Александра С.
    5 (91 отзыв)
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повы... Читать все
    Красный диплом референта-аналитика информационных ресурсов, 8 лет преподавания. Опыт написания работ вплоть до докторских диссертаций. Отдельно специализируюсь на повышении уникальности текста и оформлении библиографических ссылок по ГОСТу.
    #Кандидатские #Магистерские
    132 Выполненных работы
    Ольга Б. кандидат наук, доцент
    4.8 (373 отзыва)
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских... Читать все
    Работаю на сайте четвертый год. Действующий преподаватель вуза. Основные направления: микробиология, биология и медицина. Написано несколько кандидатских, магистерских диссертаций, дипломных и курсовых работ. Слежу за новинками в медицине.
    #Кандидатские #Магистерские
    566 Выполненных работ
    Яна К. ТюмГУ 2004, ГМУ, выпускник
    5 (8 отзывов)
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соот... Читать все
    Помощь в написании магистерских диссертаций, курсовых, контрольных работ, рефератов, статей, повышение уникальности текста(ручной рерайт), качественно и в срок, в соответствии с Вашими требованиями.
    #Кандидатские #Магистерские
    12 Выполненных работ
    Кирилл Ч. ИНЖЭКОН 2010, экономика и управление на предприятии транс...
    4.9 (343 отзыва)
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). С... Читать все
    Работы пишу, начиная с 2000 года. Огромный опыт и знания в области экономики. Закончил школу с золотой медалью. Два высших образования (техническое и экономическое). Сейчас пишу диссертацию на соискание степени кандидата экономических наук.
    #Кандидатские #Магистерские
    692 Выполненных работы
    Анна В. Инжэкон, студент, кандидат наук
    5 (21 отзыв)
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссе... Читать все
    Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
    #Кандидатские #Магистерские
    31 Выполненная работа

    Другие учебные работы по предмету

    Интегрированная отчётность: проблемы и перспективы в России
    📅 2020год
    🏢 Санкт-Петербургский государственный университет