Использование логистической модели для построения скоринговых карт
Логистическая регрессия является хорошим способом аналитики данных о заемщиках, позволяет на основе характеристик потенциального должника автоматически определять его благонадежность.
В данной работе была построена оптимальная логит-модель, которая определяла вероятность выдачи кредита на основе обучающей выборки.
Эта сложная задача решалась в 3 этапа. Первой простейшей задачей являлась задача с одним предиктором. Она наглядно показала суть задачи. Однако она далека от жизненной ситуации, когда можно принимать решение только на основании величины заработной платы.
Поэтому далее перешли ко второй задаче с 6 предикторами.
Благодаря проверке гипотез о значимости коэффициентов, было получено оптимальное число параметров и решена третья задача с этим числом параметров.
Основной упор сделан на последнюю задачу, для ее решения: использовался метод максимального правдоподобия; написана программа для ЭВМ на языке (C#) и Excel для поиска максимума функции правдоподобия, зависящей от (m+1)-го параметра; оптимизация проводилась на основе применения случайного поиска в сочетании с градиентным методом; на основе проверки гипотез о значимости параметров логит-модели выделены значимые предикторы, их оказалось 4 вместо 6; для оптимального числа параметров рассчитаны доверительные интервалы для каждого коэффициенты логистической регрессии; для оценки качества логистической модели применялся ROC-анализ: строились кривые чувствительности и специфичности модели, которые показывают зависимость верно классифицированных положительных и отрицательных примеров от порога отсечения; выявили оптимальный порог отсечения.
Компьютерные расчеты, анализ, построение диаграмм и графиков были проведены с помощью написанных ЭВМ (C#) и Excel.
Обучающая выборка составлялась с учетом данных
В настоящее время скоринг становится все более популярным при различных видах кредита, а также и в других областях.
В банковской системе кредитный скоринг можно опередить как метод начисления потенциальным заемщикам определенного количества баллов на основе информации о его социально-демографическом положении, кредитной истории, параметрах запрашиваемого кредита, и принятие решения о выдаче или об отказе в кредите на основе набранного суммарного количества баллов.
Если обратиться к истории, то скоринг, по существу, является методом классификации всей интересующей нас популяции на различные группы, когда нам неизвестна характеристика, которая разделяет эти группы (вернет клиент кредит или нет), но зато известны другие характеристики, связанные с интересующей нас. В статистике идеи классификации популяции на группы были разработаны Фишером в 1936 г. на примере растений. В 1941 г. Дэвид Дюран впервые применил данную методику к классификации кредитов на «плохие» и «хорошие». По времени это совпало со Второй мировой войной, когда почти все кредитные аналитики были призваны на фронт, и банки столкнулись с необходимостью срочной замены этих специалистов. Банки заставили своих аналитиков перед уходом написать свод правил, которыми следовало руководствоваться при принятии решения о выдаче кредита, чтобы анализ мог проводиться неспециалистами. Это и был как бы прообраз будущих экспертных систем.
В начале 50-х гг. в Сан-Франциско образовалась первая консалтинговая фирма в области скоринга – Fair Issac, которая до сих пор является лидером среди разработчиков скоринговых систем.
Одна из проблем заключается в том, что люди с течением времени меняются, меняются и социально-экономические условия, влияющие на поведение людей. Поэтому скоринговые модели необходимо разрабатывать на выборке из наиболее «свежих» клиентов, периодически проверять качество работы системы и, когда качество ухудшается, разрабатывать новую модель. На Западе новая модель разрабатывается в среднем раз в полтора года, период между заменой модели может варьироваться в зависимости от того, насколько стабильной была экономика в это время.
Для России, вероятно, максимальным периодом будет полгода, да и то при условии, что в этот период не произойдет никаких кардинальных потрясений.
В настоящее время ведутся исследования того, как вводить социально-экономические характеристики в модель с тем, чтобы она служила дольше.
Широкое применение скоринга началось с распространением кредитных карточек. При том количестве людей, которые ежедневно обращались за кредитными карточками, банкам ничего другого не оставалось, как автоматизировать процесс принятия решений по выдаче кредита. Однако очень скоро они оценили не только быстроту обработки заявлений на выдачу кредита, но и качество оценки риска. По данным некоторых исследований, после внедрения скоринг-систем уровень безнадежного долга сокращался до 50% [10, 14]. .
В 1974 г. в США был принят Закон о предоставлении равных возможностей на получение кредита, который запрещал отказывать в выдаче кредита на основании следующих характеристик: раса, цвет кожи, национальное происхождение, возраст, пол, семейное положение, религия, получение социальных пособий, отстаивание прав потребителей.
В Великобритании законодательство допускает использование информации о возрасте и семейном положении, но зато запрещает принимать во внимание какие-либо физические увечья и недостатки (инвалидность).
Для кредитных организаций использование скоринговых систем стало доказательством исполнения этих антидискриминационных законов – у компьютера нет предубеждений.
Помимо установления принципов равноправия в области кредитования, кредитное законодательство США, как и Закон о потребительском кредите, принятый в Великобритании в том же 1974 г., имели важное значение для формирования службы кредитных бюро. В таких бюро записывается кредитная история всех людей, когда-либо обращавшихся за ссудой в любую кредитную организацию страны.
В кредитных бюро содержатся следующие виды данных:
• социально-демографические характеристики;
• судебные решения (в случае передачи дел о востребовании задолженности по кредиту в суд);
• информация о банкротствах;
• данные об индивидуальных заемщиках, получаемые от кредитных организаций по принципу «ты – мне, я – тебе», т. е. банк может получать информацию о клиентах других банков, только если сам поставляет аналогичную информацию.
Объем и характер информации, хранящейся в бюро, строго регулируется законодательством каждой страны. В «Банковских технологиях» уже была публикация о кредитных бюро в сентябре 1999 г. – «Вопросы учреждения кредитного бюро в России».
Хотелось бы добавить, что существуют транснациональные коммерческие компании, такие как Experian, Equifax, TransUnion, Scorex. Эти компании сами используют скоринговые системы, и во многих случаях продают клиентам не «сырую» информацию, а уже готовый интегральный показатель, который вводится в автоматизированную систему кредитной организации.
Значение кредитных бюро чрезвычайно велико, их существование позволяет кредитным организациям выдавать ссуды клиентам, которые ранее в этой организации не обслуживались. Кроме того, общепризнанной является ценность предыдущей кредитной истории для прогнозирования вероятности дефолта.
Еще чуть более десятка лет назад обычный человек мог и не мечтать о том, чтобы получить кредит в банке без имущественного залога или поручительства третьего лица. А иногда банковские структуры требовали то и другое вместе. В этой ситуации банкиры чувствовали себя полностью защищенными от каких-либо неприятностей и наглели до безобразия. Всем памятны кредитные ставки в 50% и более в сочетании с жесткими санкциями за малейшую промашку, которую мог бы совершить клиент.
Время и рыночные отношения внесли свои коррективы. Ситуация в корне изменилась. Сегодня банкам приходится бороться за клиента, они стараются заманить потребителя привлекательными ставками и условиями. Речь уже не идет о необходимости предоставления залога или поручителя. Зачастую достаточно внутри гражданского паспорта и второго документа. Таким образом, кредитное обеспечение невероятно снизилось. Одним из важнейших показателей, привлекательного для клиента, стало быстрое принятие решения о выдаче кредита.
Если говорить о преимуществах, будущем и актуальности, то скоринг, как метод оценки кредитного риска, позволяет максимально ускорить процесс независимого принятия кредитного решения за счет практически полной автоматизации процесса расчета и максимальной минимизации влияния человеческого фактора. Полностью сделать процесс независимым, невозможно по причине того, что исходные данные вводятся оператором, конечное заключение готовится кредитным аналитиком, а принимается решение, уполномоченным на то менеджером.
Требования рынка корректируют все объективные или субъективные недоработки и недостатки, что, в конечном итоге приведет к повсеместному применению данной, передовой системы.
В настоящей работе проводится кредитный скоринг (от англ. score «оценка»), то есть система оценки кредитоспособности лица, на основе численных статистических методов.
Для этого была построена оптимальная логит-модель, которая определяла вероятность выдачи кредита на основе обучающей выборки.
Эта сложная задача решалась в 3 этапа.
Первой простейшей задачей являлась задача с одним предиктором. Она наглядно показала суть задачи. Однако такая далека от жизненной ситуации, когда можно принимать решение только на основании величины заработной платы.
Поэтому далее перешли ко второй задаче с 6 предикторами.
Благодаря проверке гипотез о значимости коэффициентов, было получено оптимальное число параметров и решена третья задача с этим числом параметров.
В нынешних условиях, когда количество обращений за кредитом растет, банкам не обойтись без частичной автоматизации процесса принятия решения о выдаче. Информационные технологии расширяют возможности статистического анализа, позволяют собирать данные, анализировать их, автоматизировать и оптимизировать различные процессы.
Логистическая регрессия является хорошим способом аналитики данных о заемщиках, позволяет на основе характеристик потенциального должника автоматически определять его благонадежность.
В данной работе была построена оптимальная логит-модель, которая определяла вероятность выдачи кредита на основе обучающей выборки.
Эта сложная задача решалась в 3 этапа. Первой простейшей задачей являлась задача с одним предиктором. Она наглядно показала суть задачи. Однако она далека от жизненной ситуации, когда можно принимать решение только на основании величины заработной платы.
Поэтому далее перешли ко второй задаче с 6 предикторами.
Благодаря проверке гипотез о значимости коэффициентов, было получено оптимальное число параметров и решена третья задача с этим числом параметров.
Для решения этих задач
использовался метод максимального правдоподобия,
написана программа для ЭВМ на языке (C#) для поиска максимума функции правдоподобия, зависящей от параметра (а именно 2, 7, 5),
оптимизация проводилась на основе применения случайного поиска в сочетании с градиентным методом,
на основе проверки гипотез о значимости параметров логит-модели выделены значимые предикторы, их оказалось 4 вместо 6,
для оптимального числа параметров рассчитаны доверительные интервалы для каждого коэффициенты логистической регрессии,
для оценки качества логистической модели применялся ROC-анализ:
1) cтроились кривые чувствительности и специфичности модели, которые показывают зависимость верно классифицированных положительных и отрицательных примеров от порога отсечения,
2) выявили оптимальный порог отсечения.
Компьютерные расчеты, анализ, построение диаграмм и графиков были проведены с помощью написанных ЭВМ (C#) и Excel.
Обучающая выборка составлялась с учетом данных [15].
Буре, В. М. Методы прикладной статистики в R и Excel: учебник для вузов/ Парилина, Е. М., Седаков, А.А. – Санкт-Петербург: Лань, 2016.
Ван дер Варден Б. Л. Математическая статистика. – М.: ИЛ, 1960.
Владимирова Л.В., Овсянников Д.А., Рубцова И.Д. Методы Монте-Карло в прикладных задачах. СПб.: Изд-во ВВМ, 2015. 167 с.
Гмурман В.Е. Теория вероятностей и математическая статистика. М. “Высшая школа”, 1998, 479 с.
Ермаков С.М. Методы Монте-Карло+ и смежные вопросы. Изд-во “Наука”, М. 1975, 472 с.
Ермаков С.М. Математическая теория планирования эксперимента. М.: Наука, 1983. – 392 с.
Карманов В.Г. Математическое программирование. М. ”Наука”, 1986, 288 с.
Паклин Н.Б. Логистическая регрессия и ROC-анализ – математический аппарат // Официальный сайт компании BaseGroup Labs URL: https://basegroup.ru/community/articles/logistic.
Сорокин А.С. Построение скоринговых карт с использованием модели логистической регрессии / А.С. Сорокин // Интернет-журнал «НАУКОВЕДЕНИЕ». – 2014. -№2.
Churchill G. A., Nevin J. R., Watson R. R.//The role of credit scoring in the loan decision. Credit World. March/1977
Greene W.H. Econometric Analysis, 5th edition, New Jearsey: Pearson Education, 2003.
Hand D. J., Henley W.E. Statistical classification methods in consumer credit // Journal of the Royal Statistical Society, 1997. P. 532 – 541.
Hosmer D., Lemeshow S. Applied logistic regression. N. Y.: Wiley, 2000. 375 p.
Myers J. H., Forgy E. W. The development of numerical credit evaluation systems//Journal of American Statistical Association. September/1963
Используемые интернет ресурсы:
Последние выполненные заказы
Хочешь уникальную работу?
Больше 3 000 экспертов уже готовы начать работу над твоим проектом!