Ключевые слова: анализ данных, искусственный интеллект, бюро кредитных историй, кредитный скоринг, нейросеть.
Введение
В России функционирует 6 БКИ, внесённых в государственный реестр, а именно: АО «НБКИ», АО «ОКБ», ООО «БКИ КредитИнфо», ООО «СКБ», ООО «МБКИ «КРЕДО», АО «БКИ СБ» Согласно отчёту ЦБ РФ «Статистические показатели банковского сектора РФ» от 01.02.2024, показатели по кредитованию физических и юридических лиц стабильно растут. Показатель корпоративных кредитов и кредитов, предоставленных физлицам, включая просроченную задолженность, составил 65 837 млрд. руб. на момент 01.01.2021 г., 77 721 млрд руб. на 01.01.2022г., 86 534 млрд. руб. на 01.01.2023 г. Темп прироста по показателю кредитования юридических лиц, по отношению к предыдущему периоду составил 9,6 %, 11,7 %, 14,3 % и 13,5 %, 23,2 %, 9,5 % по показателю кредитования физических лиц, соответственно. [1]
Востребованность кредитных услуг растёт, пропорционально с этим растёт количество данных клиентов банков. Для повышения эффективности взаимодействия с таким большим потоком данных, БКИ вынуждены постоянно улучшать качество своих автоматизированных сервисов. Благодаря устойчивому развитию технологий в области интеллектуального анализа данных, российские БКИ имеют сервисы, которые основаны на внедрении искусственного интеллекта, использовании нейронных сетей для расчёта показателей, используемых в кредитном скоринге.
В данной статье были рассмотрены научные труды российских и зарубежных исследователей, определены основные методы, использующиеся для анализа данных в кредитном скоринге, проанализирован опыт внедрения моделей с использованием искусственного интеллекта на примере работы российских и зарубежных БКИ.
Основная часть
Необходимо выделить ряд основных методов интеллектуального анализа данных, которые используются в кредитном скоринге. Для более наглядного отображения классифицируем методы по категориям:
- Статистические методы (кластерный анализ, логистическая регрессия, анализ выживаемости, метод опорных векторов)
- Методы машинного обучения (деревья принятия решений, байесовские сети);
- Нейронные сети;
- Комбинированные методы (беггинг, бустинг, стекинг).
Статистические методы интеллектуального анализа данных основываются на концепциях теории вероятности и математических статистических методах. В своей работе Колоколова О. В. (2007) отмечает, что целью кластерного анализа является распределение анализируемых объектов на подгруппы с однородными характеристиками. Выделяются 2 подхода к сегрегации данных:
- Подход, относящий объект к конкретному кластеру.
- Подход, где объекту объекту присваивается определённое распределение вероятностей, указывающее на его принадлежность к различным кластерам.
Более строгий метод анализа имеет ряд преимуществ, таких как: определение точного количества подгрупп с однородными свойствами, каждый исследуемый объект отнесён к конкретному кластеру. Однако, есть вероятность не получить желаемый результат в случае, если набор объектов по характеристикам слишком разнообразен. Поэтому, в таких сферах, как оценка кредитных рисков, где необходимо учесть во внимание множество различных переменных, нечеткий кластерный анализ дает возможность иметь большую адаптивность, фиксируя незначительные различия между компаниями и их кредитной надежностью. [2. с. 53]
Логистическая регрессия применяется для оценки вероятности отказа в кредите заемщику. В работах A. Хумана и Г. Мартандана (2016) указывается, что эта модель позволяет прогнозировать определенный результат для группы переменных, которые могут быть дихотомическими, дискретными, непрерывными или сочетать их. Практическое преимущество логистической модели заключается в том, что можно чётко объяснить процесс изменения переменных, влияющих на результат оценки. С помощью данного метода можно сгенерировать простую вероятностную формулу для классификации. Таким образом, БКИ по-прежнему разрабатывают свои основные модели кредитного скоринга с помощью логистической регрессии. Однако, основной недостаток заключаются в том, что линейная регрессия не в состоянии должным образом решать проблемы нелинейных взаимосвязанных эффектов независимых переменных. [3. с. 374]
Анализ выживаемости основывается на методе Каплана-Майера и представляет собой статистический подход, используемый для анализа времени до наступления определенного события, например, смерти или выздоровления. Оценщик использует наблюдаемое время выживания и информацию о статусе для расчета вероятности выживания через различные промежутки времени на протяжении всего исследования. Данный способ предлагает наглядное представление этих данных через графики, где по оси времени отображаются как количество наблюдаемых событий, так и число оставшихся без изменения объектов. В своей работе Т. Видихари и соавторы (2023) ссылаются на опыт применения данного метода в оценке банковских рисков, таких как вероятность неплатежеспособности заемщиков с течением времени. [4. с. 38]
Метод опорных векторов используется в кредитном скоринге относительно непродолжительное время, однако уже доказал свою эффективность. Как отмечает в своей работе Гилёв Д. В. (2019), данный метод показал большую точность результатов в исследований выдачи кредита физическим лицам, чем многослойная нейросеть. Также отмечается эффективность использования метода как основного для определения наиболее значимых рисков, в контексте решения задачи по выдаче кредитной карточки физическому лицу. [5. с. 77]
В основе метода деревьев решений лежит правило вида «если, то», которое определяет принадлежность объекта к конкретному классу в иерархической структуре. Об этом в своей работе упоминает Стадников А. О. В своём исследовании автор сравнил алгоритмы ансамблей деревьев принятия решений с методами логистической регрессии и опорных векторов в контексте решения задачи одобрения выдачи кредитной карты клиенту и получил результаты, представленные в таблице 1.
Таблица 1
Сравнение моделей интеллектуального анализа в решении задачи выдачи банковской карты физическому лицу
Набор данных |
Алгоритм |
Accuracy |
Precision |
Recall |
F1-Score |
ROC-AUC |
Время, сек |
Credit Card Default |
SVM |
0.767 |
0.47 |
0.5 |
0.45 |
0.603 |
1.16E+01 |
Logistic Reg |
0.779 |
0.39 |
0.5 |
0.44 |
0.635 |
1.27E+01 |
|
CART |
0.797 |
0.7 |
0.64 |
0.66 |
0.709 |
1.10E+00 |
|
Random Forest |
0.813 |
0.74 |
0.65 |
0.68 |
0.755 |
8.24E+00 |
|
AdaBoost |
0.817 |
0.75 |
0.65 |
0.67 |
0.77 |
1.36E+01 |
|
CatBoost |
0.818 |
0.75 |
0.66 |
0.68 |
0.782 |
1.14E+02 |
|
XGBoost |
0.817 |
0.75 |
0.66 |
0.68 |
0.778 |
3.14E+02 |
|
LightGBM |
0.819 |
0.75 |
0.66 |
0.68 |
0.785 |
2.26E+02 |
|
Credit Card Approval |
SVM |
0.837 |
0.84 |
0.84 |
0.84 |
0.907 |
5.54E+02 |
Logistic Reg |
0.643 |
0.65 |
0.64 |
0.64 |
0.708 |
9.98E+00 |
|
CART |
0.797 |
0.8 |
0.8 |
0.8 |
0.893 |
5.10E+01 |
|
Random Forest |
0.836 |
0.84 |
0.84 |
0.84 |
0.929 |
1.20E+01 |
|
AdaBoost |
0.722 |
0.72 |
0.72 |
0.72 |
0.806 |
1.13E+01 |
|
CatBoost |
0.898 |
0.9 |
0.9 |
0.9 |
0.964 |
9.00E+02 |
|
XGBoost |
0.898 |
0.9 |
0.9 |
0.9 |
0.964 |
3.59E+01 |
|
LightGBM |
0.9 |
0.9 |
0.9 |
0.9 |
0.965 |
5.39E+00 |
В большинстве случаев модели ансамблей деревьев решений показали более точный результат, следовательно, имеют большую прогностическую ценность. Можно заключить, что данный метод хорошо подходит для классификации данных, анализа рисков, прогнозирования платёжеспособности заемщика. [6. с. 49]
Байесовский метод в кредитном скоринге основан на применении теории вероятностей и статистики. Д. Шин и К. Сонхен в своём исследовании ссылаются на результаты зарубежных авторов, которые отмечают, что байесовский метод имеет более высокую прогностическую способность, чем стандартный подход к прогнозированию банковского дефолта. Также байесовский метод эффективен при анализе факторов, которые влияют на поведение клиентов банка. [7. с. 106]
Нейронные сети активно применяются в решении задач кредитного скоринга. Благодаря своей многослойной структуре, нейросети позволяют учитывать множество переменных и их комбинации, что повышает точность прогнозирования результатов. Более того, нейросеть способна обучаться на анализируемых данных и повышать свою эффективность. Данные утверждения находят подтверждение в работе Богданова А. Л. и Дуля И. С. Была построена модель, в основе которой использовалась нейросеть с двумя скрытыми слоями. Использовались данные компании Lending Club по ссудам за 2014 год. Задача заключалась в их классификации. По итогу, модель смогла определить 20 817 из 23 565 элементов, следовательно, точность составила 88,35 %, что является высоким показателем [8. с. 182]. Также, использование нейронных сетей показывает высокую эффективность в прогнозировании банкротства компании, определения кредитных рисков. Это отмечают в своих исследованиях множество зарубежных авторов, таких как Д. Йим и Х. Митчелл (2005) [9. с. 147], А. Бланко c коллегами (2013) [10. с. 362] и другие.
Комбинируемыми являются методы, в которых происходит применение нескольких техник для более эффективного решения задач кредитного скоринга. В своей работе Волкова Е. С. с соавторами выделяет три основных метода комбинирования: беггинг, бустинг и стекинг. Беггинг наиболее эффективен в случаях неустойчивости основного алгоритма и высокой зависимости от изменений в обучающем множестве. Главная задача метода — построение группы предикторов, которые в совокупности формируют более оптимальный предиктор после агрегирования. Бустинг предназначен для повышения точности результатов более слабого алгоритма путём переобучения из данных обучающей выборки. Стекинг необходим для создания комбинаций нескольких алгоритмов. Часто в качестве комбинатора применяется логическая регрессия. [11. с. 2049]
Российские БКИ в своём арсенале имеют большое количество скоринг-моделей, позволяющих банкам решать различные задачи, такие как: прогнозирование невыплаты платежей по кредитным договорам, выявление должников, одобрение выдачи кредитных карт физическим лицам, предотвращение мошеннических действий в осуществлении банковских операций, анализ вероятности дефолта у компании-клиента кредитной организации, выявление клиентов, заинтересованных в услугах банка, улучшение взаимодействия с ними и их удержание, подробный анализ кредитной истории физических и юридических лиц. Современный тренд с использованием искусственного интеллекта не обошёл российские БКИ стороной. Напротив, компании активно совершенствуют работу собственных скоринг-моделей. Как отмечает генеральный директор НБКИ Александр Викулин, внедрение методов с использованием искусственного интеллекта в скоринг-модели позволяет банкам снизить дефолтность розничных кредитов в 1,6 раза, сократить расходы на первичную обработку заявок, способствует повышению точности и гибкости прогнозных оценок, что благотворно влияет на снижение рисков. В контексте анализа вероятности дефолта заемщика система позволяет увеличить точность прогнозирования на 15–20 %. В контексте анализа кредитного портфеля заявляется снижение доли просроченной задолженности более чем в полтора раза. На платформе НБКИ был проведен анализ внедрения нового сервиса к всем потребительским кредитам, выданным в России в 2018 и 2019 годах. Для каждого кредита принималось «решение» — либо отказ, либо одобрение. кредитный портфель оказался на 5 % ниже реального. При этом доля задолженности, просроченной более 90 дней, составила 3,0 % против 4,4 % в реальном кредитном портфеле. Результаты, полученные в результате экстраполяции модели на текущие кредиты, показаны на рисунке 1.
Рис. 1. Оценка эффекта применения скоринга от НБКИ в розничном кредитовании
На сегодняшний день инновационная система скоринга НБКИ используется более чем в 20 финансовых учреждениях, которые отмечают улучшения в характеристиках своих кредитных портфелей. [12]
Ещё одной значимой разработкой в основе которой заложен искусственный интеллект является антифрод-система National Hunter от ОКБ. Программа нацелена на обнаружение фактов мошенничества при решении вопроса о предоставлении кредита. Ее функционирование базируется на анализе данных, сравнении информации из анкет заявителей с архивными данными о мошенничестве, а также учетом факторов риска и переменных из внешних источников. В процессе анализа применяются специальные правила, которые помогают выявить заявителей с низким риском. Эти правила направлены на повышение вероятности одобрения и оптимизацию процесса. Система работает в онлайн-режиме, предоставляя результаты в виде скорингового балла. Кроме того, пользователи могут создавать индивидуальные правила или модели антифрод, которые ориентированы на определенные сегменты клиентов или продуктов, а также на выявление мошеннических паттернов. Система может обучаться как под присмотром специалиста, так и самостоятельно, она помогает обнаружить аномальные ситуации, что позволяет успешно противодействовать мошенничеству. На данный момент база данных системы насчитывает 91 млн. человек, 150 млн. телефонных номеров, более 593 млн. записей о кредитах и займах. [13]
Искусственный интеллект уже прочно укоренился в работе скоринг-моделей зарубежных БКИ. Например, американская компания Equifax заявила о том, что 70 % скоринг-моделей, выпущенных в 2023 году, были созданы с использованием искусственного интеллекта и методов машинного обучения. За первый квартал 2024 года данный показатель удалось поднять до 85 %, об этом заявил генеральный директор компании Марк Бегор. Более того, выручка компании выросла на 7 %, несмотря на резкое снижение количества ипотечных кредитов. Таких успехов помогает добиться собственная разработка Equifax Cloud — одна из самых крупных и дорогих облачных платформ, предоставляющих решения для управления данными. [14]
В заключении необходимо отметить, что подход к построению скоринг-моделей с использованием искусственного интеллекта и методов машинного обучения получает всё большее распространение в практике работы бюро кредитных историй по всему миру. Это является следствием естественного процесса цифровизации и несёт за собой ряд преимуществ, таких как высокая скорость обработки данных, возможность обрабатывать гигантские объёмы данных, улучшение аналитических способностей скоринг-моделей. Однако, дороговизна и сложность внедрения технологий с использованием ИИ является неоспоримой проблемой, замедляющей темпы технологического развития отрасли. Тем не менее, современные технологии показывают неоспоримое преимущество от их использования, и БКИ должны учитывать необходимость улучшения собственных разработок в будущем.
Литература:
- Отчёт ЦБ РФ «Статистические показатели банковского сектора РФ» от 01.02.2024. — Текст: электронный // cbr.ru: [сайт]. — URL: https://cbr.ru/Collection/Collection/File/49033/razv_bs_24_02.pdf
- Колоколова, О. В. Оценка вероятности банкротства предприятий-заемщиков на основе кластерного анализа / О. В. Колоколова. — Текст: непосредственный // Экономический анализ: теория и практика. — 2007. — № 18. — С. 53–60.
- STATISTICAL AND DATA MINING METHODS IN CREDIT SCORING / Hooman, A., Marthandan [и др.]. — Текст: непосредственный // The Journal of Developing Areas 50. — 2016. — № 5. — С. 371–381.
- Kaplan-Meier and Nelson-Aalen estimators for credit scoring / T. Widiharih, A. Rusgiyono, B. Arya [и др.]. — Текст: непосредственный // Media Statistika. — 2023. — № 16. — С. 37–46.
- Гилёв Д. В. Прогнозирование риска невозврата кредита (скоринг): обзор существующих методов // Экономика: вчера, сегодня, завтра. — 2019. — Том 9. № 7А. — С. 70–80.
- Стадников, А. О. Сравнение моделей кредитного скоринга на базе методов решающих деревьев / А. О. Стадников. — Текст: непосредственный // Инновационная наука. — 2022. — № 6–1. — С. 46–50.
- Two-stage credit scoring using Bayesian approach / Kyeong, S., Shin, J.. — Текст: непосредственный // J of Big Data. — 2022. — № 9. — С. 106.
- Богатов, А. Л. Применение нейронных сетей в решении задачи кредитного скоринга / А. Л. Богатов, И. С. Дуля. — Текст: непосредственный // Вестник Томского государственного университета. Экономика. — 2018. — № 44. — С. 173–183.
- Yim, J. Comparison of country risk models: hybrid neural networks, logit models, discriminant analysis and cluster techniques / J. Yim, H. Mitchell. — Текст: непосредственный // Exp Syst Appl. — 2005. — № 28(1). — С. 137–148.
- Credit scoring models for the microfinance industry using neural networks: evidence from Peru / A. Blanco, R. Pino-MejíAs, J. Lara, S. Rayo. — Текст: непосредственный // Exp Syst Appl. — 2013. — № 40(1). — С. 356–364.
- Волкова, Е. С. Современные подходы к применению методов интеллектуального анализа данных в задаче кредитного скоринга / Е. С. Волкова, В. Б. Гисин, В. И. Соловьев. — Текст: непосредственный // Финансы и кредит. — 2017. — № 34 (754). — С. 2044–2060.
- НБКИ запускает принципиально новую модель скоринга на основе искусственного интеллекта / [Электронный ресурс] // nbki.ru: [сайт]. — URL: https://nbki.ru/company/news/?id=716923&ysclid=ly1mz4ffau344227459/
- ОКБ Антифрод / [Электронный ресурс] // bki-okb.ru: [сайт]. — URL: https://antifraud.bki-okb.ru/
- Equifax Says 85 % of Its New Models Built With AI. — Текст: электронный // pymnts.com: [сайт]. — URL: https://www.pymnts.com/artificial-intelligence-2/2024/equifax-says-85percent-of-new-models-built-with-ai/