English (United States) Русский (Россия)

 

Минимизировать

Скоринг и скоринговые модели

Скоринг (кредитный скоринг) — это определение на основании имеющейся информации о заёмщике вероятности того, что заёмщик отдаст кредит. Он реализуется посредством скоринговых моделей. Чаще всего в них используются логистическая регрессия, метод ближайшего соседа, нейросетевые методы, а также всевозможные их комбинации. Кроме того, могут применяться новые, только что разработанные методы, например, основывающиеся на теории орграфов. Нет единого мнения, на основании каких подходов стоит строить такие модели, поэтому проводятся различные конкурсы по data mining-у, а также исследования по сравнению различных моделей на тестовых обезличенных данных.

Для развития этого направления мы выкладываем на продажу такие данные. Уверены, они поспособствуют созданию новых, сильных инноваций в сфере кредитного скоринга. – http://www.plati.ru/asp/pay.asp?idd=987989

В архиве содержатся тестовые обезличенные данные, предназначенные для апробации различных скоринговых статистических моделей, а также для проведения исследований по поиску различных статистических закономерностей.

Модельные данные (Modeling_Data.txt внутри файла Modeling_Data.zip, находящегося в главном архиве) содержат 50000 записей, поля записи разделены табуляцией. Каждая запись представляет собой обезличенные сведения о 31-м параметре (регрессоре) заёмщика, а также информацию отдал он кредит или нет. Несмотря на то, что данные обезличены, они содержат в себе все закономерности реальной предметной области.

Файл, содержащийся в архиве Variables_List.zip, описывает поля модельных данных.
Все данные в архиве на АНГЛИЙСКОМ языке! Следовательно, для того, чтобы ими пользоваться нужны минимальные его знания (или желание разобраться). Данные предоставлялись в открытом доступе на одном из международных конкурсов по Data Mining-у.

Некоторые поля модельных данных:
ID_CLIENT - Идентификатор клиента (заёмщика)
ID_SHOP - Идентификатор кредитного магазина, где был приобретен кредитный продукт
SEX - Пол (М - мужской, F - женский)
MARITAL_STATUS - Семейное положение (S - холост/не женат, С - женат/замужем, D - разведен, V - вдовец/вдова, О - другое)
AGE - Возраст
QUANT_DEPENDANTS - Количество иждивенцев у заёмщика
EDUCATION - образовательный уровень (может быть не указан)
FLAG_RESIDENCIAL_PHONE - Есть ли постоянный телефонный номер (Y - да, N - нет)
AREA_CODE_RESIDENCIAL_PHONE - Измененный код области телефона заёмщика
PAYMENT_DAY - Фиксированный день месяца для регулярного отдавания кредита
SHOP_RANK - Рейтинг компании-продавца кредитного продукта, представленный в финансовых терминах
RESIDENCE_TYPE - Тип жилья (Р - собственное, A - арендуемое, С - в доме родителей, O - другое)
MONTHS_IN_RESIDENCE - время проживания в текущем месте в месяцах
FLAG_MOTHERS_NAME - Указано ли в анкете заёмщика имя матери (Y - да, N - нет)
FLAG_FATHERS_NAME - Указано ли в анкете заёмщика имя отца (Y - да, N - нет)

и так далее до последнего поля:
TARGET_LABEL_BAD - Отдал ли в конце концов заёмщик кредит (1 - НЕ отдал, 0 - отдал)

Возможные сферы научно-прикладных исследований, которые могут основываться на этих данных:
- СКОРИНГ.
- МАТЕМАТИЧЕСКАЯ СТАТИСТИКА (в том числе, неклассические разделы, например, статистика объектов нечисловой природы).
- НЕЙРОННЫЕ СЕТИ

Кроме того, в архиве есть еще два набора данных (в файлах Prediction_Data.zip и LeaderBoard_Data.zip) по 10000 записей каждый без указания того, отдал заёмщик или нет. Эти датасеты могут быть использованы для проверки созданных Вами статистических моделей. Особую ценность представляет то, что эти два датасета содержат данные за другие промежутки времени (там даже поля не полностью совпадают), что позволит проверить робастность (устойчивость) Вашей скоринговой математической модели к незначительным конъюнктурным социально-экономическим изменениям, происходящим со временем. Это поможет Вам создавать модели, действительно отражающие скрытые пока закономерности предметной области, то есть законы природы.

UPD.
По этим данным, например, можно установить, что то, что женщины - более добросовестные плательщики не домысел, а статистический факт практически с любой доверительной вероятностью - и с 95%, и с 99%.

 

 

Вам действительно интересно, каким образом данная простенькая система определений оказалась в топе поиска? Подпишитесь на рассылку по поисковому продвижению сайтов!