信贷违约风险预测(一)样本数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014281392/article/details/81121122

  在现实生活中有些人由于没有或者较少的信用记录,很难获得贷款,为了增加对与没有银行帐号或信用记录人群的借贷的包容性,Home Credit(信贷机构)会利用各种替代数据:电信或交易信息等等客户的历史的行为数据来预测客户还款能力.基于这些数据,利用各种机器学习方法来做出这些预测,确保有能力还款的客户不会被拒绝.数据来自Home Credit

数据介绍

application_train.csv:
每一行表示一次贷款申请记录

SK_ID_CURR,                  每个样本的ID
TARGET,                        1:还款有困难,在Y个分期还款中,至少有一期会逾期X天
                   0:除了1以外的其他情况
NAME_CONTRACT_TYPE,           贷款类型现金or?  
CODE_GENDER,               客户性别
FLAG_OWN_CAR,              客户是否有车
FLAG_OWN_REALTY,            客户是否有不动产
CNT_CHILDREN,               客户有几个孩子 
AMT_INCOME_TOTAL,             客户收入
AMT_CREDIT,             贷款金额
AMT_ANNUITY,                   贷款年金
AMT_GOODS_PRICE,               消费贷款金额=消费金额
NAME_TYPE_SUITE,            客户在申请贷款是陪同人员情况
NAME_INCOME_TYPE,          客户收入类型
NAME_EDUCATION_TYPE,        客户受教育的程度
NAME_FAMILY_STATUS,          客户的家庭状况
NAME_HOUSING_TYPE,            客户的住房情况(租房or与父母同住)
REGION_POPULATION_RELATIVE,    客户居住区域人口情况(数字越大代表人口越多)
DAYS_BIRTH,                 客户申请时年龄(天数)
DAYS_EMPLOYED,               申请人就业的天数
DAYS_REGISTRATION,            客户在申请前多少天更改了注册时间,仅相对于申请时间
DAYS_ID_PUBLISH,              客户在申请前多少天更改了申请贷款的身份证明文件,相对于限申请时间
OWN_CAR_AGE,                   客户车的年龄
FLAG_MOBIL,                    客户是否提供移动电话,1:有,0:没有
FLAG_EMP_PHONE,                客户是否提供工作电话,1/0
FLAG_WORK_PHONE,               客户是否提供家庭电话,1/0
FLAG_CONT_MOBILE,              移动电话是否管用,1/0
FLAG_PHONE,                    1/0
FLAG_EMAIL,                    1/0
OCCUPATION_TYPE,               职业类型
CNT_FAM_MEMBERS,              客户家庭成员数量
REGION_RATING_CLIENT,         对客户所在地区评级(1,2,3)
REGION_RATING_CLIENT_W_CITY,  对客户居住地区所在的城市评级(1,2,3)
WEEKDAY_APPR_PROCESS_START,   客户在周几申请的贷款
HOUR_APPR_PROCESS_START,      客户申请贷款的大概时间(小时,四舍五入)
REG_REGION_NOT_LIVE_REGION,   客户的常驻地址和联系地址,1:不匹配,0:匹配(地区相同)
REG_REGION_NOT_WORK_REGION,   客户的常驻地址和工作地址,1/0
LIVE_REGION_NOT_WORK_REGION,  客户的联系地址和工作地址,1/0
REG_CITY_NOT_LIVE_CITY,       客户的常驻地址和联系地址,1/0(城市级别)
REG_CITY_NOT_WORK_CITY,       客户的常驻地址和工作地址,1/0(城市级别匹配)
LIVE_CITY_NOT_WORK_CITY,      客户的联系地址和工作地址,1/0(城市级别匹配)
ORGANIZATION_TYPE,            客户工作的组织类型
EXT_SOURCE_1,                 外部数据源标准化分数
EXT_SOURCE_2,                 同上
EXT_SOURCE_3,                 同上
APARTMENTS_AVG,               客户居住建筑物的标准化信息,AVG后缀:平均值
BASEMENTAREA_AVG,              居住公寓的面积
YEARS_BEGINEXPLUATATION_AVG,  
YEARS_BUILD_AVG,               建筑物年龄
COMMONAREA_AVG,                公共区域
ELEVATORS_AVG,                 电梯数量
ENTRANCES_AVG,                 入口数量
FLOORSMAX_AVG,                 楼层最高
FLOORSMIN_AVG,                 楼层最低
LANDAREA_AVG,                  土地面积
LIVINGAPARTMENTS_AVG,          有人居住公寓数量
LIVINGAREA_AVG,                居住面积
NONLIVINGAPARTMENTS_AVG,       无人居住公寓数量
NONLIVINGAREA_AVG,             非居住面积
APARTMENTS_MODE,               同上客户居住建筑的标准化信息,后缀MODE,模式
BASEMENTAREA_MODE,
YEARS_BEGINEXPLUATATION_MODE,
YEARS_BUILD_MODE,
COMMONAREA_MODE,
ELEVATORS_MODE,
ENTRANCES_MODE,
FLOORSMAX_MODE,
FLOORSMIN_MODE,
LANDAREA_MODE,
LIVINGAPARTMENTS_MODE,
LIVINGAREA_MODE,
NONLIVINGAPARTMENTS_MODE,
NONLIVINGAREA_MODE,
APARTMENTS_MEDI,         同上,客户居住建筑物的标准化信息,后缀MEDI,中位数
BASEMENTAREA_MEDI,
YEARS_BEGINEXPLUATATION_MEDI,
YEARS_BUILD_MEDI,
COMMONAREA_MEDI,
ELEVATORS_MEDI,
ENTRANCES_MEDI,
FLOORSMAX_MEDI,
FLOORSMIN_MEDI,
LANDAREA_MEDI,
LIVINGAPARTMENTS_MEDI,
LIVINGAREA_MEDI,
NONLIVINGAPARTMENTS_MEDI,
NONLIVINGAREA_MEDI,
FONDKAPREMONT_MODE,
HOUSETYPE_MODE,
TOTALAREA_MODE,
WALLSMATERIAL_MODE,
EMERGENCYSTATE_MODE,
OBS_30_CNT_SOCIAL_CIRCLE,    客户逾期30天的次数
DEF_30_CNT_SOCIAL_CIRCLE,    客户违约30天的次数
OBS_60_CNT_SOCIAL_CIRCLE,    客户逾期60天的次数
DEF_60_CNT_SOCIAL_CIRCLE,    客户违约60天的次数
DAYS_LAST_PHONE_CHANGE,      客户申请贷款前多少天变更电话
FLAG_DOCUMENT_2,          客户是否提供DOC_2, 1:yes, 0:no
FLAG_DOCUMENT_3,                同上
FLAG_DOCUMENT_4,          同上
FLAG_DOCUMENT_5,          同上
FLAG_DOCUMENT_6,
FLAG_DOCUMENT_7,
FLAG_DOCUMENT_8,
FLAG_DOCUMENT_9,
FLAG_DOCUMENT_10,
FLAG_DOCUMENT_11,
FLAG_DOCUMENT_12,
FLAG_DOCUMENT_13,
FLAG_DOCUMENT_14,
FLAG_DOCUMENT_15,
FLAG_DOCUMENT_16,
FLAG_DOCUMENT_17,
FLAG_DOCUMENT_18,
FLAG_DOCUMENT_19,
FLAG_DOCUMENT_20,
FLAG_DOCUMENT_21,
AMT_REQ_CREDIT_BUREAU_HOUR,   客户申请前一个小时向信用机构查询客户信息次数
AMT_REQ_CREDIT_BUREAU_DAY,    客户申请前一天(不含申请前的一天)
AMT_REQ_CREDIT_BUREAU_WEEK,   客户申请前一周(不含申请前的一周)
AMT_REQ_CREDIT_BUREAU_MON,    客户申请前一月(不含申请前的一月)
AMT_REQ_CREDIT_BUREAU_QRT,    客户申请前3个月(不含申请前的1个月)
AMT_REQ_CREDIT_BUREAU_YEAR,    客户申请前一年(不含申请前的至少3个月)

application_test.csv

  • 和上边的application_train.csv,类似,没有TATGET列.

bureau.csv

  • application_{train/test}.csv中获得贷款客户在其他信贷机构的信用报告.
  • bureau.csv中每个客户的信用历史数据,与application_{train/test}.csv中客户信用记录数据是一致的.
  • 特征列名
SK_ID_CURR,            样本ID(客户ID),每个ID可能会有多条之前的信贷记录
SK_ID_BUREAU,           信贷机构的记录ID,
CREDIT_ACTIVE,          信用机构(局)信用报告的情况
CREDIT_CURRENCY,         信用记录
DAYS_CREDIT,            在当前申请前多少天客户申请过信贷
CREDIT_DAY_OVERDUE,       样本中的客户在申请贷款时,之前申请的贷款还有多少天到期
DAYS_CREDIT_ENDDATE,       Remaining duration of CB credit (in days) at the time of application in Home Credit,time only relative to the application
DAYS_ENDDATE_FACT,        客户之前贷款还款最后期限距离当前申请的间隔天数
AMT_CREDIT_MAX_OVERDUE,     目前为止客户贷款的最高金额
CNT_CREDIT_PROLONG,       客户之前贷款中延期还款的次数
AMT_CREDIT_SUM,          信贷机构的贷款额度
AMT_CREDIT_SUM_DEBT,      信贷机构当前的债务
AMT_CREDIT_SUM_LIMIT,      当前的信用卡额度
AMT_CREDIT_SUM_OVERDUE,     信贷机构贷款逾期的金额
CREDIT_TYPE,           贷款类型
DAYS_CREDIT_UPDATE,       距离但前申请贷款前多少天客户之前贷款信息更新
AMT_ANNUITY            信贷机构的年度贷款额度

bureau_balance.csv

  • 信贷机构每个月的历史记录
  • 数据中的每行为其他信贷机构之前上个表中信用报告的每个月的数据
  • 三个特征
SK_ID_BUREAU,    信用贷款机构的记录ID
MONTHS_BALANCE,   相对于但前的申请剩余月份
STATUS        信贷机构的月贷款状况(C:关闭,X:未知,0:没有逾期,
                   1:1 means maximal did during month between 1-30,
                   2:逾期31-60天,5:逾期超过120+

POS_CASH_balance.csv

  • 贷款申请人以前POS和现金贷款的月度余额快照。
  • 每行为客户以前每个月的现金贷款记录
  • 特征列
SK_ID_PREV,               在Home Credit的样本数据中,之前在其他机构贷款的ID
SK_ID_CURR,               样本中贷款ID
MONTHS_BALANCE,           相对于申请日期的月份余额(-1表示最新月度快照的信息,
                          0表示申请时的信息 - 通常与-1相同
CNT_INSTALMENT,           之前的贷款期限
CNT_INSTALMENT_FUTURE,   分期偿还之前的贷款
NAME_CONTRACT_STATUS,   当月的合同状态
SK_DPD,           之前贷款逾期的天数
SK_DPD_DEF         逾期不超过一个月

credit_card_balance.csv

  • 之前申请的信用卡每月额度快照.
  • 每行为客户每个月的信用卡消费记录
  • 特征列
SK_ID_PREV,           Home Credit样本中客户以前的贷款ID
SK_ID_CURR,                  样本中贷款ID
MONTHS_BALANCE,              相对于申请日期,结余的月份,-1:最新的月份
AMT_BALANCE,          上个月信用卡余额
AMT_CREDIT_LIMIT_ACTUAL,   上个月信用卡的限额
AMT_DRAWINGS_ATM_CURRENT,   上个月在ATM上取款金额
AMT_DRAWINGS_CURRENT,     上个月提取金额
AMT_DRAWINGS_OTHER_CURRENT,  上个月买东西金额
AMT_DRAWINGS_POS_CURRENT,   之前分期还款最小金额
AMT_INST_MIN_REGULARITY,   上个月客户支付金额
AMT_PAYMENT_CURRENT,     客户贷款金额
AMT_PAYMENT_TOTAL_CURRENT,
AMT_RECEIVABLE_PRINCIPAL,
AMT_RECIVABLE,
AMT_TOTAL_RECEIVABLE,
CNT_DRAWINGS_ATM_CURRENT,
CNT_DRAWINGS_CURRENT,
CNT_DRAWINGS_OTHER_CURRENT,
CNT_DRAWINGS_POS_CURRENT,
CNT_INSTALMENT_MATURE_CUM,
NAME_CONTRACT_STATUS,
SK_DPD,SK_DPD_DEF

previous_application.csv

  • 在application数据中,之前申请过Home Credit贷款的客户信息.
  • 每一行为客户贷款记录
SK_ID_PREV,
SK_ID_CURR,
NAME_CONTRACT_TYPE,
AMT_ANNUITY,
AMT_APPLICATION,
AMT_CREDIT,
AMT_DOWN_PAYMENT,
AMT_GOODS_PRICE,
WEEKDAY_APPR_PROCESS_START,
HOUR_APPR_PROCESS_START,
FLAG_LAST_APPL_PER_CONTRACT,
NFLAG_LAST_APPL_IN_DAY,
RATE_DOWN_PAYMENT,
RATE_INTEREST_PRIMARY,
RATE_INTEREST_PRIVILEGED,
NAME_CASH_LOAN_PURPOSE,
NAME_CONTRACT_STATUS,
DAYS_DECISION,
NAME_PAYMENT_TYPE,
CODE_REJECT_REASON,
NAME_TYPE_SUITE,
NAME_CLIENT_TYPE,
NAME_GOODS_CATEGORY,
NAME_PORTFOLIO,
NAME_PRODUCT_TYPE,
CHANNEL_TYPE,
SELLERPLACE_AREA,
NAME_SELLER_INDUSTRY,
CNT_PAYMENT,
NAME_YIELD_GROUP,
PRODUCT_COMBINATION,
DAYS_FIRST_DRAWING,
DAYS_FIRST_DUE,
DAYS_LAST_DUE_1ST_VERSION,
DAYS_LAST_DUE,
DAYS_TERMINATION,
NFLAG_INSURED_ON_APPROVAL

installments_payments.csv

  • 获得Home Credit贷款客户的还款记录
SK_ID_PREV,
SK_ID_CURR,
NUM_INSTALMENT_VERSION, 分期方式,0信用卡
NUM_INSTALMENT_NUMBER, 分期数
DAYS_INSTALMENT,    上次分期应还款日期距离当前申请的时间
DAYS_ENTRY_PAYMENT,  上次分期实际还款日距离当前申请的时间
AMT_INSTALMENT,     之前的信用额度
AMT_PAYMENT       之前分期付款中实际支付金额

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u014281392/article/details/81121122