项目-信用评分卡案例总结

 1.确定观察时间窗口

使用用户逾期详情表data/CreditSampleWindow.csv:
- CID:用户ID
- STAGE_BEF:本阶段前的逾期阶段
- STAGE_AFT:本阶段进入的逾期阶段
- 其中逾期阶段含义为: M0:逾期0-3天; M1:逾期3-30天; M2:逾期30-60天; M3:逾期60-90天;以此类推
- START_DATE:进入本阶段时间
- CLOSE_DATE:本阶段结束时间
本数据取的是订单审批日从2015年1月1日到2017年10月31日的所有订单号,即这些订单对应的逾期详情,最后的截止日期为2018年5月31日

1.1导包

 

1.2读取数据及描述统计

 根据描述结果可以看出最后一列即本阶段结束时间最小值为0,且包含缺失值,故需要先处理缺失值再处理异常值0

 1.3数据清洗

1.3.1去重

  drop_duplicates是数据框去重的函数,可以根据指定的若干列(subset=)去重

1.3.2缺失值的处理

后4列缺失值比例相同约为0.08,若缺失值在同一行,则考虑删除。所以验证各列缺失值是否都同在一行

在同一行,删除

1.3.3异常值的处理

猜你喜欢

转载自www.cnblogs.com/lvzw/p/11613218.html