风控评分模型全流程的开发及应用
信用评分卡的应用场景有申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡)和反欺诈评分卡(F卡)。
用户申请信用贷款的流程依次是基本信息核查、强规则校验、反欺诈审核、评分模型和评分授信。最后通过评分决定对高风险客户拒绝,低风险客户自动审批,中风险的客户进入人工审批。
评分卡开发流程
特殊进件排除
确定观察期和表现期
观察期是计算变量的时期,表现期是预测的时间长度。比如预测客户未来12个月内出现违约的概率,则表现期为12个月。
好坏客户定义
可以通过迁徙率和Vintage两张图来看。
从迁徙率来看,M2-M3的迁徙率达到85%,所以定义坏客户为M2+以上;
从Vintage图看,7期之后开始变得平稳,说明逾期客户基本全部表现,所以定义表现期为7期;于是,坏客户的定义就是未来7个月内出现M2以上的逾期。
样本区分
为了达到最好的预测效果,通常会依据客群或者产品做样本区分,针对不同的客群开发子评分卡,可以提高模型的预测效果。
数据源准备
- 运营商数据
运营商通话详单、注册时间、缴费信息、流量使用信息、短信信息等 - 设备数据
通过手机SDK获取的设备及通讯相关信息,包括设备信息、通讯录、通话记录、短信、APP信息等 - 短信数据
第三方短信供应商积累的用户数据。 - 第三方支付数据
第三方支付供应商积累的用户数据。包括身份证号码、贷款金额、分期还款金额等。 - 手机号码标签
是否多头借贷、是否命中黑名单 - 第三方爬虫
运营商数据、淘宝数据、社保公积金数据、网银银行卡流水数据。 - 个人征信
个人征信数据,包括信用卡、住房贷款、逾期贷款笔数等 - 个人基本信息
通过身份证获取的性别、年龄、籍贯地,通过手机号获取的运营商、手机号码所在地区等。
建模流程
主要包括描述性统计分析、采样、数据清洗、特征工程、变量分箱、WOE编码、特征选择、计算IV值、建模、卡方检验、方差膨胀系数检验、分数转换,本文不再展开。
注意几个点:
-
离散性变量做转换的两种方法。
第一,作独热编码,即哑变量转换。第二,根据离散变量分组后的目标变量的均值排序,转化为有序数值变量。第二点是我没怎么注意过的方法。 -
变量分箱。
- 不同分箱好坏比率要有差异。
- 每个分箱中的好坏数量至少大于30。
- 每个分箱中的账户百分比至少大于2%。
- 每个分箱的好坏比率排序需要和业务常识一致。
- 分箱的取值符合业务常识。例如账龄的分析一般为3的整数倍。
3.拒绝推断
由于建立的模型的样本均来自于已经核准的案件,这些案件质量相对较好,这样会造成模型偏误。
事实上案件被拒绝后无法观察其实际的绩效表现,所以采用拒绝推断的方法来预测被拒绝案件好坏从而修正模型。常用的两种方法:
- 简单扩充法
以初始模型计算出拒绝客户的违约概率,设定阈值,决定客户的好坏。 - 分群法
以初始模型计算违约概率,将审核通过的客户划分为n个群,拒绝客户依然预测的概率归类到某个分群。然后以该群体的正常违约比随机分配拒绝客户的好坏。
模型评估
不展开介绍模型评估的指标了,之前的文章有写过。详见
风控指标详解
注意几点:
- AUC值一般大于0.7以上可应用
- KS值大于0.2可认为有较好的预测效果
- PSI小于10%可认为是高稳定模型
模型监控
模型实施后,要建立多个报表对模型的有效性、稳定性进行监控。
- 稳定性监控报表
比较评分卡上线后与建模训练样本客户的分值分布,监控模型的有效性
- 特征分析报表
比较评分卡上线后和建模训练间每个特征的分布,监控特征的变化趋势,评估模型的有效性。
可以从缺失值比率、特征分组后的占比、特征分组后的稳定性、特征分组后的IV值、平均数、中位数、众数等监控。 - 不良贷款分析报表
评估不同分数段的不良贷款,并与训练样本进行比较,监控客户信贷质量。
比如,训练样本分数段100-300,M1的占比为10%,M2的占比为30%;上线后的样本,分数段100—300,M1的占比为9%,M2的占比为34%。当发生显著变化的时候,需要考虑分数是否适用。 - 拒绝原因分析报表
分析被评分卡拒绝的原因分布。
基于单个变量,按照取值平均分为3-5组,计算每个组别的平均得分。对于用户的各个变量,划入对应的组别。再将所有组别的最大值减去该组的平均得分,取差值,将各个变量对应的差值从高到低进行排序,输出头三个不同的拒绝原因。
评分截取点选取
截取点可根据净收入以及预期的逾期率来进行选择,资金成本+数据成本+引流成本+运营成本。
【作者】:Labryant
【原创公众号】:风控猎人
【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。
【转载说明】:转载请说明出处,谢谢合作!~