风控评分模型全流程的开发及应用

　信用评分卡的应用场景有申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡)和反欺诈评分卡(F卡)。

　用户申请信用贷款的流程依次是基本信息核查、强规则校验、反欺诈审核、评分模型和评分授信。最后通过评分决定对高风险客户拒绝，低风险客户自动审批，中风险的客户进入人工审批。

　观察期是计算变量的时期，表现期是预测的时间长度。比如预测客户未来12个月内出现违约的概率，则表现期为12个月。

　可以通过迁徙率和Vintage两张图来看。

　从迁徙率来看，M2-M3的迁徙率达到85%，所以定义坏客户为M2+以上；
　从Vintage图看，7期之后开始变得平稳，说明逾期客户基本全部表现，所以定义表现期为7期；于是，坏客户的定义就是未来7个月内出现M2以上的逾期。

　为了达到最好的预测效果，通常会依据客群或者产品做样本区分，针对不同的客群开发子评分卡，可以提高模型的预测效果。

　主要包括描述性统计分析、采样、数据清洗、特征工程、变量分箱、WOE编码、特征选择、计算IV值、建模、卡方检验、方差膨胀系数检验、分数转换，本文不再展开。

注意几个点：

离散性变量做转换的两种方法。
　第一，作独热编码，即哑变量转换。第二，根据离散变量分组后的目标变量的均值排序，转化为有序数值变量。第二点是我没怎么注意过的方法。
变量分箱。

3.拒绝推断
　由于建立的模型的样本均来自于已经核准的案件，这些案件质量相对较好，这样会造成模型偏误。
　事实上案件被拒绝后无法观察其实际的绩效表现，所以采用拒绝推断的方法来预测被拒绝案件好坏从而修正模型。常用的两种方法：

　不展开介绍模型评估的指标了，之前的文章有写过。详见
风控指标详解

注意几点：

　模型实施后，要建立多个报表对模型的有效性、稳定性进行监控。

稳定性监控报表
　比较评分卡上线后与建模训练样本客户的分值分布，监控模型的有效性
特征分析报表
　比较评分卡上线后和建模训练间每个特征的分布，监控特征的变化趋势，评估模型的有效性。
　可以从缺失值比率、特征分组后的占比、特征分组后的稳定性、特征分组后的IV值、平均数、中位数、众数等监控。
不良贷款分析报表
　评估不同分数段的不良贷款，并与训练样本进行比较，监控客户信贷质量。
　比如，训练样本分数段100-300，M1的占比为10%，M2的占比为30%；上线后的样本，分数段100—300，M1的占比为9%，M2的占比为34%。当发生显著变化的时候，需要考虑分数是否适用。
拒绝原因分析报表
分析被评分卡拒绝的原因分布。
　基于单个变量，按照取值平均分为3-5组，计算每个组别的平均得分。对于用户的各个变量，划入对应的组别。再将所有组别的最大值减去该组的平均得分，取差值，将各个变量对应的差值从高到低进行排序，输出头三个不同的拒绝原因。

　截取点可根据净收入以及预期的逾期率来进行选择，资金成本+数据成本+引流成本+运营成本。

【作者】：Labryant
【原创公众号】：风控猎人
【简介】：某创业公司策略分析师，积极上进，努力提升。乾坤未定，你我都是黑马。
【转载说明】：转载请说明出处，谢谢合作！~