风控评分模型全流程的开发及应用

风控评分模型全流程的开发及应用

  信用评分卡的应用场景有申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡)和反欺诈评分卡(F卡)。

  用户申请信用贷款的流程依次是基本信息核查、强规则校验、反欺诈审核、评分模型和评分授信。最后通过评分决定对高风险客户拒绝,低风险客户自动审批,中风险的客户进入人工审批。

评分卡开发流程

特殊进件排除

确定观察期和表现期

  观察期是计算变量的时期,表现期是预测的时间长度。比如预测客户未来12个月内出现违约的概率,则表现期为12个月。

好坏客户定义

  可以通过迁徙率和Vintage两张图来看。

  从迁徙率来看,M2-M3的迁徙率达到85%,所以定义坏客户为M2+以上;
  从Vintage图看,7期之后开始变得平稳,说明逾期客户基本全部表现,所以定义表现期为7期;于是,坏客户的定义就是未来7个月内出现M2以上的逾期。

样本区分

  为了达到最好的预测效果,通常会依据客群或者产品做样本区分,针对不同的客群开发子评分卡,可以提高模型的预测效果。

数据源准备

  1. 运营商数据
    运营商通话详单、注册时间、缴费信息、流量使用信息、短信信息等
  2. 设备数据
    通过手机SDK获取的设备及通讯相关信息,包括设备信息、通讯录、通话记录、短信、APP信息等
  3. 短信数据
    第三方短信供应商积累的用户数据。
  4. 第三方支付数据
    第三方支付供应商积累的用户数据。包括身份证号码、贷款金额、分期还款金额等。
  5. 手机号码标签
    是否多头借贷、是否命中黑名单
  6. 第三方爬虫
    运营商数据、淘宝数据、社保公积金数据、网银银行卡流水数据。
  7. 个人征信
    个人征信数据,包括信用卡、住房贷款、逾期贷款笔数等
  8. 个人基本信息
    通过身份证获取的性别、年龄、籍贯地,通过手机号获取的运营商、手机号码所在地区等。

建模流程

  主要包括描述性统计分析、采样、数据清洗、特征工程、变量分箱、WOE编码、特征选择、计算IV值、建模、卡方检验、方差膨胀系数检验、分数转换,本文不再展开。

注意几个点:

  1. 离散性变量做转换的两种方法。
      第一,作独热编码,即哑变量转换。第二,根据离散变量分组后的目标变量的均值排序,转化为有序数值变量。第二点是我没怎么注意过的方法。

  2. 变量分箱。

  • 不同分箱好坏比率要有差异。
  • 每个分箱中的好坏数量至少大于30。
  • 每个分箱中的账户百分比至少大于2%。
  • 每个分箱的好坏比率排序需要和业务常识一致。
  • 分箱的取值符合业务常识。例如账龄的分析一般为3的整数倍。

3.拒绝推断
  由于建立的模型的样本均来自于已经核准的案件,这些案件质量相对较好,这样会造成模型偏误。
  事实上案件被拒绝后无法观察其实际的绩效表现,所以采用拒绝推断的方法来预测被拒绝案件好坏从而修正模型。常用的两种方法:

  • 简单扩充法
    以初始模型计算出拒绝客户的违约概率,设定阈值,决定客户的好坏。
  • 分群法
    以初始模型计算违约概率,将审核通过的客户划分为n个群,拒绝客户依然预测的概率归类到某个分群。然后以该群体的正常违约比随机分配拒绝客户的好坏。

模型评估

  不展开介绍模型评估的指标了,之前的文章有写过。详见
风控指标详解

注意几点:

  • AUC值一般大于0.7以上可应用
  • KS值大于0.2可认为有较好的预测效果
  • PSI小于10%可认为是高稳定模型

模型监控

  模型实施后,要建立多个报表对模型的有效性、稳定性进行监控。

  • 稳定性监控报表
      比较评分卡上线后与建模训练样本客户的分值分布,监控模型的有效性
  • 特征分析报表
      比较评分卡上线后和建模训练间每个特征的分布,监控特征的变化趋势,评估模型的有效性。
      可以从缺失值比率、特征分组后的占比、特征分组后的稳定性、特征分组后的IV值、平均数、中位数、众数等监控。
  • 不良贷款分析报表
      评估不同分数段的不良贷款,并与训练样本进行比较,监控客户信贷质量。
      比如,训练样本分数段100-300,M1的占比为10%,M2的占比为30%;上线后的样本,分数段100—300,M1的占比为9%,M2的占比为34%。当发生显著变化的时候,需要考虑分数是否适用。
  • 拒绝原因分析报表
    分析被评分卡拒绝的原因分布。
      基于单个变量,按照取值平均分为3-5组,计算每个组别的平均得分。对于用户的各个变量,划入对应的组别。再将所有组别的最大值减去该组的平均得分,取差值,将各个变量对应的差值从高到低进行排序,输出头三个不同的拒绝原因。

评分截取点选取

  截取点可根据净收入以及预期的逾期率来进行选择,资金成本+数据成本+引流成本+运营成本。

【作者】:Labryant
【原创公众号】:风控猎人
【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。
【转载说明】:转载请说明出处,谢谢合作!~

猜你喜欢

转载自blog.csdn.net/lc434699300/article/details/104762834