风控模型之模型分组

第3节 模型分组

3.1 目的

要清晰模型分组的目的,就要从两方面去思考

  • 为什么要分组:提升模型性能(针对不同分组开发子模型,进而大幅提升整体模型预测能力)
  • 为什么要这么分:能实现组内差异小,组内差异大

评分卡模型开发,就相当于设计一张试卷,然后用客户个人属性、信贷历史等来答题,进而给客户打分实现分类。模型中有多少个变量,就相当于试卷中有多少道题,每道题ABCD对应不同分值,所有题得分汇总就是客户总分。

假如客户中有小学生和大学生,用同一套试卷去考试。假如题目全是微积分、线性代数,那对大学生有比较好的区分效果,但小学生全是0,没有任何区分。反之,若题目全是二位数加减乘除,虽然能对小学生进行区分,但大学生全是满分。

所以,最好的方法就是对客户进行分组,不同的分组设计不同的试卷,实现对每一组客户的区分。

3.2 要求

要进行模型分组,必须满足一些前提要求:

  • 各分组必须都包含足够样本量,以进行模型开发
  • 分组间的好坏样本比值要具有显著差异
  • 分组模型的优劣和最终选择,是需要基于整体模型的最终性能来决定的

3.3 方法

常用的模型分组方法有三种,但不管哪种都必须结合业务经验,能有业务解释:

  • 基于数据:根据数据自身特性。比如征信数据就可以简单划分为有征信、无征信
  • 基于业务:通过业务流程和历史经验,找到可能分组,并用统计分析验证。比如房贷模型分有/没有过房贷
  • 基于统计:借助统计分析方法,如决策树和聚类分析。但必须结合业务,在业务逻辑上能解释得通

目前,我们使用的分组方法是基于统计(数据驱动),但这有时有一定局限性,比如数据本身有一定偏差(数据采样造成),那么分组就不具有普适性,有过拟合风险。就需要加入业务尺度去衡量分组结果,因为过拟合的结果在业务上无法解释。所以,「模型分组必须是基于业务和基于统计的结合」

3.4 结果

以消费贷模型为例,通常把客户分为以下五组:

  • 征信缺失或极少
  • 无逾期少征信
  • 无逾期多征信
  • 有逾期少征信
  • 有逾期多征信

猜你喜欢

转载自www.cnblogs.com/1k-yang/p/12529559.html