申请评分卡中的数据预处理和特征衍生（下）

在上一遍申请评分卡中的数据预处理和特征衍生（上），我们主要讲解了

构建信用风险类型的特征
特征分箱
WOE编码

也就是对应图中（数据预处理、特征构造）

这篇文章我们主要讲解特征选择，要学习特征选择，就要学习以下的知识点

特征信息度的计算和意义
信用风险中的单变量分析和多变量分析

特征信息度的计算和意义

在申请评分卡这一块，主要以应用特征信息度为主

IV(information value)衡量的是某一个变量的信息量，公式如下：

N为分组的组数；
IV可用来表示一个变量的预测能力。

根据IV值来调整分箱结构并重新计算WOE和IV，直到IV达到最大值，此时的分箱效果最好。

分组一般原则：组间差异大、组内差异小、每组占比不低于5%、必须有好、坏两种分类

特征信息度的作用：

举个例子，如何计算IV

例如按年龄分组，一般进行分箱，我们都喜欢按照少年、青年、中年、老年几大类进行分组，但效果真的不一定好：

根据IV值可以看出，预测能力低。

信用风险中的单变量分析和多变量分析

单变量分析

分箱后的IV分布，可以定一个阈值，当IV小于0.01（自己根据业务定义）舍弃该变量

多变量分析：变量的两两相关性

如何计算相关性（皮尔逊相关系数），之前单变量分析已经排除IV<=0.01的变量了，剩下的变量计算WOE相关矩阵，自己定一个系系数，当相关性大于0.7则可以按照上面的步骤来解决，要不就选两者IV值较高的，要不就选变量分箱比较均衡的，分享比较均衡最后算出来的分数分布比较广，进行多级分类（好、坏、中、达标）建议选择分箱比较均衡的

之后我们还要考虑变量的多重共线性（用VIF来衡量），一般VIF的最大值小于10则不需要剔除变量

比如x7与xi单个变量之间皮尔逊相关系数都是很小的，但是这一些变量组合到一块,X7可以同xi线性表达出来，此时VIF很大概率就大于10，大于10的时候，我们可以按照下面的步骤来解决

（三）申请评分卡中的数据预处理和特征衍生（下）

申请评分卡中的数据预处理和特征衍生（下）

特征信息度的计算和意义

信用风险中的单变量分析和多变量分析

猜你喜欢