0. 背景
在利用传统机器学习模型建模的时候,我们需要挖掘特征,特征维度非常高或者有些特征是荣誉的,我们通常需要利用一些手段自变量进行筛选。比如有500个候选自变量,通常情况下,不会直接把500个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这500个自变量中挑选一些出来,放进模型,形成入模特征。本文讲解如何进行特征选择。
挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。
1. 什么是IV
IV(Infromation Value),信息价值,用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。
2. 限定条件
IV值的计算有一定的限定条件:
(1)面向的任务必须是有监督的任务;
(2)预测目标必须是二分类的。
3. IV取值区间及常用评价基准
IV值的取值区间为:[0,正无穷)。
IV值取值含义:
(1)IV<0.02:无用特征
(2)0.02<IV<0.1:弱价值特征
(3)0.1<IV<0.3:中价值特征
(4)0.3<IV<0.5:强价值特征
(5)IV>0.5:价值过高,不真实
一般可以选择IV值在[0.1,0.5]之间的特征。
4. 如何计算
由于IV值的计算是以WOE值为基础的,所以计算IV值之前,首先得计算WOE值。
4.1 什么是WOE
英文Weight Of Evidence,证据权重,表示描述一个可预测的变量与二分类变量之间的关系。
4.2 WOE计算
在使用WOE之前,需要对变量进行分箱处理,分箱的操作包括:对于连续型变量可以采用:等距分箱,等频分箱,自定义间隔;对于离散型变量,如分箱太多,可以进行分箱合并。
等距分箱:即按照区间距离来划分,不能保证每个分箱中含有相同的变量数;
等频分箱:根据频率划分,可以保证每个分箱中含有相同的变量数。
WOE计算公式如上图所示,可以看出WOE是基于每个分箱中的变量进行计算的,对于每个分箱,分别计算bin_good(好人数),bin_bad(坏人数),分别除以全量数据中的好人总数(total_goods)和坏人总数(total_bads),得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。
故WOE计算方式也可表示为:
4.3 WOE公式理解
WOE表示的是当前分箱当中,“坏人数量占所有样本中坏人数量的比例”,与“好人数量占所有样本中坏好人数量的比例”。如果差异越大,那么该分箱响应坏人的可能性就越大;当差异越小时,该分箱响应的坏人的可能性就越小。
4.4 IV计算
IV的计算如上图,可以理解为IV值的计算是对WOE值的加权和,是用来衡量WOE表示的变量对二分类变量之间关系的强度。
参考博客:
评分卡模型中的IV和WOE详解 - desolateness - 博客园