机器学习特征工程-特征选择之IV

0. 背景

在利用传统机器学习模型建模的时候，我们需要挖掘特征，特征维度非常高或者有些特征是荣誉的，我们通常需要利用一些手段自变量进行筛选。比如有500个候选自变量，通常情况下，不会直接把500个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这500个自变量中挑选一些出来，放进模型，形成入模特征。本文讲解如何进行特征选择。

挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。

“变量的预测能力”这个说法很笼统，很主观，非量化，在筛选变量的时候我们总不能说：“我觉得这个变量预测能力很强，所以他要进入模型”吧？我们需要一些具体的量化指标来衡量每自变量的预测能力，并根据这些量化指标的大小，来确定哪些变量进入模型。IV就是这样一种指标，他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

1. 什么是IV

IV（Infromation Value），信息价值，用来表示特征对目标预测的贡献程度，即特征的预测能力，一般来说，IV值越高，该特征的预测能力越强，信息贡献程度越高。

2. 限定条件

IV值的计算有一定的限定条件：

（1）面向的任务必须是有监督的任务；

（2）预测目标必须是二分类的。

3. IV取值区间及常用评价基准

IV值的取值区间为：[0,正无穷）。

IV值取值含义：

（1）IV<0.02：无用特征

（2）0.02<IV<0.1：弱价值特征

（3）0.1<IV<0.3：中价值特征

（4）0.3<IV<0.5：强价值特征

（5）IV>0.5：价值过高，不真实

一般可以选择IV值在[0.1,0.5]之间的特征。

4. 如何计算

由于IV值的计算是以WOE值为基础的，所以计算IV值之前，首先得计算WOE值。

4.1 什么是WOE

英文Weight Of Evidence，证据权重，表示描述一个可预测的变量与二分类变量之间的关系。

4.2 WOE计算

在使用WOE之前，需要对变量进行分箱处理，分箱的操作包括：对于连续型变量可以采用：等距分箱，等频分箱，自定义间隔；对于离散型变量，如分箱太多，可以进行分箱合并。

等距分箱：即按照区间距离来划分，不能保证每个分箱中含有相同的变量数；

等频分箱：根据频率划分，可以保证每个分箱中含有相同的变量数。

WOE计算公式如上图所示，可以看出WOE是基于每个分箱中的变量进行计算的，对于每个分箱，分别计算bin_good（好人数），bin_bad（坏人数），分别除以全量数据中的好人总数（total_goods）和坏人总数（total_bads），得到每个分箱内的边际好人占比（margin_good_rate）和边际坏人占比（margin_bad_rate）。

故WOE计算方式也可表示为：