机器学习特征工程-特征选择之IV

0. 背景

在利用传统机器学习模型建模的时候,我们需要挖掘特征,特征维度非常高或者有些特征是荣誉的,我们通常需要利用一些手段自变量进行筛选。比如有500个候选自变量,通常情况下,不会直接把500个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这500个自变量中挑选一些出来,放进模型,形成入模特征。本文讲解如何进行特征选择。

挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。

“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

1. 什么是IV

IV(Infromation Value),信息价值,用来表示特征对目标预测的贡献程度即特征的预测能力一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。

2. 限定条件

IV值的计算有一定的限定条件:

(1)面向的任务必须是有监督的任务;

(2)预测目标必须是二分类的。

3. IV取值区间及常用评价基准

IV值的取值区间为:[0,正无穷)。

IV值取值含义:

(1)IV<0.02:无用特征

(2)0.02<IV<0.1:弱价值特征

(3)0.1<IV<0.3:中价值特征

(4)0.3<IV<0.5:强价值特征

(5)IV>0.5:价值过高,不真实

一般可以选择IV值在[0.1,0.5]之间的特征。

4. 如何计算

由于IV值的计算是以WOE值为基础的,所以计算IV值之前,首先得计算WOE值。

4.1 什么是WOE

英文Weight Of Evidence,证据权重,表示描述一个可预测的变量与二分类变量之间的关系

4.2 WOE计算

在使用WOE之前,需要对变量进行分箱处理,分箱的操作包括:对于连续型变量可以采用:等距分箱,等频分箱,自定义间隔;对于离散型变量,如分箱太多,可以进行分箱合并。

等距分箱:即按照区间距离来划分,不能保证每个分箱中含有相同的变量数;

等频分箱:根据频率划分,可以保证每个分箱中含有相同的变量数。

WOE计算公式如上图所示,可以看出WOE是基于每个分箱中的变量进行计算的,对于每个分箱,分别计算bin_good(好人数),bin_bad(坏人数),分别除以全量数据中的好人总数(total_goods)和坏人总数(total_bads),得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。

故WOE计算方式也可表示为:

4.3 WOE公式理解

WOE表示的是当前分箱当中,“坏人数量占所有样本中坏人数量的比例”,与“好人数量占所有样本中坏好人数量的比例”。如果差异越大,那么该分箱响应坏人的可能性就越大;当差异越小时,该分箱响应的坏人的可能性就越小。

4.4 IV计算

IV的计算如上图,可以理解为IV值的计算是对WOE值的加权和,是用来衡量WOE表示的变量对二分类变量之间关系的强度。

参考博客:

 评分卡模型中的IV和WOE详解 - desolateness - 博客园

 特征筛选之—IV值_小小数据挖掘工程师的博客-CSDN博客_iv值

客户逾期贷款预测[8] - 特征选择(iv值、随机森林)_truffle528的博客-CSDN博客 

猜你喜欢

转载自blog.csdn.net/weixin_44402973/article/details/126274449
今日推荐