信用风险评估之 预测力指标(筛选特征)

在建模时,被用来预测的变量(即feature)相互间不能有很强的相关性,最好完全不存在相关性。
评判变量间的预测力指标有皮尔森相关系数,斯皮尔曼相关系数,皮尔森卡方统计量,概率比,信息值等。

1.皮尔森相关系数pearson
连续变量x,y(两列feature), 皮尔森相关系数ρ:

这里写图片描述

取值区间[-1,1]。
0表示无相关性即相互独立,越接近于0,相关性越小;
-1为负的强相关性;
+1为正的强相关性。

去均值化的ρ即为余弦夹角公式:
这里写图片描述
小结:
1》皮尔森相关系数会受数据错误或极端值的影响而不稳定。
2》皮尔森相关系数计算的是每个观测值与均值间的差值,适合连续变量间的相关性计算,就不适合顺序/名义变量间的相关性计算。
3》越接近0,相关性越小。

2.斯皮尔曼相关系数spearman
斯皮尔曼相关系数的计算采用取值的等级,而不是取值本身。当取值按升序排列时,取值的等级就是该取值的顺序。如12,5,8的等级为3,1,2。计算公式类似皮尔森相关系数:
这里写图片描述
R,S是两个变量的取值对应的等级。
小结:
1》斯皮尔曼相关系数适用于顺序变量间的相关性计算。
2》斯皮尔曼相关系数对于数据错误和极端值不敏感。
3》越接近于0,相关性越小。

3.皮尔森卡方统计量
皮尔森卡方统计量用X²表示,衡量两个名义变量间的相关性。
下面以一个例子来说明卡方统计量,如下为住房与就业的人数统计表。
这里写图片描述
第i行第j列的预期频数为:
这里写图片描述
也即表格中小括号中的计算数据。

卡方统计量的定义如下:
这里写图片描述
X²服从自由度为df=(r-1)(c-1)的卡方分布。r,c是表中数据的行与列。

其中,卡方分布即伽马分布函数如下
这里写图片描述

独立性假设的概率:
这里写图片描述
当概率值越小,标明两个变量间独立的概率越小,即两变量间有很强的相关性。

上表数据对应的卡方统计量计算得:
这里写图片描述

这里写图片描述
说明就业和居住状况之间存在很强的相关性。

4.似然比检验统计量
两个变量是名义变量
这里写图片描述

观察样本中计算的真实频率分布与已知概率总体分布的差异:
这里写图片描述

两个名义变量x,y的似然比统计量定义为:
这里写图片描述
为何4.22公式是服从卡方分布的???暂时不理解,先记下来。
那么,通过似然比检验统计量可以得出两个变量间的相关性,具体判断类似卡方统计量。

5.概率比
两个变量是名义变量。
这里写图片描述
如上表,
当变量x取x1时的违约比率odds=n11/n12;
当变量x取x2时的违约比率odds=n21/n22;
概率比的定义:
这里写图片描述
若概率比为1或趋近1,那么两个变量之间不存在相关性。
这里写图片描述

概率比在logistic回归建模制定打分卡起着关键作用。

6.F检验
F检验衡量一个连续变量与一个名义变量之间的关联性。谁是因变量无所谓。

先举例引入两个参数MSTR,MSE,如下表:

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

p表示无关联性的概率。p小表示,关联性强。

7.基尼方差
基尼方差衡量三种情况的变量间的相关性:
1>一个连续变量,一个名义或顺序变量;
2>两个名义变量;
3>两个顺序变量。
考虑一个连续变量x和一个名义变量y的情况。基尼方差可以定义为:
G=1-SSE/STD
其中,SSE,STD见上。

8.熵方差
考虑一个类别变量x和一个连续y的情况。熵方差可以定义为:
E=1-SSE/STD
其中,SSE,STD见上。
关于基尼方差和熵方差,还不太明白。(参考《信用风险评分卡研究》)

9.信息值
衡量两个名义变量间的相关性,其中一个是二元的。比如x是名义变量,y是取两个值0和1。
这里写图片描述
IV值,可以用于评估某个自变量(feature)对因变量(label)的预测能力,IV值越大预测能力越强。
这里写图片描述

后续在建立评分卡时,会进一步介绍IV值。

猜你喜欢

转载自blog.csdn.net/xidianliutingting/article/details/53082850