WOE,IV ,PSI,单变量PSI,KS值,capture rate

1.WOE
Weight of Evidence,证据权重。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(离散化,分箱等)。分组后,对于第i组,这个组中响应客户站样本中所有响应客户的比例为 p y i p_{yi}
p y i = y i y T p_{yi}=\frac{y_i}{y_T}

这个组中未响应客户占所有未响应客户的比例为 p n i p_{ni}
p n i = n i n T p_{ni} = \frac{ni}{n_T}

w o e i = l n ( P y i P n i ) woe_i = ln( \frac{P_{yi}}{P_{ni}})

2.IV
information value,其实就是在WOE前面加上一项。
i v i = ( P y i P n i ) iv_i = (P_{yi}-P_{ni})
最后,只需要将每个区间的 i v iv 加起来就得到总的 i v iv 值:
I V = i v i IV = \sum iv_i

其作用是消除分组所占比例的影响

3.模型PSI
群体稳定性指标(popularity stability index):
P S I = ( ) l n ( ) PSI = \sum(基准月分布占比-目标月分布占比) * ln(\frac{基准月分布占比}{目标月分布占比})
3.1 将模型输出的分数,按照某区间进行分箱
3.2分别计算每个箱的人数占总比,得到基础月份每一箱的占比和目标月份每一箱的占比
3.3分别计算每一箱的PSI
3.4将每一箱的PSI相加得到整个模型分数的PSI

4.单变量PSI
公式同模型PSI的计算,只有分箱的逻辑不同。
4.1将样本按照当前维度的特征所有取值进行分箱
4.2分别计算每个箱的人数占总比,得到基础月份每一箱的占比和目标月份每一箱的占比
4.3分别计算每一箱的PSI
4.4将每一箱的PSI相加。

5.模型KS值
TPR(True Positive Rate):TP/(TP+FN)
FPR(False positive Rate):FP/(FP+TN)
precision = TP /(TP + FP )
最理想的模型是TPR尽可能高而FPR尽可能低,然而理想的模型在提高正确预测率的同时,也会难免低增加误判率。

KS曲线是将概率从小到大进行排序,取10%的值为阈值,同时将10%*k(k=1,2…)处值作为阈值,计算不同的FPR和TPR,以10%*k(k=1,2…)为横坐标,同时分别以TPR和FPR为纵坐标画出两条曲线就是KS曲线。
KS值 = |Max(TPR-FPR)|

5.capture rate
用于衡量在低分区间捕捉坏客户的能力,希望模型尽可能的在更靠前的箱内捕捉出更多的坏客户。
5.1将用户分数降序排列
5.2对排序后的用户进行等频分箱
5.3计算累计到每一箱的累计负样本数占所有副样本的比例

发布了113 篇原创文章 · 获赞 51 · 访问量 17万+

猜你喜欢

转载自blog.csdn.net/weixin_43055882/article/details/98470988
psi