1.WOE
Weight of Evidence,证据权重。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(离散化,分箱等)。分组后,对于第i组,这个组中响应客户站样本中所有响应客户的比例为
这个组中未响应客户占所有未响应客户的比例为
2.IV
information value,其实就是在WOE前面加上一项。
最后,只需要将每个区间的
加起来就得到总的
值:
其作用是消除分组所占比例的影响
3.模型PSI
群体稳定性指标(popularity stability index):
3.1 将模型输出的分数,按照某区间进行分箱
3.2分别计算每个箱的人数占总比,得到基础月份每一箱的占比和目标月份每一箱的占比
3.3分别计算每一箱的PSI
3.4将每一箱的PSI相加得到整个模型分数的PSI
4.单变量PSI
公式同模型PSI的计算,只有分箱的逻辑不同。
4.1将样本按照当前维度的特征所有取值进行分箱
4.2分别计算每个箱的人数占总比,得到基础月份每一箱的占比和目标月份每一箱的占比
4.3分别计算每一箱的PSI
4.4将每一箱的PSI相加。
5.模型KS值
TPR(True Positive Rate):TP/(TP+FN)
FPR(False positive Rate):FP/(FP+TN)
precision = TP /(TP + FP )
最理想的模型是TPR尽可能高而FPR尽可能低,然而理想的模型在提高正确预测率的同时,也会难免低增加误判率。
KS曲线是将概率从小到大进行排序,取10%的值为阈值,同时将10%*k(k=1,2…)处值作为阈值,计算不同的FPR和TPR,以10%*k(k=1,2…)为横坐标,同时分别以TPR和FPR为纵坐标画出两条曲线就是KS曲线。
KS值 = |Max(TPR-FPR)|
5.capture rate
用于衡量在低分区间捕捉坏客户的能力,希望模型尽可能的在更靠前的箱内捕捉出更多的坏客户。
5.1将用户分数降序排列
5.2对排序后的用户进行等频分箱
5.3计算累计到每一箱的累计负样本数占所有副样本的比例