R语言做评分卡模型<二>

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012429555/article/details/79066572

Score Card原理

      评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量离散化之后用WOE编码,在建立模型。ScoreCard用IV值来筛选变量,而且ScoreCard输出为分值。

对IV的直观理解

      IV的全称是Information Value,中文意思是信息价值,或者信息量。从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中

IV Predictive Power
<0.02 useless
0.02-0.1 weak
0.1-0.3 medium
0.3-0.5 strong
>0.5 suspicious

IV,WOE的计算
      前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。

  

  • WOE的计算

      WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:


其中 Bi是第i组坏客户数量(bad),BT 是整体坏客户数量。同理,G就是good,好客户的意思。


woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响

而IV值得公式如下:



我们可以看到IV值其实是woe值加权求和。这个加权主要是消除掉各分组中数量差异带来的误差。

  • 分数的计算

    我们将客户违约的概率表示为1-p,则正常的概率为p,可以得到优势比:

    

评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式:


其中,A和B是常数。式中的负号可以使得违约概率越低,得分越高。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。那么对于log(0dds)如何计算?

逻辑回归的计算比率公式:


 逻辑回归的分数计算:式中变量x1…xn是出现在最终模型中的自变量,即为入模指标。由于此时所有变量都用WOE进行了转换,可以将这些自变量中的每一个都写成如下形式:

 

上式中ωij 为第i行第j个变量的WOE,为已知变量;βi为逻辑回归方程中的系数,为已知变量;δij为二元变量,表示变量i是否取第j个值。上式可重新表示为:


贝叶斯的计算比率公式:


式中变量x1…xn是出现在最终模型中的自变量,即为入模指标。由于此时所有变量都用WOE进行了转换,可以将这些自变量中的每一个都写成如下形式(同逻辑回归模型,只不过β0=0其他β都为1):


式中ωij 为第i行第j个变量的WOE,为已知变量;βi为逻辑回归方程中的系数,为已知变量;δij为二元变量,表示变量i是否取第j个值。上式可重新表示为: 


猜你喜欢

转载自blog.csdn.net/u012429555/article/details/79066572