徹底的に信用スコアカードモデル&モデルの検証を理解するための3分

外国でのクレジットスコアカードは、特に金融の信用リスク評価とリスク管理の分野では、予測方法の成熟したモデルであるだけでなく、比較的広く使用されている、原則としては、ロジスティック回帰モデルの離散的な使用をコードした後、モデル変数のWOEです一般化線形モデル2つのカテゴリ変数。

 この記事では、モデル変数のWOEと原則IVに焦点を当てて説明の便宜のために、ターゲット・スカラー1のこの論文のモデルには、デフォルトのユーザーと呼ばれる、ターゲット変数は、通常のユーザーとして記録さ0である。WOE(エビデンスの重量)は、実際に取る引数ですときに、デフォルトの割合への影響の値は、どのように聖書を理解するには?私はアイコンで示されます。

次のように災い式は次のとおりです。 

 

年齢

#悪い

#良い

悲哀

0-10

50

200

= Lnは((50/100)/(1000分の200))= LN((50/200)/(100/1000))

10-18

20

200

= Lnは((20/100)/(1000分の200))= LN((20/200)/(100/1000))

18-35

5

200

= Lnは((5/100)/(1000分の200))= LN((200分の5)/(100/1000))

35〜50

15

200

= Lnは((15/100)/(1000分の200))= LN((200分の15)/(100/1000))

50以上

10

200

= Lnは((10/100)/(1000分の200))= LN((200分の10)/(100/1000))

集まります

100

1000年

 

 年齢に連続型引数である経年一つの独立変数にテーブル年齢は、それが仮定し、別個の処理をする必要があることを離散(後にトピックを説明するように、どのようにグループとして)5つのグループに分け、#悪いと#goodユーザの数と5つのグループに通常のユーザのデフォルトの分布を示し、最後の一つは災いは、次式で後で変更を見ることができ算出した値である、災いは、通常のユーザに、各パケットのデフォルト引数を反映しますデフォルトのユーザーと一般ユーザーの割合間の人口の違いを占め、ユーザー、したがって、直感的な思考災いは、独立変数の値が含まれているが、ターゲット変数(デフォルト確率)の影響を与えます。

結合されたフォームとロジスティック回帰で計算ロジスティック変換悲哀目的変数(logist_p = LN(P / 1-P))は同様のため、災い引数の値は、引数の元の値に置き換えることができます。

WOEは以下のIVについて話終えました。

次のようにIV式は 



 

実際には、IVが、ある変数の情報の量を測定し、ビューの式から、と等価である加重和悲哀引数値、寸法値は、ターゲット変数の独立変数の影響度を決定し、別の角度からそれを見て、エントロピー式IV式は非常に似ています。 

実際には、WOEの意義を理解するためには、スコアリングモデルの評価の影響を考慮する必要があります。私たちなのでモデリングにおけるモデルの仕事からのすべての処理変数は、自然の中でモデルの効果を高めるために設計されています。

前にいくつかの学習で、私はこの評価方法二分モデル効果、特にROC曲線を総括しています。WOEの重要性を説明するために、本当に私たちは、ROCで開始する必要があります。それでもそれは、テーブルを描画することです。

 

有名なドイツの信用データセットからのデータは、問題を説明するために、引数の1を取りました。最初の列は独立変数の値であり、Nは、値のそれぞれ、n1に対応するサンプルの数を示し、N0は、サンプルの既定の数と正常サンプルの数を表し、P1とP0は各サンプルと正常サンプル集団について、デフォルトのアカウントを表します比、cump1とcump0 P1とP0は、それぞれ、独立変数災い(LN(P1 / P0))の各値に対応し、累積と悲哀を表し、IVが災い*(P1-P0)です。

(WOEの加重和として見ることができる)の静脈和、我々はIV(情報値情報値)を取得し、ターゲット変数の独立変数の影響を測定するための指標の一つである(ジニのように、それらのエントロピー)ここで、 0.666である、それは恥ずかしい、大きすぎる少しのように見えます。

、実際には、さらに、直接、独立変数の値として使用することができ、単一の独立変数のスコアリングモデルとして見ることができ、ターゲット変数の独立変数の効果を研究するために上記のプロセスは、この時、クレジットスコアスコアのいくつかの種類でありますそれが直接、この引数に基づいて順序付けターゲット変数を予測するだけで、引数のいくつかの種類が順序変数であると想定する必要があります。

それはこのような観点、我々はできる「評価モデル効果」と「独立変数とコーディング」を統一する二つのプロセスです。右引数、および適切なコーディングをスクリーニング、実際には、選択し、構築することである引数は、ターゲット変数の高い予測力(予測力)を持っているだけでなく、これらの引数は、単変量スコアを確立していると考えていること効果はかなり良いですモデルモデル。

、いくつかの点で私たちは何をすべきかであるcump1とcump0、例えば、上記の表を取るとき、TPR及びFPRのROC曲線。例えば、この場合TPR = CUMSUM(P1)[3] /(合計(P1))、FPRは= CUMSUM(P0)におけるカットオフ点でスコアA12、A11、A14、A13、A14の順、[ 3] /(和(P0))、それはcump1 [3]とcump0である[3]。だから我々は、対応するROC曲線を描くことができます。

 ROCは、この非常に素晴らしいませんを見ることができます。前にも、ROC曲線は、AUC定量化可能な指標を有する学び、曲線下面積を意味します。このエリアには、実際にTPRとFPRの間の距離の尺度です。

別の観点TPR及びFPRからの上記説明から、これは、独立変数として理解することができる(すなわち、スコア評価ルールのいくつかの種類)0/1のターゲット変数分布、例えばTPR、すなわちcump1、すなわちターゲットのための条件変数は、累積分布における独立変数(評価スコア)1をとる場合。これらの2つの条件が遠くに分散されている場合は、この引数は、ターゲット変数の認識の良い度を有していること。 

条件付き分布関数は、このような認識能力を記述することができるので、条件付き密度関数は、それを行いますか?これは、IVとWOEの概念につながります。実際には、我々はまた、IV 2つの条件付き密度関数との間の距離を測定することができます。これは、P1とP0は和に対応する濃度値であり、式IVの内側から見た、IV =((P1-P0)*ログ(P1 / P0))することができます。IVこの定義はまだのx *のLNXの影を見ることができ、相対エントロピー進化、から来ています。

この時点では既に締結されるべきである:評価スコアリングモデルを出発これら二つの「距離の条件付き密度関数」の観点からの「距離条件の分布関数は」AUCおよびIV、それぞれ、これら2つの指標を得るために考慮すべきことができます。もちろん、これら2つの指標はまた、引数のスクリーニング指標として使用することができ、IVは、より一般的な数であると思われます。そしてWOE IVは、主要な成分です。

那么,到底为什么要用WOE来对自变量做编码呢?主要的两个考虑是:提升模型的预测效果,提高模型的可理解性。

首先,对已经存在的一个评分规则,例如上述的A12,A11,A14,A13,对其做各种函数变化,可以得到不同的ROC结果。但是,如果这种函数变化是单调的,那么ROC曲线事实上是不发生变化的。因此,想要提高ROC,必须寄希望于对评分规则做非单调的变换。传说中的NP引理证明了,使得ROC达到最优的变换就是计算现有评分的一个WOE,这似乎叫做“条件似然比”变换。

用上述例子,我们根据计算出的WOE值,对评分规则(也就是第一列的value)做排序,得到新的一个评分规则。 

此处按照WOE做了逆序排列(因为WOE越大则违约概率越大),照例可以画出ROC线。

可以看出来,经过WOE的变化之后,模型的效果好多了。事实上,WOE也可以用违约概率来代替,两者没有本质的区别。用WOE来对自变量做编码的一大目的就是实现这种“条件似然比”变换,极大化辨识度。

同时,WOE与违约概率具有某种线性关系,从而通过这种WOE编码可以发现自变量与目标变量之间的非线性关系(例如U型或者倒U型关系)。在此基础上,我们可以预料到模型拟合出来的自变量系数应该都是正数,如果结果中出现了负数,应当考虑是否是来自自变量多重共线性的影响。

另外,WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。进一步地,可以研究自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性 

一般地,系数越大,woe的方差越大,则自变量的贡献率越大(类似于某种方差贡献率),这也能够很直观地理解。

总结起来就是,做信用评分模型时,自变量的处理过程(包括编码与筛选)很大程度上是基于对单变量模型效果的评价。而在这个评价过程中,ROC与IV是从不同角度考察自变量对目标变量的影响力,基于这种考察,我们用WOE值对分类自变量进行编码,从而能够更直观地理解自变量对目标变量的作用效果及方向,同时提升预测效果。

这么一总结,似乎信用评分的建模过程更多地是分析的过程(而不是模型拟合的过程),也正因此,我们对模型参数的估计等等内容似乎并不做太多的学习,而把主要的精力集中于研究各个自变量与目标变量的关系,在此基础上对自变量做筛选和编码,最终再次评估模型的预测效果,并且对模型的各个自变量的效用作出相应的评价。

有了WOE和IV指标就可以进行下一步的模型验证了。

模型验证 

在收集数据时,把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROC等指标。

通常一个二值分类器可以通过ROC(Receiver Operating Characteristic 受试者工作特征曲线,ROC曲线上每个点反映着对同一信号刺激的感受性。)曲线和AUC值(Area under Curve  Roc曲线下的面积,介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。)来评价优劣。

很多二元分类器会产生一个概率预测值,而非仅仅是0-1预测值。我们可以使用某个临界点(例如0.5),以划分哪些预测为1,哪些预测为0。得到二元预测值后,可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即true positive + true nagetive。同时可以相应算出TPR(真正率或称为灵敏度)和TNR(真负率或称为特异度)。我们主观上希望这两个指标越大越好,但可惜二者是一个此消彼涨的关系。除了分类器的训练参数,临界点的选择,也会大大的影响TPR和TNR。有时可以根据具体问题和需要,来选择具体的临界点。


图7. 真假阴阳性定义 

如果我们选择一系列的临界点,就会得到一系列的TPR和TNR,将这些值对应的点连接起来,就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现,还能方便比较不同分类器的性能。在绘制ROC曲线的时候,习惯上是使用1-TNR作为横坐标即FPR(false positive rate),TPR作为纵坐标。这是就形成了ROC曲线。

而AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

ROC交换曲线现实意义:衡量舍弃好账户和避免坏账户之间的交换关系。理想的情况是:舍弃0%好账户的情况下拒绝100%的坏账户,模型完全准确地把好账户和坏账户区别开来


图8. ROC曲线中好坏客户比

K-S指标根据两个数学家命名,与交换曲线类似,衡量的是好账户和坏账户的累计分布比例之间具体最大的差距好账户和坏账户之间的距离越大,k-s指标越高,模型的区分能力越强。


图9. K-S指标图:作为好坏客户的另一种区分标志

这些指标满足之后则基本完成评分卡模型的开发过程。

总结展望:

根据以上的讲解,可以看出现在的评分卡并不是特别复杂,很多金融和银行机构都会有自己已经成熟的评分卡模型,可是对于以安全性为最主要的因素考虑,未来的转型是通过外围的数据平台进行双擎的数据分析,业务拓展,例如实时的BI,以及像蚂蚁金服一样,很多额度指标和业务模式比较灵活。很多模型在基础的数据量上的可行,并不代表在未来的云数据平台,大规模跑批中有很好的效果,这其中依然存在很大的挑战和机遇。

 

转载自:https://www.cnblogs.com/nxld/p/6365460.html

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。

 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明。

Woe公式如下: 

 

Age

#bad

#good

Woe

0-10

50

200

=ln((50/100)/(200/1000))=ln((50/200)/(100/1000))

10-18

20

200

=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))

18-35

5

200

=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))

35-50

15

200

=ln((15/100)/(200/1000))=ln((15/200)/(100/1000))

50以上

10

200

=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))

汇总

100

1000

 

 表中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组(至于如何分组,会在以后专题中解释),#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是woe值的计算,通过后面变化之后的公式可以看出,woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响。

再加上woe计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量woe值替代原先的自变量值;

讲完WOE下面来说一下IV:

IV公式如下 



 

其实IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量woe值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度;从另一个角度来看的话,IV公式与信息熵的公式极其相似。 

事实上,为了理解WOE的意义,需要考虑对评分模型效果的评价。因为我们在建模时对模型自变量的所有处理工作,本质上都是为了提升模型的效果。

在之前的一些学习中,我也总结了这种二分类模型效果的评价方法,尤其是其中的ROC曲线。为了描述WOE的意义,还真的需要从ROC说起。仍旧是先画个表格。

 

数据来自于著名的German credit dataset,取了其中一个自变量来说明问题。第一列是自变量的取值,N表示对应每个取值的样本数,n1和n0分别表示了违约样本数与正常样本数,p1和p0分别表示了违约样本与正常样本占各自总体的比例,cump1和cump0分别表示了p1和p0的累计和,woe是对应自变量每个取值的WOE(ln(p1/p0)),iv是woe*(p1-p0)。

对iv求和(可以看成是对WOE的加权求和),就得到IV(information value信息值),是衡量自变量对目标变量影响的指标之一(类似于gini,entropy那些),此处是0.666,貌似有点太大了,囧。

上述过程研究了一个自变量对目标变量的影响,事实上也可以看成是单个自变量的评分模型,更进一步地,可以直接将自变量的取值当做是某种信用评分的得分,此时需要假设自变量是某种有序变量,也就是仅仅根据这个有序的自变量直接对目标变量进行预测。

正是基于这种视角,我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来。筛选合适的自变量,并进行适当的编码,事实上就是挑选并构造出对目标变量有较高预测力(predictive power)的自变量,同时也可以认为,由这些自变量分别建立的单变量评分模型,其模型效果也是比较好的。

就以上面这个表格为例,其中的cump1和cump0,从某种角度看就是我们做ROC曲线时候的TPR与FPR。例如,此时的评分排序为A12,A11,A14,A13,若以A14为cutoff,则此时的TPR=cumsum(p1)[3]/(sum(p1)),FPR=cumsum(p0)[3]/(sum(p0)),就是cump1[3]和cump0[3]。于是我们可以画出相应的ROC曲线。

 可以看得出来这个ROC不怎么好看。之前也学习过了,ROC曲线有可以量化的指标AUC,指的就是曲线下方的面积。这种面积其实衡量了TPR与FPR之间的距离。

根据上面的描述,从另一个角度看TPR与FPR,可以理解为这个自变量(也就是某种评分规则的得分)关于0/1目标变量的条件分布,例如TPR,即cump1,也就是当目标变量取1时,自变量(评分得分)的一个累积分布。当这两个条件分布距离较远时,说明这个自变量对目标变量有较好的辨识度。 

既然条件分布函数能够描述这种辨识能力,那么条件密度函数行不行呢?这就引出了IV和WOE的概念。事实上,我们同样可以衡量两个条件密度函数的距离,这就是IV。这从IV的计算公式里面可以看出来,IV=sum((p1-p0)*log(p1/p0)),其中的p1和p0就是相应的密度值。IV这个定义是从相对熵演化过来的,里面仍然可以看到x*lnx的影子。

至此应该已经可以总结到:评价评分模型的效果可以从“条件分布函数距离”与“条件密度函数距离”这两个角度出发进行考虑,从而分别得到AUC和IV这两个指标。这两个指标当然也可以用来作为筛选自变量的指标,IV似乎更加常用一些。而WOE就是IV的一个主要成分。

那么,到底为什么要用WOE来对自变量做编码呢?主要的两个考虑是:提升模型的预测效果,提高模型的可理解性。

首先,对已经存在的一个评分规则,例如上述的A12,A11,A14,A13,对其做各种函数变化,可以得到不同的ROC结果。但是,如果这种函数变化是单调的,那么ROC曲线事实上是不发生变化的。因此,想要提高ROC,必须寄希望于对评分规则做非单调的变换。传说中的NP引理证明了,使得ROC达到最优的变换就是计算现有评分的一个WOE,这似乎叫做“条件似然比”变换。

用上述例子,我们根据计算出的WOE值,对评分规则(也就是第一列的value)做排序,得到新的一个评分规则。 

此处按照WOE做了逆序排列(因为WOE越大则违约概率越大),照例可以画出ROC线。

可以看出来,经过WOE的变化之后,模型的效果好多了。事实上,WOE也可以用违约概率来代替,两者没有本质的区别。用WOE来对自变量做编码的一大目的就是实现这种“条件似然比”变换,极大化辨识度。

同时,WOE与违约概率具有某种线性关系,从而通过这种WOE编码可以发现自变量与目标变量之间的非线性关系(例如U型或者倒U型关系)。在此基础上,我们可以预料到模型拟合出来的自变量系数应该都是正数,如果结果中出现了负数,应当考虑是否是来自自变量多重共线性的影响。

另外,WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。进一步地,可以研究自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性 

一般地,系数越大,woe的方差越大,则自变量的贡献率越大(类似于某种方差贡献率),这也能够很直观地理解。

总结起来就是,做信用评分模型时,自变量的处理过程(包括编码与筛选)很大程度上是基于对单变量模型效果的评价。而在这个评价过程中,ROC与IV是从不同角度考察自变量对目标变量的影响力,基于这种考察,我们用WOE值对分类自变量进行编码,从而能够更直观地理解自变量对目标变量的作用效果及方向,同时提升预测效果。

这么一总结,似乎信用评分的建模过程更多地是分析的过程(而不是模型拟合的过程),也正因此,我们对模型参数的估计等等内容似乎并不做太多的学习,而把主要的精力集中于研究各个自变量与目标变量的关系,在此基础上对自变量做筛选和编码,最终再次评估模型的预测效果,并且对模型的各个自变量的效用作出相应的评价。

有了WOE和IV指标就可以进行下一步的模型验证了。

模型验证 

在收集数据时,把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROC等指标。

通常一个二值分类器可以通过ROC(Receiver Operating Characteristic 受试者工作特征曲线,ROC曲线上每个点反映着对同一信号刺激的感受性。)曲线和AUC值(Area under Curve  Roc曲线下的面积,介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏,值越大越好。)来评价优劣。

很多二元分类器会产生一个概率预测值,而非仅仅是0-1预测值。我们可以使用某个临界点(例如0.5),以划分哪些预测为1,哪些预测为0。得到二元预测值后,可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即true positive + true nagetive。同时可以相应算出TPR(真正率或称为灵敏度)和TNR(真负率或称为特异度)。我们主观上希望这两个指标越大越好,但可惜二者是一个此消彼涨的关系。除了分类器的训练参数,临界点的选择,也会大大的影响TPR和TNR。有时可以根据具体问题和需要,来选择具体的临界点。


图7. 真假阴阳性定义 

如果我们选择一系列的临界点,就会得到一系列的TPR和TNR,将这些值对应的点连接起来,就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现,还能方便比较不同分类器的性能。在绘制ROC曲线的时候,习惯上是使用1-TNR作为横坐标即FPR(false positive rate),TPR作为纵坐标。这是就形成了ROC曲线。

そして、AUC(曲線下面積)はROC曲線下面積として定義され、この領域の値は明らかに1以下です。また、ROC曲線は、一般的に、Y = Xの、したがってこの直線の上方に位置しているので、範囲0.5〜1でAUCの間何度も、より良い影響わかりやすい説明分類器なかったので、評価基準として使用されるAUC値はROC曲線で大きなAUCより良好な分類結果に対応する値として。

ROC曲線は、実用的な意義を交換:対策は、口座間の良好な関係を放棄し、悪いExchangeアカウントを避けるために理想的には:ケースが悪いのアカウントの0%〜100%の良い口座を放棄することを拒否し、モデルが完全に正確アカウント善と悪のアカウントが区別されます


顧客の品質よりも、図8 ROC曲線

KSの数学者は2つのインジケータ、交換と同様の曲線に従って命名良いと悪いアカウントのアカウントの特定の最大累積分布率との間の隙間の尺度、善と悪のアカウント口座間の距離も大きくKS指数モデルを区別するために、より高い、より強力な能力。


図9 KS図指数:別の顧客の特徴的なマークとしての品質

これらの指標は、開発プロセスのスコアカードモデルの基本的な完了を満たした後。

Outlookの概要:

上記の説明によると、私たちは今、スコアカードは、特に複雑ではない、多くの金融・銀行機関は、独自のスコアカードモデルが成熟していますが、ためになります見ることができる最も重要な要因として、安全性に考慮すべき、将来は周辺の移行を介して行われデュアルエンジンデータ、リアルタイムBIなどのデータ分析、事業開発のためのプラットフォーム、およびなどのアリ信用指標の多くは、より柔軟なビジネスモデルのようなゴールドのドレス、。可能なデータ量に基づいて多くのモデルは、クラウドデータプラットフォームの将来は大きな課題と機会残る非常に良い結果、との大規模なバッチを実行することを意味するものではありません。

 

:より転載https://www.cnblogs.com/nxld/p/6365460.html

おすすめ

転載: www.cnblogs.com/shujuxiong/p/11355848.html