IV值

评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。 
其中在变量处理的时候涉及IV值和WOE值的计算。

基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。 
由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的变量的变化趋势。

接下来,在此基础上计算 信息价值IV(information value) , 
**一般我们选择 IV值大于0.02的那些变量进入模型。 
如果IV值大于 0.5 ,改变量就是属于过预测变量,通常被选座分群变量,将样本拆分成多个群体,针对不同的群体分别开发评分卡。**

分群的依据通常也会根据业务上的需要进行设定,常见以区域变量作为分群的标准。

证据权重WOE是用来衡量变量某个熟悉的风险的指标,WOE的计算公式: 
这里写图片描述

这里写图片描述

WOE 的值越高,代表着该分组中客户是坏客户的风险越低。

IV值是用来衡量某个变量对好坏客户区分能力的一个指标,IV值公式如下:

这里写图片描述

IV值越大表示好坏客户在该变量上的分布差异就越大,也就是该变量的区分能力就越好。

对于IV值的解释预测力 
这里写图片描述

R语言计算IV值很方便: 
代码如下:

library('smbinning')  #最优分箱
library('DMwR')  #检测离群值
library('xlsx')  


###客户基本信息 和 征信数据衍生变量
#readFilePath<-"F:/TS/Lending_Club/05_middle/data_loan.csv"
readFilePath<-"C:/Users/Administrator/Desktop/df7.csv"
df<-read.csv(readFilePath)
head(df)
names(df)


#smbinning(df, y, x, p = 0.05)
#df: 数据
#y: 二分类变量(0,1) 整型
#x:连续变量:至少满足10 个不同值,取值范围有限
#p:每个Bin记录数占比,默认5% (0.05) 范围0%-50%
#smbinning.plot, smbinning.sql,and smbinning.gen.


result1<-smbinning(df=df,x="acc_open_past_24mths",y="y",p=0.05)
smbinning.plot(result1,option="WoE",sub="acc_open_past_24mths")
r1 <- merge(result1$x,result1$ivtable)

result2<-smbinning(df=df,x="inq_last_12m",y="y",p=0.05)
smbinning.plot(result2,option="WoE",sub="inq_last_12m")
r2 <- merge(result2$x,result2$ivtable)

r_total <- rbind(r1,r2)
outFilePath <- "F:/TS/Lending_Club/04_output/03_r_smbining/r_best_binging.xlsx"
write.xlsx(r_total, outFilePath)  

####################################################################################
# Information Value for all variables in one step ---------------------------
smbinning.sumiv(df=df,y="y") # IV for eache variable

# Plot IV for all variables -------------------------------------------------
sumivt=smbinning.sumiv(df,y="y")
sumivt # Display table with IV by characteristic
par(mfrow=c(1,1))
smbinning.sumiv.plot(sumivt,cex=1) # Plot IV summary table

####################################################################################
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44

[1]参考资料:《SAS开发经典案例解析》(杨驰然)

https://blog.csdn.net/lingan_Hong/article/details/77718123


猜你喜欢

转载自blog.csdn.net/kingzone_2008/article/details/80702758
IV