信用评分卡(WOE和IV值)_补

客户生命周期:用来描述客户接受不同产品或服务时所要经历的阶段,包括考虑阶段,购买阶段,购买后行为阶段
在这里插入图片描述

顾客终身价值:客户在未来整个客户生命周期中产生的总价值,CLV可以作为衡量客户关系水平的一个指标

在这里插入图片描述
客户信息:用于客户分析, 客户分析的目的是找到一个准确视角来制定策略,从而最优化的获取和保留客户,定义高价值客户

  • 描述信息:客户的基本属性信息,如性别,年龄, 地理位置和收入等
  • 行为信息:客户行为信息, 即客户使用产品和服务时表现出来的一般模式,如购买,注册,浏览及使用不同设备等
  • 交互信息:客户和网站交互信息,用途在于网站或软件实用性能测试(最重要的是转化率)
  • 态度信息:客户偏感性信息, 如偏好,选择,愿望,品牌认可度及情怀等

fico评分的分类依据是基于一般个体中各个分类的重要性,对于特定群体(例如刚开始使用信用卡的人群),每个分类重要性可能不同

信用评分卡流程(挖掘)
raw data --> 抽子集 --> 读数据 --> 洗数据

信用评分卡里Y一定是1或0

在这里插入图片描述
WOE(证据权重):证据权重描述一个箱子对于预测的证据的多少;值越大,将该箱子预测为1的证据就越强,值越小,将该箱子预测为0的证据就越强,如果等于0,则说明这个箱子没有什么证据;主要用在分箱时对于箱子分类效果的判定
在这里插入图片描述
对于WOE值得异常值处理,如WOE出现无穷大时,可以给WOE公式里上下各加0.5,来让其变为非无穷值

在这里插入图片描述
通过WOE值还可以划出WOE图,从它可以看出单个X与Y的关系,以及能反映出X对于Y的变化趋势

在这里插入图片描述
通过分箱将分类变量转换成连续变量,在通过求分箱后的WOE值得到一个新的WOE列,这个WOE列可以看作是连续变量,因为它是衡量分箱后的每个箱体中对于Y是0/1的区分程度,最后再将WOE值着一列喂入逻辑回归当中;
(重要)信用评分卡里在最后进行逻辑回归时放的每一列都是WOE值列

在这里插入图片描述
IV值:每个箱子的信息值, 这里的信息即是它的预测能力
注意:这里的信息与之前决策树里的信息不同,决策树里的信息表示信息的混乱程度,而这里的信息指的是它的预测能力;值越大,表示箱子的预测能力越强,而对该列下所有IV值加总后就表示该变量的总的预测能力,所以IV值越大,说明信息预测能力越强,变量越重要

在这里插入图片描述
在这里插入图片描述
IV<0.02,对预测几乎无帮助, 0.02<=IV<0.1,具有一定帮助
0.1<=IV<0.3,对预测有较大帮助,IV>=0.3, 具有很大帮助
IV>0.5,需要谨慎看待,有可能好的过分了,IV>1,一定不能要该变量

如何检查IV>0.5时,是否可以用该变量?
检查的方法是用新数据去检测是否适用; 另外,一般情况下,在有大量缺失值时,IV>0.5也有可能出现
故: IV值排序也可以用来作为变量重要性的排序

补充:除了IV值,随机森林也可以计算变量重要性排序

总结:WOE值用来做逻辑回归,而IV值用来计算变量重要性的排序来筛选变量

在这里插入图片描述
odds(优比):一个人/一类人中 P(good)/P(bad)
In(odds): 同一类人,好坏占比的比例
WOE:这一类人对所有人贡献的比例

odds=P(good)/P(bad)

优比和分数是一个正比的关系
In(odds)=-In(P/(1-P))
在这里插入图片描述
在这里插入图片描述

发布了69 篇原创文章 · 获赞 11 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_41636030/article/details/90269621