风控项目-收集基础知识2

构建信用风险类型的特征

模型处理的一般流程

数据预处理(时间格式、缺失值、机值)- >特征构造(计数、比例、距离)->特征选择(相关性、差异性、显著性)->模型参数估计(回归系数、模型复杂度)

数据预处理(时间格式、缺失值、极值)

1、数据格式处理:原始数据带有一定的格式,需要转换成正确的格式

例如:利率 %-》需要转化为浮点数 日期:nov-17需要转化为python的时间

工作年限 :‘<1 years ’-->0  '>10 years'-->11

2、文本类的数据处理方式

主题提取(NLP)

优点:提取准确、详细的信息、对风险评估非常有效

缺点:NLP的模型比较复杂,且需要足够多的训练样本

编码

优点:简单

3、缺失值

缺失的种类:完全随机缺失、随机缺失、完全非随机缺失

处理的方法:补缺、作为一种状态、删除记录或变量

连续缺失值可以取均值,离散缺失值可以取频率较高的

构建特征

常用的特征衍生

计数:过去1年内申请贷款的总次数

求和:过去1年内的网站消费总额

比例:贷款申请额度与年收入占比

时间差:第一次开户距今时长

波动率:过去3年内每份工作的时间的标准差

特征的分箱

分箱的定义

将连续变量离散化、将多状态的离散变量合并成少状态

分箱的重要性

稳定性:避免特征中无意义的波动对评分带来的波动

健壮性:避免了极端值的影响

分箱的优势

可以将缺失作为独立的一个箱带入模型中、将所有变量变换到相似的尺度上

分箱的限制

计算量大,分箱后需要编码

分箱的方法:

常用的方法:

有监督:

Best-KS

ChiMerge

无监督:

等频

等距

聚类

监督分箱法:Best-KS(针对连续变量)

原理:让分箱后组别的分布差异最大化

对于连续变量

1、排序,x={x1,x2,...xk}

2 、计算每一点的KS值

3、选取最大的KS对应的特征值xm,将x分为{xi<=xm}或{xi>xm}

对某一部分,重复2-3,直到满足终止条件之一

终止条件:

1、下一步分箱,最小的箱的占比低于设定的阈值(常用0.05)

2、下一步分箱后,该箱对应类别全部为0或者1

3、下一步分箱后,bad rate不单调

对应离散度很高的变量

1、编码

2、根据连续变量方式进行分箱

有序行的离散变量

监督室分箱法:卡方分箱法

自底向上(即基于合并的)的数据离散化方法。依赖于卡方检验;具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则

基本思想:对于精确的离散化,相对累频率在一个区间内应完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。

Best-KS(二分类情形下)  ChiMerge (多分类情形下)

卡方分箱法:

1、预先设定一个卡方的阈值

2、根据要离散的属性实例进行排序:每个实例属于一个区间

3、合并区间:

(1)计算每一对相邻区间的卡方值

(2)将卡方值最小的一对区间合并

卡方分箱法

卡方阈值的确定

根据显著水平和自由度得到卡方值

自由度和类别数量小1.例如:有3类,自由度为2,则90%置信度(10%显著水平下),卡方的值为4.6

阈值的意义

类别和属性独立时,90%可能性,计算得到的卡方值汇小于4.6,这样,大于阈值的卡方值就说明属性和类不是相互独立的不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的数量少,区间大。

注意:

1、CHiMerge 算法推荐使用0.90,0.95,0.99置信度,最大区间取10到15之间

2、也可以不考虑卡方阈值,此时可以考虑最小区间或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间

3、对于类别型变量,需要分箱时需要按照某种方式进行排序

对于连续型变量:

使用ChiMerge进行分箱(默认5个)

检查分箱后bad rate的单调性,倘若不满足,需要进行相邻两箱的合并,直到bad rate为止

对于类别型变量:

当类别较少时,原则上不需要分箱

当某个或者几个类别的bad rate为0时,需要和最小的非0的bad rate的箱进行合并

当该变量可以完全区分目标变量时,需要认真检查该变量的合理性

无监督分箱法:等距划分、等频划分

等距划分:W=(B-A)/N

等频划分:每一箱的占比大致相同

WOE编码

一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值

优势

将特征的值规范到相近的尺度上(经验上讲,WOE的绝对值波动范围在0.1~3之间)

具有业务的含义

缺点

需要每箱中同时包含好坏两个类别

WOE编码的意义

符号与好样本的比例相关

要求回归模型的系数为负

特征信息度的计算和意义

变量挑选

在评分卡模型中,变量挑选是非常重要的工作

变量间的共线性,线性相关性

       信息冗余、降低了显著性,甚至造成符号失真

加剧后期验证、部署、监控的负担

业务上含义不充分

变量挑选的依据

带约束:LASSO

特征重要性:随机森林

模型拟合优度和复杂度:基于AIC的逐步回归

变量信息度:IV

高IV表示该特征和目标变量的关联度高、目标变量只能是二分类、分箱越细、IV越高

单变量分析:

1、用IV检验有效性

2、连续变量bad rate的单调性(可以放宽到U型)

3、单一区间的占比不宜过高

多变量分析:变量的两两相关性,当相关性较高时,保留一个

可以选择iv高的、可以选择分箱均匀的

WOE相关性矩阵(基于IV>0.01的变量)

变量的多重共线性

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/81530012