基于决策树的贷款审批模型

基于决策树的贷款审批模型

一、背景描述

银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回本金和利息,扣除成本后获得利润。银行为了获得更大的利润,对每一位顾客的信息进行分类,然后针对不同的顾客采用不同的方案。

银行每天要收到大量贷款申请,其中夹杂着大量不具备贷款资格的申请,为缓解审批人员的工作量,可以根据申请人资料,制定一个模型自动过滤高拖欠贷款概率的资格申请表。

二、数据分析

2.1.数据阅读

下表为银行贷款发放后是否拖欠的部分用户信息,其中因变量为“拖欠贷款”,自变量有“年龄”、“收入级别”、“信用卡树”、“学历”、“车贷数量”,计划通过决策树建立贷款审批模型,自动过滤高拖欠贷款概率用户。

拖欠货款

年龄

收入级别

信用卡数

学历

车贷数量

50.53

5张以上

高中

2次以上

27.02

少于5张

高中

无或1次

28.1

少于5张

高中

无或1次

24.04

5张以上

高中

2次以上

25.72

5张以上

大学

2次以上

29.53

少于5张

高中

2次以上

28.02

5张以上

高中

2次以上

26.81

5张以上

大学

2次以上

42.44

5张以上

高中

无或1次

35.03

5张以上

高中

无或1次

29.05

5张以上

大学

2次以上

                                                                       表1 贷款拖欠与否用户信息

2.2.决策树根节点选择

优先选择哪个属性进行决策树的生长,并不是随机选择的,而是要根据不同的决策树通过不同的评估效果决定。

1)基于信息增益的根节点选择(针对C4.5/5.0等决策树)

从表1可知,根节点的选择有“年龄”、“收入级别”、“信用卡数”、“学历”、“车贷数量”,以“收入级别”为例计算信息增益。

图1 通过“收入级别”划分

假定根节点属性U,包括拖欠货款和不拖欠货款的人数分别为1020和1444个对象,则根节点的熵:

 

根节点按照“收入级别”划分后可得3个子节点V1(低)、V2(中)、V3(高),各子节点的熵:

 

按照“收入级别”属性划分后的条件熵:

 

因此可计算出按“收入级别”属性划分后的信息增益:

 

同理计算出其它属性划分后的信息增益:

Gains(U,收入级别) = 0.978 – 0.766 = 0.211

Gains(U,年龄) =0.978 – 0.890 = 0.087

Gains(U,信用卡数) = 0.978 – 0.843 = 0.134

Gains(U,学历) = 0.978 – 0.977 = 0.001

Gains(U,车贷数量) = 0.978 – 0.896 = 0.081

根据计算结果可见,按“收入级别”属性划分信息增益最大。

2)基于卡方检验的根节点选择(针对CHAID决策树)

从表1可知,根节点的选择有“年龄”、“收入级别”、“信用卡数”、“学历”、“车贷数量”,根据“R*C”表通用公式:

K^2 = n(∑A^2/NrNc -1)

以及四格表通用公式:

k^2 = n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)

计算各属性的卡方差如下:

收入级别 = 662.456

信用卡数 = 415.996

年龄 = 290.065

车贷数量 = 265.963

年龄 = 0.098

根据计算结果可见,按“收入级别”属性划分卡方差最大。

三、模型建立

将数据集分为70%的训练集以及30%的校验集,分别用于模型的建立以及校验。

3.1.决策树模型的建立

1)决策树

 

2)模型汇总

模型汇总

指定

增长方法

CHAID

因变量

拖欠货款

自变量

年龄, 收入级别, 信用卡数, 学历, 车贷数量

验证

最大树深度

3

父节点中的最小个案

100

子节点中的最小个案

50

结果

自变量已包括

收入级别, 信用卡数, 年龄

节点数

22

终端节点数

13

深度

3

增长方法采用CHAID,自变量采用“收入级别”、“信用卡数”、“年龄”。

3.2.决策树模型校验

将训练集生成的模型纳入校验集检测:

分类

已观测

已预测

正确百分比

363

62

85.4%

84

212

71.6%

总计百分比

81.2%

77.3%

79.8%

 

3.3.决策树模型应用

从决策树16号节点分析:收入级别低、信用卡5张以上、年龄<37的人群为高拖欠贷款概率人群,此外也可直接将人员信息通过决策树直接输入拖欠贷款概率。

四、总结

本文通过建立贷款审批模型,当新用户申请贷款时,贷款审批人员可迅速判断拖欠贷款概率,节省分析时间,减少运营风险。

原创文章 136 获赞 51 访问量 10万+

猜你喜欢

转载自blog.csdn.net/zhaocen_1230/article/details/83351656