SAS EM(二)决策树(数据+实操)

SAS EM(二)决策树

决策树主要用来描述将数据划分为不同组的规则。第一条规则首先将整个数据集划分为不同大小的子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同,这样就形成第二层数据集的划分。一般来说,一个子数据集或者被继续划分或者单独形成一个分组。

问题背景

一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是,在这些申请贷款的客户中,大约有 20%的人拖欠贷款。通过使用地理、人口和金融变量,该公司希望为该项目建立预测模型判断客户是否拖欠贷款。

分析数据之后,该公司选择了 12 个预测变量来建立模型判断贷款申请人是否拖欠。回应变量(目标变量)标识房屋净值贷款申请人是否会拖欠贷款。变量,以及它们的模型角色、度量水平、描述,在下表中已经显示。SAMPSIO.HMEQ 数据集中的变量

修改相应的角色以及水平

SAMPSIO 库中的数据集 HMEQ 包括 5960 个观测值,用来建立和比较模型。

可对数据进行探索(下面两图分别表示多式图结果及统计探索结果)

该数据集被划分为训练集、验证集和测试集,从而对数据进行分析。

建立决策树模型,打开树节点,设置决策树模型,在变量选项卡中查看变量的状态、模型角色和度量方式。(如果度量方式不准确,在树节点中是不能修改的。需要在数据源输入节点中进行更正)并且,树节点可以处理缺失值现象。

选择基本选项卡,很多构建决策树的选项在该选项卡设定。划分标准依赖于目标变量的度量方式。对于二值或者名义目标变量,默认的划分标准是重要水平为 0.2 的卡方检验。另外,也可以选择熵方法或者基尼系数方法作为划分标准。对于顺序目标变量,只有熵和基尼方法可选。对于区间变量,有两种划分标准选择,默认方法和 F 检验或者方差检验。

查看结果(可查看树划分规则及变量重要性)

评价模型(可查看模型相关的指标)

查看原数据被划分在哪个树节点(决策树--导出数据)

 

也可以自己进行交互式决策树分支(有时候EM决策树并非最优解,有时随机抽取数据不一样,得出来的树也不一样,要多建立几次验证

随便找一个做例子

拆分节点 

训练节点

训练生成新的叶子结点 

 

猜你喜欢

转载自blog.csdn.net/LuYi_WeiLin/article/details/108906785
SAS