机器学习02—决策树划分流程+三大算法比较+剪枝处理

决策树概述

决策树是一种典型的分类方法 ,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

决策树的优点
1、推理过程容易理解,决策推理过程可以表示成If Then 形式; 2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。

基本流程

1、决策过程中提出的每个判定问题都是对某个属性的“测试”
2、决策过程的最终结论对应了我们所希望的判定结果
3、每个测试的结果或是导出最终结论,或者导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内
4、从根结点到每个叶结点的路径对应了一个判定测试序列

决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树!

划分选择

决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”**(purity)**越来越高

经典的属性划分方法:
信息增益
增益率
基尼指数

划分选择-信息增益

“信息熵”是度量样本集合纯度最常用的一种指标
在这里插入图片描述
当集合中只剩下一类样本,则Pk为1,则Ent(D)=0,纯度高。

信息增益
划重点:一般来说,信息增益越大,则利用属性a来进行划分所获得的纯度提升越大!
在这里插入图片描述
存在的问题
若把“编号”也作为一个候选划分属性,则其信息增益一般远大于其他属性。显然,这样的决策树不具有泛化能力,无法对新样本进行有效预测
信息增益对可取值数目较多的属性有所偏好

划分选择-增益率

增益率定义:
在这里插入图片描述
其中分子即为信息增益,分子:
在这里插入图片描述
称为属性 的“固有值” [Quinlan, 1993] ,属性 的可能取值数目越多(即 越大),则 的值通常就越大

存在的问题
增益率准则对可取值数目较少的属性有所偏好

划分选择-基尼指数

数据集 的纯度可用“基尼值”来度量:
=在这里插入图片描述在这里插入图片描述
反映了从D中随机抽取两个样本,其类别标记不一致的概率。
Gini(D)越小,数据集D的纯度越高
属性a的基尼指数定义为:
在这里插入图片描述
应选择那个使划分后基尼指数最小的属性作为最优划分属性,即
在这里插入图片描述

扫描二维码关注公众号,回复: 11503565 查看本文章

小结

划分选择:
1、信息增益
存在问题:增益率准则对可取值数目较少的属性有所偏好
ID3决策树学习算法以信息增益为准则划分属性

2、增益率
存在问题:增益率准则对可取值数目较少的属性有所偏好
C4.5 [Quinlan, 1993]使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选取增益率最高的

3、基尼指数
CART [Breiman et al., 1984]采用“基尼指数”来选择划分属性

剪枝处理

为什么剪枝

“剪枝”是决策树学习算法对付“过拟合”的主要手段
可通过“剪枝”来一定程度避免因决策分支过多,以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合

预剪枝

决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点记为叶结点,其类别标记为训练样例数最多的类别。
优点:
降低过拟合风险
显著减少训练时间和测试时间开销
缺点:
欠拟合风险:有些分支的当前划分虽然不能提升泛化性能,但在其基础上进行的后续划分却有可能导致性能显著提高。预剪枝基于“贪心”本质禁止这些分支展开,带来了欠拟合风险。

后剪枝

先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
优点:
后剪枝比预剪枝保留了更多的分支,欠拟合风险小,泛化性能往往优于预剪枝决策树
缺点:
训练时间开销大:后剪枝过程是在生成完全决策树之后进行的,需要自底向上对所有非叶结点逐一考察

连续值处理

连续属性离散化(二分法)

第一步
假定连续属性a在样本集D上出现n个不同的取值,从小到大 排列,记为 在这里插入图片描述,基于划分点t,可将D分为子集D-和D+,其中D-包含那些在属性a上取值不大于t的样本,D+包含那些在属性a上取值大于t的样本。考虑包含n-1个元素的候选划分点集合
在这里插入图片描述
即把区间 在这里插入图片描述的中位点 在这里插入图片描述作为候选划分点

第二步
采用离散属性值方法,考察这些划分点,选取最优的划分点进行样本集合的划分
在这里插入图片描述
其中 在这里插入图片描述是样本集D基于划分点t二分后的信息增益,于是, 就可选择使 在这里插入图片描述最大化的划分点

猜你喜欢

转载自blog.csdn.net/qq_42871249/article/details/105360289