机器学习笔记4 -- 决策树

问题域
分类问题,适合离散型、连续型数据

模型函数
是一个树结构(可以是二叉树或非二叉树),每个非叶节点对应一个特征,该节点的每个分支代表这个特征的一个取值,而每个叶节点存放一个类别或一个回归函数。

目标函数
得到一颗决策树,使待测数据按照根节点向下的顺序筛选一个个条件,直到到达叶子为止。到达的叶子所对应的类别就是预测结果。
  1. 准备若干的训练数据(假设 m 个样本);
  2. 标明每个样本预期的类别;
  3. 人为选取一些特征(即决策条件);
  4. 为每个训练样本对应所有需要的特征生成相应值——数值化特征;
  5. 将通过上面的1-4步获得的训练数据输入给训练算法,训练算法通过一定的原则,决定各个特征的重要性程度,然后按照决策重要性从高到底,生成决策树。
训练算法
重要性的判断原则:使分裂节点所包含的样本尽可能属于同一类别,即节点的纯度越来越高。
ID3(Iterative Dichotomiser 3)
以信息增益为度量,选择分裂后信息增益最大的特征进行分裂。
信息熵: 度量样本集合纯度最常用的一种指标。它的值越小则集合的纯度越高。
信息增益: 选取某个属性进行划分,集合的信息不确定性减少程度。信息增益越大,意味着选取此属性进行划分,使集合的纯度提升越大。

C4.5-ID3的改进算法
ID3使用简单,但有两个缺点:
1.为了获取较大的信息增益,会优先选择取直种类较多的特征进行划分,这样结果会分得很细。
2.不能处理取值为连续区间的特征。
C4.5选取了信息增益率作为重要程度的衡量标准。
信息增益率: 即信息增益/属性固有信息熵。增益率对可取值较少的属性有所偏好。
解决第二个不足:
  • 把需要处理的样本(对应整棵树)或样本子集(对应子树)按照连续变量的大小从小到大进行排序。
  • 假设所有 m 个样本数据在特征上的实际取值一共有 k(k<=m)个,那么总共有 k−1 个可能的候选分割阈值点,每个候选的分割阈值点的值为上述排序后的特征值中两两前后连续元素的中点。根据这 k-1 个分割点把原来连续的一个特征,转化为 k-1 个 Bool 特征。
  • 用信息增益率选择这 k-1 个特征的最佳划分。
C4.5自身问题:
当某一特征的的一个取值数量和总数量大小相当时,信息增益趋于无穷,属性固有信息熵趋于0.
C4.5使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

CART (Classification and Regression Tree )
1. 选择 Gini 系数最小的特征作为最优切分点。
2. 它是一颗严格的二叉树,每次分裂只做二分。
基尼指数: 反映了从数据集中随机抽取两个样本,其类别标记不一致的概率,因此,Gini越小,数据集纯度越高。Gini 指数就是基尼系数乘100倍作百分比表示。

优点
其主要优点是模型具有可读性,分类速度快,易于理解,对中间值缺失不敏感,可以处理不相关特征数据。
1)简单直观,生成的决策树很直观。
2)基本不需要预处理,不需要提前归一化,处理缺失值。
3)使用决策树预测的代价是O(log2m)。 m为样本数。
4)既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
5)可以处理多维度输出的分类问题。
6)相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释
7)可以交叉验证的剪枝来选择模型,从而提高泛化能力。
8) 对于异常点的容错能力好,健壮性高。

缺点及优化方案
容易产生过拟合
剪枝 是决策树学习算法对付“过拟合”的主要手段。
预剪枝:
在决策树生成的过程中,对每个节点在划分前进行评估,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点。
降低了过拟合的风险,减少了决策树训练和测试的时间开销,也带来了欠拟合的风险。
后剪枝:
先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换成叶节点能带来决策树泛化性的提升,则将该子树替换为叶节点。
欠拟合风险小,泛化性能高于预剪枝决策树,但训练时间比未剪枝和预剪枝决策树大很多。
其他缺点:
1)决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
2)决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
3)寻找最优的决策树是一个NP难的问题,我们一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。
4)有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。
5)如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

猜你喜欢

转载自blog.csdn.net/zjl0105/article/details/81024744