ML_8 决策树

学习资料和李航书里的内容学习

学习目标

知识点描述：白盒模型——决策树

学习目标：

决策树相关概念以及模型算法推导
ID3、C4.5、CART决策树代码实现

一、初识决策树-分类方法——一步步分解

用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点对应着该特征的一个取值，如此递归的对实例进行测试并分配，直到到达叶节点，最后将实例分到叶节点的类中。

1.2 决策树与条件概率

在前面已经从直观上了解决策树，及其构造步骤了。现在从统计学的角度对决策树进行定义能够能好地帮助我们理解模型。

决策树表示给定特征条件下，类的条件概率分布，这个条件概率分布表示在特征空间的划分上，将特征空间根据各个特征值不断进行划分，就将特征空间分为了多个不相交的单元，在每个单元定义了一个类的概率分布，这样，这条由根节点到达叶节点的路径就成了一个条件概率分布。

提出两个问题：

特征空间的划分是如何确定的？（根据一系列的评价系数确认分类特征？）
该条件概率分布的概率值是如何确定的？（根据各点数据集归纳出的分类规则？）

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能是0个或多个。我们需要找到一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。

从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该不仅对训练数据有很好地拟合，而且对未知数据有很好地预测。

2.2 决策树损失函数

与其他模型相同，决策树学习用损失函数表示这一目标。决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。

3 决策树的构建

决策树通常有三个步骤：

特征选择
决策树的生成
决策树的修剪

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。

这一过程对应着对特征空间的划分，也对应着决策树的构建。

开始：构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。
如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶子节点去。
如果还有子集不能够被正确的分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点，如此递归进行，直至所有训练数据子集被基本正确的分类，或者没有合适的特征为止。
每个子集都被分到叶节点上，即都有了明确的类，这样就生成了一颗决策树。

决策树2: 特征选择中的相关概念

决策树学习算法有三个步骤：

特征选择
决策树生成
决策树剪枝

特征选择，就是决策树的构造过程。

信息熵(information entropy)
条件熵(conditional entropy)
信息增益(information gain)
信息增益率(information gain ratio)
基尼指数(Gini index)

决策树3: 特征选择之寻找最优划分

每个节点在哪个维度上做划分？
某个维度在哪个值上做划分？

划分的依据是： 要让数据划分成两部分之后，系统整体的信息熵降低。

具体方法是： 对所有的划分可行性进行搜索。下一篇我们模拟在一个节点上进行搜索，找到一个节点上信息熵的最优划分。

那么问题来了： 我们如何找到各个特征/节点上的最优划分呢？

信息熵的最优划分

信息增益率最优划分实现

基尼系数最优划分实现

决策树4：构建算法之ID3、C4.5

（一）ID3

1.1 简介

ID3算法是一种分类预测算法，算法以信息论中的“信息增益”为基础。核心是通过计算每个特征的信息增益，每次划分选取信息增益最高的属性为划分标准，递归地构建决策树。

ID3相当于用极大似然法进行概率模型的选择。

具体方法是：

从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征。
由该特征的不同取值建立子节点，再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止；
最后得到一个决策树。

从ID3的构建树过程而言，它可以看成使用贪心算法得到近似最优的一颗决策树，它无法保证是最优的。

3.1 优缺点：

相对于其他数据挖掘算法，决策树在以下几个方面拥有优势：

决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。
对于决策树，数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。
能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
是一个白盒模型如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。
易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
在相对短的时间内能够对大型数据源做出可行且效果良好的结果

ID3算法可用于划分标准称型数据，但存在一些问题：

没有剪枝过程，为了去除过渡数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点;
信息增益的方法偏向选择具有大量值的属性，也就是说某个属性特征索取的不同值越多，那么越有可能作为分裂属性，这样是不合理的；
只可以处理离散分布的数据特征
ID3算法只考虑了树的生成，即尽可能的是模型拟合当前训练数据集，所以该算法生成的树容易过拟合。

(二)C4.5算法

C4.5算法是数据挖掘十大算法之一，它是对ID3算法的改进，相对于ID3算法主要有以下几个改进

用信息增益比来选择属性
在决策树的构造过程中对树进行剪枝
对非离散数据也能处理
能够对不完整数据进行处理

C4.5算法与ID3算法过程相似，仅在特征选择时，使用信息增益比作为特征选择准则

总结

一、ID3：

熵表示的是数据中包含的信息量大小。熵越小，数据的纯度越高，也就是说数据越趋于一致，这是我们希望的划分之后每个子节点的样子。

信息增益 = 划分前熵 - 划分后熵。信息增益越大，则意味着使用属性 a 来进行划分所获得的 “纯度提升” 越大 **。也就是说，用属性 a 来划分训练集，得到的结果中纯度比较高。

ID3 仅仅适用于二分类问题。ID3 仅仅能够处理离散属性。

二、C4.5：

C4.5 克服了 ID3 仅仅能够处理离散属性的问题，以及信息增益偏向选择取值较多特征的问题，使用信息增益比来选择特征。信息增益比 = 信息增益 / 划分前熵选择信息增益比最大的作为最优特征。

C4.5 处理连续特征是先将特征取值排序，以连续两个值中间值作为划分标准。尝试每一种划分，并计算修正后的信息增益，选择信息增益最大的分裂点作为该属性的分裂点。

三、信息增益 vs 信息增益比：

之所以引入了信息增益比，是由于信息增益的一个缺点。那就是：信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项，解决了这个问题。

决策树5：剪枝与sklearn中的决策树

决策树是依据训练集进行构建的，为了尽可能正确地分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多。这就可能会把训练样本学的“太好”了，以至于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此可主动去掉一些分支来降低过拟合风险。

决策树非常容易产生过拟合，实际所有非参数学习算法，都非常容易产生过拟合。

因此，对于决策树的构建还需要最后一步，即决策树的修剪。两个目的：降低复杂度，解决过拟合。

决策树的修剪，也就是剪枝操作，主要分为两种：

预剪枝（Pre-Pruning）
后剪枝（Post-Pruning）

预剪枝

2.1 概念

预剪枝是指在决策树生成过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分并将当前节点标记为叶节点。

那么所谓的“决策树泛化性能”如何来判定呢？这就可以使用性能评估中的留出法，即预留一部分数据用作“验证集”以进行性能评估。

评判依据就是对划分前后的泛化性能进行估计：划分前后的泛化性能是否有提升，也就是如果划分后泛华性能有提升，则划分；否则，不划分。

对比未剪枝的决策树和经过预剪枝的决策树可以看出：预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但是，另一方面，因为预剪枝是基于“贪心”的，所以，虽然当前划分不能提升泛化性能，但是基于该划分的后续划分却有可能导致性能提升，因此预剪枝决策树有可能带来欠拟合的风险。

后剪枝

3.1 概念

后剪枝是先从训练集生成一颗完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树完全替换为叶节点能带来决策树繁花性的提升，则将该子树替换为叶节点

3.4 总结

对比预剪枝和后剪枝，能够发现，后剪枝决策树通常比预剪枝决策树保留了更多的分支，一般情形下，后剪枝决策树的欠拟合风险小，泛化性能往往也要优于预剪枝决策树。但后剪枝过程是在构建完全决策树之后进行的，并且要自底向上的对树中的所有非叶结点进行逐一考察，因此其训练时间开销要比未剪枝决策树和预剪枝决策树都大得多

决策树6：分类与回归树CART

CART算法：Classification And Regression Tree。顾名思义，CART算法既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree）、模型树（Model Tree），两者在建树的过程稍有差异。既可以解决分类问题，也可以解决回归问题。根据某一个维度d和某一个阈值v进行二分，得到的决策树是二叉树。

该算法既可以做分类，又可以做回归。在分类和回归时，其算法流程大致相同，但是其特征划分、输出预测结果等步骤是不同的，大家要多加对比和注意。

CART作为分类树

CART作为分类树时，特征属性可以是连续类型也可以是离散类型，但观察属性(即标签属性或者分类属性)必须是离散类型。

2.1 对离散特征和连续特征的处理

2.1.1 离散特征

CART分类树算法对离散值的处理，采用的思路：不停的二分离散特征。

在ID3、C4.5，特征A被选取建立决策树节点，如果它有3个类别A1,A2,A3，我们会在决策树上建立一个三叉点，这样决策树是多叉树。

CART采用的是不停的二分。会考虑把特征A分成{A1}和{A2,A3}、{A2}和{A1,A3}、{A3}和{A1,A2}三种情况，找到基尼系数最小的组合。

2.1.2 连续特征

CART分类树算法对连续值的处理，思想和C4.5相同，都是将连续的特征离散化。唯一区别在选择划分点时，C4.5是信息增益比，CART是基尼系数。

CART作为回归树

3.1 回归问题思路

当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法就显得太难了，也略显笨拙。而且，实际生活中很多问题都是非线性的，不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份易建模的数据，然后利用线性回归技术来建模。如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下，树结构和回归法就相当有用。

回归树的目标是连续数据，树被用来预测目标变量的值是多少。

CART回归树和CART分类树的建立类似，区别在于样本的输出，如果样本输出是离散值，这是分类树；样本输出是连续值，这是回归树。分类树的输出是样本的类别，回归树的输出是一个实数。

并且分类树采用基尼系数的大小度量特征各个划分点的优劣。而回归树采用最小化均方差和进行最优划分特征的选择，对于划分特征A，划分点s两边的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小，对应的特征和特征值划分点。。

3.2 CART剪枝

由于决策树算法很容易对训练集过拟合，而导致泛化能力差，为了解决这个问题，我们需要对CART树进行剪枝，来增加决策树的泛化能力。CART采用的办法是后剪枝法。

CART树的剪枝算法可以概括为两步：

从原始决策树生成各种剪枝效果的决策树
用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的树作为最终的CART树。