【机器学习】决策树(一)----学习步骤和常用算法ID3以及C4.5

决策树分开两部分，是因为CART算法还是有些麻烦的，对于回归树我还是存在一些问题，希望后面整理的时候能够理清楚。

【学习思想】

决策树的学习思想还是很通俗易懂的。一般我们去买东西，我们会对这个东西的一些特征做一个衡量来决定是否购买，比如我们可能会看这个东西的大小是否合适，如果合适，我们可能会看这个东西的材质是否满意，满意的话我们会继续在意它的价格是否合理。这样一步一步下来，我们就能构造出一个树形模型。不过我们在构造树的时候，第一个选择什么特征作为我们的衡量标准，下一个选择什么特征来衡量，这是一个问题，因此我们要做出特征选择。当我们要买一个新东西(同功用)的时候，我们就可以根据以前生成的树形模型，来判断我们是否会购买。这里买与不买是一个二分类问题，多分类问题与其思想也是一样的，决策树模型可读性很高，且分类速度很快。

【学习步骤】

①特征选择：特征选择即我们用哪个特征来划分空间。我们常用信息增益、信息增益比或基尼系数来作为划分依据。
②决策树的生成：常用算法有ID3，C4.5，CART
②决策树的剪枝：常用方法有极小化决策树整体的损失函数、CART剪枝算法

【①特征选择】

选择最佳划分的度量通常是根据划分后子女节点不纯性的程度。不纯的程度越低，类分布就越倾斜。不纯性度量有熵、基尼、classification error。由于在ID3和C4.5中我们分别是用信息增益和信息增益比，在CART的分类树上是用基尼系数来做特征选择。因此我们要对信息增益、信息增益比以及基尼系数的计算有个了解。

信息增益

输入：训练数据集 $D$ 、特征 $A$
输出：特征A对训练数据集D的信息增益 $g(D,A)$
$\color{blue}{1.数据集D的经验熵H(D)}$
　　　 $H(D)=-\sum\limits_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$
　　　 $\color{red}{|D|为训练样本总数，|C_k|为类C_k的个数}$
$\color{blue}{2.特征A对数据集D的经验条件熵H(D|A)}$
　　　 $H(D|A)=\sum\limits_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum\limits_{i=1}^n\frac{|D_i|}{|D|}\sum\limits_{k=1}^K\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$
　　　 $\color{red}{|D_{ik}|为子集D_i中类为C_k的个数，|D_i|为特征A的第i种取值的个数}$
$\color{blue}{3.信息增益}$
　　　 $g(D,A)=H(D)-H(D|A)$
　　　

信息增益比

输入：训练数据集 $D$ 、特征 $A$
输出：特征A对训练数据集D的信息增益比 $g_R(D,A)$
$\color{blue}{1.数据集D关于特征A的值的熵H_A(D)}$
　　　 $H_A(D)=-\sum\limits_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
$\color{blue}{2.信息增益比}$
　　　 $g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

基尼指数

输入：训练数据集 $D$ 、特征 $A$
输出：特征A对训练数据集D的基尼指数 $Gini(D,A)$
$\color{blue}{1.若样本点属于第一个类的概率是p，则概率分布的基尼指数为}$
　　　 $Gini(p)=2p(1-p)$
$\color{red}{此处是二分类情况，CART算法中会将特征的多个取值变为一对多的形}$
$\color{red}{式变成二分类，来计算某特征所有取值的Gini指数}$

$\color{blue}{2.特征A对数据集D的基尼指数Gini(D,A)}$
　　　 $Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

【②决策树生成算法】

由于C4.5与ID3的区别只在于特征选择上，因此算法结构是一样的。
C4.5是ID3的改进，因为ID3采用信息增益的方式选择特征，会对某些可取类别(值)数目较多的属性有所偏好(如学号，学号取值很多，其信息增益很大，但实际分类意义不强，不具有泛化能力)

$ID3$ $\color{orange}{/C4.5}$ 的生成算法：

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $ε$
输出：决策树 $T$
(1)若 $D$ 中样本全属于同一类别 $C_k$ ，则将 $node$ 标记为 $C_k$ 类叶节点，返回T；

$\color{red}{就拿《统计学习方法》上例5.1中的表来说(下面举例都是用这个)，不管}$
$\color{red}{前面特征如何，最后的类别全是“是”或全是“否”的话，我们就没有必要}$
$\color{red}{做分类了，所以我们会把这一类直接标记为叶节点后结束}$

扫描二维码关注公众号，回复： 2709604 查看本文章

(2)若 $D$ 中样本在 $A$ 上取值相同或 $A=\varnothing$ ，则将 $node$ 标记为叶节点，其类别标记为 $D$ 中样本数量最多的类，返回 $T$ ；

$\color{red}{对于年龄、有工作、有房子、信贷情况这四个特征来说，表中15条数据都相同，}$
$\color{red}{唯独不同的只有类别。比如年龄都是“中年人”，工作和房子都为“是”，信贷情}$
$\color{red}{况都为“一般”，则这些特征对于分类也没有什么作用了，因此也就相当于没有}$
$\color{red}{特征可以用于划分，与特征集A为空集的意义差不多，所以我们就数一数这些}$
$\color{red}{数据中哪个类别最多，就将这个类别标记为叶节点后结束}$

(3)若是以上两种情况都未发生，那么计算 $A$ 中各特征对 $D$ 的信息增益 $\color{orange}{/信息增益比}$ ，选择信息增益 $\color{orange}{/信息增益比}$ 最大的特征 $A_g$ ，若 $A_g$ 的信息增益 $\color{orange}{/信息增益比}$ 小于阈值 $ε$ ，则将 $node$ 标记为 $D$ 中样本数最多的类；

$\color{red}{比如计算出特征有“房子”的信息增益}$ $\color{orange}{/信息增益比}$ $\color{red}{最大，则这一子节点引出两个}$
$\color{red}{子节点，分别对应“是”和“否”，对于“有房子”来说其类别全为“是”，则这个子}$
$\color{red}{节点是一个叶节点，其类标记为“是”；对于“无房子来说”，我们继续从年龄、}$
$\color{red}{工作、信贷情况来选择新的特征}$

(4)否则对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将 $D$ 分割为若干个非空的 $D_i$ ，将 $D_i$ 中样本数最多的类作为类别标记，构建子节点，由节点及其子节点构成树 $T$ ，返回 $T$ ；
(5)对节点i，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归调用(1)~(5)，得到子树 $T_i$ ，返回 $T_i$ 。

【③决策树剪枝算法】

在了解决策树剪枝算法之前，我们先来看看决策树最显著的缺点，那就是容易过拟合。我们可能会学习了一个很复杂的树，它对于训练集有很好的拟合效果，但是对于新输入的数据来说，却无法给出好的分类。因此，为了让复杂的树简单些，提出了剪枝算法。
这这里先复习《统计学习方法》上给出的一种剪枝算法，即极小化决策树整体的损失函数。

决策树学习的损失函数

我们用 $|T|$ (树 $T$ 的叶节点个数)来表示模型的复杂度。
经验熵： $H_t(T)=-\sum\limits_{k}^K\frac{N_{tk}}{N_t}log(\frac{N_{tk}}{N_t})$
$\color{red}{H_t(T)是指叶节点t的经验熵，其中N_{t}是指叶节点t中的样本个数，}$
$\color{red}{N_{tk}是指这N_{t}个样本中k类样本的个数，K是指有多少类别}$

定义决策树学习的损失函数为：
$C_α(T)=\sum\limits_{t=1}^{|T|}N_tH_t(T)+α|T|=-\sum\limits_{t=1}^{|T|}\sum\limits_{k}^KN_{tk}log(\frac{N_{tk}}{N_t})+α|T|$

令 $C(T)=-\sum\limits_{t=1}^{|T|}\sum\limits_{k}^KN_{tk}log(\frac{N_{tk}}{N_t})$ ，用于表示模型对训练数据的误差，即模型与训练数据的拟合程度。
可以得到： $C_α(T)=C(T)+α|T|$
$α$ 是控制模型复杂度和模型误差之间比重的参数，若 $α$ 小，则选择较复杂的模型(即 $|T|$ 较大)；若 $α$ 大，则选择较简单的模型(即 $|T|$ 较小)。这样能够很好地平衡过拟合(方差)与误差(偏差)

剪枝算法(基于极小化决策树整体的损失函数)

输入：由生成算法得到的整个树 $T$ ，参数 $α$
输出：修剪后的子树 $T_α$
(1)计算每一个叶节点的经验熵；
(2)递归地从树的叶节点向上回缩；
(3)计算剪枝前整体树 $T_{before}$ 和剪枝后 $T_{after}$ 的损失函数 $C_α(T_{before})$ 和 $C_α(T_{after})$ ；
(4)若剪枝后的损失函数 $C_α(T_{after})$ 小于剪枝前的损失函数 $C_α(T_{before})$ ，则进行剪枝，将父节点变为新的叶节点；
(5)返回(2)，直至不能继续为止，得到损失函数最小的子树 $T_α$

通过对决策树的生成算法和剪枝算法的学习，我们可以看出决策树生成希望得到更好的拟合效果，而决策树剪枝通过优化损失函数还考虑了模型的复杂度。决策树生成学习局部的模型，决策树剪枝学习整体的模型。

决策树的计算确实不难，我觉得可以通过对例题，习题的计算来加快理解，在真正应用当中，决策树通常会被用到集成学习当中作为基函数，如随机森林，梯度提升树等(大多选择cart tree)

参考文献：《统计学习方法》、《数据挖掘导论》