周志华-机器学习-笔记（三）-决策树

基本流程

　　决策树的功能和结构：一颗决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其它每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样片全集。
　　决策树学习的目的：为了产生一棵泛化能力强，即处理未见示例能力强的决策树。
这里写图片描述
　　决策树的生成是一个递归过程，但有递归就必定有导致递归返回的情况，要不然递归就会一直无限下去。
　　（1）当前结点包含的样本全属于同一类别，无需划分；
　　（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；
　　（3）当前结点包含的样本集合为空，不能划分。
　　在第（2）种情形下，我们把当前结点标记为叶结点，并将该类别设定为该结点所含样本最多的类别。
　　在第（3）种情形下，同样把当前结点标记为叶结点，但将其类别设定为与其父节点所包含样本最多的类别。

划分选择

　　由图4.2可看出，决策树学习的关键是第8行，即如何选择最优划分属性。随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高。

信息增益

　　“信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_{k}(k=1,2,...,|y|)$ ，则 $D$ 的信息熵定义为：

E n t (D) = - \sum_{k = 1}^{| y |} p_{k} \log_{2} p k

$Ent(D)=-\sum^{|y|}_{k=1}p_{k} \log_{2}pk$

E n t (D)

$Ent(D)$ 的值越小，则

D

$D$ 的纯度越高。
　　假定离散属性

a

$a$ 有

V

$V$ 个可能的取值

{a^{1}, a^{2}, . . ., a^{V}}

$\{a^1,a^2,...,a^V\}$ ，则使用

a

$a$ 来对样本集

D

$D$ 进行划分，就会产生

V

$V$ 个分支结点，其中第

v

$v$ 个分支结点包含了

D

$D$ 中所有在属性

a

$a$ 上取值为

a^{v}

$a^v$ 的样本，记为

D^{v}

$D^v$ 。我们可以计算出

D^{v}

$D^v$ 的信息熵为

E n t (D^{v})

$Ent(D^v)$ ，考虑到不同的分支结点所包含的样本数不同，给各个分支结点赋予权重

\frac{D^{v}}{D}

$\frac{D^v}{D}$ ，于是算出用属性

a

$a$ 对样本

D

$D$ 进行划分所获得的“信息增益”(information gain)：

G a i n (D, a) = E n t (D) - \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} E n t (D^{v})

$Gain(D,a)=Ent(D)-\sum^{V}_{v=1}\frac{|D^v|}{|D|}Ent(D^v)$
信息增益越大，则意味着使用属性

a

$a$ 来进行划分所获得的“纯度提升”越大。因此，我们用信息增益来进行决策树的划分属性选择，即图4.2算法第8行选择属性

a_{*} = a r g m a x G a i n (D, a), a \in A

$a_{*}=arg\;max\;Gain(D,a),\; a \in A$ 。

增益率

　　信息增益准则对可取值数目较多的属性有所偏好，为了减少这种偏好可能带来的不利影响，使用“增益率”(gain ratio)来选择最优划分属性。其定义为：

G a i n_r a t i o (D, a) = \frac{G a i n (D, a)}{I V (a)}

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$ 其中

I V (a) = - \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} \log_{2} \frac{| D^{v} |}{| D |}

$IV(a)=-\sum^{V}_{v=1}\frac{|D^v|}{|D|}\log_{2}\frac{|D^v|}{|D|}$ 称为属性

a

$a$ 的“固有值”(intrinsic value)。通常属性

a

$a$ 的可能取值数目越多（即

V

$V$ 越大），则

I V (a)

$IV(a)$ 的值通常越大。
　　增益率准则对可取值数目较少的属性有所偏好，故在使用增益率准则时，想从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

尼基指数

　　CART决策树，Classification and Regression Tree，是一种著名的决策树学习算法，分类和回归任务都可用。它就使用“尼基指数”(Gini index)来选择划分属性。数据集 $D$ 的纯度用尼基值来度量：

G i n i (D) = \sum_{k = 1}^{| y |} \sum_{k^{'} \neq k} p_{k} p_{k^{'}} = 1 - \sum_{k = 1}^{| y |} p_{k}^{2}

$Gini(D)=\sum^{|y|}_{k=1} \sum_{k' \neq k}p_{k}p_{k'} = 1-\sum^{|y|}_{k=1}p^{2}_{k}$
　　

G i n i (D)

$Gini(D)$ 反映了数据集

D

$D$ 中随机抽取两个样本，其类别标记不一致的概率。因此，

G i n i (D)

$Gini(D)$ 越小，则数据集

D

$D$ 的纯度越高。
　　属性

a

$a$ 的尼基指数定义为

G i n i_i n d e x (D, a) = \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} G i n i (D^{v})

$Gini\_index(D,a)=\sum^{V}_{v=1}\frac{|D^v|}{|D|}Gini(D^v)$
　　我们在候选属性

A

$A$ 中，选择尼基指数最小的属性作为最优划分属性，即

a_{*} = a r g m i n G i n i_i n d e x (D, a), a \in A

$a_{*}=arg\;min\;Gini\_index(D,a),\;a\in A$ 。

剪枝处理

　　剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”(prepruning)和”后剪枝”(post-pruning)。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。
　　判断决策树泛化性能提升的方法有很多（留出法、自助法等），这里使用留出法讨论。对西瓜数据集随即划分成下图的两个部分：
这里写图片描述

预剪枝

　　基于信息增益准则，如果对表4.2的数据集生成决策树，如下图所示：
这里写图片描述
　　预剪枝处理的决策树如下图：

后剪枝

　　基于表4.2的数据我们得到图4.5的决策树，用验证集验证可知该决策树的进度为 $42.9\%$ 。后剪枝需要从低往上，一个结点一个结点验证。得到的决策树如下
这里写图片描述
其验证精度为 $71.4\%$ 。

　　预剪枝与后剪枝比较：后剪枝决策树通常比预剪枝决策树保留了更多的分支，所以后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。
　　但后剪枝决策树需要对每个非叶结点逐一进行考察，因此其训练时间开销比未剪枝和预剪枝决策树都要大得多。

连续与缺失值

连续值处理

　　在现实学习任务中常会遇到连续属性（例如，形容一种特性的程度），所以有必要讨论如何在决策树学习中使用连续属性。二分法(bi-partition)是对连续属性进行处理的最简单策略，是一种连续属性离散化技术。
　　给定样本集 $D$ 和连续属性 $a$ ，假定 $a$ 在 $D$ 上出现了 $n$ 个不同的取值，将这些值从小到大进行排序，记为 $\{a^1,a^2,...,a^n\}$ 。然后基于划分点 $t$ 可以将 $D$ 分为子集 $D^{-}_{t}$ （属性 $a$ 上取值不大于 $t$ 的样本），和 $D^{+}_{t}$ （属性 $a$ 上取值大于 $t$ 的样本）。
　　由于对于任意相邻的属性取值 $a^i$ 和 $a^{i+1}$ 来说， $t$ 在区间 $[a^i,a^{i+1})$ 中取任意值所产生的划分结果相同。因此，对于连续属性 $a$ ，包含 $n-1$ 个元素的候选划分点集合

T_{a} = {\frac{a^{i} + a^{i + 1}}{2} | 1 \leq i \leq n - 1} ，

$T_{a}=\{\frac{a^i + a^{i+1}}{2}\;|\;1 \leq i \leq n-1\}\;，$ 然后，就可以想离散属性值一样来考察这些划分点，选择最优的划分点进行样本集合的划分。有：

G a i n (D, a) = m a x G a i n (D, a, t), t \in T_{a}

$Gain(D,a) = max\;Gain(D,a,t),\; t\in T_{a}$

= m a x E n t (D) - \sum_{λ \in {-, +}} \frac{| D_{t}^{λ} |}{| D |} E n t (| D_{t}^{λ}) ，

$=max\;Ent(D)-\sum_{\lambda \in \{-,+\}}\frac{|D^{\lambda}_{t}|}{|D|}Ent(|D^{\lambda}_{t})\;，$ 其中

G a i n (D, a, t)

$Gain(D,a,t)$ 是样本集

D

$D$ 基于划分点

t

$t$ 二分后的信息增益。于是选择使

G a i n (D, a, t)

$Gain(D,a,t)$ 最大化的划分点。

缺失处理

　　现实任务中常常会遇到不完整的样本，即样本的某些属性值缺失。如果我们放弃这些不完整的样本，无疑是对数据信息的极大的浪费。下表是含有不完整样本的西瓜数据集
这里写图片描述
　　对此，我们需要解决两个问题：（1）如何在属性值缺失的情况下进行划分属性选择？（2）给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？
　　给定训练集 $D$ 和属性 $a$ ，令 $\check{D}$ 表示 $D$ 中在属性 $a$ 上没有缺失值的样本子集。
　　对于问题（1），我们仅可根据 $\check{D}$ 来判断属性 $a$ 的优劣。假定属性 $a$ 有 $V$ 个可取值 $\{a^1,a^2,...,a^V\}$ ，令 $\check{D^v}$ 表示 $\check{D}$ 在属性 $a$ 上取值为 $a^v$ 的样本子集； $\check{D_k}$ 表示 $\check{D}$ 中属于第 $k$ 类 $(k=1,2,...|y|)$ 的样本子集。于是有， $\check{D}=\cup^{|y|}_{k=1}\check{D}_k$ ，它表示 $check{D}_{k},\;(k=1,2,...,|y|)$ 的所有并集；和 $\check{D}=\cup^{V}_{v=1}\check{D}^v$ ，它表示 $check{D}^{v},\;(v=1,2,...,V)$ 的所有并集。
　　假定我们为每个样本 $x$ 赋予一个权重 $w_x$ ，并定义

ρ = \frac{\sum_{x \in \overset{ˇ}{D}} w_{x}}{\sum_{x \in D} w_{x}}

$\rho=\frac{\sum_{x \in \check{D}}w_x}{\sum_{x \in D}w_x}$

{\overset{ˇ}{p}}_{k} = \frac{\sum_{x \in \overset{ˇ}{D_{k}}} w_{x}}{\sum_{x \in \overset{ˇ}{D}} w_{x}} (1 \leq k \leq | y |)

$\check{p}_k=\frac{\sum_{x \in \check{D_k}}w_x}{\sum_{x \in \check{D}}w_x}\;\;(1 \leq k \leq |y|)$

{\overset{ˇ}{r}}_{k} = \frac{\sum_{x \in \overset{ˇ}{D^{v}}} w_{x}}{\sum_{x \in \overset{ˇ}{D}} w_{x}} (1 \leq v \leq V)

$\check{r}_k=\frac{\sum_{x \in \check{D^v}}w_x}{\sum_{x \in \check{D}}w_x}\;\;(1 \leq v \leq V)$ 对属性

a

$a$ 来说，

ρ

$\rho$ 表示无缺失值样本所占的比例；

\overset{ˇ}{p_{k}}

$\check{p_k}$ 表示无缺失值样本中第

k

$k$ 类所占的比例；

\overset{ˇ}{r_{v}}

$\check{r_v}$ 表示无缺失值样本中在属性

a

$a$ 上取值

a^{v}

$a^v$ 的样本所占的比例。并且有，

\sum_{k = 1}^{| y |} \overset{ˇ}{p_{k}} = 1

$\sum^{|y|}_{k=1}\check{p_k}=1$ ，

\sum_{v = 1}^{V} \overset{ˇ}{r_{v}} = 1

$\sum^{V}_{v=1}\check{r_v}=1$ 。
　　根据上述定义，可将信息增益的计算式(4.2)推广为

G a i n (D, a) = ρ \times G a i n (\overset{ˇ}{D}, a) = ρ \times (E n t (\overset{ˇ}{D}) - \sum_{v = 1}^{V} E n t (\overset{ˇ}{D^{v}}))

$Gain(D,a)=\rho \times Gain(\check{D},a)=\rho \times (Ent(\check{D}) - \sum^{V}_{v=1}Ent(\check{D^v}))$ 其中

E n t (\overset{ˇ}{D}) = - \sum_{k = 1}^{| y |} \overset{ˇ}{p_{k}} \log_{2} \overset{ˇ}{p_{k}}

$Ent(\check{D})=-\sum^{|y|}_{k=1}\check{p_k} \log_{2}\check{p_k}$
　　 对于问题（2），若样本

x

$x$ 在划分属性

a

$a$ 上的取值已知，则将

x

$x$ 划入与其取值对应的子结点，且样本权值在子结点中保持为

w_{x}

$w_x$ ；若样本

x

$x$ 在划分属性

a

$a$ 上的取值未知，则将

x

$x$ 同时划入所有子结点，且样本权值在与属性值

a^{v}

$a^v$ 对应的子结点中调整为

\overset{ˇ}{r_{v}} \cdot w_{x}

$\check{r_v} \cdot w_x$ ，这相当于让同一个样本以不同的概率划入到不同的子结点中去。

多变量决策树

　　若把每个属性是为坐标空间中的一个坐标轴，则d个属性对应d维空间中的一个数据点。决策树所形成的的分类边界有一个明显的特点：轴平行（axis-parallel），即它的分类边界由若干个与坐标轴平行的分段组成。
这里写图片描述
　　若是在多变量情况下，决策树会相当复杂，由于要进行大量的属性测试，预测时间开销会很大。但若能使用斜的划分边界，则决策树模型将大为简化。

　　“多变量决策树”(multivariate decision tree)就是能实现这样的“斜划分”甚至更复杂划分的决策树。
　　以实现斜划分的多变量决策树为例，在此类决策树中，非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试；使得每个非叶结点是一个形如 $\sum^{d}_{i=1}w_{i}a_{i}=t$ 的线性分类器，其中 $w_i$ 是属性 $a_i$ 的权重， $w_i$ 和 $t$ 可在该结点所含的样本集和属性集上学得。
这里写图片描述