西瓜书第4章学习笔记

今天来看一下西瓜书第四章——决策树。

文章目录

决策树，简单来说就是一个树形结构从根节点往叶子节点进行决策，树内部的每一个节点是对一个特征的测试，树的分支代表该特征的每一个测试结果，而树的每一个叶子节点代表一个类别。

在这里插入图片描述

信息增益

信息熵是度量样本纯度的一种指标，假设样本集合 $D$ 中第 $k$ 类样本所占比例为 $p_k，k=1,2,\cdots,N$ （在二分类中， $N = 2$ ），那么 $D$ 的信息熵定义为

$Ent(D)=-\sum_{k=1}^{N}p_klog_2p_k$

$E n t (D)$ 的值越小，说明 $D$ 的纯度越高。

假设某一个特征 $a$ 有 $V$ 个取值，记为 $[a^1,\cdots,a^V]$ ，那么在该特征 $a$ 中，第 $v$ 个取值 $a^v$ 的所有个数，记为 $D^v$ 。于是该特征的信息增益为：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V} \frac{D^v}{D}Ent(D^v)$

一般来说，信息增益越大，意味着用该特征进行划分获得的纯度提升越大，因此，我们一般选择 $m a x (G a i n (D, a))$ 的特征来进行划分。

注意：

一个特征进行划分后，可能那么会得到多个分支，多个分支也一样递归地计算 $G a i n$ 来进行分支，不同的是，各个分支计算时，需要注意样本数已经变化，即要用该分支的样本计算，直到不可再分为止。

增益率

由信息增益的计算公式可以看出，当特征的取值数量 $V$ 较多时，会导致该特征的信息增益大一些，使得决策树会更偏向于该特征进行划分，这是不可取的。

因此， $C 4.5$ 决策树算法没有直接使用信息增益进行划分，而是用增益率来选择特征划分。

增益率定义如下：

$Gain\_ ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中 $IV(a)=-\sum_{v=1}^{V}\frac{D^v}{D}log_2\frac{D^v}{D}$

容易看出当 $V$ 越大时， $I V$ 的值越大，增益率就会越小，这意味着增益率更偏向于取值数量较少的特征。

即用信息增益和增益率相结合：

先从候选划分特征中找出信息增益高于平均水平的属性；
再从中选择增益率最高的特征进行划分。

基尼系数

$C A R T$ 决策树使用 $G i n i$ 系数来选择特征进行划分，其定义如下：

$\begin{aligned} Gini(D)&=\sum_{k=1}^{N}\sum_{k^{'}\ne k} p_kp_{k'}\\ &=1-\sum_{k=1}^{N}p_k^2 \end{aligned}$

简单来说， $G i n i (D)$ 反映了从数据集 $D$ 中随机抽取两个样本，其类别标记不一致的概率。因此， $G i n i (D)$ 越小，则数据集 $D$ 的纯度越高。

同样的，某个特征 $a$ 的基尼系数定义如下：

$Gini\_ index(D,a)=\sum_{v=1}^{V}\frac{D^v}{D}Gini(D^v)$

与信息增益不同的是，基尼系数一般选择 $min(Gini\_ index(D,a))$ 的特征来进行划分。

剪枝处理

剪枝是为了防止决策树在学习时过拟合，即泛化能力太差。剪枝一般有预剪枝和后剪枝，下面介绍这两种剪枝方法。

先看一下西瓜书中未剪枝的决策树：

在这里插入图片描述

预剪枝

预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

在这里插入图片描述

后剪枝

后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

在这里插入图片描述

连续值与缺失值处理

连续值处理

当某个特征的取值为连续值，说明可取值的数量太多，这不能直接按连续值进行划分，此时，我们需要将连续值离散化，最简单的策略就是采用二分法处理连续值。

给定样本集 $D$ 和连续属性 $a$ ，假定 $a$ 出现了 $n$ 个不同的取值，先将这些值从小到大进行排序，记为 $[a^1,a^2,\cdots,a^n]$ 。基于划分点 $t$ 可将 $D$ 分为子集
$D_t^{-}$ 和 $D_t^{+}$ ，其中 $D_t^{-}$ 是不大于 $t$ 的样本，而 $D_t^{+}$ 是大于 $t$ 的样本。

显然，对相邻的属性取值 $a_i和a_{i+1}$ 来说，在区间 $a_i,a_{i+1})$ 中取任何值所产生的的划分结果都一样。因此，对连续属性 $a$ ，我们对 $n - 1$ 个元素进行选取划分点：

$\begin{aligned} T_{a}= \left \{ \frac {a^i+a^{i+1}}{2} | 1\le i \le n-1 \right \} \end{aligned}$

即把区间 $a^i+a^{i+1})$ 的中点作为划分点，那么就可以像离散值一样来考察这些划分点，从而选择最优的划分点进行划分。

同样的，得到信息增益：
$\begin{aligned} Gain(D,a)&=\underset{t\in T_a}{max}Gain(D,a,t)\\ &= \underset{t\in T_a}{max}Ent(D)-\sum_{\lambda \in \left\{-,+ \right\}}\frac{D_t^\lambda}{D}Ent(D_t^\lambda) \end{aligned}$

其中， $G a i n (D, a, t)$ 是 $D$ 基于划分点 $t$ 二分后的信息增益，我们就可以选择 $m a x (G a i n (D, a, t))$ 的划分点。

缺失值处理

对于一些含有缺失值的数据，少量还好，当缺少的数量多的时候，我们不能丢弃这些数据，应该把他们也一起训练起来。

给定样本集 $D$ 和属性 $a$ ，令 $\widetilde{D}$ 表示 $D$ 中在属性 $a$ 上没有缺失值的样本子集。

显然我们可根据 $\widetilde{D}$ 来判断属性 $a$ 的优劣。假定属性 $a$ 可取值 $[a^1,a^2,\cdots,a^V]$ ，令 $\widetilde{D}^v$ 在表示 $\widetilde{D}$ 中在属性 $a$ 上取值为 $a^v$ 的样本子集， $\widetilde{D}_k$ 表示 $\widetilde{D}$ 中属于第 $k$ 类样本子集，则显然有 $D=\bigcup_{k=1}^{N} \widetilde{D}_k$ 、 $D=\bigcup_{v=1}^{V} \widetilde{D}^v$ 。

现在给每个样本 $x$ 赋予权重 $w_x$ ，定义如下：
$\begin{cases} \rho=\frac{\sum_{x\in \widetilde{D}}w_x}{\sum_{x\in D}w_x}\\\\ \widetilde{p}_k=\frac{\sum_{x\in \widetilde{D}_k}w_x}{\sum_{x\in \widetilde{D}}w_x}\\\\ \widetilde{r}_v=\frac{\sum_{x\in \widetilde{D}^v}w_x}{\sum_{x\in \widetilde{D}}w_x}\\ \end{cases}$

直观地看，对属性 $a$ ， $\rho$ 表示无缺失值样本所占的比例， $p_k$ 表示无缺失值样本中第 $k$ 类所占的比例， $\widetilde{r}_v$ 则表示无缺失值样本中在属性 $a$ 上取值 $a^v$ 的样本所占的比例。显然， $\sum_{k=1}^{N}\widetilde{p}_k=1,\sum_{v=1}^{V}\widetilde{r}_v=1$

于是，就可以将信息增益推广如下：

$\begin{aligned} Gain(D,a)&=\rho \times Gain(\widetilde{D},a)\\ &=\rho \times (Ent(\widetilde{D}-\sum_{v=1}^{V}\widetilde{r}_vEnt(\widetilde{D}^v))) \end{aligned}$

其中 $Ent(\widetilde{D})=-\sum_{k=1}^{N}\widetilde{p}_klog_2\widetilde{p}_k$

若样本 $x$ 在划分属性 $a$ 上的取值已知，则将 $x$ 划入与其取值对应的子结点，且样本权值在子结点中保待为 $w_x$ 。若样本 $x$ 在划分属性 $a$ 上的取值未知则将 $x$ 同时划入所有子结点，且样本权值在与属性值 $a^v$ 对应的子结点中调整为 $\widetilde{r}_v\times w_x$ 。

参考资料
[1] 周志华.机器学习[M].北京:清华大学出版社,2020.