基本流程

目的

产生一棵泛化能力强，处理未见实力能力强的决策树

简介

一棵决策树包括一个根节点，若干内部节点和若干叶节点；叶节点对应决策结果，其他节点对应一个属性测试。根节点包含所有的训练样本，每到一个节点根据该节点的属性将满足该属性的训练样本放入节点中继续判断。

特殊情况

当前节点包含的样本全属于同一类别，无需划分。
当前属性集为空，或是所有样本在所有属性上的取值相同，无法划分，该节点定义为叶节点。若此时节点内的存在多个类别的样本数，那么根据数目最多的样本类别定义该节点的类别。
当前节点包含的样本集合为空，不能继续划分，该节点定义为叶节点，类别定义为父节点的类别。

划分选择

目的

使每个节点包含的样本类别尽可能的单一，是节点的纯度越来越高。

划分标准

信息增益

信息熵(information entropy)

当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k ( k = 1, 2, ... , |\mathcal{Y}|)$
$\text{Ent}(D) = - \sum_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k$
$\text{Ent}(D)$ 的值越小，那么 $D$ 的纯度越高。

信息增益(information gain)

假设当前节点根据离散属性 $a ( a \in \{ a^1, a^2, ... , a^V\} )$ 进行划分，由此当前节点下产生了 $V$ 个分支，第 $v$ 个分支包含了所有 $a$ 属性为 $a^v$ 的样本，记为 $D^v$ ，那么定义信息增益为
$\text{Gain}(D, a) = \text{Ent}(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}\text{Ent}(D^v)$
信息增益越大，表明在使用 $a$ 划分样本之后各分支的信息熵越小，各分支的纯度提升越大。因此对于每个节点我们选择 $a_* = \text{arg} \max_{a \in A} \text{Gain}(D, a)$ 属性来进行划分。

应用实例

$ID3$ 决策树学习算法

注意

若多个属性的信息增益相同，那么任选一个属性作为划分标准。
对于离散属性，在决策树的一条支路上（从根节点到叶节点）不能用同一个属性进行重复判断。

增益率

信息增益对取值数目较多的属性有所偏好，从而造成对训练样本的过拟合，为了减少这种不利影响，引入增益率 (gain ratio)
$\text{Gain}\_\text{ratio}(D, a) = \frac{\text{Gain}(D, a)}{\text{IV}(a)}$
其中 $\text{IV}(a) = -\sum_{v=1}^V \frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}$
$\text{IV}$ 称为属性 $a$ 的“固有值”(instrinsic value)，属性 $a$ 的取值数目越多（即 $|V|$ 越大），则 $\text{IV}(a)$ 的值越大。

应用实例

$C4.5$ 算法，由于增益率准则对取值数目少的属性有所偏好，因此 $C4.5$ 算法使用了一个启发式：从候选区域中找到信息增益高于平均水平的属性，再从中选择增益率最高的。

基尼系数(Gini index)

$\text{Gini}(D) = \sum_{k=1}^{|\mathcal{Y}|}\sum_{k' \neq k} p_k p_{k'} = 1- \sum_{k=1}^{|\mathcal{Y}|}p_k^2$
$\text{Gini}(D)$ 反映了从数据集 $D$ 中随机抽取两个样本，类别不一样的概率， $\text{Gini}(D)$ 越小，说明数据集 $D$ 的纯度越高。
$\text{Gini}\_\text{index}(D, a) = \sum_{v= 1}^{V} \frac{|D^v|}{|D|}\text{Gini}(D^v)$
因此 $a_* = \text{arg}\min_{a \in A} \text{Gini}\_\text{index}(D, a)$

应用实例

$GART$ 决策树

剪枝处理

目的

对抗过拟合

判断标准

正确分类样本所占的比例

预剪枝

定义

在决策树生成过程中，对每个节点在划分前进行估计，如果当前节点的划分不能带来决策树的泛化性能提升，则停止将当前节点标记为叶节点

优缺点

优点：降低了过拟合的风险，显著减少了决策树的训练时间开销和测试时间开销。
缺点：某些节点当前划分可能带来泛化性能的降低，但后续划分可能导致泛化性能显著提高，因此预剪枝可能带来欠拟合的风险。

后剪枝

定义

从训练集生成一棵完整的决策树，然后自底而上的对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。

优缺点

优点：欠拟合风险很小，泛化性能优于预剪枝决策树。
缺点：训练时间开销比未剪枝决策树和预剪枝决策树都要大得多。

连续与缺失值

连续值的处理

给定样本集 $D$ 和连续属性 $a$ ，假定 $a$ 在 $D$ 上出现了 $n$ 个不同的取值，将这些值按照大小排序，记为 $\{a_1, a_2, \cdots , a_n\}$ ，对于相邻两个属性值 $a_i$ ， $a_{i+1}$ 而言，若 $t$ 满足 $t \in [ a_i, a_{i+1})$ ，那么按照 $t$ 划分产生的分类结果是相同的。对于含有 $n$ 个连续值的属性 $a$ ，考察含有 $N-1$ 个元素的候选区域集合
$T_a = \{ \frac{a_i + a_{i+1}}{2} | 1 \le i \le n-1\}$
于是将连续属性转换为离散属性，按照离散属性处理即可构建决策树。
与离散属性不同的是，若当前节点划分属性为连续属性，该属性可作为其后代节点的划分属性，也就是说，在一条从根节点到叶节点的通路上，连续属性可以出现多次。

缺失值的处理

给定训练集 $D$ 和属性 $a$ ， $\tilde{D}$ 表示 $D$ 在属性 $a$ 上没有缺失值的样本子集。假定 $a$ 有 $V$ 个可取值 $\{ a^1, a^2, \cdots , a^V\}$ ，令 $\tilde{D}^v$ 表示 $\tilde{D}$ 中在属性 $a$ 上取值为 $a^v$ 的样本子集， $\tilde{D}_k$ 表示 $\tilde{D}$ 中属于第 $k$ 类的（ $k = 1, 2, \cdots, |\mathcal{Y}|$ ）样本子集， $\tilde{D} = \bigcup_{k=1}^{|\mathcal{Y}|}\tilde{D}_k$ ， $\tilde{D} = \bigcup_{v =1}^{V}\tilde{D}_v$ 。假定我们给数据集中的每个样本 $\boldsymbol{x}$ 赋予一个权重 $\omega_{\boldsymbol{x}}$ ，并定义：
$\rho = \frac{\sum_{\boldsymbol{x} \in \tilde{D}}\omega_{\boldsymbol{x}}}{\sum_{\boldsymbol{x} \in D}\omega_{\boldsymbol{x}}}$
表示无缺失样本所占比例；
$\tilde{p}_k = \frac{\sum_{\boldsymbol{x} \in \tilde{D}_k}\omega_{\boldsymbol{x}}}{\sum_{\boldsymbol{x} \in D_k}\omega_{\boldsymbol{x}}}\quad ( 1\le k \le |\mathcal{Y}|)$
表示无缺失样本在第 $k$ 类中所占的比例；
$\tilde{r}_v = \frac{\sum_{\boldsymbol{x} \in \tilde{D}^v}\omega_{\boldsymbol{x}}}{\sum_{\boldsymbol{x} \in D^v}\omega_{\boldsymbol{x}}}\quad (1 \le v \le V)$
表示无缺失样本中在属性 $a$ 上取值为 $a^v$ 的样本所占比例。
更新信息增益的计算式为
$\text{Gain}(D, a) = \rho \times \text{Gain}(\tilde{D}, a) = \rho \times \left(\text{Ent}(\tilde{D})-\sum_{v=1}^V\tilde{r}_v\text{Ent}(\tilde{D}^v)\right)$
其中
$\text{Ent}(\tilde{D}) = -\sum_{k=1}^{|\mathcal{Y}|}\tilde{p}_k\log_2\tilde{p}_k$
若样本 $\boldsymbol{x}$ 在划分属性 $a$ 上的取值已知，那么将 $\boldsymbol{x}$ 划入与其取值对应的子节点，且样本权值保持 $\omega_{\boldsymbol{x}}$ 不变；若样本 $\boldsymbol{x}$ 在划分属性 $a$ 上的取值位置，那么将 $x$ 放入所有子节点，且样本权值在与属性值 $a^v$ 对应的子节点中调整为 $\tilde{r}_v \cdot \omega_{\boldsymbol{x}}$ ，即让一个样本以不同权重放入不同的节点中。通常每一个样本权重 $\omega_{\boldsymbol{x}}$ 赋为 1。

多变量决策树

实现方法

在多变量决策树的学习过程中，不是为每个非叶节点寻找一个最优划分属性，而是试图建立一个适合的线性分类器（由多个属性线性组合而成）

应用实例

$OC1$ 决策树

增量学习

在接收到新样本后对已学习的模型进行调整，而不用完全重新学习。主要机制是通过调整分支路径上的划分属性次序来对树进行部分重构。代表性算法有 $ID4$ 、 $ID5R$ 、 $ITI$ 等。增量学习可有效降低每次接收到新样本后的训练时间开销，但多步增量学习后的模型会与基于全部数据训练而得的模型有较大差别

周志华机器学习总结第四章

决策树

基本流程

目的

简介

特殊情况

划分选择

目的

划分标准

信息增益

信息熵(information entropy)

信息增益(information gain)

应用实例

注意

增益率

应用实例

基尼系数(Gini index)

应用实例

剪枝处理

目的

判断标准

预剪枝

定义

优缺点

后剪枝

定义

优缺点

连续与缺失值

连续值的处理

缺失值的处理

多变量决策树

实现方法

应用实例

增量学习

猜你喜欢