【一起啃书】《机器学习》第八章集成学习

文章目录

- - 第八章集成学习

第八章集成学习

8.1 个体与集成

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等，下面是集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。如果集成中只包含同种类型的个体学习器，则这种集成称为同质集成，里面的个体学习器也叫做“基学习器”；如果包含的不同类型的个体学习器，则这种集成称为异质集成，里面的个体学习器也叫做“组件学习器”。

在一般经验中，如果把好坏不等的个体学习器掺到一起，那么通常结果会是比最坏的要好一些，比最好的要坏一些，要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，并且要有“多样性”，也就意味着学习器间具有差异，如下所示。

根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表是Boosting，后者的代表是Bagging和“随机森林”。

8.2 Boosting

Boosting是一种可将弱学习器提升为强学习器的算法：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本的分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值 $T$ ，最终将这 $T$ 个基学习器进行加权组合，如下所示：

Boosting算法最著名的代表是AdaBoost，如下所示

Boosting算法要求基学习器能对特定的数据分布进行学习，这可通过“重赋权法”来实现，即在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重。对无法接受带权样本的学习算法，则可通过“重采样法”来实现，即在每一轮学习中，根据样本分布对训练集重新进行采样，再用重采样而得到的样本集对基学习器进行训练。需要注意的是，Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。

下面是西瓜数据集上的一个AdaBoost算法的例子，图中黑色粗线为集成的分类边界，黑色细线为基学习器的分类边界。

8.3 Bagging与随机森林

如果想得到泛化能力强的集成，集成中的个体学习器应尽可能相互独立，虽然“独立”在现实任务中无法做到，但可以设法使基学习器尽可能具有较大的差异，一种可能的做法是对训练样本进行采样，产生出若干个不同的子集，再从每个数据子集中训练出一个基学习器。

Bagging是基于自助采样法，对于给定的包含 $m$ 个样本的数据集，先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样经过 $m$ 次随机采样操作，就可以得到含 $m$ 个样本的采样集，最后也可以采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。下面是在西瓜数据集上运行Bagging算法的一个例子。

随机森林（Random Forest）是Bagging的一个扩展变体，在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性时是在当前结点的属性集合（假定有 $d$ 个属性）中选择一个最优属性；而在随机森林中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含 $k$ 个属性的子集，然后再从这个子集中选择一个最优属性用于划分，一般情况下，推荐值 $k=log_2d$ 。

随机森林中的基学习器的多样性不仅来自样本扰动，还来自属性扰动，这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加进一步提升。
随机森林的训练效率优于Bagging，因为在个体决策树的构建过程中，Bagging使用的是“确定型”的决策树，在选择属性划分时要对节点的所有属性进行考察，而随机森林使用的“随机型”的决策树则只需考察一个子集。

8.4 结合策略

学习器结合可能会从三个方面带来好处：

从统计的方面来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等性能，此时若使用单学习器可能因误选而导致泛化性能不佳，结合多个学习器则会减小这一风险。
从计算的方面来看，学习算法往往会陷入局部极小，有的局部极小点所对应的泛化性能可能会很糟糕，而通过多次运行之后进行结合，可降低陷入糟糕局部极小点的风险。
从表示的方面来看，某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大，有可能学得更好的近似。

目前常用的结合策略有以下几种：

（1）平均法

在个体学习器性能相差较大时宜使用加权平均法，而在个体学习器性能相近时宜使用简单平均法。

（2）投票法

绝对多数投票法：若某标记得票过半数，则预测为该标记，否则拒绝预测。
相对多数投票法：预测为得票最多的标记，若同时有多个标记获最高票，则从中随机选取一个。
加权投票法：与加权平均法类似，为每个投票方设置权重。

（3）学习法

当训练数据很多时，一种更为强大的结合策略是使用“学习法”，即通过另一个学习器来进行结合，比如Stacking算法，这里我们把个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器。

Stacking算法是一种集成学习方法，它使用多个不同的基学习器对数据进行预测，然后将预测结果作为新的特征输入到一个元学习器中，从而得到最终的分类或回归结果。Stacking算法可以利用不同的基学习器的优势，提高泛化性能，也可以使用交叉验证或留一法来防止过拟合。

8.5 多样性

（1）误差-分歧分解

误差-分歧分解是一种将集成学习的泛化误差分解为个体学习器的误差和分歧的方法，误差表示个体学习器的平均泛化误差，分歧表示个体学习器之间的不一致性或多样性。误差-分歧分解的公式如下：
$\bar E - \bar A$
其中， $E$ 是集成的泛化误差， $\bar E$ 是个体学习器的平均泛化误差， $\bar A$ 是个体学习器的平均分歧。这个公式表明，个体学习器的准确性越高、多样性越大，则集成越好。误差-分歧分解只适用于回归问题，对于分类问题则难以推广。误差-分歧分解是基于平方误差的推导，而平方误差是回归问题的常用损失函数。对于分类问题，平方误差不一定是一个合适的损失函数，因为它不能很好地反映分类错误的程度。因此，误差-分歧分解难以直接推广到分类学习任务上去。

（2）多样性度量

不合度量

$di{s_{ij}} = \frac{ {b + c}}{m}$

$dis_{ij}$ 的值域为 $[0, 1]$ ，值越大则多样性越大。

相关系数

${\rho _{ij}} = \frac{ {ad - bc}}{ {\sqrt {(a + b)(a + c)(c + d)(b + d)} }}$

$\rho _{ij}$ 的值域为 $[- 1, 1]$ ，若 $h_i$ 与 $h_j$ 无关，则值为0；若 $h_i$ 与 $h_j$ 正相关则值为正，否则为负。

$Q$ -统计量

${Q_{ij}} = \frac{ {ad - bc}}{ {ad + bc}}$

$Q_{ij}$ 与相关系数 $\rho _{ij}$ 的符号相同，且 $\left| { {Q_{ij}}} \right| \geqslant \left| { {\rho _{ij}}} \right|$ 。

$\kappa$ -统计量

$\begin{aligned} & \kappa = \frac{ { {p_1} - {p_2}}}{ {1 - {p_2}}} \\ & {p_1} = \frac{ {a + d}}{m} \\ & {p_2} = \frac{ {(a + b)(a + c) + (c + d)(b + d)}}{ { {m^2}}} \end{aligned}$

其中， $p_1$ 是两个分类器取得一致的概率， $p_2$ 是两个分类器偶然达成一致的概率，若分类器 $h_i$ 与 $h_j$ 在 $D$ 上完全一致，则 $\kappa=1$ ；若它们仅是偶然达成一致，则 $\kappa=0$ 。 $\kappa$ 通常为非负值，仅在 $h_i$ 与 $h_j$ 达成一致的概率甚至低于偶然性的情况下取负值。

（3）多样性度量选择

不合度量（disagreement measure）是指个体分类器对同一个样本给出不同分类结果的概率。不合度量越大，表示个体分类器之间的差异越大。
相关系数（correlation coefficient）是指个体分类器之间的线性相关程度。相关系数越小，表示个体分类器之间的差异越大。
Q-统计量（Q-statistics）是指两个分类器在同一个样本上同时正确或同时错误的概率与只有一个分类器正确的概率之差。Q统计量越小，表示个体分类器之间的差异越大。
$\kappa$ -统计量（ $\kappa$ -statistics）是指两个分类器在同一个样本上达成一致的概率与偶然达成一致的概率之差。 $\kappa$ 统计量越小，表示个体分类器之间的差异越大。

（4）多样性增强

数据样本扰动：给定初始数据集，可从中产生出不同的数据子集，再利用不同的数据子集训练出不同的个体学习器。
输入属性扰动：从初始属性集中抽取出若干个属性子集，再基于每个属性子集训练一个基学习器。
输出表示扰动：对训练样本的类标记稍作变动，或者对输出表示进行转化，又或将原任务拆解为多个可同时求解的子任务。
生出不同的数据子集，再利用不同的数据子集训练出不同的个体学习器。
算法参数扰动：通过随机设置不同的参数，产生差别较大的个体学习器。