个体与集成

集成学习（ $ensemble\space learning$ ）通过构建并结合多个学习器来完成学习任务，有时候也被称为多分类器系统（ $multi-classifier \space system$ ）、基于委员会的学习（ $committee-based \space learning$ ）等。

通过聚集多个分类器的预测来提高分类准确率，这些技术成为组合（或者分类器组合）
组合方法由训练数据构建一组基分类器，然后对每个基分类器的预测进行投票来分类。

基本流程：

这里写图片描述

构建组合分类器的基本方法

通过处理训练数据集

样例：
装袋（bagging）和提升（boosting）
做法：
根据某种抽样分布，通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小，并且可能因为试验而异，然后使用特定的学习算法为每个训练集合建立一个分类器。

通过处理输入特征

样例：
随机森林（Random Forest）
做法：
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择，也可以根据领域专家的建议选择。一些研究表明，对于那些含有大量冗余特征的数据集，这种方法的性能非常好。

通过处理类标号

样例： $ECOC$ 码
做法：
适用于类足够多的情况，通过将类的标号随机划分为两个不相交的子集 $A_0$ 和 $A_1$ ，把训练数据变化为二类问题。类标号属于子集 $A_0$ 的训练样本指派到类 $0$ 而那些类标号属于子集 $A_1$ 的被指派到类 $1$ ，然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次，就得到一组基分类器。当遇到一个检验样本的时候，使用每个基分类器 $C_i$ 预测他的类标号。如果检测样本被预测为类 $0$ ，则所有属于 $A_0$ 的类都的到一票。相反如果它被预测为类 $1$ 则所有属于 $A_1$ 的类都得到一票。最后统计选票，将检测结果指派到的得票最高的类。

通过处理学习算法

同一个训练数据集上多次执行算法可能得到不同的模型。

组合方法的一般过程：

这里写图片描述

投票方法

$\mathbf{Vote}$

平均法

简单平均法

$H(\mathbf{x})=\dfrac{1}{T}\sum_{i=1}^{T}h_i(\mathbf{x})$

加权平均法

$H(\mathbf{x})=\sum_{i=1}^{T}w_ih_i(\mathbf{x})$
其中 $w_i$ 是个体学习器 $h_i$ 的权重，通常要求 $w_i\ge 0,\sum_{i=1}^{T}w_i=1$

投票法

绝对多数投票法

H (x) = {\begin{aligned} c_{j}, & i f \sum_{i = 1}^{T} h_{i}^{j} (x) > 0.5 \sum_{k = 1}^{N} \sum_{i = 1}^{T} h_{i}^{k} (x) \\ r e j e c t, & o t h e r w i s e \end{aligned}

$H(\mathbf{x})=\left\{ \begin{aligned} &c_j,& if \sum_{i=1}^{T}h_{i}^{j}(\mathbf{x})\gt0.5\sum_{k=1}^{N}\sum_{i=1}^{T}h_{i}^{k}(\mathbf{x})\\ &reject,&otherwise \end{aligned} \right.$
若某个标记的票过半，则预测结果是该标记，否则拒绝预测。

相对多数投票法

H (x) = c_{\underset{j}{\arg max} \sum_{i = 1}^{T} h_{i}^{j} (x)}

$H(\mathbf{x})=c_{\mathop{\arg\max}\limits_{j}\sum_{i=1}^{T}h_{i}^{j}(\mathbf{x})}$

加权投票法

H (x) = c_{\underset{j}{\arg max} \sum_{i = 1}^{T} w_{i} h_{i}^{j} (x)}

$H(\mathbf{x})=c_{\mathop{\arg\max}\limits_{j}\sum_{i=1}^{T}w_ih_{i}^{j}(\mathbf{x})}$
其中

w_{i}

$w_i$ 是个体学习器

h_{i}

$h_i$ 的权重，通常要求

w_{i} \geq 0, \sum_{i = 1}^{T} w_{i} = 1

$w_i\ge 0,\sum_{i=1}^{T}w_i=1$

集成学习基本概念