集成学习思想;Boosting算法族代表--Adaboost，GBDT; Bagging, 随机森林算法

集成学习思想：

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。

个体学习器通常由一个现有的学习算法从训练数据产生，例如C4.5决策树算法，BP神经网络算法等，此时集成中只包含同种类型的个体学习器，例如决策树集成中全是决策树，神经网络集成中全是神经网络，这样的集成同质的(homogeneous)。同质集成中的个体学习器亦称基学习器，相应的算法称为基学习算法。集成学习也可以同时包含不同类型的个体学习器，例如同时包含决策树和神经网络，这样的集成是异质的(heterogenous)，这时的个体学习器不称为基学习器，常称为组件学习器。

集成学习通过将多个学习器进行结合，以获得比单一学习器显著优越的泛化性能，这对弱学习器尤为明显，因此集成学习的很多理论都是针对弱学习器进行的。

（弱学习器通常指泛化性能略优于随机猜测的学习器，例如再二分类问题上精确度略高于50%的分类器）

各种集成学习算法的分类：

根据个体学习器的生成方式，目前的集成学习方法大致可以分为两大类：

1）个体学习器间存在强依赖关系、必须串行生成的序列化方法。代表是Boosting算法族中的Adaboost；还有GBDT。(注意GBDT不是Adaboost )

2）个体学习器间不存在强依赖关系、可同时生成的并行化方法。代表是Bagging和随机森林。

在一般的经验中，如果把好坏不等的东西掺到一起，那么通常结果会是比最坏的要好，比最好的差一些，集成学习是把多个学习器结合起来，如何能获得比最好的单一学习器更好的性能呢？--- 周志华《机器学习》中的8.1章节对此有简单的讨论。

在集成学习中，对于每一个基学习器，其越准确越好，同时，不同基学习器之间最好不同，即具有多样性。一般的，准确性很好之后，要增加多样性就要损失准确性，如何产生好而不同的基学习器是集成学习研究的核心。

集成学习多样性度量

用于度量集成中个体分类器的多样性，典型做法是考虑个体分类器的两两相似/不相似性。一些常见的指标有，不合度量，相关系数，Q-统计量等。

结合策略

对于基分类器最终的结合策略常见的方法有如下几种：

平均法
对于数值形输出，最常见的结合策略即为平均法：

其中hi(x)为基学习器的输出结果，H(x)为最终学习器的结果，T为基学习器的个数。

加权平均法

其中wi是个体学习器hi的权重，通常要求wi⩾0, w1+w2+…+wT=1。

3)投票法
预测结果为得票最多的标记，若同时有多个标记获得相同的票数，则从中随机选取一个。

4)学习法
当训练数据很多时，可以通过另一个学习器来对所有基学习器产生结果的结合方法进行学习，这时候个体学习器称为初级学习器，用于结合的学习器成为次级学习器或元学习器。Stacking是学习法的典型代表。

多样性增强：

在集成学习中，需要有效地生成多样性的个体学习器。增强多样性的思路一般有是在学习过程中引入随机性，常见的做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动。

Boosting算法族与AdaBoost算法，GBDT，Xgboost:

Boosting算法族的工作机制：先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本再后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最中将这T个基学习器进行加权结合。

AdaBoost是最著名的Boosting族算法：

开始时，所有样本的权重相同，训练得到第一个基分类器。从第二轮开始，每轮开始前都先根据上一轮得到的基分类器的分类效果调整每个样本的权重，上一轮分错的样本权重提高，分对的样本权重降低，使得上一轮分错的样本得到更多的关注。之后根据新得到样本的权重指导本轮中的基分类器训练。重复以上步骤直至训练到约定的轮数结束，每一轮训练得到一个基分类器。

这里的权重指的是样本在损失函数的计算中起到的比重，例如，在分类问题中，假设在第m轮，训练得到了一个基分类器Gm,Gm在训练数据集{(x1,y1), (x2,y2), …, (xn,yn) }上的分类误差率：

Em =,

其中Wmi表示在第m轮训练时，第i个样本的权重，权重越大则该样本对误差率的影响越大，而我们训练的目标是最小化误差率。

可以想象到，远离边界（超平面）的样本点总是分类正确，而分类边界附近的样本点总是有大概率被弱分类器（基分类器）分错，所以权值会变高，即边界附近的样本点会在分类时得到更多的重视。

GBDT(梯度提升树，Gradient Boosting Decision Tree)

https://www.cnblogs.com/pinard/p/6140514.html

Xgboost(eXtreme Gradient Boosting)

由华盛顿大学的陈天奇博士提出，在Kaggle的希格斯子信号识别竞赛中使用，因其出众的效率与较高的预测准确度而引起了广泛的关注。

GBDT算法只利用了一阶的导数信息，xgboost对损失函数做了二阶的泰勒展开，并在目标函数之外加入了正则项对整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。所以不考虑细节方面，两者最大的不同就是目标函数的定义.

Bagging:

Bagging是并行式集成学习方法最著名的代表。它基于自助采样法(bootstrap sampling)。给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回到初始数据集，使得下次采样时该样本仍然由可能被采到。这样，经过m次随机采样操作，我们可以得到含有m个样本的采样集。初始训练集中有的样本被多次采到，有的则一次也没有被采样到，初始样本集中大约会有63.2%的样本出现在采样集中。

通过上述的自助采样法可以得到T个集合，每个集合包含m个样本。然后，基于每个集合训练出一个基学习器，再将这些基学习器进行集合。再对各个基学习器的预测结果进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选一个，也可以进一步考察投票的置信度来确定最终胜者。

从方差—偏差分解的角度看，Bagging主要关注降低方差，（高方差对应的是过拟合问题），因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更为明显。

随机森林：

随机森林（Random Forest，RF）是bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性时，是在当前节点的属性集合（假定由d个集合）中选择一个最优属性；而在RF中，对基决策树的每个节点，先从该节点属性中随机选择一个包含k个属性的属性子集，然后从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度，若k=d，则基决策树的构建与传统的决策树相同；若k=1，则是随机选择一个属性用于划分；一般情况下，推荐k=log2d。这种随机选择属性也会使得RF的训练效率比bagging更高。

随机森林简单，容易实现，计算开销小，令人惊奇的是它在很多现实任务中展现出了很强大的性能，被誉为“代表集成学习技术水平方法”。随机森林法仅仅对bagging做了小改动，但是，与bagging中基学习器的“多样性”仅仅通过样本扰动（通过对初始训练集bootstrap采样）而来不同，RF中基学习器的多样性不仅仅来自样本扰动，而且还来自属性扰动，这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提高。

Bagging 和Adaboost 的区别：

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。（bootstrap方法？）

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

5）为什么说bagging是减少variance，而boosting是减少bias？

Ref:

《机器学习》 – 周志华

《统计机器学习》 – 李航

https://www.cnblogs.com/willnote/p/6801496.html

http://www.cnblogs.com/earendil/p/8872001.html

https://www.cnblogs.com/peizhe123/p/5086128.html