一、基本概念

元算法（meta-algorithm，又称为集成方法（ensemblemethod)）：是对其他一些算法进行组合的一种方式（当下最流行的元算法是AdaBoost算法），使用集成方法时会有多种形式，可以是不同的算法的集成，也可以是同一种算法在不同设置下的集成，还可以是数据集不同部分分给不同分类器之后的集成。

自举汇聚法（bootstrap aggregating），也称为bagging方法，是在从原始数据集选择S次后得到S个新数据集的一种技术，不同的分类器是通过串行训练而获得的，每个新分类器都根据已经训练出的分类器来进行训练。

boosting：是一种与bagging很类似的技术，通过集中关注被已有分类器错分的那些数据来获得新的分类器。

bagging和boosting算法的不同之处：

(1)：获得新分类器的方法不同；

(2)：分类器权重不同，bagging中分类器的权重是相等的，而boosting中的分类器权重并不相等。

二、AdaBoost算法的原理理解

2.1：AdaBoost算法的一般流程

(1)：收集数据，可以使用任意方法。

(2)：准备数据，依赖于所使用的弱分类器类型，本章使用的是单层决策树，这种分类器可以处理任何类型的数据，当然也可以使用任意分类器作为弱分类器，作为弱分类器，简单的分类器效果更好。

(3)：分析数据，可以使用任意方法。

(4)：训练算法，AdaBoost的大部分时间都用在训练上，分类器将多次在同一数据集上训练弱分类器。

(5)：测试算法，计算分类的错误率。

(6)：使用算法，同SVM一样，AdaBoost预测两个类别中的一个，如果想把他应用到多个类别的场合，那么就要象多类SVM中的做法一样对AdaBoos进行修改。

2.2：训练算法，基于错误提升分类器的性能

AdaBoost是adaptive boosting（自适应boosts）的缩写，其运行过程如下：训练数据中的每个样本，并赋予其一个权重，这些权重构成了向量D。一开始，这些权重都初始化成相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率，然后在同一数据集上再次训练弱分类器。在分类器的第二次训练当中，将会重新调整每个样本的权重，其中第一次分对的样本的权重将会降低，而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果，AdaBoost为每个分类器都分配了一个权重值alpha，这些alpha值是基于每个弱分类器的错误率进行计算的。其中，错误率£的定义为：