最新AdaBoost算法原理与理解

一、基本概念

元算法meta-algorithm,又称为集成方法(ensemblemethod):是对其他一些算法进行组合的一种方式(当下最流行的元算法是AdaBoost算法),使用集成方法时会有多种形式,可以是不同的算法的集成,也可以是同一种算法在不同设置下的集成,还可以是数据集不同部分分给不同分类器之后的集成。

自举汇聚法(bootstrap aggregating),也称为bagging方法,是在从原始数据集选择S次后得到S个新数据集的一种技术,不同的分类器是通过串行训练而获得的,每个新分类器都根据已经训练出的分类器来进行训练。

boosting:是一种与bagging很类似的技术,通过集中关注被已有分类器错分的那些数据来获得新的分类器。


bagging和boosting算法的不同之处:

(1):获得新分类器的方法不同;

(2):分类器权重不同,bagging中分类器的权重是相等的,而boosting中的分类器权重并不相等。


二、AdaBoost算法的原理理解

2.1:AdaBoost算法的一般流程

(1):收集数据,可以使用任意方法。

(2):准备数据,依赖于所使用的弱分类器类型,本章使用的是单层决策树,这种分类器可以处理任何类型的数据,当然也可以使用任意分类器作为弱分类器,作为弱分类器,简单的分类器效果更好。

(3):分析数据,可以使用任意方法。

(4):训练算法,AdaBoost的大部分时间都用在训练上,分类器将多次在同一数据集上训练弱分类器。

(5):测试算法,计算分类的错误率。

(6):使用算法,同SVM一样,AdaBoost预测两个类别中的一个,如果想把他应用到多个类别的场合,那么就要象多类SVM中的做法一样对AdaBoos进行修改。


2.2:训练算法,基于错误提升分类器的性能

AdaBoost是adaptive boosting(自适应boosts)的缩写,其运行过程如下:训练数据中的每个样本,并赋予其一个权重,这些权重构成了向量D。一开始,这些权重都初始化成相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率,然后在同一数据集上再次训练弱分类器。在分类器的第二次训练当中,将会重新调整每个样本的权重,其中第一次分对的样本的权重将会降低,而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果,AdaBoost为每个分类器都分配了一个权重值alpha,这些alpha值是基于每个弱分类器的错误率进行计算的。其中,错误率£的定义为:

0?wx_fmt=png

alpha的计算公式如下:     

0?wx_fmt=png

AdaBoost算法的流程如下:                                   0?wx_fmt=png

AdaBoost算法的示意图

左边是数据集,其中直方图的不同宽度表示每个样例上的不同权重。

在经过一个分类器之后,加权的预测结果会通过三角形中的alpha进行加权。

每个三角形中输出的加权结果在圆形中求和,从而得到最终的输出结果。


计算出alpha值之后,可以对权重向量D进行更新,以使得那些正确分类的样本的权重降低而错分样本的权重升高。D的计算方法如下。如果某个样本被正确分类,那么该样本的权重更改为:

 0?wx_fmt=png

而如果某个样本被错分,那么该样本的权重更改为: 

 0?wx_fmt=png

                                                                         

在计算出alpha之后,Adaboost又开始进入下一轮迭代。AdaBoost算法会不断地重复训练和调整权重的过程,直到训练错误率为0或者弱分类器的数目达到用户的指定值为止。

接下来,我们将建立完整的Adaboost算法。在这之前,我们首先必须通过一些代码来建立弱分类器及保存数据集的权重。


2.3:基于单层决策树构建弱分类器

单层决策树(decision stump , 也称决策树桩)是一种简单的决策树。前面我们已经介绍了决策树的工作原理,接下来将构建一个单层决策树,而它仅基于单个特征来彳故决策。由于这棵树只有一次分裂过程,因此它实际上就是一个树桩。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


猜你喜欢

转载自blog.csdn.net/zhiboxu9716/article/details/79344546