机器学习(4)分类之集成方法

集成学习：将各种分类器组合起来，这种组合结果被视为集成方法或元算法。使用集成方法有很多形式：同一算法、同一分类器在不同限定条件下的集成，或者不同算法的集成，数据集不同部分分配给不同算法的集成。

1、主要的两种集成方法##

集成方法主要包括bagging和boost。
1.1 bagging基本处理思路
A、利用boostrap方法抽取n个训练样本，样本可能被重复抽到。然后再进行k轮抽取，得到k个训练集，他们之间相互独立。
什么是boostrap方法？在原始数据的范围内作有放回的再抽样, 样本容量仍为n，原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。
B、k个训练集共训练了k个模型，具体使用什么算法，视具体的场景而定；
C、分类问题，k个模型得到的结果，采用投票的方式；回归问题：计算平均值。；
1.2 boosting基本思路
采用重赋权法跌代训练分类器。对每一轮样本权值分布依赖上一次的训练结果，产生误差越大的样本，所赋的权重越高。分类器之间采用序列式的线性加权方式进行组合。

1.3 bagging与boosting区别
样本选择：bagging在原始集上有放回选取，样本之间独立；boosting由于每个样本权重要改变因此每一轮训练集不变，以便赋值不同权重。
样本权重：bagging中均匀取样，样本权重相等；boosting错误率越大权重越大。
预测函数：bagging所有预测函数权重相等；boosting每个弱分类有相应权重，分类误差小的分类器有更大的权重。
并行计算：bagging各个预测函数并行生成；boosting中预测函数顺序生成，因为结果有依赖关系。

2、AdaBoosting

运行过程：
2.1 计算样本权重
一般都是初始化每个样本权重为1/n
错误率e的统计： e=为正确分类的样本数目/所有样本数目
2.3 计算弱学习算法权重
利用错误率计算权重α：
α=1/2 * ln（(1-e)/e）
2.4 更新样本权重
每一次学习完成后，都需要更新样本权重，被错分的将给与更大的权重
这里写图片描述
Z_t归一化后的值：
Zt=sum(D)
公式最后可化为：

2.5 AdaBoost算法
重复进行学习，经过若干次迭代学习后，得到n个弱学习算法最终输出如下：

详细见PDF：

http://download.csdn.net/download/u011730199/10050276