Boosting

Boosting策略在上一篇中有提到过，这里再说一遍。

Boosting策略的核心思想就是对错误分类的样本投入更大的关注。采用的是加法模型和向前分步算法，向前分步算法中的每一步都会改变样本的权重。

模型是加法模型、损失函数为指数函数、学习算法为前向分步算法的二类分类学习方法

一、AdaBoost简介

Boosting, 也称为增强学习或提升法，是一种重要的集成学习技术，能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器，这在直接构造强学习器非常困难的情况下，为学习算法的设计提供了一种有效的新思路和新方法。其中最为成功应用的是，Yoav Freund和Robert Schapire在1995年提出的AdaBoost算法。
AdaBoost是英文"Adaptive Boosting"（自适应增强）的缩写，它的自适应在于：前一个基本分类器被错误分类的样本的权值会增大，而正确分类的样本的权值会减小，并再次用来训练下一个基本分类器。同时，在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。

弱分类器：

什么是弱分类器，只比随机猜测好一点点的分类器叫弱分类器。就比如一个强分类器来判断这是一只猫还是一只狗，它可能会给出，这张图片有0.99的概率为狗。那么弱分类器就只能够说这张图片有0.55的概率是狗。只比随机猜测要好一点点。

弱分类器的优势是什么？弱分类器的特性就是high-bias & low variance（高偏差-低方差），其与生俱来的优点就是泛化性能好。因此，将多个算法组合起来之后，可以达到降偏差的效果，进而得到一个偏差小、方差小的泛化能力好的模型。

所以说Boosting与bagging很大不同的一点就是，boosting是通过集成模型来降低偏差，而bagging是通过集成模型来降低方差。

常用的弱分类器像决策树桩，ID3，C4.5,CART因为决策树很容易过拟合，所以说用这些树模型的时候一定要预剪枝限制深度等或者后剪枝，总之要低方差，偏差高无所谓。

Adaboost算法流程：

初始化强分类器 $H^0(x) = 0$ ，样本权重初始化为 $W^1_i = 1/N$
构建最小化误差的基分类器(决策树桩，ID3，C4.5，CART) $h^t(x)$
计算错分率 $\epsilon = \sum_{wrong}w_i^t$ ，计算表决系数 $\alpha = \frac{1}{2}\ln(\frac{1-\epsilon ^{t}}{\epsilon ^{t}})$
更新权重 $W^{(t+1)}_i = \frac{W^t_i}{Z^t} e^{-\alpha ^{t}y_ih^t(x_i)}$ （Z为归一化因子，其实就是所有的和）
更新强分类器 $H^t(x) = H^{(t-1)}(x)+\alpha h^t(x)$
重复2-5步骤，直到错分率小于一定阈值或者迭代达到一定步数。
得到最终的分类器， $G(x)=sign(H^T(x))=sign(\sum _{t=1}^{T}\alpha _t*h^t(x))$ (sign符号函数，>0为1，<0为-1)

另一种符号表示的

$\alpha$ 的推导训练误差界

最终得到的分类器是 $G(x)$ ，如果 $G(x_i)=y_i$ ，有 $y_i*H^T(x)\geq 0$ ，则 $e^{-y_iH^T(x_i)}>=0$ ，如果 $G(x_i)\neq y_i$ ，有 $y_i*H^T(x)<0$ ，则 $e^{-y_iH^T(x_i)}>=1$ ,那么有下式