Boost（提升）方法不同于bagging，基分类器是顺序训练的，每个基分类器使⽤数据集的⼀个加权形式进⾏训练，其中与每个数据点相关联的权系数依赖于前⼀个分类器的表现。特别地，被⼀个基分类器误分类的点在训练序列中的下⼀个分类器时会被赋予更⾼的权重。⼀旦所有的分类器都训练完毕，那么它们的预测就会通过加权投票的⽅法进⾏组合。

1. AdaBoost

假设我们在对一组数据进行分类的时候，

确定一个分类模型；
重点观察出现分类错误的数据，产生新的模型，与原模型组合以改进模型；
重复上述过程。

把这种思想运用到机器学习算法的设计中时，就是AdaBoost算法。那么有两个问题需要回答：

如何“重点”观察出现错误分类的数据
如何将模型组合起来

AdaBoost采用的是：

提高那些前一轮中被分类器错误分类样本的权值，降低那些被正确分类样本的权值；
采用加权多数表决的方法，即加大分类错误率低的分类器的权值，减小分错错误率高的分类器的权值。

1.1 如何确定下一轮中数据的权重？

假设第t轮，数据权重是 $w^{(i)}_t$ ，这一轮中学习到的模型是 $g_t$ ，那么其错误率是：

ϵ t = \sum m i = 1 w ( i ) t I ( y ( i ) \neq g t ( x ( i ) ) ) \sum m i = 1 w ( i ) t

$\epsilon_t=\frac {\sum_{i=1}^m w^{(i)}_t I(y^{(i)} \neq g_t(x^{(i)}))} {\sum_{i=1}^m w^{(i)}_t }$
我们定义参数

Δ = 1 - ϵ t ϵ t - - - - - \sqrt

$\Delta=\sqrt {\frac {1-\epsilon_t}{\epsilon_t}}$ 则有，如果

gt $g_t$ 的分类效果比随机猜测要好，那么必然有

ϵt<12,Δ>1 $\epsilon_t \lt \frac 12,\Delta>1$ ，那么我们可以这样更新数据的权重：

w (i) t + 1 \leftarrow w (i) t \cdot Δ

$w^{(i)}_{t+1}\leftarrow w^{(i)}_t \cdot\Delta$

w (i) t + 1 \leftarrow w (i) t / Δ

$w^{(i)}_{t+1}\leftarrow w^{(i)}_t /\Delta$
根据

Δ $\Delta$ 的定义，上述过程必然是增大错误分类样本的权值，降低那些被正确分类样本的权值。

1.2 如何确定每个分类器的权重？

对于

G (x) = s i g n (\sum t = 1 T α t g t (x))

$G(x)=sign(\sum_{t=1}^T\alpha_tg_t(x))$
错误率越小的分类器，权重越大。很自然地，我们假设

αt=monotonic(Δt) $\alpha_t=monotonic(\Delta_t)$ ，那么应当选用什么样的单调递增函数呢？我们有这样的诉求：

对于非常差的分类器（随机猜测）， $\epsilon_t=\frac 12, \Delta=1$ ,那么我们希望其权重 $\alpha_t=0$ ；
对于非常好的分类器， $\epsilon_t=0, \Delta=\infty$ ，我们希望其权重 $\alpha_t=\infty$ 。

我们选择 $\alpha_t=ln(\Delta)$ ，完全符合上述条件。

1.3 完整的AdaBoost

这里写图片描述

1.4 AdaBoost的性能

这里写图片描述
原作者有证明只需要logN次迭代，就可以令 $E_{in}(G)=0$ ，而当T=logN时，第二项也可以变得很小。

扫描二维码关注公众号，回复： 2948117 查看本文章

根据AdaBoost中α的定义，我们知道将多个强学习算法（错误率很低）或者（强学习算法+多个弱学习算法）进行AdaBoost，并不会得到很好的结果，因为强学习算法的权重非常大。

2. 提升树

决策树+Boosting=提升树。
决策树+Bagging=随机森林。
提升树有几个问题需要解决：

我们已经有DTree（D）算法。如何在不更改此算法的基础上，使用带有权重的数据集？
DTree可以做到 $E_{in}\approx 0$ ,此时α等于无穷大，很明显不能用于Boosting方法，如何解决？

对于第一个问题，我们可以使用按权重抽样的方法新形成一个数据集：
这里写图片描述
对于第二个问题，我们可以采用剪枝、只使用部分数据集训练等方式，来增大DTree的 $E_{in}$

对于剪枝问题，当我们限制树的高度为1的时候，基分类器就变成了decision stump。

3. 从最小化损失函数的观点来看AdaBoost

3.1 准备工作

将之前的 $w^{(i)}_{t}$ 和 $w^{(i)}_{t+1}$ 的关系作一下化简：

w (i) t + 1 = w (i) t \cdot Δ - y (i) g t (x (i)) = w (i) t \cdot e x p (- y (i) α t g t (x (i)))

$w^{(i)}_{t+1}=w^{(i)}_t\cdot \Delta^{-y^{(i)}g_t(x^{(i)})}=w^{(i)}_t\cdot exp(-y^{(i)}\alpha_tg_t(x^{(i)}))$

w (i) T + 1 = w (i) 1 \cdot \prod t = 1 T e x p (- y (i) α t g t (x (i))) = 1 N e x p (- y (i) \sum t = 1 T α t g t (x (i)))

$w^{(i)}_{T+1}=w^{(i)}_1\cdot \prod_{t=1}^Texp(-y^{(i)}\alpha_tg_t(x^{(i)}))=\frac 1Nexp(-y^{(i)}\sum_{t=1}^T\alpha_tg_t(x^{(i)}))$

3.2 前向分步算法

我们知道

G (x (i)) = s i g n (\sum t = 1 T α t g t (x (i)))

$G(x^{(i)})=sign(\sum_{t=1}^T\alpha_tg_t(x^{(i)}))$ 我们用

g(x,θt) $g(x,\theta_t)$ 来表示

gt(x) $g_t(x)$ ,其中θ是基函数的参数。那么其损失函数极小化问题为：

min α t, θ t \sum i = 1 m L (y (i), \sum t = 1 T α t g (x (i), θ t))

$\min_{\alpha_t,\theta_t}\sum_{i=1}^mL(y^{(i)}, \sum_{t=1}^T\alpha_tg(x^{(i)},\theta_t))$
通常这是一个复杂的优化问题，而前向分步算法求解这一优化问题的思路是：因为学习的是加法模型，如果能够从前到后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数，那么就可以简化优化复杂度，具体地，对于第t步，优化如下损失函数：