Adaboost算法简介：

Adaboost集成算法通过基于上一次的预测结果，调整每一次样本的权重值（增加分类错误的样本权重，减少分类正确的样本权重），使得在下一次进行预测时，更加关注那些分类错误的样本。
最终的分类器为
$f(x) = sign\big(\sum\limits_{i=1}^M\alpha_mG_m(x)\big)$
其中 $\alpha_m$ 为每个弱分类器对应的权重

具体的算法过程

初始化训练数据的权重分布 $D_1=(w_{11},w_{12},w_{1i},...w_{1N}),w_{1i}=\frac{1}{N},i=1,2,...N$
对m=1,2,…M
a.使用具有权值分布的 $D_m$ 训练数据集学习，得到弱分类器 $G_m$
b.计算 $G_m$ 在训练数据集上的分类误差率
$e_m = \sum\limits_{i=1}^Nw_{mi}I(G_m(x_i) \not = y_i)$
c.计算 $G_m$ 的系数
$\alpha_m = \frac{1}{2}log\frac{1-e_m}{e_m}$
可以看出，如果 $G_m$ 的错误太多，则 $\alpha_m$ 较小
d.更新训练数据集的权值分布
$D_{m+1} = (w_{m+1,1},w_{m+1,2},w_{m+1,i},...w_{m+1,N})$
$w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$
其中 $Z_m = \sum\limits_{i=1}^N w_{mi}exp(-\alpha_my_iG_m{x_i})$ 为规范化因子，使 $D_{m+1}$ 成为一个概率分布。

Adaboost算法推导

在上述的算法流程中，存在几个疑惑，比如为什么 $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$ ，为什么每个样本的权值更新公式是 $w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$ 。
接下来在推导中解决上述问题。

Adaboost可以理解为是一个前向分步加法算法的特例，模型基本是由基本分类器组成的加法模型，损失函数是指数函数

指数函数的损失函数为
$L＝exp(-y G(x))$
可以看出，如果预测值与真实值相同，则损失函数L为 $exp(-1)$ ，如果预测值与真实值不同，则损失函数L为 $exp(1)$ ，故减小损失函数，则需让模型拟合得正确率更高。

Adaboost的算法结果可以理解为是在前面m－1个弱分类器确定的情况下，通过改进 $G_m$ 来达到优化损失函数的目的。
故对于第m次迭代，目标是减小损失函数，即
$\min\limits_{\alpha,G_m}\sum\limits_{i=1}^N exp(-y_i (f_{m-1}(x)+\alpha G(x_i)))\\ =\min\limits_{\alpha,G_m}\sum\limits_{i=1}^N exp(-y_i f_{m-1}(x))exp(-y_i\alpha G(x_i))$
其中由于 $exp(-y_i f_{m-1}(x))$ 既不依赖 $\alpha$ 也不依赖 $G_m$ ,故用 $\bar w_{m_i}表示$
故对于第m次迭代，要减小的损失函数为
$\min\limits_{\alpha,G_m}\sum\limits_{i=1}^N \bar w_{mi}exp(-y_i\alpha G(x_i))$

接下来分成两步来求解，1求 $G^*m$ ，2求 $\alpha^*$
1求 $G^*m$
由于存在 $G^*m$ 分类正确和分类错误两种情况，所以将损失函数拆成分类正确和分类错误这样的两项
$\min\limits_{\alpha,G_m}\sum\limits_{i=1}^N \bar w_{mi}exp(-y_i\alpha G(x_i))\\ =\sum\limits_{i=1}^N\bar w_{m,i}exp(-\alpha)I(G(x_i)=y_i)+\sum\limits_{i=1}^N\bar w_{m,i}exp(\alpha)I(G(x_i)\not=y_i)\\ =\sum\limits_{i=1}^N\bar w_{mi}exp(-\alpha)+\big(exp(\alpha)-exp(-\alpha)\big) \sum\limits_{i=1}^N\bar w_{m,i}I(G(x_i) \not=y_i)$
故
$G^*m=\min\limits_{G}\sum\limits_{i=1}^N\bar w_{m,i}(G(x_i) \not=y_i)$
即在 $\bar w_{mi}$ 权重下，分类错误最低的 $G_m$

2求 $\alpha^*$
确定好 $G^*m$ 后，带入原损失函数中
$\sum\limits_{i=1}^N\bar w_{mi}exp(-\alpha)+\big(exp(\alpha)-exp(-\alpha)\big) \sum\limits_{i=1}^N\bar w_{m,i}I(G(x_i) \not=y_i)$
对 $\alpha$ 求导，并令导数为0
$-exp(-\alpha)\sum\limits_{i=1}^N\bar w_{mi} +(exp(\alpha)+exp(-\alpha))\sum\limits_{i=1}^N\bar w_{m,i}I(G(x_i) \not=y_i)=0$
把含有 $exp(-\alpha)$ 合并成一类，含有 $exp(\alpha)$ 合并成另一类
$exp(\alpha)\sum\limits_{i=1}^N\bar w_{m,i}I(G(x_i) \not=y_i) = exp(-\alpha)\big(\sum\limits_{i=1}^N\bar w_{m,i} - \sum\limits_{i=1}^N\bar w_{m,i}I(G(x_i) \not=y_i)\big)$
等式左右两侧同时除以 $\sum\limits_{i=1}^N\bar w_{m,i}$
$e_m exp(\alpha) = exp(-\alpha)(1-e_m)$
左右取对数
$\alpha+log(e_m) = -\alpha+ log(1-e_m)$
最终得
$\alpha^*=\frac{1}{2}log(\frac{1-e_m}{e_m})$

最后每一轮的样本权重更新由 $\bar w_{mi}=exp(-y_i f_{m-1}(x))$ 得
$\bar w_{m+1,i} = exp(-y_i(f_m(x)))\\ =exp(-y_i(f_{m-1}(x)+\alpha G_m))\\ =exp(-y_if_{m-1}(x))exp(-y_i\alpha G_m)\\ =\bar w_{mi}exp(-y_i\alpha G_m)$
这与Adaboost算法的样本权值更新只相差规范化因子，因此等价。因为乘上规范化因子后，只是改变了系数大小，对于中间推导的 $\alpha^*$ 和 $G^*m$ 都是没有影响的。

白儿墨

发布了38 篇原创文章 · 获赞 9 · 访问量 2432

私信关注

集成算法学习笔记（二） Adaboost的算法简介和推导

Adaboost算法简介：

具体的算法过程

Adaboost算法推导

猜你喜欢

集成算法 学习笔记（二） Adaboost的算法简介和推导

Adaboost算法简介：

具体的算法过程

Adaboost算法推导

猜你喜欢

集成算法学习笔记（二） Adaboost的算法简介和推导