【机器学习】集成学习(二)----AdaBoost算法

AdaBoost是Boosting这类算法中的著名代表，它有多种推导方式，比较容易理解的就是基学习器的线性组合来最小化指数损失函数。

【AdaBoost算法过程】

输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中 $x_i\in\mathcal X\subseteq R^n$ ,标记 $y_i\in\mathcal Y=\{-1,+1\}$
输出:最终分类器 $G(x)$
(1)初始化原始训练数据集的权值分布 $D_1$ ；
　　　　 $D_1=(w_{11},w_{12},...,w_{1N})$ ， $w_{1i}=\frac{1}{N}$
$\color{red}{假设原始训练数据集具有均匀的权值分布}$

(2)对 $m=1,2,...,M$

①使用具有权值分布 $D_m$ 的训练数据集学习，得到基分类器 $G_m(x):\mathcal X\to\{-1,+1\}$

②计算 $G_m(x)$ 在训练数据集上的分类误差率 $e_m$
　　　　 $e_m=\sum\limits_{i=1}^NP(G_m(x_i)\neq y_i)=\frac{\sum\limits_{G_m(x_i)\neq y_i}w_{mi}}{\sum\limits_{i=1}^Nw_{mi}}=\sum\limits_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)$
$\color{red}{w_{mi}表示第m轮中第i个实例的权值，我们定义分类误差率e_m为被G_m(x)}$
$\color{red}{误分类的样本对应的权值之和除以所有样本权值之和，由于所有样本权值}$
$\color{red}{之和为1，即\sum\limits_{i=1}^Nw_{mi}=1，所以e_m即为\sum\limits_{G_m(x_i)\neq y_i}w_{mi}}$

③计算 $G_m(x)$ 的系数 $α_m$
　　　　 $α_m=\frac{1}{2}ln\frac{1-e_m}{e_m}$
$\color{red}{系数α_m表示着对应的基分类器G_m(x)在最终分类器中的重要性，当e_m\le\frac{1}{2}时，}$
$\color{red}{α_m\ge0，并且α_m随着e_m的减小而增大，也就是说分类误差率越小的基分类器}$
$\color{red}{在最终分类器中的作用越大}$

④更新训练数据集的权值分布 $D_{m+1}$
　　　　 $D_{m+1}=(w_{m+1,1},w_{m+1,2},...,w_{m+1,N})$
$\color{red}{更新权值分布即更新每一个样本的权重，可以写成下面这种形式:}$
　　　　 $w_{m+1,i} = 　　　　\begin{cases} \frac{w_{mi}}{Z_m}e^{-α_m}, & G_m(x_i)=y_i \\ \frac{w_{mi}}{Z_m}e^{α_m}, & G_m(x_i)\neq y_i \end{cases}$
$\color{red}{我们也可以把条件项写到式子里，因为y_i和G_m(x_i)的取值都为-1或+1，也就}$
$\color{red}{是说当G_m(x_i)=y_i时，y_iG_m(x_i)=1;当G_m(x_i)\neq y_i时，y_iG_m(x_i)=-1}$
$\color{red}{因此上式可以写为:}$
　　　　 $w_{m+1,i}=\frac{w_{mi}}{Z_m}e^{-α_my_iG_m(x_i)}$
$\color{red}{上式中的Z_m是规范化因子，它使D_{m+1}成为一个概率分布}$
　　　　 $Z_m=\sum\limits_{i=1}^Nw_{mi}e^{-α_my_iG_m(x_i)}$

(3)对第(2)步中学习到的M个基分类器进行线性组合得到最终分类器
线性组合： $f(x)=\sum\limits_{m=1}^Mα_mG_m(x)$
最终分类器： $G(x)=sign(f(x))=sign(\sum\limits_{m=1}^Mα_mG_m(x))$

算法过程如下图：
这里写图片描述

【AdaBoost算法的训练误差分析】

AdaBoost算法最基本的性质就是在学习过程中不断减少训练误差，即减少训练数据集上的分类误差率。对于AdaBoost算法来说，其最终分类器的训练误差是有上界的。而对于下界，我们不需要知道。
其训练误差界为：
$\frac{1}{N}\sum\limits_{i=1}^NI(G(x_i)\neq y_i)\le\frac{1}{N}\sum\limits_{i=1}^Ne^{-y_if(x_i)}=\prod\limits_{m=1}^MZ_m$
$\color{red}{\frac{1}{N}\sum\limits_{i=1}^NI(G(x_i)\neq y_i)即\frac{\text{N个样本中被误分类的样本个数}}{N}，对上式的证明如下：}$

前半部分： $\frac{1}{N}\sum\limits_{i=1}^NI(G(x_i)\neq y_i)\le\frac{1}{N}\sum\limits_{i=1}^Ne^{-y_if(x_i)}$
$\color{blue}{当G(x_i)\neq y_i时，y_if(x_i)<0,则e^{-y_if(x_i)}\ge1，由此可得前半部分}$

后半部分： $\frac{1}{N}\sum\limits_{i=1}^Ne^{-y_if(x_i)}=\prod\limits_{m=1}^MZ_m$
已知 $f(x_i)=\sum\limits_{m=1}^Mα_mG_m(x_i)$ ， $Z_mw_{m+1,i}=w_{mi}e^{-α_my_iG_m(x_i)}$
$\color{blue}{\frac{1}{N}\sum\limits_{i=1}^Ne^{-y_if(x_i)}=\frac{1}{N}\sum\limits_{i=1}^Ne^{-\sum\limits_{m=1}^Mα_my_iG_m(x_i)}=\frac{1}{N}\sum\limits_{i=1}^N\prod\limits_{m=1}^Me^{-α_my_iG_m(x_i)}}$
$\color{blue}{=\sum\limits_{i=1}^Nw_{1i}\prod\limits_{m=1}^Me^{-α_my_iG_m(x_i)}}$ $\color{red}{此处我们将\frac{1}{N}看成w_{1i}，因为w_{1i}就是均匀的权值分布}$
$\color{blue}{=\sum\limits_{i=1}^Nw_{1i}e^{-α_1y_iG_1(x_i)}\prod\limits_{m=2}^Me^{-α_my_iG_m(x_i)}}$
$\color{red}{(观察\sum\limits_{i=1}^Nw_{1i}e^{-α_1y_iG_1(x_i)}可以发现就等于Z_1\sum\limits_{i=1}^Nw_{2i})}$
$\color{blue}{=Z_1\sum\limits_{i=1}^Nw_{2i}\prod\limits_{m=2}^Me^{-α_my_iG_m(x_i)}=Z_1\sum\limits_{i=1}^Nw_{2i}e^{-α_2y_iG_2(x_i)}\prod\limits_{m=3}^Me^{-α_my_iG_m(x_i)}}$
$\color{blue}{=Z_1Z_2\sum\limits_{i=1}^Nw_{3i}\prod\limits_{m=3}^Me^{-α_my_iG_m(x_i)}}$
$\color{blue}{=...=Z_1Z_2...Z_{M-1}\sum\limits_{i=1}^Nw_{Mi}e^{-α_My_iG_M(x_i)}=\prod\limits_{m=1}^MZ_m}$

我们根据这样的结论可以在每一轮选取适当的 $G_m$ 使得 $Z_m$ 最小，从而使训练误差下降最快。 $\color{red}{注意，这里是只对每一轮的Z_m使其最小化，不是对Z_m的乘积最小化}$

对于二类分类的AdaBoost的训练误差界为：
由于 $Z_m=\sum\limits_{i=1}^Nw_{mi}e^{-α_my_iG_m(x_i)}=\sum\limits_{y_i=G_m(x_i)}w_{mi}e^{-α_m}+\sum\limits_{y_i\neq G_m(x_i)}w_{mi}e^{α_m}$
$\color{red}{\sum\limits_{y_i=G_m(x_i)}w_{mi}=1-e_m}$
$\color{red}{\sum\limits_{y_i\neq G_m(x_i)}w_{mi}=e_m}$
$\color{red}{e^{-α_m}=e^{-\frac{1}{2}ln\frac{1-e_m}{e_m}}=\sqrt{\frac{e_m}{1-e_m}}}$
$\color{red}{e^{α_m}=e^{\frac{1}{2}ln\frac{1-e_m}{e_m}}=\sqrt{\frac{1-e_m}{e_m}}}$
所以 $Z_m=2\sqrt{e_m(1-e_m)}$ ，令 $γ_m=\frac{1}{2}-e_m$ ，则 $Z_m=\sqrt{1-4γ_m^2}$
$\color{blue}{因此\prod\limits_{m=1}^MZ_m=\prod\limits_{m=1}^M2\sqrt{e_m(1-e_m)}=\prod\limits_{m=1}^M\sqrt{1-4γ_m^2}\le e^{-2\sum\limits_{m=1}^Mγ_m^2}}$
$\color{blue}{此处的e^{-2\sum\limits_{m=1}^Mγ_m^2}是通过e^x和\sqrt{1-x}在点x=0的泰勒展开式推出的，推导如下:}$
$\color{orange}{e^x在x=0处泰勒展开：}$
　　　　 $\color{orange}{e^x=1+x+\frac{1}{2}x^2+o(x^2)}$
　　　　 $\color{orange}{e^{-2γ_m^2}=1-2γ_m^2+\frac{1}{2}(-2γ_m^2)^2=1-2γ_m^2+2γ_m^4}$
$\color{orange}{\sqrt{1-x}在x=0处泰勒展开：}$
　　　　 $\color{orange}{\sqrt{1-x}=1-\frac{1}{2}x-\frac{1}{8}x^2+o(x^2)}$
　　　　 $\color{orange}{\sqrt{1-4γ_m^2}=1-\frac{1}{2}4γ_m^2-\frac{1}{8}(4γ_m^2)^2=1-2γ_m^2-2γ_m^4}$ 　
$\color{orange}{因此\sqrt{1-4γ_m^2}\le e^{-2γ_m^2}}$ 　　
$\color{blue}{如果存在γ>0，对所有m有γ_m\geγ，则\frac{1}{N}\sum\limits_{i=1}^NI(G(x_i)\neq y_i)\le e^{-2Mγ^2}}$
$\color{blue}{在此条件下，我们可以发现AdaBoost的训练误差是以指数速率下降的}$
　　　　　
下一篇会讨论前向分步算法和提升树，其实感觉前向分步算法加基函数线性组合就是一个框架，而AdaBoost算法和提升树都是利用这个框架来实现的。它们的不同点大多在于损失函数，而对于难以优化的损失函数我们会用梯度提升(最速下降的近似方法)来求解，这也就是梯度提升树的由来。

参考文献：《统计学习方法》