Adaboost算法原理与实践

boosting算法

Adaboost算法是boosting(提升方法)的代表性方法。在分类问题中，boosting通过反复修改训练数据的权重分布，构建一系列的基本分类器 ,并将这些分类器线性组合构成强分类器。

Adaboost算法

对于不同的提升方法要考虑两个问题：
1. 如何在每一轮训练中改变训练数据的权重;
2. 如何组合弱分类器。
Adaboost在第一个问题中是通过提高前一轮弱分类器错误分类样本的权重，降低正确样本的权重来解决问题的。这么做的话，在下一轮训练中，前一轮被错误分类的样本就能得到特殊关注。而第二个问题，弱分类器的组合则是根据分类错误率来决定的，这很好理解，分类错误率低的弱分类器应该具有更大的权重，最后将弱分类器加上权重线性组合即可。
现在描述Adaboost算法的具体过程。假设给定一个二类分类的训练数据集 $T = {(x_1,y_1),(x_2,y_2) \ldots,(x_N,y_N)}$ ，其中 $x_i\in R^n,\space y_i \in\{{1,-1\}}$ ，则Adaboost的步骤如下：
1. 初始化权重分布(训练数据的权重):
$\qquad \qquad D_1 = (w_{11},w_{12},\ldots,w_{1N}), w_{1i} = {1\over N},i = 1,2,\ldots ,N$
2. 对 $m = 1,2,\ldots,M$ (总共训练M个基本分类器，第m个分类器的最终权重为 $\alpha_m$ )
$\qquad$ 2.1 使用之前得到的训练集权重 $D_m$ 对数据集进行训练，得到基本分类器,注意这里的负样本分类结果是-1，主要是之后更新权重公式时更加方便表达：

G m (x) : X \to {- 1, + 1}

$G_m(x):\mathcal X \rightarrow \{-1,+1\}$

$\qquad$ 2.2 计算

Gm(x) $G_m(x)$ 在训练数据集上的分类误差率,需要注意的是，这里的误差率需要 考虑权重影响：

e m = P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i)

$e_m = P(G_m(x_i)\neq y_i) = \sum_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)$

$\qquad$ 2.3 计算

Gm(x) $G_m(x)$ 的权重

αm $\alpha_m$ ，从

αm $\alpha_m$ 的计算公式我们可以看出，当

em $e_m$ 大于0.5时，

αm $\alpha_m$ 小于0，也就是说该分类器对最终分类是起相反作用：

α m = 1 2 l n 1 - e m e m

$\alpha_m = {1\over 2}ln{1-e_m \over e_m}$

$\qquad$ 2.4 得到新一轮的权重分布

Dm+1 $D_{m+1}$ :

D m + 1 = (w m + 1, 1, \dots, w m + 1, N)

$D_{m+1} = (w_{m+1,1},\ldots,w_{m+1,N})$

w m + 1, i = w m , i Z m e x p (- α m y i G m (x i)), i = 1, 2, \dots, N

$w_{m+1,i} = {w_{m,i} \over Z_m}exp(-\alpha_m y_iG_m(x_i)),\space i = 1,2,\ldots,N$
其中

Zm $Z_m$ 是规范化因子，使得

Dm+1 $D_{m+1}$ 成为一个概率分布，即

∑Ni=1wm+1,i=1 $\sum_{i=1}^N w_{m+1,i} = 1$ ,所以有:

Z m = \sum i = 1 N w m i e x p (- α m y i G m (x i))

$Z_m = \sum_{i=1}^N w_{mi} exp(-\alpha_my_iG_m(x_i))$
这个权重更新公式看似复杂，实际上联系到之前所说的强化对分类错误的样本的权重，我们可以把公式改写为:

w m + 1, i = w m , i Z m e x p (- α m), i = 1, 2, \dots, N i f G m (x i) = y i

$w_{m+1,i} = {w_{m,i} \over Z_m}exp(-\alpha_m ),\space i = 1,2,\ldots,N \qquad if \qquad G_m(x_i) = y_i$

w m + 1, i = w m , i Z m e x p (α m), i = 1, 2, \dots, N i f G m (x i) \neq y i

$w_{m+1,i} = {w_{m,i} \over Z_m}exp(\alpha_m ),\space i = 1,2,\ldots,N \qquad if \qquad G_m(x_i) \neq y_i$
也就是说分类错误权重更新为分类正确的

exp(2αm) $exp(2\alpha_m)$ 倍,将

αm $\alpha_m$ 带入有分类错误权重为分类正确的

1−emem ${1-e_m \over e_m}$ 倍
3. 最终就能构建基本分类器的线性组合：

f (x) = \sum m = 1 M α m G m (x)

$f(x) = \sum_{m=1}^M\alpha_mG_m(x)$

Adaboost 算法实践

代码出自《机器学习实战》，具体请见github。