AdaBoost 人脸检测介绍(5) : AdaBoost算法的误差界限

　　本系列文章总共有七篇，目录索引如下：
　　AdaBoost 人脸检测介绍(1) : AdaBoost身世之谜
　　 AdaBoost 人脸检测介绍(2) : 矩形特征和积分图
　　 AdaBoost 人脸检测介绍(3) : AdaBoost算法流程
　　 AdaBoost 人脸检测介绍(4) : AdaBoost算法举例
　　 AdaBoost 人脸检测介绍(5) : AdaBoost算法的误差界限
　　 AdaBoost 人脸检测介绍(6) : 使用OpenCV自带的 AdaBoost程序训练并检测目标
　　 AdaBoost 人脸检测介绍(7) : Haar特征CvHaarClassifierCascade等结构分析

5. AdaBoost算法的误差界限

　　通过上面的例子可知，AdaBoost在学习的过程中不断减少训练误差 e，直到各个弱分类器组合成最终分类器。那这个最终分类器的误差界限到底是多少呢？事实上，AdaBoost最终分类器的训练误差的上界是：

E r r o r = 1 N \sum i = 1 N I (G (x i) \neq y i) \leq 1 N \sum i e x p (- y i f (x i)) = \prod m Z m

$Error= \frac{1}{N}\sum_{i=1}^NI(G(x_i)≠y_i ) ≤ \frac{1}{N} \sum_iexp⁡(-y_i f(x_i))= \prod_m Z_m$ Remark: 参考了一些资料包括论文和博客，论文中很少有直接给出证明的，而博客中几乎没有一个证明从数学上来说是严谨的！此处本人将严格严谨的数学证明给出来，其实对于做纯工程的IT人士来说，不需要知道数学证明也无需知道该结论，只需要知道怎么使用该算法即可！

证明： 1）我们首先证明左边的不等式：
　　● 当 $G(x_i)=y_i$ 时，示性函数 $I(G(x_i)≠y_i )$ 取值为0，而 $exp⁡(-y_i f(x_i ))>0$ .
　　● 当 $G(x_i)≠y_i$ 时，示性函数 $I(G(x_i)≠y_i )$ 取值为1，而此时 $y_i$ 和 $f(x_i )$ 符号相反，因此 $-y_i f(x_i )$ 的值就为正，故 $exp⁡(-y_i f(x_i ))>1$ .
因此我们就证明了左边的不等式！
　　2）接下来我们要证明右边的等式：
　　　由分类器权值迭代公式 $w_{m+1,i}=\frac{w_{mi}}{Z_m}exp⁡(-\alpha_m y_i G_m (x_i))$ 出发来证明：

在上式中令 $m=M$ ，并记住 $w_{1,i}=\frac{1}{N},\ f(x)= \sum_{j=1}^M\alpha_j G_j (x)$ ，因此有：

w M + 1, i = w 1 , i \prod M j = 1 Z j e x p (- y i f (x i)) = 1 N e x p (- y i f (x i)) / \prod j = 1 M Z j

$w_{M+1,i}=\frac{w_{1,i}}{\prod_{j=1}^MZ_j} exp⁡(-y_i f(x_i ))= \frac{1}{N} exp⁡(-y_i f(x_i ))⁄\prod_{j=1}^MZ_j$ 因为对任何

m $m$ ，

wmi $w_{mi}$ 皆为一个分布，即

∑Ni=1wmi=1 $\sum_{i=1}^Nw_{mi}=1$ ，因此有：

1 = \sum i = 1 N w M + 1, i = 1 N \sum i = 1 N ⎛ ⎝ e x p ( - y i f ( x i ) ) \prod M j = 1 Z j ⎞ ⎠

$1 = \sum_{i=1}^Nw_{M+1,i}=\frac{1}{N}\sum_{i=1}^N\left(\frac{exp(-y_i f(x_i ))}{\prod_{j=1}^MZ_j}\right)$ 而

∏Mj=1Zj $\prod_{j=1}^MZ_j$ 是一个与

i $i$ 无关的常量，可以提取出来，因此就得到：

1 N \sum i = 1 N e x p (- y i f (x i)) = \prod j = 1 M Z j

$\frac{1}{N}\sum_{i=1}^Nexp(-y_i f(x_i )) = \prod_{j=1}^MZ_j$ 因此我们就证明了右边的等式■

　　这个结果说明，可以在每一轮选取适当的 $G_m$ 使得 $Z_m$ 最小，从而使得训练误差下降最快。接着，我们来继续求上述结果的上界。首先对 $Z_m$ 进行适当的变形：

Z m = \sum i = 1 N w m i e x p (- α m y i G m (x i)) = \sum y i = G m (x i) \sum y i = G m (x i) w m i e - α m + \sum y i \neq G m (x i) \sum y i = G m (x i) w m i e α m

$Z_m = \sum_{i=1}^Nw_{mi}exp⁡(-\alpha_m y_i G_m (x_i)) = \sum_{y_i=G_m(x_i)}\sum_{y_i=G_m(x_i)}w_{mi}e^{-\alpha_m} + \sum_{y_i≠G_m(x_i)}\sum_{y_i=G_m(x_i)}w_{mi}e^{\alpha_m}$ 由

em $e_m$ 的定义可知：

Z m = \sum y i = G m (x i) w m i e - α m + \sum y i \neq G m (x i) w m i e α m = (1 - e m) e - α m + e m e α m

$Z_m = \sum_{y_i=G_m(x_i)}w_{mi}e^{-\alpha_m} + \sum_{y_i≠G_m(x_i)}w_{mi}e^{\alpha_m} = (1-e_m) e^{-\alpha_m}+ e_m e^{\alpha_m}$ 由

αm $\alpha_m$ 的定义可知

eαm=1−emem−−−−√ $e^{\alpha_m}=\sqrt{\frac{1-e_m}{e_m}}$ ，再令

γm=12−em $\gamma_m=\frac{1}{2}-e_m$ ，因此有：

Z m = (1 - e m) e - α m + e m e α m = 2 e m (1 - e m) - - - - - - - - - \sqrt = 1 - 4 γ 2 m - - - - - - - \sqrt

$Z_m = (1-e_m)e^{-\alpha_m} + e_me^{\alpha_m}= 2\sqrt{e_m(1-e_m)} = \sqrt{1-4\gamma_m^2}$ 由泰勒展开式很容易证明不等式：

1−x≤e−x $1-x ≤ e^{-x}$ . 将此不等式应用到上式中得到：

Z m = 1 - 4 γ 2 m - - - - - - - \sqrt \leq e - 2 γ 2 m

$Z_m = \sqrt{1-4\gamma_m^2} ≤ e^{-2\gamma_m^2}$ 将此结果应用到前面的误差界限不等式中得到：

E r r o r = 1 N \sum i = 1 N I (G (x i) \neq y i) \leq \prod m = 1 M Z m \leq e x p (- 2 \sum m = 1 M γ 2 m) \leq e x p (- 2 M γ 2)

$Error = \frac{1}{N}\sum_{i=1}^NI(G(x_i)≠y_i ) ≤ \prod_{m=1}^MZ_m ≤ exp{\left(-2\sum_{m=1}^M\gamma_m^2\right)} ≤ exp(-2M\gamma^2)$ 其中

γm=12−em, γ=min{γ1,γ2,...,γM}>0 $\gamma_m = \frac{1}{2} - e_m, \ \ \gamma=min\{\gamma_1, \gamma_2, ... , \gamma_M\} > 0$ 。

　　这个结论表明，AdaBoost的训练误差是以指数速率下降的。另外，AdaBoost算法不需要事先知道下界 $\gamma$ ，AdaBoost具有自适应性，它能适应弱分类器各自的训练误差率。

[同步本人网易博客文章] AdaBoost 人脸检测介绍(5) : AdaBoost算法的误差界限

AdaBoost 人脸检测介绍(5) : AdaBoost算法的误差界限

5. AdaBoost算法的误差界限

猜你喜欢