Adaboost原理详解与算法实现

Adaboost是一种经典且重要的boosting集成学习方法。它重点关注在前一轮训练中出错的样本，即为其赋予更高的权重。从而使得下一轮的训练误差更小。Adaboost是加性模型的一个特例。我们先来看一下加性模型。

加性模型(Additive model)

加性模型的预测函数可以写为：

$f(x) = \sum_{i = 1}^m w_ib(x; \gamma_i)$

其中 $b(x; \gamma_i)$ 是基准分类器， $w_i$ 是权重， $\gamma_i$ 是对应基准分类器的参数。

加性模型的通用学习目标为：
$min \sum_{i = 1}^nL(y_i, f(x_i))$
$\rightarrow min_{w_i, \gamma_i}\sum_{i = 1}^nL(y_i, \sum_{i = 1}^m w_ib(x; \gamma_i))$ 。

通常这是一个复杂的优化问题，前向分步算法求解这一优化问题的想法是：从前到后依次学习每个基准分类器的参数和权重，使得这样学习的过程逐步逼近原始的优化目标。

前向分步算法的执行过程如下：

Input: $X = \{x_1, \dots, x_n\} \in R^m, Y = \{y_1, \dots, y_n\} \in \{-1, +1\}$ .
Loss function: $L(y, f(x))$ .
Base classifier set: $\{b(x; \gamma_i)\}_{i = 1}^m$
Output: $w_i, \gamma_i, i = 1, \dots, m$

$Initialize\ \ f_0(x) = 0$
$for \ \ j = 1:m$
$\ \ \ \ w_j^*, \gamma_j^* = argmin\ \sum_{i = 1}^nL(y_i, f_{j - 1}(x_i) + w_jb(x_i; \gamma_j))$
$\ \ \ \ f_j(x) = f_{j - 1}(x) + w_j^*b(x; \gamma_j^*)$

$f_m(x)$ 即为所求得的加性模型。

Adaboost

为了使得推导简单化，这里假设是二分类问题。
令损失函数为指数损失即：
$L(y_i, f(x_i)) = e^{-y_if(x_i)}$

根据加性模型的算法过程，假设已经得到了 $f_1(x), f_2(x), \dots, f_{m - 1}(x)$ 。我们现在要得到 $f_m(x)$
根据 $f_m(x) = f_{m - 1}(x) + w_m^*b(x; \gamma_m^*)$ 我们知道，只要得到第m轮中的 $w_m^*, \gamma_m^*$ 就行了。
有
$w_m^*, \gamma_m^* = argmin \sum_{i = 1}^n L(y_i, f_{m - 1}(x) + w_mb(x_i; \gamma_m))$
$= argmin \sum_{i = 1}^n e^{-y_i[f_{m-1}(x) + w_mb(x_i; \gamma_m)]}$
$= argmin \sum_{i = 1}^n a_{i, m-1} e^{-y_iw_mb(x_i; \gamma_m)}$

这里 $a_{i, m-1} = \frac{e^{-y_if_{m - 1}(x_i)}}{\sum_{j = 1}^ne^{-y_jf_{m-1(x_j)}}}$ 是第m-1轮得到的第i个样本的权重, 相对于 $w_m, \gamma_m$ 是一个常数，但它是通过前m-1轮迭代得到的。

针对上述优化目标，我们先求 $\gamma_m^*$
我们知道 $b(x; \gamma_m)$ 是一个基准分类器，因此 $b(x; \gamma_m) \in \{-1, +1\}$ 。此时，假设 $w_m$ 是一个正的常数，那么使得上述优化目标极小的 $\gamma_m$ 为
$\gamma_m^* = argmin \sum_{i = 1}^n a_{i, m - 1} I[b(x_i; \gamma_m) \neq y_i]$

然后求 $w_m^*$ ，即每个样本所占权重
$w_b^* = argmin \sum_{i = 1}^n a_{i, m - 1}e^{-y_iw_mb(x_i; \gamma_m^*)}$
$= argmin \sum_{y_i = b(x_i; \gamma_m^*)} a_{i, m-1}e^{-w_m} + \sum_{y_i \neq b(x_i; \gamma_m^*)} a_{i, m-1}e^{w_m}$

上式对 $w_m$ 求导为0可得
$w_m^* = \frac{1}{2} log\frac{1 - e_m}{e_m}$ ,
其中 $e_m = \sum_{y_i \neq f_{m-1}(x_i)} a_{i, m-1}$ 为第前m-1个基准分类器在加权数据上的分类误差。
$e_m$ 的范围被限制在(0, 1)之间，这是因为我们会在每一轮都对样本权重进行归一化操作，使其成为一个概率分布。即
$\sum_{i = 1}^n a_{i, m - 1} = 1$

在得到 $w_m^*$ 和 $\gamma_m^*$ 之后，我们也就得到了 $f_m(x)$ ，现在我们需要更新样本权重 $a_{i, m}$ ，显然
$a_{i, m} = \frac{e^{-y_if_m(x_i)}}{\sum_{j = 1}^ne^{-y_jf_m(x_j)}}$
其中 $e^{-y_if_m(x_i)} = a_{i, m - 1}e^{-y_iw_m^*b(x_i; \gamma_i^*)}$

梯度提升树

梯度提升树也是一种经典的boosting方法，在加性模型中，当损失函数为指数损失或者是平方损失的时候，每一步的优化都比较简单。对于一般的损失函数而言，有时候并不能得到闭合式解。因此Freidman提出了用损失函数的负梯度近似当前轮的残差。
即 $r_m^i \approx -\frac{\partial L(y_i, f_m(x_i))}{\partial f_m(x_i)}$

详细的可以参见https://www.cnblogs.com/pinard/p/6140514.html