机器学习--集成学习GBDT

1. GBDT思想

GBDT也是集成学习Boosting的其中一种，Boosting是由多个弱学习器组成，与bagging不同，Boosting学习器之间有关联的关系。AdaBoost是通过前面的学习器模型来决定当前的学习器模型的每个样本的权重，然后计算出当前学习器组合权重，最后将学习器线性组合起来。而GBDT则是通过不断的最小化样本的残差来达到集成学习的目的，每个弱学习器，都是用于拟合之前学习器中的残差值，所以GBDT是一个串行的模型，并行运算能力比较差。因为是要拟合残差，所以GBDT弱学习器模型是要满足高偏差，低方差的条件，一般都是选择CART（也就是分类回归决策树）作为弱学习器模型。

2. 算法流程

1、构建第一棵树

用样本特征去构建一个CART决策树，叶子节点的取值用贪心的思想，选择使偏差最小的常数。

F 0 (x) = a r g m i n c \sum i = 1 n L (y i, c)

$F_0(x) = argmin_c\sum^n_{i=1}L(y_i,c)$
其中

yi $y_i$ 是样本的label，

L(∗,∗) $L(*,*)$ 表示损失函数，如果是回归问题，可能使用MAE或者MSE，分类问题可能使用对数变换后的0／1损失函数，也就是找到一个合适的常数c，使得这个分类的损失值最小。

2、用负梯度下降的方法计算残差并构建后面的树

α i m = - \partial L ( y i , F m - 1 ( x i ) ) \partial F m - 1 ( x i )

$\alpha_{im} = - \frac{\partial L(y_i,F_{m-1}(x_i))}{\partial F_{m-1}(x_i)}$
用

(xi,αim) $(x_i,\alpha_{im})$ 组成新的数据，用新的学习器去拟合这组新的数组，再去之前的学习器组合起来，达到减少残差的目的。

F m (x) = a r g m i n c m \sum i = 1 n L (α i m, c m)

$F_m(x) = argmin_{c_m}\sum^n_{i=1}L(\alpha_{im}, c_m)$

3、把所有的学习器叠加起来

F m (x) = f m - 1 (x) + f m (x)

$F_m(x) = f_{m-1}(x) + f_m(x)$
重复过程直到损失少于一定的值或者迭代次数到一定值。

3. GBDT解决分类问题

为了让GBDT能解决分类问题主要有两种方法：

指数损失函数
类似于逻辑回归的对数似然损失函数

这里讨论第二种，用对数思然函数。

二分类问题

对于二分类的问题，损失函数是：

L (y, f (x)) = l o g (1 + e x p (- y f (x)))

$L(y,f(x)) = log(1+exp(-yf(x)))$

y $y$ 为1或者-1，此时，负梯度误差是：

α m i = - \partial L ( y i , f m - 1 ( x i ) ) \partial f m - 1 ( x i ) = y i 1 + e x p ( y i f ( x i ) )

$\alpha_{mi} = - \frac{\partial L(y_i,f_{m-1}(x_i))}{\partial f_{m-1}(x_i)} = \frac{y_i}{1+exp(y_if(x_i))}$
各个叶子节点的最佳残差拟合值为：

c m j = a r g m i n c \sum l o g (1 + e x p (- y i (f m - 1 (x i) + c)))

$c_{mj} = argmin_c\sum log(1+exp(-y_i(f_{m-1}(x_i) + c)))$

多分类问题

对于二分类的问题，损失函数是：

L (y, f (x)) = - \sum k = 1 K y k l o g p k (x)

$L(y,f(x)) = -\sum^K_{k=1}y_k logp_k(x)$
如果类别是k，则

yk $y_k$ 为1，其余情况为0。第k类的概率表达式是，这是一个类似于softmax的函数：

p k (x) = e x p ( f k ( x ) ) \sum K l = 1 e x p ( f l ( x ) )

$p_k(x) = \frac{exp(f_k(x))}{\sum^K_{l=1}exp(f_l(x))}$
结合上面两式，求

αmi $\alpha_{mi}$ 的负梯度值：

α m i = y i l - p l, m - 1 (x i)

$\alpha_{mi} = y_{il} - p_{l,m-1}(x_i)$

4. GBDT的正则化

正则化的手段有三种：控制迭代器步长、加入子采样比例、剪枝

控制迭代器步长

对于每个弱学习器，是为了拟合前面的残差，为了不然拟合程度太大，加入一个拟合步长 $v$ 对拟合程度进行缩放，一般取[0,1]之间。即原来：

f m (x) = f m - 1 (x) + h m (x)

$f_m(x) = f_{m-1}(x) + h_m(x)$
变为：

f m (x) = f m - 1 (x) + v h m (x)

$f_m(x) = f_{m-1}(x) + vh_m(x)$

加入子采样比例

第二种正则化的方式是通过子采样比例（subsample）。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样，程序可以通过采样分发到不同的任务去做boosting的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。

剪枝

第三种是对于弱学习器即CART回归树进行正则化剪枝。