一文看懂提升树与梯度提升树（GBDT）

1 提升方法与提升树概述

之前讲到的 AdaBoost 是提升方法中最典型的算法思路之一，提升方法则采用加法模型（基函数的线性组合）与前向分步算法，而 AdaBoost 只是将损失函数指定为指数损失函数的提升方法而已。提升树是以分类树或回归树为基本分类器的提升方法。其被认为是统计学习中性能最好的方法之一。

实际上，AdaBoost 更多的是一种算法思路，其并没有指定基函数是决策树还是其他。

对于分类问题，提升树的基决策树是二叉分类树；对于回归问题，提升树的基决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：
$f_M(x) = \sum_{m=1}^MT(x;\Theta_m)$
其中， $T(x;\Theta_m)$ 表示决策树， $\Theta_m$ 为决策树的参数， $M$ 为树的个数。

2 二分类提升树

对于二类分类问题，提升树算法只需将 AdaBoost 算法中的基本分类器限制为二类分类树即可，即基分类器均为只有一个根节点，两个叶子节点的分类树。此时的提升树算法是 Adaboost 算法的特殊情况。首先回顾一下 AdaBoost 算法：
$\begin{aligned} f(x) &= \sum_{m=1}^M \alpha_mG_m(x)\\ &= \alpha_1G_1(x) + \alpha_2G_2(x) + \cdots + \alpha_MG_M(x) \end{aligned}$
二分类提升树的 $G_m(x)$ 均为二类分类树， $\alpha_m$ 均为 1。即：
$T(x;\Theta_1) + T(x;\Theta_2) + \cdots + T(x;\Theta_M)$
总模型为
$\begin{cases} 1,\ \ \ f(x)\le k\\ -1,f(x)\gt k \end{cases}$
二分类提升树的损失函数仍是指数损失函数，只要用指数损失函数，就可以进行调整样本数据的权值，从而让每个基分类器学到不同的样本内容。

3 回归问题的提升树

假设有训练集 $T=\{ (x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \}$ ， $x_i\in X \subseteq \Bbb R^n$ ， $X$ 为输入空间， $y_i\in Y \subseteq \Bbb R$ ， $Y$ 为输出空间。根据回归树理论，如果将输入空间 $X$ 划分为 $J$ 个互不相交的区域 $R_1,R_2,\cdots,R_J$ ，并且在每个区域上确定输出的常量 $c_j$ ，那么树可以表示为：
$T(x;\Theta) = \sum_{j=1}^Jc_jI(x\in R_j)$
其中，参数 $\Theta = \{ (R_1,c_1),(R_2,c_2),\cdots(R_J,c_J) \}$ 表示树的区域划分和各区域上的常数。 $J$ 是回归树的复杂度即叶节点个数。

回归问题提升树使用以下前向分步算法：
$\begin{aligned} &f_0(x) = 0\\ &f_m(x) = f_{m-1}(x) + T(x;\Theta_m),\ m=1,2,\cdots,M\\ &f_M(x) = \sum_{m=1}^MT(x;\Theta_m) \end{aligned}$
在前向分步算法的第 $m $ 步，给定当前模型 $f_{m-1}(x)$ ，需求解
$\hat\Theta_m=\arg\min_{\Theta_m}\sum_{i=1}^NL\big(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m)\big)$
得到 $\hat\Theta_m$ ，即第 $m$ 棵树的参数。

当采用平方误差损失函数时，
$L(y,f(x)) = (y-f(x))^2$
则损失函数 $L\big(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m)\big)$ 演化为：
$\begin{aligned} L\big(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m)\big) &= [y-f_{m-1}(x_i)-T(x_i;\Theta_m)]^2\\ &= [r-T(x_i;\Theta_m)]^2 \end{aligned}$
上式中 $r = y-f_{m-1}(x_i)$ ，即 $m - 1$ 轮所得模型的残差。因此对于回归问题的提升树算法来说，若采用平方误差损失函数，只需简单地拟合当前模型的残差，就能够选出第 $m $ 棵树的参数，进而得到完整模型。

第 $m$ 棵树应尽可能地拟合当前模型的残差，这样随着 $M$ 的增大，整体模型将越来越逼近真实值（ $L(y,\hat y)$ 的值越来越小）。

回归问题的提升树基本思路即用残差去训练个体学习器，然后将所有个体学习器相加，这也是为什么要将 $f_0(x) = 0$ 的原因，即 $f_0$ 与 $y$ 的残差就是 $y$ 本身。

4 回归问题的梯度提升树

提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数式平方损失和指数损失函数时，每一步优化是很简单的。但对于一般的损失函数而言，往往每一步优化并不那么容易。针对这一问题， Freidman 提出了梯度提升（gradient boosting）算法。它是一种前向分步算法、采用梯度提升进行每一步的优化，基学习器被限定为回归树的提升系列算法。它的目的是当使用除平方损失函数外的其他损失函数或自定义损失函数时，以一种简单通用的形式求解：
$\hat\Theta_m=\arg\min_{\Theta_m}\sum_{i=1}^NL\big(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m)\big).$
这个式子在上一节中已经提到，解它可以在已知 $m - 1$ 轮模型时得到第 $m$ 棵树的参数 $\hat\Theta_m$ 。

对于任意损失函数，我们该如何像普通的回归问题提升树那样仅使用残差来进行拟合呢？我们需要来点核心前提：

模型存在多个优化器，不断地迭代优化；
确保每增加一个基学习器，都要使得总体损失越来越小。

对于第二点，可以使用数学公式表达
$L(y,f_m(x))\lt L(y,f_{m-1}(x)).$
即：
$L(y,f_{m-1}(x))-L(y,f_m(x))\gt 0.$
核心前提有了，我们尝试对损失函数进行一些改造。

已知一阶泰勒展开为
$\approx f(x_0) + f(x_0)'(x-x_0)$
则 $L(y,f_m(x))$ 的一阶泰勒展开为：
$\begin{aligned} L(y,f_m(x)) &\approx L\big(y,f_{m-1}(x)\big) + \frac{\partial L(y,f(x))}{\partial f(x)}\Bigg|_{f(x)=f_{m-1}(x)} \cdot \big(f_m(x)-f_{m-1}(x)\big)\\ &\approx L\big(y,f_{m-1}(x)\big) + \frac{\partial L(y,f(x))}{\partial f(x)}\Bigg|_{f(x)=f_{m-1}(x)} \cdot T(x,\Theta_m) \end{aligned}$
将上式移项，得：
$L\big(y,f_{m-1}(x)\big) - L\big(y,f_m(x)\big) \approx -\frac{\partial L(y,f(x))}{\partial f(x)}\Bigg|_{f(x)=f_{m-1}(x)} \cdot T(x,\Theta_m)$
当令 $T(x,\Theta_m) \approx -\frac{\partial L(y,f(x))}{\partial f(x)}\Big|_{f(x)=f_{m-1}(x)}$ 时，可以令我们第二个的核心前提成立，即：
$L(y,f_{m-1}(x))-L(y,f_m(x))\ge 0.$
也就是说，此时
$L(y,f_{m-1}(x))\ge L(y,f_m(x)).$
这说明，如果令 $T(x,\Theta_m) \approx -\frac{\partial L(y,f(x))}{\partial f(x)}\Big|_{f(x)=f_{m-1}(x)}$ ，则加上一个基决策树后，损失不可能增大，只会不变或减小。

于是令 $r_m(x,y) = -\frac{\partial L(y,f(x))}{\partial f(x)}\Big|_{f(x)=f_{m-1}(x)}$ ，将 $x_i,y_i)$ 代入 $r_m(x,y)$ ，得相应的 $r_{mi}$ 。进而新一轮基树的训练数据集为：
$T_m = \{(x_1,r_{m1}),(x_2,r_{m2}),\cdots,(x_N,r_{mN})\}.$

4.1 计算步骤

如果是回归问题，预测就会相对简单很多，因为输出的残差值本身就是数值型的。GBDT 回归算法的损失函数就有比较多的选择了，例如平方损失函数、绝对值损失函数、Huber 损失函数和分位数回归损失函数，这些损失函数都可以非常方便地进行一阶导函数的计算。这里不妨以平方损失函数为例，介绍 GBDT 回归算法的计算过程:

（1）初始化一棵仅包含根节点的树，并寻找到一个常数 Const 能够使损失函数达到极小值：
$f_0(x) = \arg\min_c\sum_{i=1}^NL(y_i,c)$
（2）计算损失函数的负梯度值，用作残差的估计值，即：
$\begin{aligned} r_{mi} &= -\Big[ \frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \Big]_{f(x)=f_{m-1}(x)}\\ &= -\Big[ \frac{\partial \frac12(y_i-f(x_i))^2}{\partial f(x_i)} \Big]_{f(x)=f_{m-1}(x)}\\ &= y_i-f(x_i) \end{aligned}$
（3）利用数据集 $x_i,r_{mi})$ 拟和下一轮基础模型，得到对应的 $J$ 个叶子节点 $R_{mj}$ ， $1,2,\cdots,J$ ；计算每个叶子节点 $R_{mj}$ 的最佳拟合值，用以估计残差 $r_{mi}$ ：
$f_m(x) = \sum_{j=1}^Jc_{mj}I(x_i\in R_{mj})$
其中， $c_{mj}=\arg\min_c\sum_{x_i\in R_{mj}}\frac12(y_i-(f_{m-1}(x_i)+c))^2$ 。

（4）重复（2）和（3），并利用 $m$ 个基础模型，构建梯度提升模型：
$\begin{aligned} f_M(x) &= f_{m-1}(x) + f_m(x)\\ &=\sum_{m=1}^M\sum_{j=1}^Jc_{mj}I(x_i\in R_{mj}) \end{aligned}$
如上几个步骤中， $c_{mj}$ 表示第 $m$ 个基础模型 $f_m(x)$ 在叶节点 $j$ 上的预测值； $f_M(x)$ 表示由 $M$ 个基础模型构成的梯度提升树，它是每一个基础模型在样本点 $x_i$ 处的输出值 $c_{mj}$ 之和。

5 分类问题的梯度提升树

当因变量为离散的类别变量时，无法直接利用各个类别值拟合残差 $r_{mi}$ （因为残差是连续的数值型）。为了解决这个问题，通常将 GBDT 算法的损失函数设置为指数损失函数或对数似然损失函数，进而可以实现残差的数值化。如果损失函数选择为指数损失函数，GBDT 算法实际上退化为 AdaBoost 算法；如果损失函数选择为交叉熵损失函数，GBDT 算法的残差类似于 Logistic 回归的交叉熵损失。

回顾逻辑回归：
$w_1x_1+w_2x_2+\cdots + w_Nx_N+b = wx+b.$
预测值为：
$\hat y = \frac1{1+e^{-Z}}$
损失函数为：
$-\frac1m\sum_{i=1}^my^{(i)}\log \hat y^{(i)} + (1-y^{(i)})\log(1-y^{(i)})$
其核心是通过 Sigmoid 函数，将二分类问题转变为 $0\sim1$ 概率分布问题。

分类问题梯度提升树的损失函数的演化——以交叉熵损失函数为例：
$\begin{aligned} L(y,\hat y) &= -y\log\hat y - (1-y)\log(1-\hat y)\\ &= -y\log\frac1{1+e^{f_M(x)}} - (1-y)\log(1-\frac1{1+e^{-f_M(x)}})\\ &= -y\big(\log1-\log(1+e^{-f_M(x)})\big)-(1-y)\log(\frac{e^{-f_M(x)}}{1+e^{-f_M(x)}})\\ &= -y\big(\log1-\log(1+e^{-f_M(x)})\big)-(1-y)\big(\log e^{-f_M(x)} - \log(1+e^{-f_M(x)})\big)\\ &= y\log(1+e^{-f_M(x)}) - \log e^{-f_M(x)} + \log(1+e^{-f_M(x)}) + y\log e^{-f_M(x)} - y\log(1+e^{-f_M(x)})\\ &= f_M(x) - yf_M(x) + \log(1+e^{-f_M(x)})\\ &= \log(1+e^{-f_M(x)}) + (1-y)f_M(x) \end{aligned}$
综上，在选择第 $m $ 棵树时，分类问题梯度提升树的损失函数为：
$L(y,f_m(x)) = \log(1+e^{-f_m(x)}) + (1-y)f_m(x)$
计算负梯度：
$\begin{aligned} \frac{\partial L(y,f_m(x))}{\partial f_m(x)} &= \frac{\partial\log(1+e^{-f_m(x)})}{\partial f_m(x)} + 1 - y\\ &= \frac{\partial\log(1+e^{-f_m(x)})}{\partial(1+e^{-f_m(x)})}\times \frac{\partial(1+e^{-f_m(x)})}{\partial e^{-f_m(x)}}\times\frac{\partial e^{-f_m(x)}}{\partial f_m(x)} + 1 - y\\ &= \frac1{1+e^{-f_m(x)}}\times1\times(-e^{-f_m(x)}) + 1 - y\\ &= -\frac{e^{-f_m(x)}}{1+e^{-f_m(x)}} +1 -y\\ &= \frac1{1+e^{-f_m(x)}} - y \end{aligned}$
故
$-\frac{\partial L(y,f_m(x))}{\partial f_m(x)} = y - \frac1{1+e^{-f_m(x)}}$
因此
$\begin{aligned} r_m(x,y) &= -\frac{\partial L(y,f(x))}{\partial f(x)}\Bigg|_{f(x)=f_{m-1}(x)}\\ &= y - \frac1{1+e^{-f_{m-1}(x)}}\\ &= y - \hat y \end{aligned}$
所以， $r_{mi} = y_i - \hat y_{m-1,i}$ 。

用 $T_m = \{(x_1,r_{m1}),(x_2,r_{m2}),\cdots,(x_N,r_{mN})\}$ 作为训练集训练第 $m$ 轮基树。

5.1 计算步骤

（1）初始化一棵仅包含根节点的树，并寻找到一个常数 Const 能够使损失函数达到极小值：
$f_0(x) = \arg\min_c\sum_{i=1}^NL(y_i,c)$
（2）计算损失函数的负梯度值，用作残差的估计值，即：
$\begin{aligned} r_m(x,y) &= -\frac{\partial L(y,f(x))}{\partial f(x)}\Bigg|_{f(x)=f_{m-1}(x)}\\ &= y - \frac1{1+e^{-f_{m-1}(x)}}\\ &= y - \hat y \end{aligned}$

如果使用对数似然损失函数 $\sum_{i=1}^N\log(1+e^{-y_if(x_i)})$ ，则：
$r_{mi}(x,y) = \frac{y_i}{1+e^{-y_if(x_i)}}.$

（3）利用数据集 $x_i,r_{mi})$ 拟合下一轮基础模型：
$f_m(x) = \sum_{j=1}^Jc_{mj}I(x_i\in R_{mj})$
其中， $c_{mj} = \arg\min_c\sum_{x_i\in R_{mj}}\log(1+e^{-f_m(x_i)}) + (1-y)f_m(x_i)$

（4）重复（2）和（3），并利用 $m$ 个基础模型，构建梯度提升模型：
$\begin{aligned} f_M(x) &= f_{M-1}(x) + f_m(x)\\ &=\sum_{m=1}^M\sum_{j=1}^Jc_{mj}I(x_i\in R_{mj}) \end{aligned}$