【机器学习】集成学习(三)----前向分步算法、提升树与GBDT

对于前一篇的AdaBoost算法我们其实可以这样理解，模型是加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习方法。其实加法模型就是基分类器的线性组合啦，那么前向分步算法是什么呢？

【加法模型】

我们将 $f(x)=\sum\limits_{m=1}^Mβ_mb(x;γ_m)$ 作为加法模型，其中 $b(x;γ_m)$ 为基函数， $γ_m$ 为基函数的参数， $β_m$ 为基函数的系数， $β_m$ 表示着对应的基函数在加法模型 $f(x)$ 中的重要性。

【前向分步算法】

基本思想：

$\color{red}{一般来说：}$
在给定训练数据和损失函数 $L(y,f(x))$ 的条件下，学习加法模型 $f(x)$ 成为经验风险极小化(即损失函数极小化问题)
　　　　 $\min\limits_{β_m,γ_m}\sum\limits_{i=1}^NL(y_i,\sum\limits_{m=1}^Mβ_mb(x_i;γ_m))$
$\color{blue}{这里是要最小化每一步生成的基函数的损失函数之和}$
$\color{red}{但是！这通常是一个很复杂的问题，因此提出前向分步算法的思想：}$
前向分步算法求解这一优化问题的想法是：由于学习的是加法模型，如果能从前向后每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，即 $\min\limits_{β_m,γ_m}\sum\limits_{i=1}^NL(y_i,\sum\limits_{m=1}^Mβ_mb(x_i;γ_m))$ ，那么就可以简化优化的复杂度。因此每步我们只需要优化 $\min\limits_{β,γ}\sum\limits_{i=1}^NL(y_i,βb(x_i;γ))$ 即可。
$\color{blue}{也就是说我每次学习一个基函数(基分类器)，我只针对这个基分类器进行优化，}$
$\color{blue}{使其损失函数最小}$

算法过程：

输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ；损失函数 $L(y,f(x))$ ；基函数集 $\{b(x;γ)\}$
输出:加法模型 $f(x)$
(1)初始化 $f_0(x)=0$

(2)对 $m=1,2,...,M$
①极小化损失函数，得到参数 $β_m$ 和 $γ_m$
　　　　 $(β_m,γ_m)=arg\min\limits_{β,γ}\sum\limits_{i=1}^NL(y_i,f_{m-1}(x_i)+βb(x_i;γ))$
②更新 $f_m(x)$
　　　　 $f_m(x)=f_{m-1}(x)+β_mb(x;γ_m)$
　　　　
(3)得到加法模型 $f(x)$
　　　　 $f(x)=f_M(x)=\sum\limits_{m=1}^Mβ_mb(x;γ_m)$
　　　　
这里写图片描述
这样我们就将同时求解从 $m=1$ 到 $M$ 所有参数 $β_m$ 和 $γ_m$ 的优化问题简化为逐次求解各个 $β_m$ ， $γ_m$ 的优化问题。

【提升树】

提升树(Boosting Tree)其实就是采用加法模型与前向分步算法，以cart决策树为基函数的提升方法。对于分类问题决策树是二叉分类树，对于回归问题决策树是二叉回归树。

提升树的加法模型：

　　　　 $f_M(x)=\sum\limits_{m=1}^MT(x;Θ_m)$
其中 $T(x;Θ_m)$ 表示决策树； $Θ_m$ 表示决策树的参数； $M$ 为树的个数

提升树的前向分步算法：

　　　　 $f_m(x)=f_{m-1}(x)+T(x;Θ_m)$
其中 $f_{m-1}(x)$ 为当前模型，通过经验风险极小化确定下一棵决策树的参数 $Θ_m$ 　　　　
　　　　 $\hatΘ_m=arg\min\limits_{Θ_m}\sum\limits_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x_i;Θ_m))$

其实对于解决不同问题的提升树学习算法，它们的主要区别在于使用的损失函数的不同：

问题类型	损失函数	方法
分类问题	指数损失函数	极小化分类误差率
回归问题	平方误差损失函数	拟合当前模型的残差
一般决策问题	一般损失函数	梯度提升(最速下降法近似方法)

一、分类问题提升树算法

对于二类分类问题，提升树算法只需要将AdaBoost算法中的基分类器限制为二类分类树即可。

二、回归问题提升树算法

对于回归问题而言，提升树算法其实就是每次的训练数据都是上一次训练出来回归树的预测值与真实值的残差。回归问题提升树算法中，我们使用平方误差损失函数，即 $L(y,f(x))=(y-f(x))^2$
它的损失 $L(y_i,f_{m-1}(x_i)+T(x_i;Θ_m))$ 则变为 $[y_i-f_{m-1}(x_i)-T(x_i;Θ_m)]^2$
令 $r_{mi}=y_i-f_{m-1}(x_i)$ $\color{red}{即当前模型拟合数据的残差}$
则等于 $[r_{mi}-T(x_i;Θ_m)]^2$
$\color{blue}{也就是说，我们只需要简单的拟合当前模型的残差即可}$
举个例子，比如我预测一个人的身高，真实身高是1.8m，我第一次拟合是1.7m，那么第二次拟合只需要对于我第一次拟合的残差1.8-1.7=0.1m进行拟合就可以了；假设第二次拟合了0.04，那么第二次拟合的残差就为1.8-1.74=0.06；这时第三次拟合只需要对0.06进行即可。通过这样的过程我们可以发现，拟合的误差会越来越小。

算法过程：

输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ， $x_i\in\mathcal X \subseteq R^n$ ， $y_i\in\mathcal Y\subseteq R$ ；损失函数 $L(y,f(x))$ ；
输出:回归树 $\hat f(x)$
(1)初始化 $f_0(x)$
　　　　　　 $f_0(x)=0$
　　　　　　
(2)对 $m=1,2,...,M$
①计算残差 $r_{mi}$ ;
　　　　　　 $r_{mi}=y_i-f_{m-1}(x_i)$
②拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;Θ_m)$ ;
③更新 $f_m(x)$ ;
　　　　　　 $f_m(x)=f_{m-1}(x)+T(x;Θ_m)$ ;

(3)得到回归问题提升树 $f_M(x)$
　　　　　　 $f_M(x)=\sum\limits_{m=1}^MT(x;Θ_m)$

三、梯度提升树算法(GBDT)

如果我们的损失函数都是平方损失函数或是指数损失函数，那么每一步优化都是很简单的，但是对于一般损失函数而言，往往每一步优化并不容易，因此对于这个问题，提出了梯度提升算法。

算法过程:

输入:
输出:
(1)初始化 $f_0(x)$
　　　　 $f_0(x)=arg\min\limits_{c}\sum\limits_{i=1}^NL(y_i,c)$
$\color{red}{估计使损失函数极小化的常数值c，将其赋值给f_0(x)}$ 　　
　　
(2)对 $m=1,2,...,M$
①对 $i=1,2,...,N$ 计算
　　　　 $r_{mi}=-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
$\color{red}{这里利用的是最速下降法的近似方法，利用损失函数的负梯度在当前模型的值，即}$ 　　　　
$\color{red}{-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}}$
$\color{red}{当做回归问题提升树中的残差r_{mi}的近似值，拟合一个回归树}$
②对 $r_{mi}$ 拟合一个回归树，得到第 $m$ 棵树的叶节点区域 $R_{mj},j=1,2,...,J$
$\color{red}{J为叶节点个数}$
③对 $j=1,2,...,J$ 计算
　　　　 $c_{mj}=arg\min\limits_{c}\sum\limits_{x_i\in R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
$\color{red}{对于每个叶节点上的样本，我们求出使损失函数最小的输出值c_{mj}}$
　　　　
④更新 $f_m(x)$
　　　　 $f_m(x)=f_{m-1}(x)+\sum\limits_{j=1}^Jc_{mj}I(x\in R_{mj})$
　　　　
(3)得到回归树
　　　　 $\hat f(x)=f_M(x)=\sum\limits_{m=1}^M\sum\limits_{j=1}^Jc_{mj}I(x\in R_{mj})$

$\color{blue}{其实无论是分类问题还是回归问题的提升树，我们都可以用损失函数的负梯度来}$
$\color{blue}{近似残差，用作拟合数据，它们的区别只在于损失函数不同导致的负梯度的不同，}$
$\color{blue}{这就是GBDT算法。}$

GBDT和RF都是集成学习中很经典的算法，下一篇就来学习RF(随机森林)，看看它和GBDT的区别在哪

参考文献:《统计学习方法》