GBDT与xgboost

1. 泰勒公式

定义：泰勒公式是一个用函数在某点的信息描述其附近取值的公式。 局部有效性
基本形式： $f(x)\ =\ \sum_{n=0}^\infty \frac{f^{(n)}(x_0)}{n!}(x - x_0)^n$
- 一阶泰勒展开： $f(x) \approx f(x_0) + f'(x_0)(x - x_0)$
- 二阶泰勒展开： $f(x) \approx f(x_0) + f'(x_0)(x - x_0) + f''(x_0)\frac{(x - x_0)^2}{2}$
- 迭代形式：假设 $x^t = x^{t-1} +\Delta x$ ，将 $f(x^t)$ 在 $x^{t-1}$ 处进行泰勒展开：
  $\begin{aligned} (1) & f (x^{t}) & = f (x^{t - 1} + Δ x) \\ (2) & \approx f (x^{t - 1}) + f^{'} (x^{t - 1}) Δ x + f^{″} (x^{t - 1}) \frac{{Δ x}^{2}}{2} \end{aligned}$ $\begin{align} f(x^t) & =f(x^{t-1} + \Delta x)\\ & \approx f(x^{t-1}) + f'(x^{t-1})\Delta x + f''(x^{t-1})\frac{{\Delta x}^2}{2} \end{align}$

2. 梯度下降法（Gradient Descend Method）

在机器学习任务中，需要最小化损失函数 $L(\theta)$ ，其中 $\theta$ 是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题，它是一种迭代方法：选取初值 $\theta^0$ ，不断迭代，更新 $\theta$ 的值，进行损失函数的极小化。

迭代公式： $\theta = \theta^{t-1}+\Delta\theta$
将 $L(\theta^t)$ 在 $\theta^{t-1}$ 处进行一阶泰勒展开：

$\begin{aligned} (3) & L (θ^{t}) & = L (θ^{t - 1} + Δ θ) \\ (4) & \approx L (θ^{t - 1}) + L^{'} (θ^{t - 1}) Δ θ \end{aligned}$ $\begin{align} L(\theta^t) & =L(\theta^{t-1}+\Delta \theta)\\ & \approx L(\theta^{t-1}) + L'(\theta^{t-1})\Delta \theta \end{align}$
要使得 $L(\theta^t) < L(\theta^{t-1})$ ，可使： $\Delta \theta = -\alpha L'(\theta^{t-1})$ ，则： $\theta^t =\theta^{t-1} -\alpha L'(\theta^{t-1})$
这里 $\alpha$ 是步长，可通过 line search 确定，但一般直接赋一个小的数。

3. 牛顿法（Newton’s Method）

将 $L(\theta^t)$ 在 $\theta^{t-1}$ 处进行二阶泰勒展开：

$\begin{aligned} (5) & L (θ^{t}) & = L (θ^{t - 1} + Δ θ) \\ (6) & \approx L (θ^{t - 1}) + L^{'} (θ^{t - 1}) Δ θ + L^{″} (θ^{t - 1}) \frac{{Δ θ}^{2}}{2} \end{aligned}$ $\begin{align} L(\theta^t) & =L(\theta^{t-1}+\Delta \theta)\\ & \approx L(\theta^{t-1}) + L'(\theta^{t-1})\Delta\theta + L''(\theta^{t-1})\frac{{\Delta\theta}^2}{2} \end{align}$
为了简化分析过程，假设参数是标量（即 $\theta$ 只有一维），则可将一阶和二阶导数分别记为 $g$ 和 $h$ ：
$L (θ^{t}) \approx L (θ^{t - 1}) + g Δ θ + h \frac{{Δ θ}^{2}}{2}$ $L(\theta^t) \approx L(\theta^{t-1}) + g\Delta\theta + h\frac{{\Delta\theta}^2}{2}$
要使得 $L(\theta^t)$ 极小，即让 $g\Delta\theta + h\frac{{\Delta\theta}^2}{2}$ 极小，可令： $\frac{\partial \left(g\Delta\theta + h\frac{{\Delta\theta}^2}{2}\right)}{\partial\Delta\theta} = 0$
求得 $\Delta\theta = -\frac{g}{h}$ ，故： $\theta^t = \theta^{t-1}+\Delta\theta =\theta^{t-1} -\frac{g}{h}$
参数 $\theta$ 推广到向量形式，迭代公式： $\theta^t = \theta^{t-1} -H^{-1}g$
这里 $H$ 是海森矩阵

4. 从参数空间到函数空间

GBDT 在函数空间中利用梯度下降法进行优化
XGBoost 在函数空间中用牛顿法进行优化

注：实际上GBDT泛指所有梯度提升树算法，包括XGBoost，它也是GBDT的一种变种，这里为了区分它们， GBDT特指“Greedy Function Approximation： A Gradient Boosting Machine” 里提出的算法，它只用了一阶导数信息。

5. Gradient Boosting Tree 算法原理

Friedman于论文” Greedy Function Approximation…”中最早提出GBDT
其模型 $F$ 定义为加法模型：

$F (x; w) = \sum_{t = 0}^{T} α_{t} h_{t} (x; w_{t}) = \sum_{t = 0}^{T} f_{t} (x; w_{t})$ $F(x;w) = \sum_{t=0}^T\alpha_t h_t(x;w_t) = \sum_{t=0}^T f_t(x;w_t)$
其中， $x$ 为输入样本， $h$ 为分类回归树， $w$ 是分类回归树的参数， $\alpha$ 是每棵树的权重。
通过最小化损失函数求解最优模型：

$F^{*} = a r g min_{F} \sum_{i = 0}^{N} L (y_{i}, F (x_{i}; w))$ $F^* = arg\min_F\sum_{i=0}^N L(y_i,F(x_i;w))$
NP难问题 -> 通过贪心法，迭代求局部最优解

6. 详解 XGBoost

6.1 模型函数形式

给定数据集 $D = \{(X_i,y_i)\}$ ，XGBoost进行 additive training，学习K棵树，采用以下函数对样本进行预测：

\hat{y_{i}} = ϕ (X_{i}) = \sum_{k = 1}^{K} f_{k} (X_{i}) f_{k} \in F

$\hat{y_i} = \phi(X_i) = \sum_{k=1}^Kf_k(X_i)\quad f_k \in F$
这里

F

$F$ 是假设空间，

f (x)

$f(x)$ 是回归树（CART）：

F = {f (X) = w_{q (x)}} (q : R^{m} \to T, w \in R^{T})

$F = \{f(X) = w_{q(x)}\}(q:\mathbb{R}^m \rightarrow T,w\in \mathbb{R}^T)$
$q(x)$ 表示将样本 $x$ 分到了某个叶子节点上， $w$ 是叶子节点的分数（leaf score），所以 $w_{q( x)}$ 表示回归树对样本的预测值

例子：预测一个人是否喜欢电脑游戏

回归树的预测输出是实数分数，可以用于回归、分类、排序等任务中。对于回归问题，可以直接作为目标值，对于分类问题，需要映射成概率，比如采用逻辑函数： $\sigma(x) = \frac{1}{1+e^{-z}}$

6.2 目标函数

参数空间中的目标函数：

误差函数可以是square loss， logloss等，正则项可以是L1正则，L2正则等。

Ridge Regression（岭回归）： $\sum_{i=1}^n(y_i-\theta^Tx_i)^2+\lambda||\theta||^2$
LASSO： $\sum_{i=1}^n(y_i-\theta^Tx_i)^2+\lambda||\theta||_1$

6.3 正则项

XGBoost的目标函数（函数空间）

$L (ϕ) = \sum_{i} l (\hat{y_{i}}, y_{i}) + \sum_{k} Ω (f_{k})$ $\mathcal{L}(\phi) = \sum_il(\hat{y_i},y_i) + \sum_k\Omega (f_k)$
正则项对每棵回归树的复杂度进行了惩罚
相比原始的GBDT， XGBoost的目标函数多了正则项，使得学习出来的模型更加不容易过拟合。
有哪些指标可以衡量树的复杂度？
树的深度，内部节点个数，叶子节点个数(T)，叶节点分数(w)…
XGBoost采用的：
$Ω (f) = γ T + \frac{1}{2} λ | | w | |^{2}$ $\Omega (f) = \gamma T + \frac{1}{2}\lambda||w||^2$
对叶子节点个数进行惩罚，相当于在训练过程中做了剪枝

6.4 误差函数的二阶泰勒展开

第 $t$ 次迭代后，模型的预测等于前 $t-1$ 次的模型预测加上第 $t$ 棵树的预测：

${\hat{y_{i}}}^{(t)} = {\hat{y_{i}}}^{(t - 1)} + f_{t} (x_{i})$ $\hat{y_i}^{(t)} = \hat{y_i}^{(t-1)} + f_t(x_i)$
此时目标函数可写作：

$L^{(t)} = \sum_{i}^{n} l ({\hat{y_{i}}}^{(t - 1)} + f_{t} (x_{i}), y_{i}) + Ω (f_{t})$ $\mathcal{L}^{(t)} = \sum_i^nl(\hat{y_i}^{(t-1)} + f_t(x_i),y_i) + \Omega (f_t)$
公式中 $y_i$ , $\hat{y_i}^{(t-1)}$ 都已知，模型要学习的只有第 $t$ 棵树 $f_t$
将误差函数在 $\hat{y_i}^{(t-1)}$ 处进行二阶泰勒展开：

$L^{(t)} ≃ \sum_{i = 1}^{n} [l (y_{i}, {\hat{y}}^{(t - 1)}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t})$ $\mathcal{L}^{(t)} \simeq \sum_{i=1}^n[l(y_i,\hat{y}^{(t-1)}) + g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega (f_t)$
公式中， $g_i = \partial_{ \hat{y}^{(t-1)}}l(y_i, \hat{y}^{(t-1)})\quad h_i = \partial_{ \hat{y}^{(t-1)}}^2l(y_i, \hat{y}^{(t-1)})$
将公式中的常数项去掉，得到：

${\tilde{L}}^{(t)} = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t})$ $\widetilde{\mathcal{L}}^{(t)} = \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega (f_t)$
把 $f_t$ ， $\Omega (f_t)$ 写成树结构的形式，即把下式代入目标函数中

$f (x) = w_{q (x)} Ω (f) = γ T + \frac{1}{2} λ | | w | |^{2}$ $f(x) = w_{q(x)}\quad \Omega (f) = \gamma T + \frac{1}{2}\lambda||w||^2$
得到：

$\begin{aligned} (7) & {\tilde{L}}^{(t)} & = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) \\ (8) & = \sum_{i = 1}^{n} [g_{i} w_{q (x_{i})} + \frac{1}{2} h_{i} w_{q (x)}^{2}] + γ T + λ \frac{1}{2} \sum_{j = 1}^{T} w_{j}^{2} \end{aligned}$ $\begin{align} \widetilde{\mathcal{L}}^{(t)} &= \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega (f_t)\\ &= \sum_{i=1}^n[g_i w_{q(x_i)} + \frac{1}{2}h_i w_{q(x)}^2] + \gamma T + \lambda\frac{1}{2}\sum_{j=1}^T w_j^2 \end{align}$
上面第一个 $\sum$ 是对样本累加，第二个 $\sum$ 是对叶节点累加，如何统一起来呢？
定义每个叶节点 $j$ 上的样本集合为： $I_j = \{i|q(x_i) = j\}$
则目标函数可以写成按叶节点累加的形式：

$\begin{aligned} (9) & {\tilde{L}}^{(t)} & = \sum_{j = 1}^{T} [(\sum_{i \in I_{j}} g_{i}) w_{j} + \frac{1}{2} (\sum_{i \in I_{j}} h_{i} + λ) w_{j}^{2}] + γ T \\ (10) & = \sum_{j = 1}^{T} [G_{j} w_{j} + \frac{1}{2} (H_{j} + λ) w_{j}^{2}] + γ T \end{aligned}$ $\begin{align} \widetilde{\mathcal{L}}^{(t)} &= \sum_{j = 1}^T \left[(\sum_{i\in I_j}g_i)w_j + \frac{1}{2}(\sum_{i \in I_j}h_i + \lambda)w_j^2 \right]+\gamma T\\ &= \sum_{j = 1}^T \left[G_j w_j + \frac{1}{2}(H_j + \lambda)w_j^2 \right]+\gamma T \end{align}$
如果确定了树的结构（即 $q(x)$ 确定），为了使目标函数最小，可以令其导数为 0，解得每个叶节点的最优预测分数为：

$w_{j}^{*} = - \frac{G_{j}}{H_{j} + λ}$ $w_j^* = -\ \frac{G_j}{H_j + \lambda}$
代入目标函数，得到最小损失为：
${\tilde{L}}^{*} = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T$ $\widetilde{\mathcal{L}}^* = -\ \frac{1}{2}\sum_{j=1}^T \frac{G_j^2}{H_j + \lambda} + \gamma T$

6.5 回归树的学习策略

当回归树的结构确定时，我们前面已经推导出其最优的叶节点分数以及对应的最小损失值，问题是怎么确定树的结构？

暴力枚举所有可能的树结构，选择损失值最小的 - NP难问题
贪心法，每次尝试分裂一个叶节点，计算分裂前后的增益，选择增益最大的

分裂前后的增益怎么计算？
ID3算法采用信息增益
C4.5算法采用信息增益比
CART采用Gini系数
XGBoost呢？

6.6 XGBoost 的打分函数

{\tilde{L}}^{*} = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T

$\widetilde{\mathcal{L}}^* = -\ \frac{1}{2}\sum_{j=1}^T \frac{G_j^2}{H_j + \lambda} + \gamma T$

\frac{G_{j}^{2}}{H_{j} + λ}

$\frac{G_j^2}{H_j + \lambda}$ 衡量了每个叶子节点对总体损失的的贡献，我们希望损失越小越好，则其值越大越好。
因此，对一个叶子节点进行分裂，分裂前后的增益定义为：

G a i n = \frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ} - γ

$Gain = \frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda} - \frac{(G_L + G_R)^2}{H_L + H_R + \lambda} - \gamma$

G a i n

$Gain$ 的值越大，分裂后

L

$\mathcal{L}$ 减小越多。所以当对一个叶节点分割时，计算所有候选(feature,value)对应的 gain，选取 gain 最大的进行分割

6.7 树节点分裂方法（Split Finding）

（十六）GBDT与xgboost