xgboost理论分析

在GBDT损失函数 $L\left(y, f_{t-1}(x)+h_{t}(x)\right)$ 的基础上，我们加入正则化项如下：

$\Omega\left(h_{t}\right)=\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2}$

这里的 $J$ 是叶子节点的个数，而 $w_{tj}$ 是第 $j$ 个叶子节点的最优值。这里的 $w_{tj}$ 和我们GBDT里使用的 $w_{tj}$ 是一个意思，只是XGBoost的论文里用的是 $w$ 表示叶子区域的值，因此这里和论文保持一致。

最终XGBoost的损失函数可以表达为：

$L_{t}=\sum_{i=1}^{m} L\left(y_{i}, f_{t-1}\left(x_{i}\right)+h_{t}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2}$

最终我们要极小化上面这个损失函数，得到第 $t$ 个决策树最优的所有 $J$ 个叶子节点区域和每个叶子节点区域的最优解 $w_{tj}$ 。XGBoost没有和GBDT一样去拟合泰勒展开式的一阶导数，而是期望直接基于损失函数的二阶泰勒展开式来求解。现在我们来看看这个损失函数的二阶泰勒展开式：

$\begin{aligned} L_{t} &=\sum_{i=1}^{m} L\left(y_{i}, f_{t-1}\left(x_{i}\right)+h_{t}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2} \\ & \approx \sum_{i=1}^{m}\left(L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right)+\frac{\partial L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right.}{\partial f_{t-1}\left(x_{i}\right)} h_{t}\left(x_{i}\right)+\frac{1}{2} \frac{\partial^{2} L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right.}{\partial f_{t-1}^{2}\left(x_{i}\right)} h_{t}^{2}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2} \end{aligned}$

为了方便，我们把第 $i$ 个样本在第 $t$ 个弱学习器的一阶和二阶导数分别记为

$g_{t i}=\frac{\partial L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right.}{\partial f_{t-1}\left(x_{i}\right)}, h_{t i}=\frac{\partial^{2} L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right.}{\partial f_{t-1}^{2}\left(x_{i}\right)}$

则我们的损失函数现在可以表达为：

$L_{t} \approx \sum_{i=1}^{m}\left(L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right)+g_{t i} h_{t}\left(x_{i}\right)+\frac{1}{2} h_{t i} h_{t}^{2}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2}$

损失函数里面 $L(y_{i}, f_{t-1}(x_{i})$ 是常数，对最小化无影响，可以去掉，同时由于每个决策树的第j个叶子节点的取值最终会是同一个值 $w_{tj}$ ,因此我们的损失函数可以继续化简。

$\begin{aligned} L_{t} &\approx \left ( \sum_{i=1}^{m} g_{t i} h_{t}\left(x_{i}\right)+\frac{1}{2} h_{t i} h_{t}^{2}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2} \\ &=\sum_{j=1}^{J}\left(\sum_{x_{i} \in R_{t j}} g_{t i} w_{t j}+\frac{1}{2} \sum_{x_{i} \in R_{t j}} h_{t i} w_{t j}^{2}\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2} \\ &=\sum_{j=1}^{J}\left[\left(\sum_{x_{i} \in R_{t j}} g_{t i}\right) w_{t j}+\frac{1}{2}\left(\sum_{x_{i} \in R_{t j}} h_{t i}+\lambda\right) w_{t j}^{2}\right]+\gamma J \end{aligned}$

我们把每个叶子节点区域样本的一阶和二阶导数的和单独表示如下：

$G_{t j}=\sum_{x_{i} \in R_{t j}} g_{t i}, H_{t j}=\sum_{x_{i} \in R_{t j}} h_{t i}$

最终损失函数的形式可以表示为：

$L_{t}=\sum_{j=1}^{J}\left[G_{t j} w_{t j}+\frac{1}{2}\left(H_{t j}+\lambda\right) w_{t j}^{2}\right]+\gamma J$

现在我们得到了最终的损失函数，那么回到前面讲到的问题，我们如何一次求解出决策树最优的所有J个叶子节点区域和每个叶子节点区域的最优解 $w_{tj}$ 呢？

关于如何一次求解出决策树最优的所有 $J$ 个叶子节点区域和每个叶子节点区域的最优解 $w_{tj}$ ，我们可以把它拆分成2个问题：

如果我们已经求出了第 $t$ 个决策树的 $J$ 个最优的叶子节点区域，如何求出每个叶子节点区域的最优解 $w_{tj}$
对当前决策树做子树分裂决策时，应该如何选择哪个特征和特征值进行分裂，使最终我们的损失函数 $L_t$ 最小？

对于第一个问题，其实是比较简单的，我们直接基于损失函数对 $w_{tj}$ 求导并令导数为0即可。这样我们得到叶子节点区域的最优解 $w_{tj}$ 表达式为：

$w_{t j}=-\frac{G_{t j}}{H_{t j}+\lambda}$

这个叶子节点的表达式不是XGBoost首创，实际上在GBDT的分类算法里，已经在使用了。大家在梯度提升树(GBDT)原理小结第4.1节中叶子节点区域值的近似解表达式为：

$c_{t j}=\sum_{x_{i} \in R_{t j}} r_{t i} / \sum_{x_{i} \in R_{t j}}\left|r_{t i}\right|\left(1-\left|r_{t i}\right|\right)$

它其实就是使用了上式来计算最终的 $c_{tj}$ 。注意到二元分类的损失函数是：

$f(x))=\log (1+\exp (-y f(x)))$

其每个样本的一阶导数为：

$g_{i}=-r_{i}=-y_{i} /\left(1+\exp \left(y_{i} f\left(x_{i}\right)\right)\right)$

其每个样本的二阶导数为：

$h_{i}=\frac{\exp \left(y_{i} f\left(x_{i}\right)\right.}{(1+\exp \left(y_{i} f\left(x_{i}\right)\right)^{2}}=\left|g_{i}\right|\left(1-\left|g_{i}\right|\right)$

由于没有正则化项，则 $c_{t j}=-\frac{g_{i}}{h_{i}}$ ，即可得到GBDT二分类叶子节点区域的近似值。

现在我们回到XGBoost，我们已经解决了第一个问题。现在来看XGBoost优化拆分出的第二个问题：如何选择哪个特征和特征值进行分裂，使最终我们的损失函数 $L_t$ 最小？

在GBDT里面，我们是直接拟合的CART回归树，所以树节点分裂使用的是均方误差。XGBoost这里不使用均方误差，而是使用贪心法，即每次分裂都期望最小化我们的损失函数的误差。

注意到在我们 $w_{tj}$ 取最优解的时候，原损失函数对应的表达式为：

$L_{t}=-\frac{1}{2} \sum_{j=1}^{J} \frac{G_{t j}^{2}}{H_{t j}+\lambda}+\gamma J$

如果我们每次做左右子树分裂时，可以最大程度的减少损失函数的损失就最好了。也就是说，假设当前节点左右子树的一阶二阶导数和为 $G_L$ , $H_L$ , $G_R$ , $H_L$ , 则我们期望最大化下式：

$-\frac{1}{2} \frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}+\gamma J-\left(-\frac{1}{2} \frac{G_{L}^{2}}{H_{L}+\lambda}-\frac{1}{2} \frac{G_{R}^{2}}{H_{R}+\lambda}+\gamma(J+1)\right)$

整理下上式后，我们期望最大化的是：

$\max \frac{1}{2} \frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{1}{2} \frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{1}{2} \frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}-\gamma$

也就是说，我们的决策树分裂标准不再使用CART回归树的均方误差，而是上式了。

具体如何分裂呢？举个简单的年龄特征的例子如下，假设我们选择年龄这个特征的值a作为决策树的分裂标准，则可以得到左子树2个人，右子树三个人，这样可以分别计算出左右子树的一阶和二阶导数和，进而求出最终的上式的值。

然后我们使用其他的不是值a的划分标准，可以得到其他组合的一阶和二阶导数和，进而求出上式的值。最终我们找出可以使上式最大的组合，以它对应的特征值来分裂子树。

至此，我们解决了XGBoost的2个优化子问题的求解方法。

XGBoost算法主流程

(1) 计算第 $i$ 个样本 $(i=1,2,\cdots m)$ 在当前轮损失函数 $L$ 关于 $f_{t-1}(x_i)$ 的一阶导数 $g_{ti}$ ，二阶导数 $h_{ti}$ ,计算所有样本的一阶导数和 $G_{t}=\sum_{i=1}^{m} g_{t i}$ ，二阶导数和 $H_{t}=\sum_{i=1}^{m} h_{t i}$
(2) 基于当前节点尝试分裂决策树，默认分数score=0，G和H为当前需要分裂的节点的一阶二阶导数之和。
- 对特征序号 $k=1,2,\cdots ,K$
- (a) $G_L=0, H_L=0$
- (b.1) 将样本按特征 $k$ 从小到大排序，依次取出第 $i$ 个样本，依次计算当前样本放入左子树后，左右子树一阶和二阶导数和： $\begin{aligned} G_{L} &=G_{L}+g_{t i}, G_{R}=G-G_{L} \\ H_{L} &=H_{L}+h_{t i}, H_{R}=H-H_{L} \end{aligned}$
- (b.2) 尝试更新最大的分数： $\text { score }=\max \left(\text { score }, \frac{1}{2} \frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{1}{2} \frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{1}{2} \frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}-\gamma\right)$
(3) 基于最大score对应的划分特征和特征指分裂子树
(4) 如果最大score为0，则当前决策树建立完毕，计算所有叶子区域的 $w_{tj}$ , 得到弱学习器 $h_t(x)$ ，更新强学习器 $f_t(x)$ ,进入下一轮弱学习器迭代.如果最大score不是0，则转到第(2)步继续尝试分裂决策树。

猜你喜欢