我的个人微信公众号： Microstrong

微信公众号ID： MicrostrongAI

微信公众号介绍： Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容，分享在学习过程中的读书笔记！期待您的关注，欢迎一起学习交流进步！

我的知乎主页： https://www.zhihu.com/people/MicrostrongAI/activities

Github： https://github.com/Microstrong0305

个人博客： https://blog.csdn.net/program_developer

本文首发在我的微信公众号里，地址：https://mp.weixin.qq.com/s/-UmOhpktgRaOF7tT2-5nsQ，如有公式和图片不清楚，可以在我的微信公众号里阅读。

目录：

GBDT多分类算法
1.1 Softmax回归的对数损失函数
1.2 GBDT多分类原理
GBDT多分类算法实例
手撕GBDT多分类算法
3.1 用Python3实现GBDT多分类算法
3.2 用sklearn实现GBDT多分类算法
总结
Reference

本文的主要内容概览：
在这里插入图片描述

1. GBDT多分类算法

1.1 Softmax回归的对数损失函数

当使用逻辑回归处理多标签的分类问题时，如果一个样本只对应于一个标签，我们可以假设每个样本属于不同标签的概率服从于几何分布，使用多项逻辑回归（Softmax Regression）来进行分类：
$\begin{aligned} P(Y=y_{i}|x) &= h_{\theta}(x) \begin{bmatrix} P(Y=1|x;\theta )\\ P(Y=2|x;\theta) \\ . \\ . \\ . \\ P(Y=k|x;\theta) \end{bmatrix} \\ &=\frac{1}{\sum_{j=1}^{k}{e^{\theta_{j}^{T}x}}} \begin{bmatrix} e^{\theta^{T}_{1}x} \\ e^{\theta^{T}_{2}x} \\ . \\ . \\ . \\ e^{\theta^{T}_{k}x } \end{bmatrix} \end{aligned}$
其中， $\theta_{1},\theta_{2},...,\theta_{k}\in \Re^{n}$ 为模型的参数，而 $\frac{1}{\sum_{j=1}^{k}{e^{\theta^{T}_{j}x}}}$ 可以看作是对概率的归一化。一般来说，多项逻辑回归具有参数冗余的特点，即将 $\theta_{1},\theta_{2},...,\theta_{k}$ 同时加减一个向量后预测结果不变，因为 $P(Y=1|x)+P(Y=2|x)+...+P(Y=k|x) = 1$ ，所以 $P(Y=1|x) = 1-P(Y=2|x)-...-P(Y=k|x)$ 。

假设从参数向量 $\theta^{T}_{j}$ 中减去向量 $\psi$ ，这时每一个 $\theta^{T}_{j}$ 都变成了 $\theta^{T}_{j} - \psi (j=1,2,...,k)$ 。此时假设函数变成了以下公式：
$\begin{aligned} P(Y=y_{j}|x;\theta) &= \frac{e^{\theta^{T}_{j}x}}{\sum_{i=1}^{k}{e^{\theta^{T}_{i}x}}} \\ &= \frac{e^{(\theta^{T}_{j}-\psi)x}}{\sum_{i=1}^{k}{e^{(\theta^{T}_{i}-\psi) x}}} \\ & = \frac{e^{\theta^{T}_{j}x} \times e^{-\psi x}}{\sum_{i=1}^{k}{e^{\theta^{T}_{i}x} \times e^{-\psi x} }} \\ & = \frac{e^{\theta^{T}_{j}x}}{\sum_{i=1}^{k}{e^{\theta^{T}_{i}x}}} \end{aligned}$
从上式可以看出，从 $\theta_{j}^{T}$ 中减去 $\psi$ 完全不影响假设函数的预测结果，这表明前面的 $Softmax$ 回归模型中存在冗余的参数。特别地，当类别数为 $2$ 时，
$\begin{aligned} h_{\theta}(x) = \frac{1}{e^{\theta_{1}^{T}x}+e^{\theta_{2}^{T}x}} \begin{bmatrix} e^{\theta_{1}^{T}x} \\ e^{\theta_{2}^{T}x} \end{bmatrix} \end{aligned}$
利用参数冗余的特点，我们将所有的参数减去 $\theta_{1}$ ，上式变为：
$\begin{aligned} h_{\theta}(x) &= \frac{1}{e^{0 \cdot x}+e^{(\theta_{2}^{T} - \theta_{1}^{T})x}} \begin{bmatrix} e^{0 \cdot x} \\ e^{(\theta_{2}^{T}-\theta_{1}^{T})x} \end{bmatrix} \\ & = \begin{bmatrix} \frac{1}{1+e^{\theta ^{T}x}} \\ 1 - \frac{1}{1+e^{\theta^{T}x}} \end{bmatrix} \end{aligned}$
其中 $\theta = \theta_{2} - \theta_{1}$ 。而整理后的式子与逻辑回归一致。因此，多项逻辑回归实际上是二分类逻辑回归在多标签分类下的一种拓展。

当存在样本可能属于多个标签的情况时，我们可以训练 $k$ 个二分类的逻辑回归分类器。第 $i$ 个分类器用以区分每个样本是否可以归为第 $i$ 类，训练该分类器时，需要把标签重新整理为“第 $i$ 类标签”与“非第 $i$ 类标签”两类。通过这样的办法，我们就解决了每个样本可能拥有多个标签的情况。

在二分类的逻辑回归中，对输入样本 $x$ 分类结果为类别 $1$ 和 $0$ 的概率可以写成下列形式：
$P(Y=y|x;\theta) = (h_{\theta}(x))^{y}(1-h_{\theta}(x))^{1-y}$
其中， $h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}$ 是模型预测的概率值， $y$ 是样本对应的类标签。

将问题泛化为更一般的多分类情况：
$P(Y=y_{i}|x;\theta) =\prod_{i=1}^{K}P(y_{i}|x)^{y_{i}} = \prod_{i=1}^{K}h_{\theta}(x)^{y_{i}}$

由于连乘可能导致最终结果接近 $0$ 的问题，一般对似然函数取对数的负数，变成最小化对数似然函数。
$\begin{aligned} -logP(Y=y_{i}|x;\theta) &=-log \prod_{i=1}^{K}P(y_{i}|x)^{y_{i}} \\ &= -\sum_{i=1}^{K}{y_{i}log(h_{\theta}(x))} \end{aligned}$

补充：交叉熵
假设 $p$ 和 $q$ 是关于样本集的两个分布，其中 $p$ 是样本集的真实分布， $q$ 是样本集的估计分布，那么按照真实分布 $p$ 来衡量识别一个样本所需要编码长度的期望（即，平均编码长度）：
$H(p) = \sum_{i}^{n}{p_{i} log\frac{1}{p_{i}}} = \sum_{i}^{n}{-p_{i}logp_{i}}$
如果用估计分布 $q$ 来表示真实分布 $p$ 的平均编码长度，应为：
$H(p,q) = \sum_{i=1}^{n}{p_{i}log\frac{1}{q_{i}}} = \sum_{i=1}^{n}{-p_{i}logq_{i}}$
这是因为用 $q$ 来编码的样本来自于真实分布 $p$ ，所以期望值 $H(p,q)$ 中的概率是 $p_{i}$ 。而 $H(p,q)$ 就是交叉熵。
可以看出，在多分类问题中，通过最大似然估计得到的对数似然损失函数与通过交叉熵得到的交叉熵损失函数在形式上相同。

1.2 GBDT多分类原理

将GBDT应用于二分类问题需要考虑逻辑回归模型，同理，对于GBDT多分类问题则需要考虑以下softmax模型：
$P(y=1|x) = \frac{e^{F_1(x)}}{\sum_{i=1}^k e^{F_i(x)}}$
$P(y=2|x) = \frac{e^{F_2(x)}}{\sum_{i=1}^k e^{F_i(x)}}$
$... ...$
$P(y=k|x) = \frac{e^{F_k(x)}}{\sum_{i=1}^k e^{F_i(x)}}$
其中 $F_1 ... F_k$ 是 $k$ 个不同的CART回归树集成。每一轮的训练实际上是训练了 $k$ 棵树去拟合softmax的每一个分支模型的负梯度。softmax模型的单样本损失函数为：
$\begin{aligned} loss &= -\sum_{i=1}^k y_i \log P(y_i|x) \\ &= -\sum_{i=1}^k y_i \log \frac{e^{F_i(x)}}{\sum_{j=1}^k e^{F_j(x)}}\\ \end{aligned}$
这里的 $y_i\ (i=1...k)$ 是样本 $label$ 在 $k$ 个类别上作one-hot编码之后的取值，只有一维为 $1$ ，其余都是 $0$ 。由以上表达式不难推导：
$-\frac{\partial loss}{\partial F_i} = y_i - \frac{e^{F_i(x)}}{\sum_{j=1}^k e^{F_j(x)}} = y_i - p(y_{i}|x)$
可见，这 $k$ 棵树同样是拟合了样本的真实标签与预测概率之差，与GBDT二分类的过程非常类似。下图是Friedman在论文中对GBDT多分类给出的伪代码：
在这里插入图片描述
根据上面的伪代码具体到多分类这个任务上面来，我们假设总体样本共有 $K$ 类。来了一个样本 $x$ ，我们需要使用GBDT来判断 $x$ 属于样本的哪一类。

第一步我们在训练的时候，是针对样本 $x$ 每个可能的类都训练一个分类回归树。 举例说明，目前样本有三类，也就是 $K=3$ ，样本 $x$ 属于第二类。那么针对该样本的分类标签，其实可以用一个三维向量 $[0,1,0]$ 来表示。 $0$ 表示样本不属于该类， $1$ 表示样本属于该类。由于样本已经属于第二类了，所以第二类对应的向量维度为 $1$ ，其它位置为 $0$ 。

针对样本有三类的情况，我们实质上在每轮训练的时候是同时训练三颗树。 第一颗树针对样本 $x$ 的第一类，输入为 $(x,0)$ 。第二颗树输入针对样本 $x$ 的第二类，输入为 $(x,1)$ 。第三颗树针对样本 $x$ 的第三类，输入为 $(x,0)$ 。这里每颗树的训练过程其实就是CART树的生成过程。在此我们参照CART生成树的步骤即可解出三颗树，以及三颗树对 $x$ 类别的预测值 $F_{1}(x), F_{2}(x), F_{3}(x)$ , 那么在此类训练中，我们仿照多分类的逻辑回归，使用softmax 来产生概率，则属于类别 $1$ 的概率为：
$p_{1}(x) = \frac{exp(F_{1}(x))}{\sum_{k=1}^{3}{exp(F_{k}(x))}}$
并且我们可以针对类别 $1$ 求出残差 $\tilde{y}_{1}=0−p_{1}(x)$ ；类别 $2$ 求出残差 $\tilde{y}_{2}=0−p_{2}(x)$ ；类别 $3$ 求出残差 $\tilde{y}_{3}=0−p_{3}(x)$ 。

然后开始第二轮训练，针对第一类输入为 $(x,\tilde{y}_{1})$ , 针对第二类输入为 $(x,\tilde{y}_{2})$ ，针对第三类输入为 $(x,\tilde{y}_{3})$ 。继续训练出三颗树。一直迭代M轮。每轮构建3颗树。

当 $K=3$ 时，我们其实应该有三个式子：
$F_{1M}{(x)}=\sum_{m=1}^{M}{c_{1m}I(x\epsilon R_{1m})}$
$F_{2M}{(x)}=\sum_{m=1}^{M}{c_{2m}I(x\epsilon R_{2m})}$
$F_{3M}{(x)}=\sum_{m=1}^{M}{c_{3m}I(x\epsilon R_{3m})}$
当训练完以后，新来一个样本 $x_{1}$ ，我们要预测该样本类别的时候，便可以有这三个式子产生三个值 $F_{1M},F_{2M},F_{3M}$ 。样本属于某个类别的概率为：
$p_{i}(x)=\frac{exp(F_{iM}{(x)})}{\sum_{k= 1}^{3}exp(F_{kM}{(x)}) }$

2. GBDT多分类算法实例

（1）数据集

在这里插入图片描述

（2）模型训练阶段

首先，由于我们需要转化 $3$ 个二分类的问题，所以需要先做一步one-hot：
在这里插入图片描述

参数设置：

学习率：learning_rate = 1

树的深度：max_depth = 2

迭代次数：n_trees = 5

首先对所有的样本，进行初始化 $F_{k0}(x_{i})=\frac{count(k)}{count(n)}$ ，就是各类别在总样本集中的占比，结果如下表：
在这里插入图片描述
注意： 在Friedman论文里全部初始化为 $0$ ，但在sklearn里是初始化先验概率（就是各类别的占比），这里我们用sklearn中的方法进行初始化。

1）对第一个类别 $(y_{i}=0)$ 拟合第一颗树 $(m=1)$ 。

在这里插入图片描述
首先，利用公式 $\large p_{k,m}(x)=\frac{e^{F_{k,m}(x)}}{\sum_{l=1}^Ke^{F_{l,m}(x)}}$ 计算概率。

其次，计算负梯度值，以 $x_{1}$ 为例 $(k=0,i=1)$ ：
$\begin{aligned} \tilde{y}_{ik} &=y_{i,k}-p_{k,m-1} \\ \tilde{y}_{10}&=y_{1,0}-p_{0,0}=1-0.3412=0.6588 \end{aligned}$
同样地，计算其它样本可以有下表：
在这里插入图片描述
接着，寻找回归树的最佳划分节点。在GBDT的建树中，可以采用如MSE、MAE等作为分裂准则来确定分裂点。本文采用的分裂准则是MSE，具体计算过程如下。遍历所有特征的取值，将每个特征值依次作为分裂点，然后计算左子结点与右子结点上的MSE，寻找两者加和最小的一个。

比如，选择 $x_{8} =1$ 作为分裂点时 $(x<1)$ 。

左子结点上的集合的MSE为：
$MSE_{left}=(-0.3412-(-0.3412))^2=0$
右子节点上的集合的MSE为：
$\begin{aligned} MSE_{right}&=(0.6588-0.04342)^2+ ...+(-0.3412-0.04342)^2 \\ &=3.2142 \end{aligned}$

比如选择 $x_{9}=2$ 作为分裂点时 $(x<2)$ 。
$MSE_{left}=0$
$MSE_{right}=3.07692$
$MSE=3.07692$

对所有特征计算完后可以发现，当选择 $x_{6}=31$ 做为分裂点时，可以得到最小的 $MSE$ ， $MSE=1.42857$ 。

下图展示以 $31$ 为分裂点的 $\tilde{y}_{i0}$ 拟合一颗回归树的示意图：
在这里插入图片描述
然后，我们的树满足了设置，还需要做一件事情，给这棵树的每个叶子节点分别赋一个参数 $\gamma_{jkm}$ （也就是我们文章提到的 $c$ ），来拟合残差。
$\gamma_{101}=1.1066$
$\gamma_{201}=-1.0119$
最后，更新 $F_{km}(x_i)$ 可得下表：
$\begin{aligned} F_{km}(x_i) & =F_{k,m-1}(x_i)+\eta*\sum_{x_i \in R_{jkm}}\gamma_{jkm} I(x_i \in R_{jkm}) \end{aligned}$
在这里插入图片描述
至此第一个类别（类别 $0$ ）的第一颗树拟合完毕，下面开始拟合第二个类别（类别 $1$ ）的第一颗树。

2）对第二个类别 $(y_{i}=1)$ 拟合第一颗树 $(m=1)$ 。

在这里插入图片描述
首先，利用 $\large p_{k,m}(x)=\frac{e^{F_{k,m}(x)}}{\sum_{l=1}^Ke^{F_{l,m}(x)}}$ 计算概率。

其次，计算负梯度值，以 $x_{1}$ 为例 $(k=1,i=1)$ ：
$\begin{aligned} \tilde{y}_{ik} &=y_{i,k}-p_{k,m-1} \\ \tilde{y}_{11}&=y_{1,1}-p_{1,0}=0-0.3412=-0.3412 \end{aligned}$
同样地，计算其它样本可以有下表：
在这里插入图片描述
然后，以 $x_{0}=6$ 为分裂点的 $\tilde{y}_{i1}$ 拟合一颗回归树，可计算得到叶子节点：
$\large \gamma_{111}=1.9540 ， \large \gamma_{211}=-0.2704$

最后，更新 $F_{km}(x_i)$ 可得下表：
$\begin{aligned} F_{km}(x_i)&=F_{k,m-1}(x_i)+\eta*\sum_{x_i \in R_{jkm}}\gamma_{jkm} I(x_i \in R_{jkm}) \end{aligned}$
在这里插入图片描述
至此第二个类别（类别 $1$ ）的第一颗树拟合完毕。然后再拟合第三个类别（类别 $2$ ）的第一颗树，过程也是重复上述步骤，所以这里就不再重复了。在拟合完所有类别的第一颗树后就开始拟合第二颗树。反复进行，直到训练了 $M$ 轮。

3. 手撕GBDT多分类算法

本篇文章所有数据集和代码均在我的GitHub中，地址：https://github.com/Microstrong0305/WeChat-zhihu-csdnblog-code/tree/master/Ensemble%20Learning/GBDT_Multi-class

3.1 用Python3实现GBDT多分类算法

需要的Python库：

pandas、PIL、pydotplus、matplotlib

其中pydotplus库会自动调用Graphviz，所以需要去Graphviz官网下载graphviz-2.38.msi安装，再将安装目录下的bin添加到系统环境变量，最后重启计算机。

由于用Python3实现GBDT多分类算法代码量比较多，我这里就不列出详细代码了，感兴趣的同学可以去我的GitHub中看一下，地址：https://github.com/Microstrong0305/WeChat-zhihu-csdnblog-code/tree/master/Ensemble%20Learning/GBDT_Multi-class/GBDT_GradientBoostingMultiClassifier

3.2 用sklearn实现GBDT多分类算法

import numpy as np
from sklearn.ensemble import GradientBoostingClassifier

'''
调参：
loss：损失函数。有deviance和exponential两种。deviance是采用对数似然，exponential是指数损失，后者相当于AdaBoost。
n_estimators:最大弱学习器个数，默认是100，调参时要注意过拟合或欠拟合，一般和learning_rate一起考虑。
learning_rate:步长，即每个弱学习器的权重缩减系数，默认为0.1，取值范围0-1，当取值为1时，相当于权重不缩减。较小的learning_rate相当于更多的迭代次数。
subsample:子采样，默认为1，取值范围(0,1]，当取值为1时，相当于没有采样。小于1时，即进行采样，按比例采样得到的样本去构建弱学习器。这样做可以防止过拟合，但是值不能太低，会造成高方差。
init：初始化弱学习器。不使用的话就是第一轮迭代构建的弱学习器.如果没有先验的话就可以不用管
由于GBDT使用CART回归决策树。以下参数用于调优弱学习器，主要都是为了防止过拟合
max_feature：树分裂时考虑的最大特征数，默认为None，也就是考虑所有特征。可以取值有：log2,auto,sqrt
max_depth：CART最大深度，默认为None
min_sample_split：划分节点时需要保留的样本数。当某节点的样本数小于某个值时，就当做叶子节点，不允许再分裂。默认是2
min_sample_leaf：叶子节点最少样本数。如果某个叶子节点数量少于某个值，会同它的兄弟节点一起被剪枝。默认是1
min_weight_fraction_leaf：叶子节点最小的样本权重和。如果小于某个值，会同它的兄弟节点一起被剪枝。一般用于权重变化的样本。默认是0
min_leaf_nodes：最大叶子节点数
'''

gbdt = GradientBoostingClassifier(loss='deviance', learning_rate=1, n_estimators=5, subsample=1
                                  , min_samples_split=2, min_samples_leaf=1, max_depth=2
                                  , init=None, random_state=None, max_features=None
                                  , verbose=0, max_leaf_nodes=None, warm_start=False
                                  )

train_feat = np.array([[6],
                       [12],
                       [14],
                       [18],
                       [20],
                       [65],
                       [31],
                       [40],
                       [1],
                       [2],
                       [100],
                       [101],
                       [65],
                       [54],
                       ])
train_label = np.array([[0], [0], [0], [0], [0], [1], [1], [1], [1], [1], [2], [2], [2], [2]]).ravel()

test_feat = np.array([[25]])
test_label = np.array([[0]])
print(train_feat.shape, train_label.shape, test_feat.shape, test_label.shape)

gbdt.fit(train_feat, train_label)
pred = gbdt.predict(test_feat)
print(pred, test_label)

用sklearn实现GBDT多分类算法的GitHub地址：https://github.com/Microstrong0305/WeChat-zhihu-csdnblog-code/blob/master/Ensemble%20Learning/GBDT_Multi-class/GBDT_multiclass_sklearn.py

4. 总结

在本文中，我们首先从Softmax回归引出GBDT的多分类算法原理；其次用实例来讲解GBDT的多分类算法；然后不仅用Python3实现GBDT多分类算法，还用sklearn实现GBDT多分类算法；最后简单的对本文做了一个总结。至此，GBDT用于解决回归任务、二分类任务和多分类任务就完整的深入理解了一遍。

5. Reference

【1】Friedman J H. Greedy function approximation: a gradient boosting machine[J]. Annals of statistics, 2001: 1189-1232.
【2】《推荐系统算法实践》，黄美灵著。
【3】《百面机器学习》，诸葛越主编、葫芦娃著。
【4】Softmax函数与交叉熵，地址：https://blog.csdn.net/behamcheung/article/details/71911133#%E5%AF%B9%E6%95%B0%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
【5】图示Softmax及交叉熵损失函数，地址：https://blog.csdn.net/Hearthougan/article/details/82706834
【6】GBDT详细讲解&常考面试题要点，地址：https://mp.weixin.qq.com/s/M2PwsrAnI1S9SxSB1guHdg
【7】机器学习算法GBDT的面试要点总结-上篇，地址：https://www.cnblogs.com/ModifyRong/p/7744987.html
【8】Gradient Boosting Decision Tree，地址：http://gitlinux.net/2019-06-11-gbdt-gradient-boosting-decision-tree/
【9】GBDT算法用于分类问题 - hunter7z的文章 - 知乎，地址：https://zhuanlan.zhihu.com/p/46445201
【10】GBDT原理与实践-多分类篇，地址：https://blog.csdn.net/qq_22238533/article/details/79199605
【11】代码实战之GBDT，地址：https://louisscorpio.github.io/2018/01/19/%E4%BB%A3%E7%A0%81%E5%AE%9E%E6%88%98%E4%B9%8BGBDT/
【12】Freemanzxp/GBDT_Simple_Tutorial，地址：https://github.com/Freemanzxp/GBDT_Simple_Tutorial

Microstrong0305 博客专家

发布了285 篇原创文章 · 获赞 892 · 访问量 111万+

他的留言板关注

深入理解GBDT多分类算法

1. GBDT多分类算法

1.1 Softmax回归的对数损失函数

1.2 GBDT多分类原理

2. GBDT多分类算法实例

（1）数据集

（2）模型训练阶段

1）对第一个类别 $(y_{i}=0)$ 拟合第一颗树 $(m=1)$ 。

2）对第二个类别 $(y_{i}=1)$ 拟合第一颗树 $(m=1)$ 。

3. 手撕GBDT多分类算法

3.1 用Python3实现GBDT多分类算法

3.2 用sklearn实现GBDT多分类算法

4. 总结

5. Reference

猜你喜欢

深入理解GBDT多分类算法

1. GBDT多分类算法

1.1 Softmax回归的对数损失函数

1.2 GBDT多分类原理

2. GBDT多分类算法实例

（1）数据集

（2）模型训练阶段

1）对第一个类别 ( y i = 0 ) (y_{i}=0) (yi​=0) 拟合第一颗树 ( m = 1 ) (m=1) (m=1) 。

2）对第二个类别 ( y i = 1 ) (y_{i}=1) (yi​=1) 拟合第一颗树 ( m = 1 ) (m=1) (m=1) 。

3. 手撕GBDT多分类算法

3.1 用Python3实现GBDT多分类算法

3.2 用sklearn实现GBDT多分类算法

4. 总结

5. Reference

猜你喜欢

1）对第一个类别 $(y_{i}=0)$ 拟合第一颗树 $(m=1)$ 。

2）对第二个类别 $(y_{i}=1)$ 拟合第一颗树 $(m=1)$ 。