GBDT，LightGBM

GBDT

添加链接描述
GB:Gradient Boost 学习策略
DT:Decision Tree 决策树模型
GBDT：使用Gradient Boost 训练决策树模型
结果：一组回归分类树的组合（CART Ensemble ） T₁,T₂,T₃ …
其中T_i 学习的是T _i-1 的残差
此时需要解决两个问题：
1.残差是如何计算的
2.一组回归分类树是如何ensemble的

Gradient Boosting

Gradient Boosting
Gradient Boosting=Gradient Descent + boosting
给定训练样本 (x₁,y₁),(x₂,y₂),…,(x_n,y_n)
训练模型 F(x) 使得损失函数 loss=∑_n1/2（y_i-F(x_i))²最小
假设已经存在一个基模型 F^’(x₁)=0.8 y₁=0.9 ,F^’(x₂)=1.4 y₂=1.3 …
在不能修改F^’的前提下如何提高模型的表现呢
一个简单的想法就是增加一个model h
使得：
在这里插入图片描述

即：
在这里插入图片描述

以regression tree 为例对于原始数据x₁,y₁),(x₂,y₂),…,(x_n,y_n) 我们需要训练一个regression tree 使得x₁,F(₁)),(x₂,F(x₂)),…,(x_n,F(x_n)) 和₁,y₁),(x₂,y₂),…,(x_n,y_n) 尽量接近
同样的对于h(x) 需要训练（x₁,h(x₁)）,(x₂,h(x₂))…
和（x₁,y₁-F(x₁)）,(x₂,y₂-F(x₂))…尽量接近
其中 y₁-F(x₁)称为残差 h（x）的作用就是补偿当前函数的残差
如果在F(x)+h(x) 依旧有残差存在那么可以继续增加另外一个regression tree 来补齐这个残差
接下来我们看一看这个所谓的残差和梯度有什么关系
对于损失函数 loss=∑_i1/2（y_i-F(x_i))²
要最小化这个损失函数
在这里插入图片描述

Decision Tree

在这里插入图片描述
G(x)=∑_t^Tq_t(x) * g_t(x)
其中 g_t(x)代表在路径t上的叶子的结果
q_t(x) 代表 x是否在路径t上

这里对决策树的定义是从树的叶子节点的结果出发的如果是从树的根节点出发可以很容易的通过递归的方法得到树的定义式
可以根据条件区分例如上图根据quitting time 可以分成3个状态
在这里插入图片描述
这样就把问题分解成为两部分即如何对树做分支以及做完分支之后产生哪些子树以及何时停止

CART
使用二叉树结果 C=2
回传的g_t(x)为常数对于分类问题返回叶子节点中majority of y_n 回归问题返回 mean(y_n)

GBDT

Gradient Boosting

Decision Tree

猜你喜欢