xgboost 算法总结 - 代码天地

xgboost 算法总结

其他 2019-07-21 23:11:31 阅读次数: 0

xgboost有一篇博客写的很清楚，但是现在网址已经失效了，之前转载过，可以搜索XGBoost 与 Boosted Tree。

现在参照这篇，自己对它进行一个总结。

xgboost是GBDT的后继算法，也是采用boost算法的cart 树集合。

一、基学习器：分类和回归树（CART）

cart树既可以进行分类，也可以进行回归，但是两种情况下，采用的切分变量选择方式不同。

CART在进行回归的时候，选择最优切分变量和切分点采用的是如下的标准

其中，c₁和c₂满足下式，即为该段变量取值的均值

CART采用暴力的遍历方式来确定最优切分变量和切分点，具体算法如下：

CART分类树的算法类似，由于分类无法计算均值，CART分类树采用的是计算基尼指数，通过遍历所有特征和他们的可能切分点，选择基尼指数最小的特征及切分点作为最优特征和最优切分点，并重复调用，直到生成CART分类树。

二、Tree Ensemble

如果单棵树的过于简单无法有效地预测，因此一个更加强力的模型叫做tree ensemble，也就是分类树的集成算法。如果采用boost集成，也就是加法集成，可以写成如下

其中每个f是一个在函数空间里面的函数，而对应了所有regression tree的集合。

目标函数如下：

前半部分是误差函数，后半部分是正则化项。

三、模型学习 additive training

因为现在我们的参数可以认为是在一个函数空间里面，我们不能采用传统的如SGD之类的算法来学习我们的模型，因此我们会采用一种叫做additive training的方式。。每一次保留原来的模型不变，加入一个新的函数 $f$

$f$

现在还剩下一个问题，我们如何选择每一轮加入什么f呢？答案是非常直接的，选取一个f来使得我们的目标函数尽量最大地降低

这个公式可能有些过于抽象，我们可以考虑当ll是平方误差的情况。这个时候我们的目标可以被写成下面这样的二次函数

更加一般的，对于不是平方误差的情况，我们会采用如下的泰勒展开近似来定义一个近似的目标函数，方便我们进行这一步的计算

当我们把常数项移除之后，我们会发现如下一个比较统一的目标函数。这一个目标函数有一个非常明显的特点，它只依赖于每个数据点的在误差函数上的一阶导数和二阶导数

四、树的复杂度

到目前为止我们讨论了目标函数中训练误差的部分。接下来我们讨论如何定义树的复杂度。我们先对于f的定义做一下细化，把树拆分成结构部分q和叶子权重部分w。下图是一个具体的例子。结构函数q把输入映射到叶子的索引号上面去，而w给定了每个索引号对应的叶子分数是什么

当我们给定了如上定义之后，我们可以定义一棵树的复杂度如下。这个复杂度包含了一棵树里面节点的个数，以及每个树叶子节点上面输出分数的 $L 2$

五、关键步骤

这是xgboost最巧妙处理的部分，在这种新的定义下，我们可以把目标函数进行如下改写，其中被定义为每个叶子上面样本集合

这样目标函数可以如下变化，使用步骤四中的方式来表示误差函数和复杂度，如下

这一个目标包含了T个相互独立的单变量二次函数。我们可以定义

则

这是一个关于的二次函数，可以知道最值如下：

六、打分函数计算举例

猜你喜欢

转载自www.cnblogs.com/bnuvincent/p/11223200.html

xgboost 算法总结

Xgboost总结

XGBoost算法

机器学习算法总结(四)——GBDT与XGBOOST

R语言：xgboost算法的实现——xgboost包

GBDT+XGBoost算法详解（下）：XGBoost

XGboost学习总结

Xgboost参数总结

Xgboost调参总结

XGBoost学习总结（二）

xgboost 学习总结

GBDT和Xgboost总结

XGBoost使用总结

XGBoost算法--学习笔记

说说xgboost算法

【机器学习】Xgboost算法

Xgboost集成算法

XGBoost算法原理

一、XGBoost算法

xgboost算法原理与实战

Xgboost算法——Kaggle案例

xgboost 算法原理

机器学习算法-xgboost

机器学习——XGboost算法

Xgboost算法梳理

Xgboost算法详解

XGBoost算法原理小结

算法强化 —— XGBoost(二)

算法强化 —— XGBoost

算法强化 —— XGBoost(三)

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)