初识xgboost - 代码天地

初识xgboost

其他 2019-01-11 10:10:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/DataCastle/article/details/85624051

经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山，几乎所有的比赛都绕不过它，可能只需要这一个库，在比赛中就可以得到很高的分数，究竟是为什们呢？那么就来窥探一下它的庐山真面目吧。

起源

xgboost 的全称是 eXtreme Gradient Boosting。正如其名，它是 Gradient Boosting Machine 的一个 c++ 实现，作者为曾在华盛顿大学研究机器学习的大牛陈天奇。因为其出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注。为了方便大家使用，陈天奇将 xgboost 封装成了 python 库，从此作为普通人的我们也可以使用这种开挂般操作的库了。

安装

xgb(xgboost)安装很简单，和一般的库相同：
pip install xgboost
可在ide导入验证是否安装成功
import xgboost as xgb

数据形式

xgb可以接受一下格式文件：（通过xgboost.DMatrix()方法）

LibSVM文本格式文件

逗号分隔值（CSV）文件

NumPy 2D阵列

SciPy 2D稀疏阵列

DataFrame数据框

XGBoost二进制缓冲区文件

需要注意的是：XGBoost不支持分类功能; 如果您的数据包含分类功能，请先将其加载为NumPy阵列，然后执行onehot编码。

XGBoost无法解析带有标头的CSV文件。

参数设定

XGBoost可以使用列表或字典来设置参数，如下所示：
param = {'max_depth': 2, 'eta': 1, 'silent': 1, 'objective': 'binary:logistic'}
param['nthread'] = 4
param['eval_metric'] = 'auc'
param['eval_metric'] = ['auc', 'ams@0']
一般提前定义这些参数，训练时只需将param参数传入即可。

训练

bst = xgb.train(param, dtrain, num_round, evallist)
param：各项参数，是一个字典

dtrain：训练数据，由xgb.DMatrix传入

num_round： boosting迭代计算次数

evallist：一个列表，用于对训练过程中进行评估列表中的元素。例如：evallist = [(dtest, 'eval'), (dtrain, 'train')]，用来为监视性能的验证

预测

模型训练好之后，接下来就是预测：

dtest = xgb.DMatrix(data)
ypred = bst.predict(dtest)

这样，最简单的xgboost使用就完成啦。

猜你喜欢

转载自blog.csdn.net/DataCastle/article/details/85624051

初识xgboost

XGboost

【XGBOOST】

xgboost：

9.XGBoost

【机器学习】--xgboost从初识到应用

1.XGBOOST算法推导

学习笔记(10):Kaggle 神器：XGBoost 从基础到实战-初识XGBoost

xgboost原理

xgboost小试

XGBoost models

xgboost学习

xgboost使用

xgboost参数

xgboost 技巧

xgboost 参数

GBDT && XGBOOST

XGBOOST数据

xgboost 解释

XGBOOST详解

7、xgboost

XGBoost算法

Xgboost模型

XGBoost推导

sklearn ：Xgboost

xgboost例子

XGBOOST（一）

XGboost安装

xgboost 入门

安装xgboost

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)