XGBoost 参数

在运行 XGBoost 之前，我们必须设置三种类型的参数: 通用参数、提升参数和任务参数。

通用参数：是选择用来迭代提升的模型有关的参数，通常是树型或线性模型
提升参数：取决于您选择的基模型（booster）
任务参数：决定学习场景。例如，回归任务可能使用不同的参数对任务进行排序。

命令行参数：与 XGBoost 的 CLI 版本的行为有关。
R包中的参数：在 R 包中，您可以使用。(dot)来替换参数中的下划线，例如，可以使用 max.deep 来指示 max_deep。下划线参数在 R 中也是有效的。

全局配置
通用参数
- 提升树参数
- 基于树模型的额外参数：hist、 gpu_hist
- dart提升树的附加参数(booster=dart)
- 线性booster的参数(booster=gblinear)
任务参数
- tweedie回归的参数(Objective=reg: Twitdie)
- Pseudo-Huber的参数(reg:pseudohubererror)
命令行参数

全局配置

可以使用 py:func:‘xgboost.config_context()’(Python)或 xgb.set.config()®在全局范围内设置以下参数。

verbosity: 过程输出信息的打印。0(silent), 1(warning), 2(info), 3(debug)
use_rmm: 是否使用 RAPIDS 内存管理器(RMM)来分配 GPU 内存。此选项仅适用于在启用了 RMM 插件的情况下构建(编译) XGBoost 时。有效值为 true 和 false。

通用参数

booster[default=gbtree]
- 迭代过程中，选择的基模型（booster）。可以是 gbtree、 gblinear 或 dart；gbtree 和 dart 使用基于树的模型，而 gblinear 使用线性函数。
verbosity[default=1]
- 过程信息的输出等级，0(silent), 1(warning), 2(info), 3(debug)。有时候，XGBoost试图基于启发式方法更改配置，启发式方法输出信息显示为警告消息。如果有意想不到的行为，可以尝试修改verbosity的值。
validate_parameters[default=false]【不可在Python，R 和 CLI 接口中设置】
- 这是一个实验性质的参数，当设置为 True 时，XGBoost 将对输入参数执行验证，以检查是否使用了某个参数。开发中的参数可能有一些误报。不建议使用
nthread[默认设置为最大可用线程数]
- 用于运行 XGBoost 的并行线程的数量，如果不设置，则默认使用可用的最大线程数
disable_default_eval_metric[default=false]
- 禁用默认指标的标志。设置为1或 true 禁用。
num_feature[由 XGBoost 自动设置，用户无需设置]
- boosting过程中特征的维度，该值等于输入特征的最大维度

提升参数

eta[default=0.3, 别称: learning_rate]
- 学习率
- 范围: [0,1]
gamma [default=0, alias: min_split_loss]
- 在树的叶子节点上进行进一步分区所需的最小损失减少。伽马值越大，算法就越保守。
- 范围: [0，∞]
max_depth[default=6]
- 树的最大深度。增加这个值将使模型更加复杂，并且有可能过拟合。0表示没有深度限制。在训练深度树时，XGBoost 会大量消耗内存。一般需要设置为非零值。
- 范围: [0，∞]
min_child_weight[default=1]
- 叶子节点所需要的最小值。如果进一步分裂后的树的叶子节点值小于 min_child_weight，则停止分裂。在线性回归任务中，这个值是每个节点所需的最小数量。min_child_weight越大则算法越保守。
- 范围: [0，∞]
max_delta_step[default=0]
- 允许每个叶输出的最大 delta 步长。如果该值设置为0，则表示没有约束。如果将其设置为正值，则有助于使更新步骤更加保守。通常不需要这个参数，但是当类极度不平衡时，对于逻辑回归任务是有帮助的。设置为值1-10可能有助于控制更新。
- 范围: [0，∞]
subsample[default=1]
- 样本采样比例。设置为0.5意味着 XGBoost 将在树木生长之前随机抽样一半的训练数据，这样可以防止过拟合。行采样（样本采样）在每次boosting迭代中发生一次。
- 范围: (0,1)
sampling_method[default=uniform]
- 用于样本采样的方法，默认是均匀分布采样
- uniform: 每个训练实例被选中的概率相等。通常设置子样本 >=0.5 以获得良好的结果。
- gradient_based: 基于梯度: 每个训练实例的选择概率与梯度的正则化绝对值成正比。注意，只有当 tree_method 设置为 gpu_hist 时才支持这种采样方法; 其他树方法只支持均匀采样（uniform）。
colsample_bytree, colsample_bylevel, colsample_bynode [default=1]
- 这是一系列用于对列进行子抽样的参数。
- 所有 colsample_by * 参数的范围都为(0,1] ，默认值为1，值代表了对列（特征）采样的比例。
- colsample_bytree 是构造每棵树时列的子抽样比率。
- colsample_bylevel 是每个深度下的列的子样本比率。对于树达到的每个新深度时候，都会进行一次采样。从当前数的当前特征集合中抽样。
- colsample_bynode 是每个节点(拆分)的列的子样本比率。每次计算一个新拆分时都会进行一次次采样。从当前深度下所有特征集合中采样。
- colsample_by * 是叠加的。例如，具有64个特性的组合{‘colsample_bytree’: 0.5, ‘colsample_bylevel’: 0.5, ‘colsample_bynode’: 0.5}将在每个分割处留下8个特性供选择。
- 使用 Python 或 R 包，可以设置 DMatrix 的 feature_weight，以定义在使用列抽样时每个特性被选中的概率。在 sklearn 接口中有一个类似的fit方法参数。
lambda [default=1, 别称: reg_lambda]
- L2正则项对权重的影响。增加这个值会使模型更加保守。
alpha[default=0, 别称: reg_alpha]
- L1正则项对权重的影响。增加这个值会使模型更加保守。
tree_method string [default=auto]
- XGBoost 中使用的树构造算法。参见参考文献中的说明和: doc:‘treemmethod’。
- XGBoost 为分布式训练提供了 approx、hist 和 gpu_hist 支持。实验表明，对于approx和gpu_list方法需要额外的内存。
- 可选值: auto, exact, approx, hist, gpu_hist
  - auto: 使用启发式选择最快的方法
    - 对于小数据集，将使用精确贪婪(精确)。
    - 对于较大的数据集，将选择近似算法(约)。建议尝试 hist 和 gpu_hist 以获得更高的大数据集性能。(gpu_hist)支持外部内存。
      Because old behavior is always use exact greedy in single machine, user will get a message when approximate algorithm is chosen to notify this choice.
    - 旧版本的api，是单机执行精准贪婪，设置为近似算法的时候会有提示信息输出。
  - exact: 精确的贪婪算法。枚举所有分割的候选者。
  - approx: 利用分位数草图和梯度直方图近似贪婪算法。
  - hist: 更快的直方图优化近似贪婪算法。
  - gpu_hist: hist 算法的 GPU 实现。
sketch_eps [default=0.03]
- 仅用于 updater=growth_local_hismaker。
- 与直接选择箱数相比，通过该方法具有理论保证和更高精度。
- 通常用户不必调整此。但是考虑设置一个较低的数字，以便更准确地枚举分割的候选者。
- 范围: (0,1)
scale_pos_weight [default=1]
- 控制正负样本的比例，对不平衡的类别是有用。典型的取值逻辑是: sum (负实例)/sum (正实例)
updater
- 定义要运行的树更新流程，提供构造和修改树的模块化方法。这是一个高级参数，通常根据其他一些参数自动设置。但是，它也可以由用户显式设置。现有以下更新:
  - grow_colmaker: 基于列的树的非分布式构造。
  - grow_histmaker: 基于直方图计数全局方案的基于行数据分割的分布式树结构。
  - grow_local_histmaker: 基于局部直方图计数。
  - grow_quantile_histmaker: 用量化直方图生长树。
  - grow_gpu_hist: 使用 GPU 生长树。
  - sync: 同步所有分布式节点中的树。
  - refresh: 根据当前数据刷新树的统计信息和叶子值。请注意，不执行数据行的随机子抽样。
  - prune: 修剪 loss < min_split_loss (或 γ)和深度大于 max_deep 的节点。
refresh_leaf [default=1]
- 这是刷新更新程序的一个参数。当此标志为1时，树叶以及树节点的统计信息将更新。如果为0，则只更新节点统计信息。
process_type [default=default]
- booting过程控制参数，通常不必设置
- 可选: default, update
  - default: 正常的创建一个新树过程。
  - update: 从现有模型开始，只更新其树。在每次增强迭代中，从初始模型获取一棵树，为该树运行指定的更新器序列，并向新模型添加修改后的树。根据所执行的增强迭代的数量，新模型将具有相同或更小的树数量。目前，这种流程类型可以有意义地使用以下内置更新程序:。使用 process_type=update 时，不能使用创建新树的更新程序。
grow_policy [default=depthwise]
- 控制向树中添加新节点的方式。
- 目前只有当 tree_method 被设置为 hist、 approx 或 gpu_hist 时才受支持。
- 可选: depthwise, lossguide
  - depthwise: 在离根最近的节点上拆分。
  - lossguide: 在损耗变化最大的节点上分裂。
max_leaves[default=0]
- 要添加的最大节点数。精确树方法不使用。
max_bin[default=256]
- 只有在 tree_method 设置为 hist、 approx 或 gpu_hist 时才使用。
- 对于连续特征的最大分桶数，增加这一数字可以提高分拆的最优性，但代价是提高计算时间。
predictor[default=auto]
- 要使用的预测器算法的类型。提供相同的结果，但允许使用 GPU 或 CPU
  auto: 基于启发式配置预测器。
  cpu_predictor: 多核 CPU 预测算法。
  gpu_predictor: 使用 GPU 进行预测。当 tree_method 为 gpu_hist 时使用。当预测器设置为默认值 auto 时，GPU_hist 树方法能够提供基于 GPU 的预测，而无需将训练数据复制到 GPU 内存中。如果显式指定了 gpu_predictor，则将所有数据复制到 GPU 中，仅推荐用于执行预测任务。
num_parallel_tree[default=1]
- 在每次迭代期间构造的并行树的数量。此选项用于支持增强随机林。
monotone_constraints
- 高级参数，可变单调性的约束。
interaction_constraints
- 表示允许的交互的交互约束。约束必须以嵌套列表的形式指定，例如[[0,1] ，[2,3,4]] ，其中每个内部列表是一组允许相互交互的特性索引。

基于树模型的附加参数hist, gpu_hist 还有approx

single_precision_histogram, [default=false]
- 使用单精度代替双精度构建直方图。
max_cat_to_onehot
- 这个参数需要1.6版本以上，且属于开发中参数
- 一个阈值，用于决定 XGBoost 是否应该对分类数据使用基于拆分的一次性编码。当类别的数量小于阈值时，则选择一onehot编码，否则类别将被划分为子节点。只与回归和二分类有关。此外，不支持精确树方法

DartBooster的额外参数(booster=dart)

如果基模型是 dart类型，则预测函数predict()将执行dropouts操作，即只对一些树进行评估。如果数据不是训练数据，这将产生不正确的结果。要在测试集上获得正确的结果，请将迭代范围设置为非零值，例如。

preds=bst.predict(dtest, iteration_range=(0, num_round))

sample_type [default=uniform]
- 采样算法类型
  - uniform: 均匀采样（等概率采样）
  - weighted: 按权重比例采样
normalize_type [default=tree]
- 归一化算法类型
  - tree: 新的树木具有相同的权重的每一个dropout的树木
    - 新树权重为1/(k + 学习率)。
    - dropou’t的树按 k/(k + 学习率)的因子进行缩放。
  - forest: 新的树是已有数的权重总和
    - 新树权重为1/(1 + 学习率)。
    - dropout的树按1/(1 + 学习率)的因子进行缩放。
rate_drop [default=0.0]
- 退出率(退出期间退出的树木的一小部分)。
- 范围: [0.0,1.0]
one_drop [default=0]
- 当这个标志被启用时，至少有一棵树总是在drop过程中被删除(允许二项式加一或从原始 DART 文件中被删除)。
skip_drop [default=0.0]
- 在boosting期间跳过dropout过程的似然
  - 如果跳过一个dropout过程，那么将以与 gbtree 相同的方式添加新树。
  - 注意，非零的 skop_drop 比 rate_drop 或 one_drop 具有更高的优先级。
- 范围: [0.0,1.0]

线性提升参数(booster=gblinear)

lambda [default=0, alias:reg_lambda]
- L2加权正则项。增加这个值会使模型更加保守。
alpha [default=0, alias: reg_alpha]
- L1关于权重的正则项。增加这个值会使模型更加保守。
updater [default=shotgun]
- 线性模型拟合算法的选择
  - shotgun: 基于shotgun算法的平行坐标下降法算法。使用"hogwild"并行性，因此在每次运行时产生一个不确定的解决方案。
  - coord_descent: 普通的坐标下降法算法，也是多线程的，但仍然产生一个确定的解决方案。
feature_selector [default=cyclic]
- 特征选择与排序方法
  - cyclic: 通过一次循环遍历一个特征来进行确定性选择。
  - shuffle: 类似于循环，但是在每次更新之前使用随机的特性 shuffle。
  - random: 一个随机的(有替换的)特征选择器。
  - greedy: 选择最大梯度大小的坐标。它具有 O(num_Feature^2)复杂性。它是完全确定的。它允许通过设置 top_k 参数，将选择限制为单变量权重变化幅度最大的每个组的 top_k 特性。这样做可以将复杂性降低到 O(num_Feature * top_k)。
  - thrifty: 近乎贪婪的特性选择器。在循环更新之前，重新排序特性的单变量权重变化的下降幅度。这个操作是多线程的，是二次贪婪选择的线性复杂度近似。它允许通过设置 top_k 参数，将选择限制为单变量权重变化幅度最大的每个组的 top_k 特性。
top_k [default=0]
- 在greedy和thrifty的特性选择器中要选择的头部特性的数量。0表示使用所有特性。

Learning Task Parameters 学习任务参数

指定学习任务及相应的学习目标，可选的参数如下：

objective [default=reg:squarederror]
- reg:squarederror: 回归与平方损失。
- reg:squaredlogerror: 使用平方对数损失 frac{1}{2}[ log (pred + 1)-log (label + 1)] ^ 2的回归。所有输入标签都必须大于 -1。
- reg:logistic: 逻辑回归
- reg:pseudohubererror: Pseudo Huber 损失的回归，绝对损失的二次可微替代。
- binary:logistic: 二分类任务，输出概率
- binary:logitraw: 二分类，输出logistic转换前的分数
- binary:hinge: hinge loss 的二分类，输出0或1，而不是概率
- count:poisson: 泊松回归，输出平均泊松分佈
  - max_delta_step 在泊松回归中默认设置为0.7(用于保护优化)
- survival:cox: Cox 回归
- survival:aft: 删减生存时间数据的加速失效时间模型。
- aft_loss_distribution: 生存使用的概率密度函数: aft 目标和 aft-nloglik 度量。
- multi:softmax: 使用 softmax 目标设置 XgBoost 多元分类，还需要设置 num_class (类的数量)
- multi:softprob: - 与 softmax 相同，但输出一个 ndata * nclass 向量，该向量可以进一步重构为 ndata * nclass 矩阵。结果包含了属于每个类的每个数据点的预测概率。
- rank:pairwise: - 使用 LambdaMART 的学习排序算法
- rank:ndcg: 使用 LambdaMART 的学习排序，目标是累积增益(NDCG)最大化
- rank:map: 使用 LambdaMART 学习排序，目标是平均精度(MAP)最大化
- reg:gamma: 伽马回归。产出是伽玛分布的平均值。它可能是有用的，例如，用于建模保险索赔的严重性，或者用于任何可能是伽马分布的结果。
- reg:tweedie: 带 log-link 的 Tweedie 回归。它可能是有用的，例如，建模总损失的保险，或任何结果，可能是 Tweedie 分布。
base_score [default=0.5]
- 所有实例的初始预测得分，全局偏置
- 对于足够多的迭代，更改此值不会产生太大影响。
eval_metric
- 验证数据的评估指标，将根据目标(回归的 rmse，分类的损失，排名的平均精度)分配缺省指标
- 用户可以添加多个评估指标。Python 用户: 请记住将度量作为参数对列表而不是 map 传递，这样后一个 eval_metrics 就不会覆盖前一个参数对
- 这些选择如下:
  - rmse: 均方误差
  - rmsle: 均方误差根，是对均方误差开根号，reg:squaredlogerror 的默认度量指标。此度量减少了数据集中异常值产生的错误。但由于使用了 log 函数，当预测值小于 -1时，rmsle 可能会输出 nan。
  - mae: 平均绝对误差
  - mape: 平均绝对百分比误差
  - mphe: 平均伪 Huber 损失。 reg:pseudohubererror的默认度量函数。
  - logloss: 对数损失
  - error: 二分类错误率，二进制分类错误率。计算方法为 # (错误情况)/# (所有情况)。对于预测，评价将预测值大于0.5的实例视为正实例，将其他实例视为负实例。
  - error@t: 可以通过提供一个通过’t’的数值来指定一个不同于0.5的二进制分类阈值。
  - merror: 多分类错误率，计算方法为 # (错误个案)/# (所有个案)。
  - mlogloss: 多分类的logloss.
  - auc: ROC曲线下方面积，可以用于分类和排序任务
    - 如果是二分类任务，目标函数应该是：binary:logistic或者其他输出概率的函数
    - 当是多分类任务的时候，目标函数应该是multi:softprob 而不是 multi:softmax，因为后者不输出概率。另外AUC的计算也可以通过1-vs-rest的方法计算。
    - 如果是学习排序（LTR）任务，AUC代表了正确排序的概率，即正样本排在负样本前面的概率
    - 单机情况下，AUC的计算是确定的，在分布式环境下，AUC的计算是每个节点AUC的加权平均，因此分布式AUC是对数据敏感的，即数据的分布对AUC的计算存在影响，如果对精准性和可重复性很看重，那么在分布式环境下，应该考虑别的指标。
    - 当输入数据集只包含负数或正数样本时，输出为 NaN。这是预定义的值，例如，scikit-learn 返回0.5。
  - aucpr: PR 曲线下的区域。可用于分类和学习排序任务。
    - 在 XGBoost 1.6之后，在分类问题中使用 aucpr 的要求和限制都类似于 auc。对于排序任务，只支持[0,1]中的二进制相关标签 y。不同于map，aucpr 使用连续插值计算精度召回曲线下的插值面积。
  - ndcg: 归一化的累计增益
  - map:平均精度
  - ndcg@n, map@n:'n’可以被赋值为一个整数，以便在求值列表中截断顶部位置。
  - ndcg-, map-, ndcg@n-, map@n-: 在 XGBoost 中，NDCG 和 MAP 将评估没有任何正样本的列表的得分为1。通过在评估度量 XGBoost 中添加“-”，可以将这些分数评估为0，以便在某些条件下保持一致。
  - poisson-nloglik: 泊松回归的负似然损失
  - gamma-nloglik: γ回归的负对数似然
  - cox-nloglik: cox 比例风险回归的负偏对数似然
  - gamma-deviance: 伽马回归的残差
  - tweedie-nloglik: Tweedie 回归的负对数似然
  - aft-nloglik: 加速失败时间模型的负对数似然
  - interval-regression-accuracy: 预测标签落在区间删失标签中的数据点的分数。只适用于区间删失数据
seed [default=0]
- 随机数种子，用于重复实验，在 R 包中忽略这个参数，改为使用 set.eed()。
seed_per_iteration [default=false]
- 种子 PRNG 通过迭代器数确定性。

Tweedie 回归的参数(objective=reg:tweedie)

tweedie_variance_power [default=1.5]
- 控制 Tweedie 分布 var (y) ~ E (y) ^ weedie_variance_power 方差的参数
- 范围: (1,2)
- 调到接近2的伽玛分布
- 调到接近1的位置转向泊松分佈。

使用Pseudo-Huber 的参数(reg:pseudohubererror)

huber_slope : 一个用来表示Pseudo-Huber 损失的参数，用来定义 delta 项。[ default=1.0]

命令行参数

以下参数仅在 XGBoost 的控制台版本中使用

num_round
- boosting的轮次
data
- 训练数据的路径
test:data
- 测试数据的路径
save_period [default=0]
- 保存模型的周期。设置 save_period=10意味着每10轮 XGBoost 将保存模型。将其设置为0意味着在训练期间不保存任何模型。
task [default=train] options: ]
- 可选值: train, pred, eval, dump
- train: 使用训练数据进行模型的训练
- pred: 使用测试数据进行预测
- eval: 通过制定 eval[name]=filename 进行验证
- dump: 将模型保存为文本格式
model_in [default=NULL]
- 输入模型的路径，用于测试、计算和转储任务。如果在训练中指定了它，XGBoost 将继续从输入模型进行训练。
model_out [default=NULL]
- 训练结束后输出模型的路径。如果未指定，XGBoost 将输出名称为0003的文件。其中0003是迭代的轮次。
model_dir [default=models/]
- 训练期间保存的模型的输出目录
fmap
- 特征映射，用于保存模型
dump_format [default=text]
- options: text, json
- 模型转储文件的格式
name_dump [default=dump.txt]
- 模型转储文件的名称
name_pred [default=pred.txt]
- 在 pred 模式中使用的预测文件的名称
pred_margin [default=0]
- 预测边际而不是转换概率

XGB系列-XGB参数指南