背诵概念

0、万恶之源版本号

tensorflow,pytorch,显卡版本,conda版本

1、什么是GBDT?

2、xgboost在GBDT上做了哪些优化?

3、随机森林核心思想有几个,分别是什么?

1、gradient boosting decision tree

一种基于boosting增强策略的加法模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。

一种基于boosting增强策略的加法模型,训练时采用前向分布算法进行贪婪学习,每次迭代都学习一棵CART(classification and regression tree)树拟合前t-1棵树的预测结果与训练样本真实值的残差。

增强策略:boosting bagging

2、损失函数进行了二阶泰勒展开

目标函数加入正则项

3、2个,采样和完全分裂

完全分裂:决策树每一次分裂扩张节点时,能分裂必须分裂,分裂依据可以是信息增益/信息增益比

采样:行采样/列采样  分别对应 样本/特征

行采样:模型从M条数据中随机采样m条数据,m一般是M的平方根大小。分别作为每一棵决策树的训练集

保证每棵决策树使用不用的训练集,一定程度上防止过拟合

列采样:每棵决策树都从M个特征中随机挑选m个特征作为节点分裂特征计算

         全局/局部列采样

全局:一棵树建树过程用同一批采样特征

局部:每一次节点分裂时,均匀单独随机挑选m个特征进行扩展。

列采样进一步保证了随机森林不会出现过拟合问题

猜你喜欢

转载自www.cnblogs.com/Marigolci/p/13395074.html