随机森林与梯度提升树

提升树模型：

提升方法实际采用加法模型（即基函数的线形组合）与前向分步算法。以决策树为基函数的提升方法称为提升树。对分类问题决策树是二叉分类树。提升树模型可以表示为决策树的加法模型：fMx=m=1MT(x;θm)，其中T(x;θm)表示决策树；θm为决策树的参数；M为树的个数。

提升树算法采用前向分步算法。首先确定初始提升树f0x=0，第m步的模型是fmx=fm-1x+T(x;θm)，其中fm-1x为当前模型，通过经验风险极小化确定下一棵决策树的参数θm。

回归模型的提升树
假设采用平方误差损失函数时，

对回归问题的提升树算法来说，只需简单拟合当前模型的残差。

但对一般损失函数而言，往往每一步优化并不那么容易，针对这一问题，Freidman提出了梯度提升算法，这是利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值。作为回归问题提升树算法中的残差的近似值拟合一个回归树。

随机森林与梯度提升树
在算法层面，随机森林通过对数据集进行随机采样来构建训练样本，认为随机化有利于模型在测试集上的泛化性能。而梯度提升树根据训练数据寻找所有决策树的最优的线形组合。

随机森林比梯度提升树更容易训练，随机森林只需要设置一个超参数即可，每个结点上随机选取的特征数量，大多数情况下设置为log2的特征总数或特征总数的平方根，就可以取得不错的效果。而梯度提升树参数则包括了提升树的数量、深度和学习率等。

随机森林比梯度提升树更难过拟合。

梯度提升树对噪声异常敏感，从偏差与方差的角度，如果数据是嘈杂的，boosting算法可能会呈现出较高的模型方差，然而在其他情况下，boosting算法往往能够取得较好的效果。而随机森林并不基于模型残差来构建集成模型，往往能够取得很低的方差。
————————————————
版权声明：本文为CSDN博主「马恩尼斯」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/ma412410029/article/details/84590204

gb4215287

发布了44 篇原创文章 · 获赞 130 · 访问量 137万+

他的留言板关注

随机森林与梯度提升树

猜你喜欢