机器学习之分类回归树

一. 随机森林RF

RF是分类树,是由很多决策树构成的,不同决策树之间没有关联

  1. 随机选取一定固定数量的样本和特征来构建决策树,有放回的抽样。
  2. 对每棵决策树分别进行分类器的训练
  3. 求每棵树预测结果的百分比的平均值,选取最大的占比的结果作为最终的预测结果
  4. 视频教学
    https://www.bilibili.com/video/BV1H5411e73F/?spm_id_from=333.788.recommend_more_video.-1

二. GBDT

GBDT是回归树,当前的树的输入为上一棵树的残差结果

  1. 根据数值特征构建决策树(比如年龄)
  2. 求每个结点的平均值
  3. 求与平均值的差值
  4. 通过差值构建一棵残差树
  5. 不断拟合残差结果,通过迭代使得残差变小
  6. 核心是累加所有树的结果作为最终结果

入门例子的话,可以看这个视频讲的例子,不错:
https://www.bilibili.com/video/BV1Bt411j7KH?from=search&seid=13485462299533879409&spm_id_from=333.337.0.0

三. GBDT + LR

正如它的名字一样,GBDT+LR 由两部分组成,其中GBDT用来对训练集提取特征,将这些特征作为新的训练输入数据,LR作为新训练输入数据的分类器。

四. XGBOOST

https://blog.csdn.net/u011094454/article/details/78948989

五. 正则化概念

正则化是为了防止过拟合。
这个说得非常好:
https://www.cnblogs.com/jianxinzhou/p/4083921.html

六. bagging和boosting 总结,较全

https://blog.csdn.net/u014114990/article/details/50948079

猜你喜欢

转载自blog.csdn.net/weixin_39735688/article/details/122157225