集成方法:随机森林 vs AdaBoost

01 随机森林

Bagging核心思想:采用有放回的采样规则,从m个样本点中抽取n个数据构建一个新的训练数据集,用这个数据集来训练模型,重复上述过程B次,得到B个模型。采用投票或取平均值方式进行预测。

随机森林算法思想:在Bagging的基础上,对特征也进行抽样构建每次的训练数据集。RF的基学习器主要为CART树。

关键参数:决策树的个数、构建单棵决策树特征的个数。

优点:

适合处理多分类问题及类别不平衡的分类问题,对缺失值异常值不敏感

能够有效地处理大的数据集和高维数据集,无须进行特征选择

有袋外数据OOB,不用再单独划分交叉验证集

能够给出特征重要性程度

不容易过拟合

容易并行化,训练和预测速度快

缺点:对有不同取值的属性数据,取值划分较多的属性会对随机森林产生更大的影响(使用了信息增益)



02 Adaboost

提升方法:通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的精度。

两个基本问题:

每一轮如何改变训练样本的权重

如何将弱分类器组合成一个强分类器

Adaboost的做法:

提高那些被前一轮弱分类错误分类样本的权值,而降低那些被正确分类样本的权值

加权多数表决,加大分类误差小的弱分类器权重,减小分类误差大的弱分类器权重


6778119-834e939a9fff140f.png
Boosting


6778119-78815a3fef15497a.png
AdaBoost

猜你喜欢

转载自blog.csdn.net/weixin_34119545/article/details/87094026
今日推荐