[机器学习] 集成学习 bagging

基本思想

1).从原始样本集中用Bootstrap采样选出N个样本(新)
2).对这N个样本建立分类器
3).重复1-2步,建立m个分类器
4).将Bootstrap采样选出n个样本(m个新的样本数据集),在m个分类器上进行分类
5).把m个分类器分类的结果进行投票,得到最多的为最终的类别。
Boostrap是一种有放回的抽样方法。一般 N > 1000 N>1000

1.重复K次
有放回地重复抽样建模
训练子模型

2.模型融合
分类问题:voting
回归问题:average

其他

bagging对于弱学习器没有限制,也就是说,你可以用决策树,SVM等等都是可以的.一般常用的是决策树和神经网络.
因为bagging的随机采样思路,模型的泛化能力很强,降低了模型的方差.但是对于训练集的拟合程度就不是那么好,也就是说偏差会大一些. 符合bagging思想的比较出名的学习算法就是随机森林.

随机森林(Random Forest: bagging + 决策树):
将训练集按照横(随机抽样本)、列(随机抽特征)进行有放回的随机抽取,获得n个新的训练集,训练出n个决策树,通过这n个树投票决定分类结果。主要的parameters 有n_estimators 和 max_features。

参考

机器学习之集成学习Ensemble

猜你喜欢

转载自blog.csdn.net/u013608336/article/details/82699703
今日推荐