Bagging 与随机森林

对于基分类器的要求：
使基学习器尽可能具有较大的差异&希望个体学习器不能太差

采用“自助来样法”生成多个样本（有放回抽样），生成的每一个Dm都训练出来一个分类器，再将这些基学习器进行结合
与标准 AdaBoost 只适用于二分类任务不间, Bagging 能不经修改地用于多分类、回归等任务.

RF在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择.具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有 d 个属性)中选择一个最优属性;而在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含 k个属性的子集,然后再从这个子集中选择一个最优属性用于划分. 这里的参数
k 控制了随机性的引入程度 ;若令 k=d , 则基决策树的构建与传统决策树相同;k = 1 , 则是随机选择一个属性用于划分 ;

值得一提的是,随机森林的训练效率常优于 Bagging,因为在个体决策树的构建过程中 ,Bagging使用的是 " 确定型" 决策树 ?在选择划分属性时要对结点的所有属性进行考察 ,而随机森林使用的" 随机型"决策树则只需考察 -个属性子集

也就是说，相对于bagging，RF一方面在引入数据随机，另一方面也引入了特征随机

随机森林是对bagging算法的一种调整，它不是选择最佳分割点来创建决策树，而是通过引入随机性来得到次优分割点。

因此，针对每个数据样本所创建的模型，会与其他方式有所不同，但仍能以其独特和不同的方式准确预测。结合所有模型的预测，可以更好地估计潜在的真实输出。

并且Bagging 主要关注降低方差（对于模型过拟合问题有很好的抑制效果），因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显（相对应的是boosting方法对于偏差又改进）

这里对于bagging对于过拟合抑制的理解：因为是集成方法，每次判定都会拿多个基分类器融合观点，避免了一个不准确

Bagging 与随机森林

猜你喜欢