Bagging 与随机森林

对于基分类器的要求:
使基学习器尽可能具有较大的差异&希望个体学习器不能太差

采用“自助来样法”生成多个样本(有放回抽样),生成的每一个Dm都训练出来一个分类器,再将这些基学习器进行结合
与标准 AdaBoost 只适用于二分类任务不间, Bagging 能不经修改地用于多分类、回归等任务.

RF在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择.具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有 d 个属性)中选择一个最优属性;而在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含 k个 属 性的 子集,然后再 从这个子 集 中选择 一 个 最 优 属 性用 于 划分. 这里 的 参数
k 控制了 随机性的引入程度 ;若令 k=d , 则 基决策树的构建 与 传统决策树相同;k = 1 , 则是随机选择 一 个属性用 于 划分 ;

值得一提 的 是,随机森林的 训练效率常优于 Bagging,因为在个体决策树 的构建过程中 ,Bagging使用 的是 " 确定型" 决策树 ?在选择划分属性时要对结 点的所有属 性进行考察 ,而随机森林使用的" 随机型"决策树则只需考察 -个属性子集

也就是说,相对于bagging,RF一方面在引入数据随机,另一方面也引入了特征随机

随机森林是对bagging算法的一种调整,它不是选择最佳分割点来创建决策树,而是通过引入随机性来得到次优分割点。

因此,针对每个数据样本所创建的模型,会与其他方式有所不同,但仍能以其独特和不同的方式准确预测。结合所有模型的预测,可以更好地估计潜在的真实输出。

并且Bagging 主要关注降低方差(对于模型过拟合问题有很好的抑制效果),因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显(相对应的是boosting方法对于偏差又改进)

这里对于bagging对于过拟合抑制的理解:因为是集成方法,每次判定都会拿多个基分类器融合观点,避免了一个不准确

猜你喜欢

转载自blog.csdn.net/Innovat1on/article/details/88963796