Bagging和随机森林

Bagging

基本概念

又称袋装(bagging)或者自助聚集(boot strap aggregating)
是一种根据均匀概率分布从数据集中重复采样(有放回)的技术。每个自助采样的样本集都和原数据集一样大。
在又放回的抽样中,如果抽样的个数和原数据集的大小一致,则自助样本 D i 中会有 63 % 的原训练数据,因为每一个样本抽到 D i 的概率为 1 ( 1 1 N ) N ,如果 N 足够大,则这个概率收敛于 1 1 / e 0.632

算法

这里写图片描述

关于时间复杂度

B a g g i n g 的时间复杂度大致是 T ( O ( m ) + O ( s ) ) ,考虑到采样与投票的平均时间复杂度 O ( s ) 非常小,而且 T 通常是一个不太大的常数,所以 B a g g i n g 集成和直接使用基学习算法训练的一个学习器的复杂度同阶。这说明 B a g g i n g 是一个很高效的集成学习算法。

随机森林和Bagging

随机森林(Random Forest简称RF),是Bagging的一个扩展变体。RF在以决策树为基学习器构建在 B a g g i n g 集成的基础之上的。进一步在决策树的训练过程中引入了随机属性选择。
具体来说,传统的决策树在选择划分属性的时候是在当前结点属性集合(假定有 d 个属性)中选择一个最优属性。而在 R F 中,对基决策树的每个结点,先从该结点的属性中随机选择一个包含 k 个属性的子集,然后再从这个子集中选择一个最优属性用于划分。这里的参数 k 控制了随机性的引入程度:若令 k = d 则基决策树的构建和传统决策树相同。若令 k = 1 则相当于随机选择一种属性用于划分。一般情况下推荐 k = log 2 d

猜你喜欢

转载自blog.csdn.net/uncle_gy/article/details/80024843