随机森林为何要有放回抽样

最近的一次面试经历中,有被问到过随机森林为什么要用有放回的随机采样。平时的自己确实没有去仔细想过这些问题,所以最终惨淡而归。

好了,回到正题吧,随机森林是可以降低模型的方差,这里借鉴了下其它同学的回答,记录一下。

1. 如果不放回抽样,那么每棵树用的样本完全不同,基学习器之间的相似性小,投票结果差,模型偏差大;

2. 如果不抽样,那么基学习器用所有样本训练,基学习器太相似差异性太小,模型的泛化性就很差;

3. 为什么不随机抽样?这里自助采样可以产生一部分袋外样本,可以用来做袋外估计;另外自助采样一定程度上改变了每个基学习器所用数据的样本分布,一定程度上引入了噪音,增加了模型的泛化能力。

猜你喜欢

转载自www.cnblogs.com/MaiYatang/p/12094856.html
今日推荐