Bagging and Random Forest

Bagging和随机森林

随机森林是最受欢迎和最强大的机器学习算法之一。它是一种称为Bootstrap聚合或bagging的集成机器学习算法。

bootstrap是一种强大的统计方法,用于从数据样本中估计数量,比如均值可以取大量的数据样本,计算平均值,然后平均所有的平均值,以便更好地估计真实的平均值。

在bagging中,使用了相同的方法。but instead for estimating entire statistical models, most commonly decision trees.

训练数据的多个样本被采用,然后为每个数据样本构建模型。当你需要对新数据做一个预测时,每个模型都做一个预测,预测的平均值会给出一个更好的真实输出值的估计值。

随机森林是对这种方法的一种调整,在这种方法中,决策树被创建,而不是选择最优的分割点,通过引入随机性来实现次优分割。

因此,为每一个数据样本创建的模型比它们本来的样子更不一样,但是它们以其独特和不同的方式仍然是准确的。把他们的预测结合起来,就能更好地估计出真实的潜在产出值。

如果用一个高方差的算法得到好的结果(比如决策树),可以通过bagging算法得到更好的结果。

猜你喜欢

转载自www.cnblogs.com/ytxwzqin/p/9066997.html