Bootstrap aggregation(Bagging)

WARMING

这篇文章中Bootstrap指的是机器中一类减小预测误差的技巧,不是前端开发框架。

定义

Bootstrap aggregation又称Bagging,是一种重采用技术,用于减小预测误差。
从一个分布P中获取m组采样,用这个m组采分别训练m个模型,现在有一个新 x ,要预测它对应的 y 值,这m个模型预测结果的算术平均数的预测误差,比其中一个模型的预测误差小。

为什么能减少误差

为什么重采样能减少误差,下面请看数学推导。
观测数据 ( x 1 ( 1 ) , y 1 ( 1 ) ) , . . . ( x n ( 1 ) , y n ( 1 ) ) 从一个分布P从采用得到第一组采样,并满足i.i.d(i.i.d指数据从同一个分布中,随机采样获得)
现在有一个新的 x ,第 1 组模型的预测值为 Y 1
从分布P取 m 组取样, ( x 1 ( m ) , y 1 ( m ) ) , . . . ( x n ( m ) , y n ( m ) ) 表示第m组采用,
采用均方误差,误差的期望为:
E ( ( Y y ) 2 ) = σ 2 ( Y )
m组模型的算术平局数 Z
Z = 1 m i = 1 m Y i
Z 误差的期望是
E ( ( E y ) 2 ) = σ 2 ( 1 m Y ( i ) ) = 1 m σ 2 ( Y )
由上可知道 Z 的误差是单个模型误差的 1 m

实际运用

上面从分布P中采了m组样本,但是实际上不能做到的,在实际中我们只有一组观测集,那怎么办呢?
方法是从观测集中随机采样,组成m组训练数据。
( x i k , y i k ) u n i f o r m ( D )

猜你喜欢

转载自blog.csdn.net/dmsgames/article/details/81943206