WARMING
这篇文章中Bootstrap指的是机器中一类减小预测误差的技巧,不是前端开发框架。
定义
Bootstrap aggregation又称Bagging,是一种重采用技术,用于减小预测误差。
从一个分布P中获取m组采样,用这个m组采分别训练m个模型,现在有一个新
,要预测它对应的
值,这m个模型预测结果的算术平均数的预测误差,比其中一个模型的预测误差小。
为什么能减少误差
为什么重采样能减少误差,下面请看数学推导。
观测数据
从一个分布P从采用得到第一组采样,并满足i.i.d(i.i.d指数据从同一个分布中,随机采样获得)
现在有一个新的
,第
组模型的预测值为
从分布P取
组取样,
表示第m组采用,
采用均方误差,误差的期望为:
m组模型的算术平局数
为
误差的期望是
由上可知道
的误差是单个模型误差的
实际运用
上面从分布P中采了m组样本,但是实际上不能做到的,在实际中我们只有一组观测集,那怎么办呢?
方法是从观测集中随机采样,组成m组训练数据。