重采样技术—Bootstrap

· 交叉检验

核心思想是通过保留一部份训练集数据作为检验集来估计真实检验集的错误率与模型拟合效果。常用的有留一法、K折交叉验证

偏差方差权衡：使用的训练集数据越多，估计偏差越小，方差越大（相关性越高的方差越大）

· 统计量：样本X1,…,Xn的函数g(X1,…,Xn)是一个统计量。所有对总体的估计都是用统计量作为估计量的。

当我们用一个统计量作为某个参数的估计量时，为考察这个估计量的好坏程度，我们需要求出这个估计量的期望以考察无偏性，方差以考察有效性等。而一个估计量除少数几个外往往形式非常复杂，很难用解析的形式求出其方差及其方差的估计量，这时候一个可用的工具就是Bootstrap，来求解其方差的估计量。（Bootstrap用来来求一个估计量(统计量)的方差的估计量）

而利用Bootstrap来求统计量方差估计大概是利用了大数定理，核心思想是“模拟”。详见1

· Bootstrap（自助法）指在训练集里有放回的重采样等长的数据形成新的数据集并计算相关参数，重复n次得到对参数的估计，计算标准误。

Bootstrap不仅可以用于均值估计，也可以对任意统计量，如偏差、方差等。

结果生成Bootstrap Percentile置信区间。

适用于独立样本，样本间有相关如时间序列数据可采用block法分组屏蔽掉进行bootstrap

- bootstrap分布与样本分布的比较

当我们不知道样本分布的时候，bootstrap方法最有用。bootstrap分布和样本分布的shape相似，因此可以用前者来估计后者。某统计量的bootstrap标准误差等于bootstrpa分布的标准差。

Bootstrap会受到样本量和采样次数的影响

· 参数bootstrap Vs. 非参数的bootstrap

F的先验：参数bootstrap中利用了分布F的先验，表现为一个参数模型，因此多了一个步骤，估计F模型中的参数。当先验模型正确时，参数bootstrap能得到更好的结果。而非参数bootstrap不利用F的先验知识就能得到正确的标准误差（在大多数情况下）。参数bootstrap能得到与Delta方法（计算变量的函数的方差）相当的结果，但更简单。

参考：

1 http://www.narutoacm.com/archives/prob_stati_notes7/

2 https://rstudio-pubs-static.s3.amazonaws.com/13490_1ac564ef3aaa44c2b3cb6efa3b50d966.html

3 https://blog.csdn.net/carson2005/article/details/7931135

4 http://blog.sciencenet.cn/blog-54276-449753.html

重采样技术—Bootstrap

猜你喜欢