模型评价之二——其它验证方法


留出法(hold-out)

为了评估泛化误差,将初始的数据集划分为训练集和验证集,验证集的误差可以近似作为泛化误差。留出法就是把数据集D切成两块,大概70%的训练集,30%的验证集。
另外,在给定划分比例之后,仍存在多种划分方式,因此一般采用若干次的随即划分,然后取平均评估结果。

自助采样法(bootstrap sampling)

从数据集D中随机抽取一个样本,把它拷贝到训练集后放回数据集D,重复此动作m次,我们就得到了训练集 D D' ,而未选中的样本就作为验证集。显然有一部分样本会出现多次,而另一部分样本不出现。
lim m ( 1 1 m ) m = 1 e 0.368 \displaystyle \lim_{m\to \infty}(1-\frac{1}{m})^m= \frac{1}{e}\approx0.368

即通过自助采样,D中约有36.8%的样本不会出现在 D D' 中。


完,感谢阅读!------李豪

发布了60 篇原创文章 · 获赞 32 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_42297855/article/details/99213549