机器学习----训练集选择法

1.留出法:

  将整个数据集D划分为两个互斥的集合,其中一个作为训练S,另一个作为测试集T。即,D=S∪T,S∩T=∅。在S上训练出模型,T作为测试,来评估模型效果。一般训练集为2/3或者4/5,否则容易导致S训练出来的模型更接近于D训练出来的模型。

2.交叉验证法(K折交叉验证):

  将整个数据集分成K个大小相似的子集,即D=D1∪D2∪...∪Dk,Di∩Dj=∅。每次得到k-1个子集的并集作为训练集,余下的作为测试集,一般返回K个测试结果的均值。K值一般为10,称10折交叉验证

3.自助法:

  给定m个样本的数据集D,我们对它进行采样产生数据集D',每次随机从D中挑选一个样本,将其拷贝入D',然后再将样本放回原始数据集D,是的该样本在下次采样时任然有可能被采到,这个过程重复m次后,我们就得到了含有m个样本的数据集D',这就是自助采样的结果。显然样本有重复采样,也有一次也没有被采到的。从未采到的结果是(1-1/m)^m,取极限得到

 

使用自助法约有1/3的数据集没有被选中过,它们用于测试,这种方式叫“外包估计”。

自助法在数据集小,难以划分训练集、测试集的时候有很大的效果,如果数据集足够大的时候,留出法和交叉验证是更好的选择。

猜你喜欢

转载自www.cnblogs.com/wbdream/p/10286203.html