笔记
经验误差与泛化误差
学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”
过拟合
学习器把训练样本自身特点当做所有潜在样本都会具有一样的性质,导致泛化能力下降,这种现象叫做过拟合
评估法
留出法
用“分层抽样法”将数据集D划分为两个集合:训练集 ,测试集 ,并且 = ,用 训练出模型后,用 评估其泛化误差。
交叉验证法
用“分层抽样法”将数据集D划分为K个集合,每次训练使用K-1个集合,用另外一个作为测试集,从而可以进行K次训练与测试,最终返回的是K次训练后的均值。
留一法
交叉验证法的特例,留一法将数据集D中的m个样本划分为m个集合,每次用m-1个样本(集合)去训练,1个样本(集合)去测试。训练结果较为准确,但开销较大。
自助法
将数据集D进行有放回取样m次,得到包含m个样本的数据集 ,未被取到的样本作为测试集。
性能度量
在对比不同模型的能力时,使用不同的性能度量会导致不同的评判结果,这就意味着模型的“好坏”是相对的。什么样的模型是好的,不仅取决于算法和数据,还取决于需求。
//todo