周志华《机器学习》第二章 模型评估与选择 笔记及习题解答

笔记

经验误差与泛化误差

  学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”

过拟合

  学习器把训练样本自身特点当做所有潜在样本都会具有一样的性质,导致泛化能力下降,这种现象叫做过拟合

评估法

留出法

  用“分层抽样法”将数据集D划分为两个集合:训练集 S S ,测试集 T T ,并且 S S\bigcap T T = \varnothing ,用 S S 训练出模型后,用 T T 评估其泛化误差。

交叉验证法

  用“分层抽样法”将数据集D划分为K个集合,每次训练使用K-1个集合,用另外一个作为测试集,从而可以进行K次训练与测试,最终返回的是K次训练后的均值。

留一法

   交叉验证法的特例,留一法将数据集D中的m个样本划分为m个集合,每次用m-1个样本(集合)去训练,1个样本(集合)去测试。训练结果较为准确,但开销较大。

自助法

  将数据集D进行有放回取样m次,得到包含m个样本的数据集 D D^` ,未被取到的样本作为测试集。

性能度量

在对比不同模型的能力时,使用不同的性能度量会导致不同的评判结果,这就意味着模型的“好坏”是相对的。什么样的模型是好的,不仅取决于算法和数据,还取决于需求。

//todo

猜你喜欢

转载自blog.csdn.net/qq_32735511/article/details/89414573