经验误差与过拟合

在机器学习中，我们一般把分类错误的样本数量占样本总数的比例称为“错误率”’，记错误率为 E，错误样本的数量为 a，样本总数为 m，则 E = a / m, 相应的，记精度为 1 - E。

学习器实际预测的输出与样本真实输出之间的差异称为 “误差”，在训练集上的误差称为 “训练误差” 或 “经验误差”，在新样本上的误差称为 “泛化误差”。

显然我们希望得到泛化误差小的学习器，但是新的样本集我们并不知晓，因此只能尽力使训练误差减小，然而很多时候训练误差并不是越小越好，因为很有可能学习器把训练集特有的规律当做是所有样本集的通用规律，这样学习器的泛化能力反而下降了，我们称这样的现象为 “过拟合”，另外与之对应的称为 “欠拟合”，过拟合是是机器学习面临的关键障碍。

模型评估方法

一般我们用实验测试来对学习器的泛化误差做出评估，因此需要一个 “测试集”，把测试集上的测试误差作为泛化误差的近似。注意测试集应与训练集保持互斥，就像我们一般不把课堂的例题作为期末考试的试题一样，否则可能得出过于乐观的结果。

设数据集 D = { (x1, y1), (x2, y2), ..., (xn, yn) } 包含 n 个数据样本，S 为训练集， D 为测试集，以下介绍几种常用的对 D 进行处理得到 S 和 D 的方法。

留出法

直接将 D 划分为两个互斥的子集，其中一个作为 S，另一个作为 D，即 D = S ∪ T， S ∩ T = Ø

举个栗子：假设 n = 1000，其中 700 个样本作为训练集S， 300 个样本作为测试集T，先用 S 进行训练，得出模型后用 T 进行测试，若出错的样本个数为 90 个，则错误率为（90 / 300）* 100% = 30%, 精度则为 70%.

有一个原则需要注意，训练集和测试集的划分要尽量保持数据分布的一致性，这样可以避免数据划分引入的额外偏差。比如在分类任务中要保持样本的类别比例相似，我们可以采用 “分层采样”。

举个栗子：D 有 500 个正例， 500 个反例，我们把其中 70% 作为训练集，余下 30% 作为测试集，则应当保持训练集中包含 350 个正例， 350 个反例，而测试集中包含 150 个正例， 150 个反例。

另外，根据我们对 D 的不同的划分，会得到不同的 S 和 T，此时测试得出的结果可能不同，为提高稳定性，我们可以进行多次划分取测试结果的平均值。

一般我们把 2/3 ~ 4/5 的样本用于训练，其余用于测试。

交叉验证法

把 D 划分为 k 个大小相似的互斥子集，即：

D = D1 ∪ D2 ∪ ... ∪ Dk，其中 Di ∩ Dj = Ø， i ≠ j

为保持数据分布的一致性，Di 用分层采样得到。

每次用 k-1 个子集作为 S，余下的那个子集作为 T，则可以进行 k 次训练，得到 k 个结果，最终返回 k 个结果的平均值。

显然 k 的取值很大程度决定了评估结果的稳定性与保真性，所以我们把交叉验证法也叫作 “k折交叉验证”。

k 最常用的取值是 10，此时称为 10折交叉验证，其他 k 的取值通常还有 5，20 等。

同样由于对 D 的划分方法不同会得到不同的训练集和测试集进而影响到测试的结果，我们通常随机进行 p 次划分然后重复 p 次，最终评估的结果是 p 次评估的均值，例如 “10 次 10 折交叉验证”。

特例：留一法

若令 k = m，则划分方式唯一，由于 S 与 D 只相差一个样本，通常得出的结果认为比较准确，但是当 n 非常巨大时，例如 D 包含 100万个样本，则需要训练 100万个模型，这还是在未考虑算法调参的情况下。

自助法

设集合 D`, 我们随机从 D 中取出一个样本放入 D`,再将该样本放回 D 中，如此重复进行 n 次，此时 D` 中包含了 n 个样本，与 D 中样本个数一致。

此时 D` 中可能存在重复的样本，同时 D 中存在 n 次采样均未采到的样本，设样本在 n 次采样中均未采到的概率为 P，则

P = ( 1 - 1 / n ) ^ n，

对 P 取极限：

= 1/e ≈ 0.368

即 D 有 36.8% 的样本不在 D` 中，于是我们可以把 D`作为训练集，把 D - D` 作为测试集，这样实际评估模型与期望评估模型都使用 n 个训练样本，同时仍有总量约 1/3 的，没有在训练集中出现的样本用于测试，这样的测试结果，称为 “包外估计”。

自助法通常用于数据集较少，难以有效划分训练和测试集时。

自助法能从初始数据产生多个不同的训练集，因此对集成学习等方法有很大好处。

但是，自助法产生的数据集改变了原始数据的分布，因此会引入估计偏差。所以在初始数据足够时，常使用留出法和交叉验证法。

本系列博客是对西瓜书的学习总结，谨作为线上笔记。

以上。

机器学习之模型评估方法

经验误差与过拟合

模型评估方法

留出法

交叉验证法

自助法

猜你喜欢