第2章模型评估与选择

2.1经验误差与过拟合

通常我们把分类错误的样本数占总数的比例称为“错误率”，即如果在m个样本中由a个样本分类错误，则错误率E = a/m;

相应的，1-a/m称为精度.更一般的我们把学习器的实际预测输出的样本的真实输出之间的差异称为“误差”，学习器在训练集上的误差称为训练误差，在新样本上的误差称为“泛化误差”.我们当然希望得到误差小的学习器.然而，我们事先并不知道新样本是什么样的，实际能做的使的经验误差最小。

过拟合：学习器从训练样本中学习的太好了，很有可能把训练样本数据当作所有潜在的样本都会具有的一般性质，这样就会导致泛化能力下降。

欠拟合：是指对训练样本的一般性质尚未学好。

欠拟合比较容易克服，例如可以在决策树中扩展分支，在神经网络学习中增加训练轮数。过拟合比较麻烦，是机器学习面临的关键障碍，各类算法都必然带有一些针对过拟合的措施。然而必须认识到过拟合是无法避免的我们所能做的只是“缓解”，或者减小其风险.关于这一点，我们可以这样理解：机器学习面临的问题是np难甚至更难，而有效的学习算法必然是多项式时间内运行完成，若彻底避免过拟合，则通过经验误差最小化获得最优解，这就意味着我们证明了p = np；因此只要相信P!=NP ,过拟合就无法避免。

在现实任务中，我们往往会有多种学习算法可供选择，甚至对同一个学习算法使用不同的参数配置时，也会产生不同的模型.那么我们该选用哪一个学习方法呢？这就是机器学习中的“模型选择”问题，理想的解决方案是对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型.当然如上面所讨论的，我们无法直接获得泛化误差，而训练误差又由于过拟合现象的存在和不适合作为标准，那么现实中如何进行模型评估和选择呢？

2.2 评估方法

通常，我们可以通过实验测试来对学习器的泛化误差进行评估，并进而做出选择。为此我们需要一个“测试集”来测试学习器对样本的判断能力，然后以测试集合上的“测试误差”作为泛化误差的近似。我们假设测试样本也是从样本真实分布中独立同分布采样而得。测试集应该尽可能与训练集互斥。训练样本相当于“习题”，测试过程相当去“考试”，若测试样本被用了做训练了，则得到的将是过于乐观的估计结果。

只有一个包含m个样例的数据集D如何既做训练又做测试呢，答案是通过d进行适当的处理，从中产生训练集S和测试集T。常见的做法有：

2.2.1：留出法：

将数据集D 划分为两个互斥的集合，一个做训练集，一个做测试集。

需要注意的是：

训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终的结果产生影响，如果从采样角度看待数据的划分过程，则保留类别比例的采样方式通常称为： “分层采样”，对D进行分层采样若D有1000组样本，70%的训练集，%30的测试集，若D中有500个正例，500个反例，则取样S应包含350个正例，350个副例子。T包含各150个正负例子。

另一个需要注意的是训练集的顺序。可以随机产生100次划分，结果返回100次的平均值。

2.2.2 交叉验证法

”交叉验证法“（cross validation）先将数据集分为D划分为k个大小相似的互斥子集每个子集Di都尽可能保持数据分布的一致性。(分层采样)。每次用K-1个子集的并集做为训练集，余下的那个子集作为测试集；这样就得到k组训练集/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。显然，交叉验证法评估结果的稳定性和保真性很大程度上取决k的取值，为了强调这一点，通常把交叉验证法称为：”K折交叉验证法“，k最常的取值是10，此时称为10折交叉验证；

第2章 模型评估与选择

猜你喜欢

第2章模型评估与选择