第二章模型评估与选择

1 经验误差与过拟合

错误率：错误/样本
精度：1-错误率
误差
训练误差，经验误差
泛化误差：在新样本的错误率
过拟合
欠拟合

2 评估方法

用测试集度量新样本的判别能力。遵循测试样本独立同分布假设

2.1 留出法

直接将数据集划分为两个互斥的测试集和训练集。用测试集评估测试误差，作为泛化误差的估计。

要求分层采样，保证测试集和训练集分布一致，和若干次随机划分，重复试验，取平均结果做留出法的结果。

2.2 交叉验证法

将数据集分为k个大小相似的互斥子集，尽可能保持数据分布的一致性。
每次用k-1个子集的并集作为训练集，剩下的那个作为测试集，重复k次，取均值作为k折交叉验证的结果，再重复p次k折交叉验证，成为p次k折交叉验证，取均值作为结果。

如果k等于数据集D的大小m，则政委留一法，评估结果比较准确，但是开销较大。

2.3 自助法

给定m个数据的数据集D，对D进行采样，每次采一个放入D'后放回D，重复m次，最后D'作为训练集，D\D'作为测试集（\为集合减）。

这样D'中有重复元素，使D\D'有剩余，取极限理论值为有36.8%的数据不被采到。

优点：在数据集小有用，能产生多个不同的训练集。

缺点：改变了初始数据集的分布，产生误差。

2.4 调参与最终模型

把训练数据分为训练集和验证集，验证集上的性能来进行模型选择和调参。

3 性能度量

3.1 错误率和精度

错误率E：错误分类样本数/样本数

精度acc：1-错误率

3.2 查全率、查准率与F1

真正例TP（true positive），假正例FP(false positive)，真反例TN(true negative)，假反例FN(false negative)。

查全率和查准率相互矛盾。

P-R图，横轴为查全率，纵轴为查准率

一条曲线包住另一条曲线，则被包住曲线的学习期劣于另一条，如果交叉可以比较面积，或者平衡点和F1值。

平衡点BEP就是查准率和查全率和查全率相等的取值。

F1值：

F1值的一般形式$F_\beta $

当$\beta$大于1时查全率有更大影响，当$\beta$小于1大于0时，查准率有更大影响。

如果多次训练或测试得到多个混淆矩阵，要考察多个混淆矩阵的查全率和查准率。

方法一：

先计算每个混淆矩阵的查全率和查准率，取平均值得到宏查全macro-P和宏查准macor-R以及对应的宏F1macro-F1.

方法二：

先对各个混淆矩阵的各个元素取平均，得到，最后得到对应的微查准micro-P微查全micro-R微F1micro-F1.

3.3 ROC和AUC

若学习期产生的是一个概率值，需要设立截断点判断正反例。此时若重视查准率，截断点靠前，若重视查全率，截断点靠后。

查考不同截断点的泛化误差采用ROC进行判断。

ROC的曲线横轴是假正例率FPR，纵轴是真正利率TPR

(a)为理想模型，(b)为实际模型。

若一个学习器的ROC图被包住，则学习器的性能劣，如果两个学习器的性能交叉，比较AUC即ROC曲线下的面积。

4 偏差和方差

期望泛化误差=偏差+方差+噪声。

偏差度量了学习算法的期望预测与真是结果的偏离程度。

方差度量了同样大小的训练集的变动所导致的学习性能的变化。

噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下届。

偏差和方差是冲突的。