第二章 模型评估与选择

1 经验误差与过拟合

  1. 错误率:错误/样本
  2. 精度:1-错误率
  3. 误差
  4. 训练误差,经验误差
  5. 泛化误差:在新样本的错误率
  6. 过拟合
  7. 欠拟合

2 评估方法

用测试集度量新样本的判别能力。遵循测试样本独立同分布假设

2.1 留出法

直接将数据集划分为两个互斥的测试集和训练集。用测试集评估测试误差,作为泛化误差的估计。

要求分层采样,保证测试集和训练集分布一致,和若干次随机划分,重复试验,取平均结果做留出法的结果。

2.2 交叉验证法

将数据集分为k个大小相似的互斥子集,尽可能保持数据分布的一致性。
每次用k-1个子集的并集作为训练集,剩下的那个作为测试集,重复k次,取均值作为k折交叉验证的结果,再重复p次k折交叉验证,成为p次k折交叉验证,取均值作为结果。

如果k等于数据集D的大小m,则政委留一法,评估结果比较准确,但是开销较大。

2.3 自助法

给定m个数据的数据集D,对D进行采样,每次采一个放入D'后放回D,重复m次,最后D'作为训练集,D\D'作为测试集(\为集合减)。

这样D'中有重复元素,使D\D'有剩余,取极限理论值为有36.8%的数据不被采到。

优点:在数据集小有用,能产生多个不同的训练集。

缺点:改变了初始数据集的分布,产生误差。

2.4 调参与最终模型

把训练数据分为训练集和验证集,验证集上的性能来进行模型选择和调参。

3 性能度量

3.1 错误率和精度

错误率E:错误分类样本数/样本数

精度acc:1-错误率

3.2 查全率、查准率与F1

真正例TP(true positive),假正例FP(false positive),真反例TN(true negative),假反例FN(false negative)。

查全率和查准率相互矛盾。

P-R图,横轴为查全率,纵轴为查准率

一条曲线包住另一条曲线,则被包住曲线的学习期劣于另一条,如果交叉可以比较面积,或者平衡点和F1值。

平衡点BEP就是查准率和查全率和查全率相等的取值。

F1值:

F1值的一般形式$F_\beta $

当$\beta$大于1时查全率有更大影响,当$\beta$小于1大于0时,查准率有更大影响。

如果多次训练或测试得到多个混淆矩阵,要考察多个混淆矩阵的查全率和查准率。

方法一:

先计算每个混淆矩阵的查全率和查准率,取平均值得到宏查全macro-P和宏查准macor-R以及对应的宏F1macro-F1.

方法二:

先对各个混淆矩阵的各个元素取平均,得到,最后得到对应的微查准micro-P微查全micro-R微F1micro-F1.

3.3 ROC和AUC

若学习期产生的是一个概率值,需要设立截断点判断正反例。此时若重视查准率,截断点靠前,若重视查全率,截断点靠后。

查考不同截断点的泛化误差采用ROC进行判断。

ROC的曲线横轴是假正例率FPR,纵轴是真正利率TPR

(a)为理想模型,(b)为实际模型。

若一个学习器的ROC图被包住,则学习器的性能劣,如果两个学习器的性能交叉,比较AUC即ROC曲线下的面积。

4 偏差和方差

期望泛化误差=偏差+方差+噪声。

偏差度量了学习算法的期望预测与真是结果的偏离程度。

方差度量了同样大小的训练集的变动所导致的学习性能的变化。

噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下届。

偏差和方差是冲突的。

猜你喜欢

转载自www.cnblogs.com/cold-city/p/10439026.html