1 经验误差与过拟合
- 错误率:错误/样本
- 精度:1-错误率
- 误差
- 训练误差,经验误差
- 泛化误差:在新样本的错误率
- 过拟合
- 欠拟合
2 评估方法
用测试集度量新样本的判别能力。遵循测试样本独立同分布假设
2.1 留出法
直接将数据集划分为两个互斥的测试集和训练集。用测试集评估测试误差,作为泛化误差的估计。
要求分层采样,保证测试集和训练集分布一致,和若干次随机划分,重复试验,取平均结果做留出法的结果。
2.2 交叉验证法
将数据集分为k个大小相似的互斥子集,尽可能保持数据分布的一致性。
每次用k-1个子集的并集作为训练集,剩下的那个作为测试集,重复k次,取均值作为k折交叉验证的结果,再重复p次k折交叉验证,成为p次k折交叉验证,取均值作为结果。
如果k等于数据集D的大小m,则政委留一法,评估结果比较准确,但是开销较大。
2.3 自助法
给定m个数据的数据集D,对D进行采样,每次采一个放入D'后放回D,重复m次,最后D'作为训练集,D\D'作为测试集(\为集合减)。
这样D'中有重复元素,使D\D'有剩余,取极限理论值为有36.8%的数据不被采到。
优点:在数据集小有用,能产生多个不同的训练集。
缺点:改变了初始数据集的分布,产生误差。
2.4 调参与最终模型
把训练数据分为训练集和验证集,验证集上的性能来进行模型选择和调参。
3 性能度量
3.1 错误率和精度
错误率E:错误分类样本数/样本数
精度acc:1-错误率
3.2 查全率、查准率与F1
真正例TP(true positive),假正例FP(false positive),真反例TN(true negative),假反例FN(false negative)。
查全率和查准率相互矛盾。
P-R图,横轴为查全率,纵轴为查准率
一条曲线包住另一条曲线,则被包住曲线的学习期劣于另一条,如果交叉可以比较面积,或者平衡点和F1值。
平衡点BEP就是查准率和查全率和查全率相等的取值。
F1值:
F1值的一般形式$F_\beta $
当$\beta$大于1时查全率有更大影响,当$\beta$小于1大于0时,查准率有更大影响。
如果多次训练或测试得到多个混淆矩阵,要考察多个混淆矩阵的查全率和查准率。
方法一:
先计算每个混淆矩阵的查全率和查准率,取平均值得到宏查全macro-P和宏查准macor-R以及对应的宏F1macro-F1.
方法二:
先对各个混淆矩阵的各个元素取平均,得到,最后得到对应的微查准micro-P微查全micro-R微F1micro-F1.
3.3 ROC和AUC
若学习期产生的是一个概率值,需要设立截断点判断正反例。此时若重视查准率,截断点靠前,若重视查全率,截断点靠后。
查考不同截断点的泛化误差采用ROC进行判断。
ROC的曲线横轴是假正例率FPR,纵轴是真正利率TPR
(a)为理想模型,(b)为实际模型。
若一个学习器的ROC图被包住,则学习器的性能劣,如果两个学习器的性能交叉,比较AUC即ROC曲线下的面积。
4 偏差和方差
期望泛化误差=偏差+方差+噪声。
偏差度量了学习算法的期望预测与真是结果的偏离程度。
方差度量了同样大小的训练集的变动所导致的学习性能的变化。
噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下届。
偏差和方差是冲突的。