机器学习（周志华）读书笔记---第2章模型评估与选择

*2.1 经验评估与选择*
关键字：
错误率、精度、误差、、训练误差（经验误差）、泛化误差、
关键概念解释：
1.欠拟合解决方案：决策学习树中扩展分支、增加训练轮数

*2.2 评估方法*
关键字：
测试集、留出法、交叉验证法（K折交叉验证）、自助法、参数调节
关键概念解释：
1.测试集应该尽可能与训练集互斥
2.留出法：直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T
3.交叉验证法：先将数聚集D划分为K个大小相似的互斥子集，每个子集尽可能保持数据分布的一致性。然后每次用k-1个子集作为训练集，剩下的那个子集作为测试集。
4.自助法：自助采样m次每次都放会，得到训练集D^，D-D^做测试集。
5. 参数调节：对每种参数配置都训练出模型，然后把对应最好地模型的参数作为结果

2.2.1 留出法
注意事项：
1.训练/测试集的划分要尽可能保持数据分布的一致性，采用分层采样
2.采用若干次随机划分，重复实验评估后取平均值作为留出法的评估结果
3.训练集数据不多不少，一般取 2/3~4/5

2.2.2 交叉验证法
注意事项：
1.将数据集划分为K个子集同样存在多种划分方式，为减少误差，重复多次划分取平均
2.留一法：每个子集一个样本，较准确，但是数据量大时开销太大

2.2.3 自助法
注意事项：
1.初始训练集中约有36.8%未出现在最终采样中，用作测试集，称为包外估计。
2.适于数聚集较小时，但是改变了初始数聚集地分布

2.2.4 调参与最终模型
注意事项：
1.模型评估与选择中用于评估测试的数聚集常称为验证集，学得模型在实际使用中遇到的数据称为测试数据。用测试集判定泛化能力，把训练数据划分为训练集和验证集，给予验证集上的性能来进行模型选择与调参。

2.3 性能度量

关键字：

查准率、查全率、PR曲线、均方误差、错误率、精度、平衡点（BEP）、F1、Fβ、宏系列、微系列、ROC、AUC、损失、非均等代价、代价敏感错误率、代价曲线
对于给定样例集