基本术语:
- 数据集
- 示例 或 样本
- 属性 或 特征
- 属性空间 或 样本空间 或 输入空间
- 特征向量
- 学习 或 训练
分类
根据预测值分类:
- 离散值-分类
- 连续值-回归
根据涉及类别分类:
- 两个类别-二分类
-
正类
-
负类 或 反类
- 多个类别-多分类
根据训练数据是否拥有标记信息:
- 监督学习(分类和回归)
- 无监督学习(聚类)
泛化:学得的模型适应于新样本的能力
模型的评估与选择
- 错误率:分类错误的样本数占样本总数的比例
- 精度:1-错误率
- 误差:实际预测输出与样本的真实输出之间的差异
- 训练误差 或 经验误差
- 泛化误差:在新样本上的误差
- 过拟合
评估方法
- 留出法
- 交叉验证法
- 留一法
- 自助法
在数据集较小、难以有效划分训练/测试集时很有用
在初始数据量足够时,留出法和交叉验证法更常用一些 - 调参与最终模型
性能度量
- 错误率与精度
- 查准率、查全率与F1
- ROC与AUC