第二章：模型评估与选择

此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…

2.1 经验误差与过拟合

留出法(hold-out)
定义： $D=S\bigcup T, S\bigcap T=\varnothing$ （ $S$ ：训练集， $T$ ：测试集）
注意：数据分布一致性（一般分层采样）；一般若干次随机划分重复评估
交叉验证法(cross validation)
- 1）k-fold
  定义： $D=D_1\bigcup D_2\bigcup ...\bigcup D_k, D_i\bigcup D_j =\varnothing (i$ ≠ $j)$
  取k-1个训练集，1个测试集，重复p次取平均
- 2）Leave One Out（LOO）
  定义：每个子集一个样本
  优缺点：较准确，但数据集大不适用
自助法(bootstrapping)
定义：自助采样，train=D’（有放回采样集），test=D\D’（外包估计）
优缺点：适用数据集小难以划分，但改变原始分布会有偏差
调参与最终模型
对每个参数选定变化范围和步长
验证集：用于模型评估过程的数据（测试集：模型实际中遇到的数据）

Mean squared error:
$E(f;D)=\frac 1 m \sum_{i=1}^m(f(\textbf x_i) = y_i)^2$
More common discription:
$E(f;D)=\int_{\bf x \sim \mathcal{D}} (f(\textbf x_i)-y)^2p(\textbf x)d\textbf x$

错误率
$E(f;D)=\frac 1 m \sum_{i=1}^m\mathbb{I}(f(\textbf x_i)=\not y_i)^2$
精度
$\begin{aligned} acc(f:D)&=\frac 1 m \sum_{i=1}^m\mathbb{I}(f(\textbf x_i)=y_i)\\ &=1-E(f;D) \end{aligned}$
更一般的定义和描述
$E(f;D)=\int_{\bf x \sim \mathcal{D}}\mathbb{I}(f(\textbf x_i)=\not y_i)p(\textbf x)d\textbf x$
$\begin{aligned} acc(f;D)&=\int_{\bf x \sim \mathcal{D}}\mathbb{I}(f(\textbf x_i)=y_i)p(\textbf x)d\textbf x\\ &=1-E(f;D) \end{aligned}$

	预测正例	预测反例
真正正例	TP	FN
真正反例	FP	TN

ROC：受试者工作特征(Receiver Operating Characteristic)——x轴FP，y轴TP
AUC：曲线下面积

偏差方差分解：解释学习算法泛化性能的一种重要工具
偏差：期望预测与真实结果的偏离程度（刻画算法本身的拟合能力）
方差：度量同样大小的训练集的变动所导致的学习性能的变化（刻画数据扰动所造成的影响）
噪音：刻画学习问题本身的难度
泛化误差：偏差+方差+噪音
偏差-方差窘境：偏差与方差有冲突