《统计学习方法》(李航)：模型评估选择、正则化与交叉验证、泛化能力、生成模型与判别模型、监督学习应用

PS：所写内容为读书笔记，如需了解更详细内容请购买正版书籍

1.4 模型评估与选择

1.4.1 训练误差和测试误差

训练误差：模型对训练集预测结果的误差

测试误差：模型对测试集测试结果的误差

1.4.2 过拟合与模型选择

过拟合（over-fitting）：学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测很好，但对未知数据预测很差的现象。

当模型的复杂度增大时，训练误差会逐渐减小并趋近于0，而测试误差会先减小后增大。当选择的模型参数复杂度过高时，模型往往太过于“依赖”训练数据。所以在学习中，需要选择复杂度适当的模型。有两种常用的方法：正则化与交叉验证。

1.5 正则化与交叉验证

1.5.1 正则化

模型选择的典型方法是正则化（regulation），正则化是结构风险最小化策略的实现，是在经验风险上加上一个正则化项（regularizer）或惩罚项（penalty term）。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。比如，正则化项可以是模型参数向量的范数。

正则化项一般具有如下形式：

$min\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$

其中，第1项是经验风险，第2项是正则化项， $\lambda >= 0$ 为调整系数。

1.5.2 交叉验证

如果给定的样本数据充足，进行模型选择的一种简单方法是随机的将数据集切分成三部分，分别为训练集（trainging set）、验证集（validation set）和测试集（test set）。训练集用来训练模型，验证集用于模型选择，测试集用于模型的选择。

1. 简单交叉验证

首先随机将训练数据分为两部分，一部分作为训练集，另一部分作为验证集（例如，70%的数据为训练集，30%的数据为测试集）；每次训练时拿训练集训练，验证集验证，选择验证集上误差最小的模型参数。

2.S折交叉验证

首先将已给训练数据分为S个互不相交、大小相同的子集，然后利用S-1个子集的数据训练模型，余下的子集验证模型。这一过程重复进行，选择最优模型参数。

1.6 泛化能力

1.6.1 泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。实际中采用最多的方法是利用测试集的误差来评价学习方法的泛化能力，这种评价是依赖于测试集的。

泛化误差就是学习到的模型对于未知数据的误差，泛化误差越小，泛化能力越强，模型对未知数据的效果越好。

1.6.2 泛化误差上界

一个学习方法会有泛化误差上界，通过比较不同学习方法的泛化误差上界可以比较不同学习方法的泛化能力。

二分类问题的泛化误差上界：

定理1.1（二分类问题的泛化误差上界）对于二分类问题，当假设空间是有限个函数的集合 $\Gamma =\begin{Bmatrix} f_1 &f_2 &... &f_d \end{Bmatrix}$ 时，对任意一个函数 $f\in \Gamma$ ，至少以概率 $1-\delta,0<\delta<1$ ，以下不等式成立：

$R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta)$

其中： $\varepsilon (d,N,\delta)=\sqrt{\frac{1}{N}(log\ d+log\ \frac{1}{\delta})}$

不等式左边R(f)是泛化误差，右边为泛化误差上界。在泛化误差上界中，第一项 $\hat{R}(f)$ 为训练误差，训练误差越小，泛化误差越小；第二项 $\varepsilon(d,N,\delta)$ 为N的单调递减函数，当N趋近于无穷时趋近于0；同时也是 $\sqrt{log\ d}$ 阶的函数，假设空间包含的函数越多，其值越大。