李航统计学习方法笔记——泛化误差上界

泛化误差上界

References

定理

对于二分类问题，当假设空间是有限个函数的集合 $F=\{f_1,f_2,...,f_d\}$ 时，对任意一个函数 $f\in F$ ，至少以概率 $1-\delta$ ， $0<\delta<1$ ，以下不等式成立： $R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta)$ 其中， $\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log{d}+\log{\frac{1}{\delta}})}$

前置知识

关于 $f$ 的期望风险： $R(f)=E[L(Y,f(X))]$ 经验风险： $\hat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$ 其中， $L$ 是损失函数。

个人理解

首先，看定理的名字“泛化误差上界”。泛化误差指的是模型 $f$ 对未知数据预测的误差，大白话来说就是测试集上的cost。事实上，泛化误差就是期望风险 $R(f)$ 。泛化误差反应了模型的真实性能。用一句话解释泛化误差上界，“模型实际表现最烂能烂到什么程度”。这个解释还不够严谨，继续补充。
接下来，看定理内容。注意到以下几点

定理的适用范围是二分类问题。这使得 $L$ 为0-1损失函数， $L$ 的取值 $\in\{0,1\}$ 。
集合 $F$ 为模型的假设空间，包含了有限个备选函数。具体的个数为 $d$ 。这句话可以在推导过程中有更深刻的体会。
$1-\delta$ 的通俗含义。对于集合 $F$ 中任意的函数 $f$ ，至少以 $1-\delta$ 的置信度使不等式成立。 $1-\delta$ 代表了这个上界的可信程度。
不等式含义。期望风险也就是泛化误差 $R(f)$ ，小于等于经验风险 $\hat{R}(f)$ 加某个数 $\varepsilon$ 。经验风险 $\hat{R}(f)$ 就是模型 $f$ 在训练集上的表现。假设我们训练好了一个模型 $f$ ，那么 $\hat{R}(f)$ 就是已知量了。对不等式移项得 $R(f)-\hat{R}(f)\leq\varepsilon$ 。根据直觉也能知道，期望风险肯定是比经验风险大的，大多少呢？可以看到，这个差距不超过 $\varepsilon$ 。
$\varepsilon$ 与 $R(f)$ 上界的关系。 $\varepsilon$ 是推导过程中产生的，仅为了美观。真正影响 $R(f)$ 上界的是 $N,d,1-\delta$ 这三个参数。（1） $N$ 是训练样本数， $N$ 增大， $\varepsilon$ 减小， $R(f)$ 上界也减小， $R(f)$ 上界越接近 $\hat{R}(f)$ 。对应的解释是样本大，训练就充分，当N取极限趋于无穷时，期望风险就趋于经验风险。（2） $d$ 表示假设空间中备选函数的个数， $d$ 增大， $\varepsilon$ 增大， $R(f)$ 上界也随之增大。这里可以理解为，可选的函数越多，模型就会变得复杂，训练更加困难，有点奥卡姆剃刀的意思。（3）置信度 $1-\delta$ 增大， $\delta$ 减小，相应 $R(f)$ 上界也增大。这是显然的，想要增加可信度，相应的也要放宽条件。

至此，我们已经可以用一句话总结定理了。“在有限个备选函数的模型假设空间里，通过训练集训练出来的模型，有一定概率在测试集中的表现是靠谱的”。我认为这个定理证明了机器学习的可行性和有效性。

公式推导

首先介绍Hoeffding不等式。

设 $X_1,X_2,...,X_N$ 是独立随机变量，且 $X_i\in[a_i,b_i],i=1,2,...,N$ ； $\bar{X}$ 是 $X_1,X_2,...,X_N$ 的经验均值，即 $\bar{X}=\frac{1}{N}\sum_{i=1}^NX_i$ ，则对任意 $t>0$ ，以下不等式成立： $P[\bar{X}-E(\bar{X})\geq t]\leq \exp\left({-\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2}}\right)$ $P[E(\bar{X})-\bar{X}\geq t]\leq \exp\left({-\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2}}\right)$

将Hoeffding不等式中的 $X$ 替换为 $L$ ，其中 $L_i=L(y_i,f(x_i))$ ， $L_i\in [a_i,b_i],a_i=0,b_i=1$ ；把 $t$ 替换为 $\varepsilon$ 。对任意函数 $f\in F$ ，可得 $\bar{L}=\hat{R}(f)$ ， $E(\bar{L})=R(f)$ 。整理的式子如下： $P(R(f)-\hat{R}(f)\geq\varepsilon)\leq\exp(-2N\varepsilon^2)$
因为 $F$ 是有限集合，故
$\begin{aligned} P(\exist f\in F:R(f)-\hat{R}(f)\geq\varepsilon)&=P(\bigcup_{f\in F}\{R(f)-\hat{R}(f)\geq\varepsilon\})\\&\leq\sum_{f\in F}P(R(f)-\hat{R}(f)\geq\varepsilon)\\&\leq d\exp(-2N\varepsilon^2) \end{aligned}$
令 $d\exp(-2N\varepsilon^2)=\delta$ ，易得 $P(R(f)< \hat{R}(f)+\varepsilon)\geq1-\delta$ 。 $\delta$ 表示：在集合 $F$ 中，存在 $f$ 使得期望风险与经验风险的差值大于 $\varepsilon$ 的概率。

证毕。

DamianGao

发布了37 篇原创文章 · 获赞 21 · 访问量 4万+

私信关注