泛化误差上界
References
统计学习方法(第2版)李航著 p25~27
定理
对于二分类问题,当假设空间是有限个函数的集合
F={f1,f2,...,fd}时,对任意一个函数
f∈F,至少以概率
1−δ,
0<δ<1,以下不等式成立:
R(f)≤R^(f)+ε(d,N,δ)其中,
ε(d,N,δ)=2N1(logd+logδ1)
前置知识
关于
f的期望风险:
R(f)=E[L(Y,f(X))]经验风险:
R^(f)=N1i=1∑NL(yi,f(xi))其中,
L是损失函数。
个人理解
首先,看定理的名字“泛化误差上界”。泛化误差指的是模型
f对未知数据预测的误差,大白话来说就是测试集上的cost。事实上,泛化误差就是期望风险
R(f)。泛化误差反应了模型的真实性能。用一句话解释泛化误差上界,“模型实际表现最烂能烂到什么程度”。这个解释还不够严谨,继续补充。
接下来,看定理内容。注意到以下几点
- 定理的适用范围是二分类问题。这使得
L为0-1损失函数,
L的取值
∈{0,1}。
- 集合
F为模型的假设空间,包含了有限个备选函数。具体的个数为
d。这句话可以在推导过程中有更深刻的体会。
-
1−δ的通俗含义。 对于集合
F中任意的函数
f,至少以
1−δ的置信度使不等式成立。
1−δ代表了这个上界的可信程度。
- 不等式含义。期望风险也就是泛化误差
R(f),小于等于经验风险
R^(f)加某个数
ε。经验风险
R^(f)就是模型
f在训练集上的表现。假设我们训练好了一个模型
f,那么
R^(f)就是已知量了。对不等式移项得
R(f)−R^(f)≤ε。根据直觉也能知道,期望风险肯定是比经验风险大的,大多少呢?可以看到,这个差距不超过
ε。
-
ε与
R(f)上界的关系。
ε是推导过程中产生的,仅为了美观。真正影响
R(f)上界的是
N,d,1−δ这三个参数。(1)
N是训练样本数,
N增大,
ε减小,
R(f)上界也减小,
R(f)上界越接近
R^(f)。对应的解释是样本大,训练就充分,当N取极限趋于无穷时,期望风险就趋于经验风险。(2)
d表示假设空间中备选函数的个数,
d增大,
ε增大,
R(f)上界也随之增大。这里可以理解为,可选的函数越多,模型就会变得复杂,训练更加困难,有点奥卡姆剃刀的意思。(3)置信度
1−δ增大,
δ减小,相应
R(f)上界也增大。这是显然的,想要增加可信度,相应的也要放宽条件。
至此,我们已经可以用一句话总结定理了。“在有限个备选函数的模型假设空间里,通过训练集训练出来的模型,有一定概率在测试集中的表现是靠谱的”。我认为这个定理证明了机器学习的可行性和有效性。
公式推导
设
X1,X2,...,XN是独立随机变量,且
Xi∈[ai,bi],i=1,2,...,N;
Xˉ是
X1,X2,...,XN的经验均值,即
Xˉ=N1∑i=1NXi,则对任意
t>0,以下不等式成立:
P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1N(bi−ai)22N2t2)
P[E(Xˉ)−Xˉ≥t]≤exp(−∑i=1N(bi−ai)22N2t2)
- 将Hoeffding不等式中的
X替换为
L,其中
Li=L(yi,f(xi)),
Li∈[ai,bi],ai=0,bi=1;把
t替换为
ε。对任意函数
f∈F,可得
Lˉ=R^(f),
E(Lˉ)=R(f)。整理的式子如下:
P(R(f)−R^(f)≥ε)≤exp(−2Nε2)
- 因为
F是有限集合,故
P(∃f∈F:R(f)−R^(f)≥ε)=P(f∈F⋃{R(f)−R^(f)≥ε})≤f∈F∑P(R(f)−R^(f)≥ε)≤dexp(−2Nε2)
- 令
dexp(−2Nε2)=δ,易得
P(R(f)<R^(f)+ε)≥1−δ。
δ表示:在集合
F中,存在
f使得期望风险与经验风险的差值大于
ε的概率。
证毕。