在上一篇博文中提到,如果训练数据的规模充分大,那么当训练错误为0时,真正错误会趋近于0。这是机器学习训练算法有效性的理论依据。但是,在实际设计模型时,我们很难找到一个分类器,其训练错误为0。为此,本文介绍训练数据充分性的第二个引理。它的结论是当训练数据更大一些时,训练错误与实际错误可以无限接近。这样,我们就可以利用训练错误来估计实际错误了。
定理8. 设
H
是一个分类器集合。令
ϵ
和
δ
是正实数。假设
S
是一个由n个随机实例构成的随机训练集合。每个实例都以分布D从实例空间中独立同分布地获得。那么当
n>12ϵ2ln(|H|+1δ)
时,以概率
>1−δ
, 有
|errS(h)−errD(h)|<ϵ
对所有的
h∈H
成立。更确切地说:
Pr{∩h∈H|errS(h)−errD(h)|≤ϵ}>1−δ.
上式中的概率是以训练样本S为随机变量求得。
证明:记随机训练集中的实例为
X1,X2,...,Xn
. 那么对任意的分类器
h
以及
1≤i≤n
有
Pr{h(Xi)≠h∗(Xi)}=errD(h),
其中
h∗
为正确的分类。
若记
Ei(h)={01如果h(Xi)=h∗(Xi),否则,
那么
Ei(h),1≤i≤n
是一组独立同分布的分布在
{0,1}
上的随机变量。它们的期望为
errD(h)
。且
errS(h)=1n∑i=1nEh(h).
由
Hoeffding不等式知
Pr{|errS(h)−errD(h)|>ϵ}<2⋅2−nϵ2.
将上式对所有的分类器求和得
Pr{∪h∈H|errS(h)−errD(h)|>ϵ}<2|H|⋅2−nϵ2.
也即
Pr{∩h∈H|errS(h)−errD(h)|≤ϵ}>1−2|H|⋅2−nϵ2.
考虑到,当
n>12ϵ2ln(|H|+1δ)
时有
2|H|⋅2−nϵ2<δ.
定理证毕。