训练数据的充分性(2)：分类器的一致收敛

在上一篇博文中提到，如果训练数据的规模充分大，那么当训练错误为0时，真正错误会趋近于0。这是机器学习训练算法有效性的理论依据。但是，在实际设计模型时，我们很难找到一个分类器，其训练错误为0。为此，本文介绍训练数据充分性的第二个引理。它的结论是当训练数据更大一些时，训练错误与实际错误可以无限接近。这样，我们就可以利用训练错误来估计实际错误了。

定理8. 设 $\mathcal{H}$ 是一个分类器集合。令 $\epsilon$ 和 $\delta$ 是正实数。假设 $S$ 是一个由n个随机实例构成的随机训练集合。每个实例都以分布D从实例空间中独立同分布地获得。那么当

n > 1 2 ϵ 2 ln (| H | + 1 δ)

$n>\frac{1}{2\epsilon^2}\ln (|\mathcal{H}|+\frac{1}{\delta})$
时，以概率

>1−δ $>1-\delta$ , 有

| e r r S (h) - e r r D (h) | < ϵ

$|err_S(h)-err_D(h)| < \epsilon$
对所有的

h∈H $h\in\mathcal{H}$ 成立。更确切地说：

Pr {\cap h \in H | e r r S (h) - e r r D (h) | \leq ϵ} > 1 - δ .

$\Pr\{\cap_{h\in\mathcal{H}}|err_S(h)-err_D(h)| \leq\epsilon\} > 1-\delta.$
上式中的概率是以训练样本S为随机变量求得。

证明：记随机训练集中的实例为 $X_1,X_2,...,X_n$ . 那么对任意的分类器 $h$ 以及 $1\leq i \leq n$ 有

Pr {h (X i) \neq h * (X i)} = e r r D (h) ，

$\Pr\{h(X_i) \neq h^*(X_i)\} = err_D(h)，$
其中

h∗ $h^*$ 为正确的分类。

若记

E i (h) = {01 如 果 h (X i) = h * (X i), 否 则 ，

$E_i(h)= \begin{cases} 0 & 如果 h(X_i)=h^*(X_i),\cr 1 & 否则， \end{cases}$
那么

Ei(h),1≤i≤n $E_i(h), 1\leq i \leq n$ 是一组独立同分布的分布在

{0,1} $\{0,1\}$ 上的随机变量。它们的期望为

errD(h) $err_D(h)$ 。且

e r r S (h) = 1 n \sum i = 1 n E h (h) .

$err_S(h)=\frac{1}{n}\sum_{i=1}^n E_h(h).$
由 Hoeffding不等式知

Pr {| e r r S (h) - e r r D (h) | > ϵ} < 2 \cdot 2 - n ϵ 2 .

$\Pr\{|err_S(h) - err_D(h)| > \epsilon\} < 2 \cdot 2^{-n\epsilon^2}.$
将上式对所有的分类器求和得

Pr {\cup h \in H | e r r S (h) - e r r D (h) | > ϵ} < 2 | H | \cdot 2 - n ϵ 2 .

$\Pr\{\cup_{h\in\mathcal{H}}|err_S(h) - err_D(h)| > \epsilon\} < 2|\mathcal{H}| \cdot 2^{-n\epsilon^2}.$
也即

Pr {\cap h \in H | e r r S (h) - e r r D (h) | \leq ϵ} > 1 - 2 | H | \cdot 2 - n ϵ 2 .

$\Pr\{\cap_{h\in\mathcal{H}}|err_S(h) - err_D(h)| \leq \epsilon\} > 1 - 2|\mathcal{H}| \cdot 2^{-n\epsilon^2}.$
考虑到，当

n > 1 2 ϵ 2 ln (| H | + 1 δ)

$n>\frac{1}{2\epsilon^2}\ln (|\mathcal{H}|+\frac{1}{\delta})$
时有

2 | H | \cdot 2 - n ϵ 2 < δ .

$2|\mathcal{H}| \cdot 2^{-n\epsilon^2} < \delta.$
定理证毕。

训练数据的充分性(2)：分类器的一致收敛

猜你喜欢