Rademacher Complexity

定义： Empirical Rademacher Complexity

假设G是从Z映射到[a,b]的一族函数， $S=(z_1,...,z_m)$ 是Z中数量固定的样本集合。在集合S上，Empirical Rademacher Complexity of G定义为：

{\hat{ℜ}}_{S} (G) = E_{σ} [sup_{g \in G} \frac{1}{m} \sum_{i = 1}^{m} σ_{i} g (z_{i})]

$\hat{\Re}_S(G)=\mathbb{E}_{\sigma}[\sup_{g\in G}{\frac{1}{m}\sum_{i=1}^{m}{\sigma_ig(z_i)}}]$

这里的 $\sigma=(\sigma_1,...\sigma_m)^T$ 是一个独立一致的随机变量，从 $\{-1,+1\}$ 中取值。这个东西的意思是函数簇G对于随机噪声S的拟合程度（就是给样本随机的label，看G的拟合程度）。另外如果用向量 $\overrightarrow{g}_S$ 表示在样本集S上的预测值，那么3.1可以改写成： $\hat{\Re}_S(G)=\mathbb{E}_{\sigma}[\sup_{g\in G}{\frac{\sigma\cdot\overrightarrow{g}_S}{m}}]$ ， $\sigma$ 称为Rademacher Variable。

复杂度更高的函数簇G会得到更高的Empirical Radmacher Complexity的值。如果说G的大小是 $2^m$ ,就是最复杂的模型，这个时候 $\hat{\Re}_S(G)=1$ ，因为可以满足所有的标签。如果G的大小是1的时候，课程里说是0,但是感觉说的有错误。

Rademacher Complexity就是Empirical Rademacher Complexity的期望。 $\Re_m(G)=\mathbb{E}_{S\sim D^m}[\hat{\Re}_S(G)]$ 。

Rademacher Complexity的用处是证明模型在真实数据上的表现是可以被训练集上的表现bound住的。

Convergence Bounds:假设F是一簇从Z映射到[0,1]的函数， $S=(z_1,...,z_m),z_i\sim D$ 是数据集Z上由分布D选出来的样本。定义 $\mathbb{E}[f]\equiv\mathbb{E}_{Z\sim D}[f(z)], \hat{\mathbb{E}}_S[f]\equiv\frac{1}{m}\sum_{i=1}^m{f(z_i)}$ ，那么就有至少 $1-\delta$ 的概率保证对所有的 $f\in F$ ：

E [f] \leq {\hat{E}}_{S} [f] + 2 ℜ_{m} (F) + O (\sqrt{\frac{\ln \frac{1}{δ}}{m}})

$\mathbb{E}[f]\le\hat{\mathbb{E}}_S[f]+2\Re_m(F)+\mathcal{O}(\sqrt{\frac{\ln{\frac{1}{\delta}}}{m}})$

定理的主要内容就是这个不等式，下面就来证明它。

证明的过程需要用到McDiarmid’s Inequality。这个不等式的内容是，如果有一个函数使得 $|f(x_1,...,x_i,...x_m)-f(x_1,...,x_i',...,x_m)|\le c_i$ ，那么就有 $Pr[f(x_1,...x_m)\ge\mathbb{E}[f(X_1,...,X_m)]+\epsilon]\le\exp{\frac{-2\epsilon^2}{\sum_i^mc_i^2}}$ 。

也就是说，如果改变函数其中一个参数，函数值改变的范围不超过某个值 $c_i$ ，这个值是对应与每个参数的，那么函数值在期望值 $\epsilon$ 范围之外的概率小于等于一个值。

第一步：

定义： $\phi(S)=\sup_{f}(\mathbb{E}[f]-\hat{\mathbb{E}}_S[f])=\sup_{f}(\mathbb{E}[f]-\frac{1}{m}\sum_{i}f(z_i))$

那么就至少有 $1-\delta$ 的概率使得 $\phi(S)\le\mathbb{E}_S(\phi(S))+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}$ 。由于 $f(z_i)\in[0,1]$ ，所以改变任意的 $z_i$ 至 $z_i'$ ，整个损失函数的期望改变不会超过 $\frac{1}{m}$ ，所以将McDiarmid’s Inequality里 $\epsilon$ 替换成 $\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}$ ，将 $c_i$ 替换成 $\frac{1}{m}$ ，就可以得到 $Pr[\phi(S)\ge\mathbb{E}_S(\phi(S))+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}]\le\delta$ ，即 $Pr[\phi(S)\le\mathbb{E}_S(\phi(S))+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}]\gt{1-\delta}$ 。

第二步：

定义另外一个数据集： $S'=(z_1',...,z_m')\sim D$ ，那么就有：

E_{S} [ϕ (S)] = E_{S} [sup_{f} (E [f] - {\hat{E}}_{S} [f])] = E_{S} [sup_{f \in F} (E_{S^{'}} [{\hat{E}}_{S^{'}} [f]] - {\hat{E}}_{S} [f])]

$\mathbb{E}_{S}[\phi(S)]=\mathbb{E}_S[\sup_{f}(\mathbb{E}[f]-\hat{\mathbb{E}}_S[f])]=\mathbb{E}_S[\sup_{f\in F}(\mathbb{E}_{S'}[\hat{\mathbb{E}}_{S'}[f]]-\hat{\mathbb{E}}_S[f])]$ ，这一步是利用PAC learnability，take the expectation of a finite set over all finite sets then that will be the true expectation of that quantity。

由于 $\hat{\mathbb{E}}_S[f]$ 与 $S'$ 没有关系，所以是可以把 $\hat{\mathbb{E}}_S[f]$ 和 $\hat{\mathbb{E}}_S'[f]$ 一起放到 $\mathbb{E}_S'$ 中去，即： $\mathbb{E}_S[\phi(S)]=\mathbb{E}_S[\sup_{f\in F}(\mathbb{E}_{S'}[\hat{\mathbb{E}}_{S'}[f]-\hat{\mathbb{E}}_S[f]])]\le\mathbb{E}_{S,S'}[\sup_f(\hat{\mathbb{E}}_{S'}[f]-\hat{\mathbb{E}}_S[f])]$

we can now add in an inequality if you’re taking a supreme of an expectation you can get rid of the expectation because the supreme of the argument to the expectation is going to be larger than the expectation because you can think about the expectation as an average. so this gets rid of one of our expectations and now we have a nice difference of two expectations.

第三步：

再定义另外两个集合T和T’，T和T’是S和S’随机交换集合中的样本得到的，所以T和T‘也是在D上独立同分布的，而且有 $\hat{\mathbb{E}}_{S'}[f]-\hat{\mathbb{E}}_{S}[f]\sim \hat{\mathbb{E}}_{T'}[f]-\hat{\mathbb{E}}_{T}[f]$ 。下面就可以把Rademacher Variable加入到公式中来了。

\begin{matrix} (1) & {\hat{E}}_{T^{'}} [f] - {\hat{E}}_{T} [f] = \frac{1}{m} {\begin{cases} f (z_{i}) - f (z_{i}^{'}) & w i t h & p r o b & .5 \\ f (z_{i}^{'}) - f (z_{i}) & w i t h & p r o b & .5 \end{cases} = \frac{1}{m} \sum_{i} σ_{i} (f (z_{i}^{'}) - f (z_{i})) \end{matrix}

$\hat{\mathbb{E}}_{T'}[f]-\hat{\mathbb{E}}_{T}[f]=\frac{1}{m}\begin{equation}\begin{cases}f(z_i)-f(z_i')&with&prob&.5\\f(z_i')-f(z_i)&with&prob&.5 \end{cases}\end{equation}=\frac{1}{m}\sum_{i}\sigma_{i}(f(z_i')-f(z_i))$ 。

这样我们就可以得到：

E_{S, S^{'}} [sup_{f \in F} ({\hat{E}}_{S^{'}} [f] - {\hat{E}}_{S} [f])] = E_{S, S^{'}, σ} [sup_{f \in F} (\sum_{i} σ_{i} (f (z_{i}^{'}) - f (z_{i})))]

$\mathbb{E}_{S,S'}[\sup_{f\in F}(\hat{\mathbb{E}}_{S'}[f]-\hat{\mathbb{E}}_{S}[f])]=\mathbb{E}_{S,S',\sigma}[\sup_{f\in F}(\sum_{i}\sigma_{i}(f(z_i')-f(z_i)))]$ ，

原因是S和T是可以互换的，所以就可以把 $\hat{\mathbb{E}}_{T'}[f]-\hat{\mathbb{E}}_{T}[f]$ 带入到公式中去，就得到了这个结果

第四步：

E_{S, S^{'}, σ} [sup_{f \in F} (\sum_{i} σ_{i} (f (z_{i}^{'}) - f (z_{i})))] \leq E_{S, S^{'}, σ} [sup_{f \in F} (\sum_{i} σ_{i} f (z_{i}^{'}) + sup_{f \in F} \sum_{i} (- σ_{i}) f (z_{i})] \leq E_{S, S^{'}, σ} [sup_{f \in F} (\sum_{i} σ_{i} f (z_{i}^{'})] + E_{S, S^{'}, σ} [sup_{f \in F} (\sum_{i} (- σ_{i}) f (z_{i})] = E_{S^{'}, σ} [sup_{f \in F} (\sum_{i} σ_{i} f (z_{i}^{'})] + E_{S, σ} [sup_{f \in F} (\sum_{i} (σ_{i}) f (z_{i})] = ℜ_{m} (F) + ℜ_{m} (F)

$\mathbb{E}_{S,S',\sigma}[\sup_{f\in F}(\sum_{i}\sigma_{i}(f(z_i')-f(z_i)))]\\\le\mathbb{E}_{S,S',\sigma}[\sup_{f\in F}(\sum_{i}\sigma_{i}f(z_i')+\sup_{f\in F}\sum_i(-\sigma_i)f(z_i)]\\\le\mathbb{E}_{S,S',\sigma}[\sup_{f\in F}(\sum_{i}\sigma_{i}f(z_i')]+\mathbb{E}_{S,S',\sigma}[\sup_{f\in F}(\sum_{i}(-\sigma_{i})f(z_i)]\\=\mathbb{E}_{S',\sigma}[\sup_{f\in F}(\sum_{i}\sigma_{i}f(z_i')]+\mathbb{E}_{S,\sigma}[\sup_{f\in F}(\sum_{i}(\sigma_{i})f(z_i)]\\=\Re_m(F)+\Re_m(F)$

第二个不等号是因为期望的线性性质;后面一个等好是由于第一个期望和S不相关，第二个期望和S’不相关;最后一个等号是定义。

然后将这些东西组合起来，可以得到：

ϕ (S) = sup_{f} (E [f] - {\hat{E}}_{S} [h]) \leq E_{S} [ϕ (S)] + \sqrt{\frac{\ln \frac{1}{δ}}{2 m}}, w i t h p r o b a b i l i t y \geq 1 - δ

$\phi(S)=\sup_f(\mathbb{E}[f]-\hat{\mathbb{E}}_S[h])\le\mathbb{E}_S[\phi(S)]+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}},with\ probability\ \ge1-\delta$ ,

去掉sup之后，不等号依然成立，再加上第二步的东西，得到：

E [f] - {\hat{E}}_{S} [h] \leq E_{S, S^{'}} [sup_{f} ({\hat{E}}_{S^{'}} [f] - {\hat{E}}_{S} [f])] + \sqrt{\frac{\ln \frac{1}{δ}}{2 m}}, w i t h p r o b a b i l i t y \geq 1 - δ

$\mathbb{E}[f]-\hat{\mathbb{E}}_S[h]\le\mathbb{E}_{S,S'}[\sup_f(\hat{\mathbb{E}}_{S'}[f]-\hat{\mathbb{E}}_S[f])]+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}},with\ probability\ \ge1-\delta$ ，

再加入第三步的东西，得到：

E [f] - {\hat{E}}_{S} [h] \leq E_{S, S^{'}, σ} [sup_{f \in F} (\sum_{i} σ_{i} (f (z_{i}^{'}) - f (z_{i})))] + \sqrt{\frac{\ln \frac{1}{δ}}{2 m}}, w i t h p r o b a b i l i t y \geq 1 - δ

$\mathbb{E}[f]-\hat{\mathbb{E}}_S[h]\le\mathbb{E}_{S,S',\sigma}[\sup_{f\in F}(\sum_{i}\sigma_{i}(f(z_i')-f(z_i)))]+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}},with\ probability\ \ge1-\delta$ ,

然后加上第四步，得到：