An Information-Theoretic View for Deep Learning（从信息论的视角看深度学习）

An Information-Theoretic View for Deep Learning

作者：Jingwei Zhang, Tongliang Liu, Dacheng Tao
The University of Sydney, NSW, Australia
发布时间：3 May 2018

1. Abstract and Introduction

Deep Learning 的两个关键问题：

为什么越深泛化能力越好？
是不是总是越深，网络表现越好

文章的核心结论公式：

E [R (W) - R_{S} (W)] \leq e x p (- \frac{L}{2} l o g (\frac{1}{η})) \sqrt{\frac{2 σ^{2}}{n} I (S, W)}

$E[R(W)-R_S(W)]\leq exp(-\frac{L}{2}log(\frac{1}{\eta}))\sqrt{\frac{2\sigma^2}{n}I(S,W)}$

符号含义：

$E[R(W)]$ 是the expected risk: $E[R(W)]=E_{Z~D}[l(W,Z)]$
$Z$ 为数据， $D$ 为数据分布， $W$ 为训练好的网络(a hypothesis)
$E[R_S(W)]$ 是the empirical risk: $E[R_S(W)]=\frac{1}{n}\sum_il(W,Z_i)$
the generalization error is defined as $E[R(W)-R_S(W)]$
$\eta$ 是保留率，由于池化，卷积一些高位转低纬的全连接层都是有损的， $\eta$ 表示经过卷积和池化之后保留下的信息的比例的上界
$L$ 是池化，卷积一些高位转低纬的全连接层的层数，相当于网络深度。
$\sigma$ 是假设每层的变量 $X$ 都满足 $\sigma$ -sub-Gaussian分布，也就是说，存在 $\lambda$ 使得 $E [e x p (λ (X - E [X]))] \leq e x p (\frac{σ^{2} λ^{2}}{2})$ $E[exp(\lambda(X-E[X]))]\leq exp(\frac{\sigma^2\lambda^2}{2})$
$n$ 是训练数据量
$I(S,W)$ 表示在 $W$ 这个hypothesis下，输入输出的互信息。【我的理解是类似真实的结果和预测结果的互信息，也就是说输入的是某类型的图片（图的信息），输出的结果（真实label），这两个的互信息。感觉不太严谨，希望有缘人指正】

这个上界公式表明了：

随着网络深度的增加，泛化误差（the expected generalization error）会指数级的趋近于0。这些信息有损的layer，增加了网络的泛化能力，这说明了deep neural networks 泛化能力强于 shallow networks；
并不能说明“the deeper the better”，因为过于深的网络可能有较大的训练误差 $E[R_S(W)]$ ;
随着 $L$ 的增加神经网络的稳定性和样本复杂度会减少.

2.The Hierarchical Feature Mapping of DNNs and Its Relations to Markov Chain

级联的神经网络类似于一个马尔科夫链，每层的输入依次有类似于马尔科夫链的结果：

I (Z_{L}, W) \leq I (Z_{L - 1}, W) \leq . . . \leq I (Z_{2}, W) \leq I (Z, W)

$I(Z_L,W)\leq I(Z_{L-1},W)\leq ... \leq I(Z_2,W)\leq I(Z,W)$

也就是说，每层特征图的信息在减少，减少信息的部分显然也有和结果相关的信息。

3.Information Loss in DNNs

Strong data processing inequalities (SDPIs) :

\exists 0 \leq η < 1, s . t . I (Z_{k + 1}, W) \leq I (Z_{k}, W)

${\exists}~0\leq \eta <1,s.t.~I(Z_{k+1},W)\leq I(Z_k,W)$

4.Exponential Bounds on the Generalization Error of DNNs

假设每层的变量 $X$ 都满足 $\sigma$ -sub-Gaussian分布，也就是说，存在 $\lambda$ 使得

E [e x p (λ (X - E [X]))] \leq e x p (\frac{σ^{2} λ^{2}}{2})

$E[exp(\lambda(X-E[X]))]\leq exp(\frac{\sigma^2\lambda^2}{2})$

5.Proof of Theorem

证明文章的核心结论：

E [R (W) - R_{S} (W)] \leq e x p (- \frac{L}{2} l o g (\frac{1}{η})) \sqrt{\frac{2 σ^{2}}{n} I (S, W)}

$E[R(W)-R_S(W)]\leq exp(-\frac{L}{2}log(\frac{1}{\eta}))\sqrt{\frac{2\sigma^2}{n}I(S,W)}$

引理（Donsker and Varadhan 1983）： $D(P||Q)=sup_F(E_P[F]-logE_Q[e^{F}])$

证明比较花式，简单说就是利用神经网络类似于马尔科夫链的性质，和经验误差和期望误差的差值和交叉熵的关系，进行变换，最后得到了证明。

6.Stability and Sample Complexity of Deep Learning

6.1 Stability Analysis for Deep learning

因为有泛化误差上界卡着，所以结果是稳定的。

6.2 Sample Complexity for Deep Learning

随着 $L$ 的增加，信息的损失越来越多，当 $L$ 趋于无穷时，训练样本是啥已经无所谓了，因为信息全损失了，预测结果不回比随机结果好。从这个角度来说， $L$ 的增加会丧失Sample Complexity。
但是对比一般的情况， $L$ 增加为不太大的值时，经验误差并不会增加（可能是因为网络本身的表征能力还足够），因此网络深度增加会提高网络的表现。

7.Conclusions

定义了contraction layers（会造成信息衰减的层，例如卷积层和池化层）
假设 $Z_L$ 满足 $\sigma$ -sub-Gaussian
证明的两个重要引理：

Strong data processing inequalities (SDPIs) (Ahlswede and Gács 1976).
（Donsker and Varadhan 1983）： $D(P||Q)=sup_F(E_P[F]-logE_Q[e^{F}])$

结论：

E [R (W) - R_{S} (W)] \leq e x p (- \frac{L}{2} l o g (\frac{1}{η})) \sqrt{\frac{2 σ^{2}}{n} I (S, W)}

$E[R(W)-R_S(W)]\leq exp(-\frac{L}{2}log(\frac{1}{\eta}))\sqrt{\frac{2\sigma^2}{n}I(S,W)}$

意义：
- 因为有泛化误差上界卡着，所以结果是稳定的Stability
- 随着层数增加信息熵减少，所以能够拟合Sample Complexity变低

读后感

这篇文章的核心观点就是由于每层都会损失信息，所以随着网络的增加神经网络的经验泛化误差会减少，但是由于神经网络本身的表达能力很强，所以经验误差不会太大，导致神经网络的表现很强大。
感觉他所谓的信息损失其实是一种提取关键信息的感觉，提取关键信息导致了泛化能力很强。
以前看过神经网络的一些解释性文章，感觉有一些结论和这篇论文相呼应。以前的结论就是神经网络参数众多，理论上有无数个局部最优值，粗略的想梯度下降法很可能收敛到一个不怎么好的局部最优值，但是神经网络加上L2正则化后，梯度下降法的结果总是收敛于低秩解，低秩解的loss是一片平坦的地方，很容易到达，再加上神经网络本身强大的表征能力，神经网络的性能就会很强。