An Information-Theoretic View for Deep Learning(从信息论的视角看深度学习)

An Information-Theoretic View for Deep Learning

作者:Jingwei Zhang, Tongliang Liu, Dacheng Tao
The University of Sydney, NSW, Australia
发布时间:3 May 2018

1. Abstract and Introduction

Deep Learning 的两个关键问题:

  • 为什么越深泛化能力越好?
  • 是不是总是越深,网络表现越好

文章的核心结论公式:

E [ R ( W ) R S ( W ) ] e x p ( L 2 l o g ( 1 η ) ) 2 σ 2 n I ( S , W )

符号含义:

  • E [ R ( W ) ] 是the expected risk: E [ R ( W ) ] = E Z   D [ l ( W , Z ) ]
  • Z 为数据, D 为数据分布, W 为训练好的网络(a hypothesis)
  • E [ R S ( W ) ] 是the empirical risk: E [ R S ( W ) ] = 1 n i l ( W , Z i )
  • the generalization error is defined as E [ R ( W ) R S ( W ) ]
  • η 是保留率,由于池化,卷积一些高位转低纬的全连接层都是有损的, η 表示经过卷积和池化之后保留下的信息的比例的上界
  • L 是池化,卷积一些高位转低纬的全连接层的层数,相当于网络深度。
  • σ 是假设每层的变量 X 都满足 σ -sub-Gaussian分布,也就是说,存在 λ 使得
    E [ e x p ( λ ( X E [ X ] ) ) ] e x p ( σ 2 λ 2 2 )
  • n 是训练数据量
  • I ( S , W ) 表示在 W 这个hypothesis下,输入输出的互信息。【我的理解是类似真实的结果和预测结果的互信息,也就是说输入的是某类型的图片(图的信息),输出的结果(真实label),这两个的互信息。感觉不太严谨,希望有缘人指正】

这个上界公式表明了:

  • 随着网络深度的增加,泛化误差(the expected generalization error)会指数级的趋近于0。这些信息有损的layer,增加了网络的泛化能力,这说明了deep neural networks 泛化能力强于 shallow networks;
  • 并不能说明“the deeper the better”,因为过于深的网络可能有较大的训练误差 E [ R S ( W ) ] ;
  • 随着 L 的增加神经网络的稳定性和样本复杂度会减少.

2.The Hierarchical Feature Mapping of DNNs and Its Relations to Markov Chain

级联的神经网络类似于一个马尔科夫链,每层的输入依次有类似于马尔科夫链的结果:

I ( Z L , W ) I ( Z L 1 , W ) . . . I ( Z 2 , W ) I ( Z , W )

也就是说,每层特征图的信息在减少,减少信息的部分显然也有和结果相关的信息。

3.Information Loss in DNNs

Strong data processing inequalities (SDPIs) :

  0 η < 1 , s . t .   I ( Z k + 1 , W ) I ( Z k , W )

4.Exponential Bounds on the Generalization Error of DNNs

假设每层的变量 X 都满足 σ -sub-Gaussian分布,也就是说,存在 λ 使得

E [ e x p ( λ ( X E [ X ] ) ) ] e x p ( σ 2 λ 2 2 )

5.Proof of Theorem

证明文章的核心结论:

E [ R ( W ) R S ( W ) ] e x p ( L 2 l o g ( 1 η ) ) 2 σ 2 n I ( S , W )

引理(Donsker and Varadhan 1983): D ( P | | Q ) = s u p F ( E P [ F ] l o g E Q [ e F ] )

证明比较花式,简单说就是利用神经网络类似于马尔科夫链的性质,和经验误差和期望误差的差值和交叉熵的关系,进行变换,最后得到了证明。

6.Stability and Sample Complexity of Deep Learning

6.1 Stability Analysis for Deep learning

因为有泛化误差上界卡着,所以结果是稳定的。

6.2 Sample Complexity for Deep Learning

随着 L 的增加,信息的损失越来越多,当 L 趋于无穷时,训练样本是啥已经无所谓了,因为信息全损失了,预测结果不回比随机结果好。从这个角度来说, L 的增加会丧失Sample Complexity。
但是对比一般的情况, L 增加为不太大的值时,经验误差并不会增加(可能是因为网络本身的表征能力还足够),因此网络深度增加会提高网络的表现。

7.Conclusions

定义了contraction layers(会造成信息衰减的层,例如卷积层和池化层)
假设 Z L 满足 σ -sub-Gaussian
证明的两个重要引理:

  • Strong data processing inequalities (SDPIs) (Ahlswede and Gács 1976).
  • (Donsker and Varadhan 1983): D ( P | | Q ) = s u p F ( E P [ F ] l o g E Q [ e F ] )

结论:

E [ R ( W ) R S ( W ) ] e x p ( L 2 l o g ( 1 η ) ) 2 σ 2 n I ( S , W )

意义:
- 因为有泛化误差上界卡着,所以结果是稳定的Stability
- 随着层数增加信息熵减少,所以能够拟合Sample Complexity变低

读后感

这篇文章的核心观点就是由于每层都会损失信息,所以随着网络的增加神经网络的经验泛化误差会减少,但是由于神经网络本身的表达能力很强,所以经验误差不会太大,导致神经网络的表现很强大。
感觉他所谓的信息损失其实是一种提取关键信息的感觉,提取关键信息导致了泛化能力很强。
以前看过神经网络的一些解释性文章,感觉有一些结论和这篇论文相呼应。以前的结论就是神经网络参数众多,理论上有无数个局部最优值,粗略的想梯度下降法很可能收敛到一个不怎么好的局部最优值,但是神经网络加上L2正则化后,梯度下降法的结果总是收敛于低秩解,低秩解的loss是一片平坦的地方,很容易到达,再加上神经网络本身强大的表征能力,神经网络的性能就会很强。

猜你喜欢

转载自blog.csdn.net/SrdLaplace/article/details/81605166
今日推荐