An Information-Theoretic View for Deep Learning
作者:Jingwei Zhang, Tongliang Liu, Dacheng Tao
The University of Sydney, NSW, Australia
发布时间:3 May 2018
1. Abstract and Introduction
Deep Learning 的两个关键问题:
- 为什么越深泛化能力越好?
- 是不是总是越深,网络表现越好
文章的核心结论公式:
符号含义:
- 是the expected risk:
- 为数据, 为数据分布, 为训练好的网络(a hypothesis)
- 是the empirical risk:
- the generalization error is defined as
- 是保留率,由于池化,卷积一些高位转低纬的全连接层都是有损的, 表示经过卷积和池化之后保留下的信息的比例的上界
- 是池化,卷积一些高位转低纬的全连接层的层数,相当于网络深度。
-
是假设每层的变量
都满足
-sub-Gaussian分布,也就是说,存在
使得
- 是训练数据量
- 表示在 这个hypothesis下,输入输出的互信息。【我的理解是类似真实的结果和预测结果的互信息,也就是说输入的是某类型的图片(图的信息),输出的结果(真实label),这两个的互信息。感觉不太严谨,希望有缘人指正】
这个上界公式表明了:
- 随着网络深度的增加,泛化误差(the expected generalization error)会指数级的趋近于0。这些信息有损的layer,增加了网络的泛化能力,这说明了deep neural networks 泛化能力强于 shallow networks;
- 并不能说明“the deeper the better”,因为过于深的网络可能有较大的训练误差 ;
- 随着 的增加神经网络的稳定性和样本复杂度会减少.
2.The Hierarchical Feature Mapping of DNNs and Its Relations to Markov Chain
级联的神经网络类似于一个马尔科夫链,每层的输入依次有类似于马尔科夫链的结果:
也就是说,每层特征图的信息在减少,减少信息的部分显然也有和结果相关的信息。
3.Information Loss in DNNs
Strong data processing inequalities (SDPIs) :
4.Exponential Bounds on the Generalization Error of DNNs
假设每层的变量 都满足 -sub-Gaussian分布,也就是说,存在 使得
5.Proof of Theorem
证明文章的核心结论:
引理(Donsker and Varadhan 1983):
证明比较花式,简单说就是利用神经网络类似于马尔科夫链的性质,和经验误差和期望误差的差值和交叉熵的关系,进行变换,最后得到了证明。
6.Stability and Sample Complexity of Deep Learning
6.1 Stability Analysis for Deep learning
因为有泛化误差上界卡着,所以结果是稳定的。
6.2 Sample Complexity for Deep Learning
随着
的增加,信息的损失越来越多,当
趋于无穷时,训练样本是啥已经无所谓了,因为信息全损失了,预测结果不回比随机结果好。从这个角度来说,
的增加会丧失Sample Complexity。
但是对比一般的情况,
增加为不太大的值时,经验误差并不会增加(可能是因为网络本身的表征能力还足够),因此网络深度增加会提高网络的表现。
7.Conclusions
定义了contraction layers(会造成信息衰减的层,例如卷积层和池化层)
假设
满足
-sub-Gaussian
证明的两个重要引理:
- Strong data processing inequalities (SDPIs) (Ahlswede and Gács 1976).
- (Donsker and Varadhan 1983):
结论:
意义:
- 因为有泛化误差上界卡着,所以结果是稳定的Stability
- 随着层数增加信息熵减少,所以能够拟合Sample Complexity变低
读后感
这篇文章的核心观点就是由于每层都会损失信息,所以随着网络的增加神经网络的经验泛化误差会减少,但是由于神经网络本身的表达能力很强,所以经验误差不会太大,导致神经网络的表现很强大。
感觉他所谓的信息损失其实是一种提取关键信息的感觉,提取关键信息导致了泛化能力很强。
以前看过神经网络的一些解释性文章,感觉有一些结论和这篇论文相呼应。以前的结论就是神经网络参数众多,理论上有无数个局部最优值,粗略的想梯度下降法很可能收敛到一个不怎么好的局部最优值,但是神经网络加上L2正则化后,梯度下降法的结果总是收敛于低秩解,低秩解的loss是一片平坦的地方,很容易到达,再加上神经网络本身强大的表征能力,神经网络的性能就会很强。