Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/83099563
破碎梯度问题[1]是ICML 2017的一篇文章。标题 The Shattered Gradients Problem If Resnets are the Answer Then What is the Question 十分骚,揭示残差网络真正要解决的问题,使得网络得以加深,效果越好。值得提醒的是,这篇文章仅是从一个角度去解释残差网络,其实学界现在存在很多理论文章研究、解读残差网络。
假设1(典型数据点):如果一层神经元,超过一半处于激活,并且,两层神经元,超过四分之一处于互激活(co-active),那么称计算层 和 是典型数据点(typical datapoint)。在文中,假设每对数据点都是典型的。
定义1:令
为给定输入
,网络输出的第
坐标对神经元
的导数。对每一输入
,导数
为实值随机变量。因为权重采样自零均值分布,导数具有零均值。下面两式分别为梯度的协方差和相关性:
其中,数学期望为对分布的权重的梯度/导数求。
定理1(前向网络的梯度协方差):按照He et al. [2],假设权重由方差
初始化,那么
a) 给定输入
,梯度的方差为
;
b) 给定两输入
、
,梯度的协方差为
。
定理2(残差网络的梯度协方差):考虑batch normalization disabled的残差网络,并且
,初始化方法同上[2],那么
a) 给定输入
,梯度的方差为
;
b) 给定两输入
、
,梯度的协方差为
,相关性为
。
定理3(残差网络的梯度协方差,考虑BN和rescaling):
[1] The Shattered Gradients Problem If Resnets are the Answer Then What is the Question ICML 2017 [paper]
[2]