解密ResNet：Identity Mappings in Deep Residual Networks

本篇文章是对ResNet取得较好效果的分析与改进，在过去residual block的基础上，提出了新的residual block，并通过一系列实验验证了identity mapping能对模型训练产生很好的效果。

1、介绍

1、ResNet block表示：

resnet block结果如下：
resnet block公式表示如下：

$y_{l} = h (x_{l}) + F (x_{l}, ω_{l}), x_{l + 1} = f (y_{l})$ $y_l=h(x_l)+F(x_l,\omega_l) , x_{l+1} = f(y_l)$

其中 $x_l$ 和 $x_{l+1}$ 是第l个单元的输入和输出，f表示一个残差函数。在He，ResNet论文中， $h(x_l)=x_l$ 代表一个恒等映射，f代表 ReLU。

2、Analysis of Deep Residual Networks

在resnet表达式中，如果f是一个恒等映射： $x_{l+1}=y_l$ ，我们可以将公式合并得到：

x_{l + 1} = h (x_{l}) + F (x_{l}, ω_{l})

$x_{l+1}=h(x_l)+F(x_l,\omega_l)$

通过递归：如下面例子帮助理解

x_{l + 2} = x_{l + 1} + F (x_{l + 1}, ω_{l + 1}) = x_{l} + F (x_{l}, ω_{l}) + F (x_{l + 1}, ω_{l + 1})

$x_{l+2}=x_{l+1}+F(x_{l+1},\omega_{l+1})=x_l+F(x_l,\omega_l)+F(x_{l+1},\omega_{l+1})$
对于任意深的单元 L 和任意浅的单元 l，可以得到：

x_{L} = x_{l} + \sum_{i = l}^{L - 1} (x_{i}, ω_{i})

$x_L=x_l+\sum_{i=l}^{L-1}(x_i,\omega_i)$

该公式展示了一些良好的特性，如下：

对于任意深的单元L的特征 $x_L$ 可以表达为浅层单元l的特征 $x_l$ 加上一个形如 $\sum_{i=l}^{L-1}F$ 的残差函数，这表明了任意单元L和l之间都具有残差特性。

对于任意深的单元L，它的特征 $x_L=x_0+\sum_{i=0}^{L-1}(x_i,\omega_i)$ ，即为之前所有残差函数输出的总和加上x0。

plain network中的特征 $x_l$ 是一系列矩阵向量的乘积，也就是 $\prod_{i=0}^{L-1}W_ix_0$ (忽略了BN和ReLU)。

具有良好的反向传播特性:

这里，梯度 $\frac{\partial_E}{\partial_l}$ 可以被分解成两个部分：其中 $\frac{\partial_E}{\partial_l}$ 直接传递信息而不涉及任何权重层，而另一部分 $\frac{\partial_E}{\partial_L} (1+ \frac{\partial_{\sum_{i=l}^{L-1}F}}{\partial_{x_1}})$ 表示通过权重层的传递。 $\frac{\partial_E}{\partial_l}$ 保证了信息能够直接传回任意浅层 l。
同时，该公式表明在mini-batch中梯度不可能出现消失的情况，因为通常 $\frac{\partial_{\sum_{i=l}^{L-1}F}}{\partial_{x_1}}$ 对于一个mini-batch总的全部样本不可能都为-1。这意味着，哪怕权重是任意小的，也不可能出现梯度消失的情况。