本文内容：

ResNets
几个ResNet的Identity mapping 方式
WRNs
ResNeXt
Res2Net

ResNet:

CNN网络存在的两个问题：一，vanishing/exploding gradients；深度会带来恶名昭著的梯度弥散/爆炸，导致系统不能收敛。然而梯度弥散/爆炸在很大程度上被normalized initialization and intermediate normalization layers处理了。二、degradation；当深度开始增加的时候，accuracy经常会达到饱和，然后开始下降，但这并不是由于过拟合引起的。如56-layer的error大于20-layer的error。
ResNet的核心方法：提出了一种基于残差块的identity mapping，通过学习残差的方式，而非直接去学习直接的映射关系

Deeper Bottleneck Architectures：

当换成上图右边这种Bottleneck 结构的时候，可以发现152层的ResNet竟然比VGG16/19 都要少的复杂度。先用1x1降维，3x3进行卷积，再用1x1进行升维。事实上，deeper左边这种结构也能获得很好的效果。用右边这种结构，主要是源自于practical，因为左边这种结构在训练时间上要比右边结构长的多。

ResNets的结构：

ResNet34与VGG19 架构对比：

几种 Identity mappings的结构：

作者通过探究Identity Mapping来使得网络变得更容易训练，并且能够提高其网络泛化能力

原始Residual unit和改进后的效果及比较：

原始Residual unit 公式是：

改进的unit，将h（x）与f（x）都为identity mapping后，公式为：

two identity mappings: (i) the identity skip connection h(xl) = xl, and (ii) the condition that f is an identity mapping

作者发现如果h(x)和f(y)都是identity mapping的话，那么在forward或者backward的时候，信号都能直接propagate from 一个unit to other unit。residualNet在backward的时候，可以将梯度完全的往回传

这样表示有两个好处：
1） feature XL可以表示为浅层的xl + 残差累计，真正的实现了残差网络
2）目前的输出可以看做所有preceding residual functions （plus x0），跟VGG这类plain Network不同的是，instead matrix-vector products，目前的算法相当于summation

skip connection结构探索：

效果：

Activation上的结构探索：

效果：

事实上这些附加实验显示这些算法并不是很work

WRNs：

文章链接：https://arxiv.org/abs/1605.07146

解决的问题：非常深的网络往往会出现diminishing feature reuse，这往往会导致网络的训练速度会变得相当的慢。为了解决这个问题，提出了wide ResNet。

像ResNet这类网络也会存在着一些问题：由于梯度在反向传播的时候，可以直接经过shortcut，而不用被强制经过residual block，这会导致可能只有很有限的layer学到了有用的知识，而更多的layers对最终结果只做出了很少的贡献。这个问题也被称之为diminishing feature reuse。当然在后续的工作中，很多人都朝着解决这个问题的方向做，比如residual block进行随机失活，类似于特殊的dropout。基于上述问题，作者认为widening of ResNet blocks可能会提供更有效的方法。WRN-40-4（40层，宽度为4倍）精度赶上了1000layer 的resNet，并且在训练速度上提升了8倍。

改进的方式：

dropout作为一种正则化的技术也体现了它的有效性，d结构可以继续提升网络效果

结构：

效果：

ResNeXt:

文章链接：https://arxiv.org/abs/1611.05431

在ResNet提出deeper可以带来网络性质提高的同时，WideResNet则认为Wider也可以带来深度网络性能的改善。为了打破或deeper，或wider的常规思路，ResNeXt则认为可以引入一个新维度，称之为cardinality。并且作者在实验上也证明了： increasing cardinality is more effective than going deeper or wider when we increase the capacity

模块结构对比：