【网络结构设计】1、ResNeXt | 增加模型 cardinality 带来无痛涨点

出处：CVPR 2017

贡献：

一、背景

一般方法如果要提高模型的准确率，都会选择加深或加宽网络，但是随着超参数数量的增加（比如 channels 数，filter size等等）网络设计的难度和计算开销也会增加。

VGG 和 ResNet 网络都是堆叠相同的模块来实现网络深度的增加，但可能会导致过度拟合于特定的数据集。

Inception 系列的模型证明如果设计得当，也能在可控的复杂度增加的情况下提升模型的效果。简单讲就是 split-transform-merge 的策略，Inception 会并行的使用多种不同尺度的卷积核，以达到捕捉不同分辨率特征的目的，然后将这些特征 concat 起来用于下游任务。

但是 Inception 系列网络有个问题：网络的超参数设定的针对性比较强，当应用在别的数据集上时需要修改许多参数，因此可扩展性一般。

因此本文提出的 ResNeXt 结构可以在不增加参数复杂度的前提下提高准确率，同时还减少了超参数的数量。

ResNeXt 是怎么做的：

套用 ResNet 的重复堆叠结构
引入 Inception 的 split-tranform-merge 策略，但并行拆开的分支卷积核大小是相同的，然后相加（如图 1 右边）。此外，这种结构和图 3 的其他两种结构是等价的。可以看做将 ResNet 中每个 block 的卷积替换成了分组卷积。

在这里插入图片描述

Inception 的初始结构：

在这里插入图片描述

采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合
之所以卷积核采用1x1，3x3 和 5x5，主要是为了方便对齐，设定卷积步长 stride=1，只要分别设定 padding=0，1，2，那么卷积之后便可以得到相同维度的特征，然后将这些特征就可以直接拼接在一起了。
文章中说 pooling 被证明很有效，所以网络结构中也加入了
网络越到后面，特征越抽象，而且每个特征所涉及的感受野也变大了，因此随着层数的增加，3x3和5x5的比例也要增加。

由于 3x3 或 5x5 卷积核非常耗费计算资源，所以经过通道降维的改进后的 Inception 模型如下：

在这里插入图片描述

其中有4个分支：

第一个分支对输入进行1x1的卷积，这其实也是 NIN 中提出的一个重要结构。1x1 的卷积是一个非常优秀的结构，它可以跨通道组织信息，提高网络的表达能力，同时可以对输出通道升维和降维。Inception Module的4个分支都用到了1x1的卷积，来进行低成本（计算量比3x3小很多）的跨通道的特征变换
第二个分支，先使用了 1x1 卷积，然后连接 3x3 卷积，相当于进行了两次特征变换
第三个分支，先使用 1x1 卷积，然后连接 5x5 卷积
第四个分支，3x3 最大池化后直接使用 1x1 卷积

ResNet 的结构设计：

在这里插入图片描述

这两种结构分别针对 ResNet34（左）和ResNet50/101/152（右），一般称整个结构为一个 “building block”，其中右图为“bottleneck design”，目的就是为了降低参数数目，第一个 1x1 的卷积把 256 维的 channel 降到 64 维，然后在最后通过 1x1 卷积恢复，整体上用到参数数目 69632，而不使用 bottleneck 的话就是两个 3x3x256 的卷积，参数数目: 3x3x256x256x2 = 1179648，差了16.94倍。
对于常规ResNet，可以用于34层或者更少的网络中，对于 Bottleneck Design 的 ResNet 通常用于更深的如 101 这样的网络中，目的是减少计算和参数量。