ResNeXt 论文笔记

ResNeXt：Aggregated Residual Transformations for Deep Neural Networks

摘要

提出了 ResNeXt 架构，该架构依然采用堆叠构建块的方式构建。构建块内部采用分支结构。分支的数目称为 “基数”，作者认为，增加分支的数量比增加深度、宽度更高效。ResNeXt 在 ILSVRC 2016 分类比赛中获第二名。作者在 ImageNet-5K分类、COCO探测数据集上进行了实验，性能超过了 ResNet。代码和模型见[1]。

1. 简介

VGG、ResNet 采用了堆叠相同构建块来构建网络。Inception 对网络的组件进行精心设计，从而在更低的计算量取得较高的准确率。Inception 有一个核心逻辑：split-transform-merge。虽然 Inception 的解空间是大卷积层的解空间的子空间，但我们期待使用 split-transform-merge 策略去接近大卷积、dense层的表示能力。

经过对组件精心的设计，Inception 的性能很高，但怎么去针对新数据集调整 Inception 的各个模块呢？

所以作者提出了 ResNeXt，它采用 VGG / ResNet 类似的堆叠方式，同时以一种简单，可扩展的方式实现了 Inception 中的 split-transform-merge 策咯。（结构如图 1 右）

上面的结构有两种等价形式（图 3）。图 3b 和 Inception-ResNet 模块类似，但这里的各个 path 一样。图 3c 采用了 AlexNet 中的分组卷积。

在实验中，ResNeXt 的性能超过 ResNet。增加基数比增加深度、宽度更加有效。ResNeXt（指的是下一个维度）性能超过了 ResNet-101/152/200、Inception v3、Inception-ResNet-v2。100层的 ResNeXt 的性能超过了200层的 ResNet，并且计算量只有一半。ResNeXt 的结构比 Inception 简单很多。

2. 相关工作

多分支卷积网络： Inception 就是精心设计的多分支结构。ResNet 可以被看作一个两分支结构，一个分支是 identity mapping。深度神经决策森林是树状多分支网络，学习多个分离的函数。
分组卷积： 分组卷积最早可以追溯到 AlexNet。AlexNet 中分组卷积主要是为了用两块 GPU 来分布式训练。分组卷积的一个特例就是 Channel-wise 卷积。
压缩卷积网络： 卷积分解（在空间 and/or 通道层面）是一种常用的卷积网络冗余、加速、压缩网络的常用技术。相比于压缩，作者希望有更强的表示能力。
多模型集成： 对多个单独训练的网络进行平均是一种提高准确率的办法（在识别类比赛中广泛使用）。因为ResNet采用 additive behaviors，有人将 ResNet 理解为一系列浅层网络的集成。作者采用加法来聚合一系列的变换。但是作者认为将 ResNeXt 看作集成是不准确的，因为各个分支是同时训练的。