「Deep Learning」Note on Gather and Excite Network (GENet)

QQ Group: 428014259
Sina Weibo：小锋子Shawn
Tencent E-mail：[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/84179196

SENet之后，Jie Hu和Li Shen等人又提出GENet[1]。

作者：Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Andrea Vedaldi
单位：Momenta, Visual Geometry Group University of Oxford

0 摘要

指出自底向上局部操作（bottom-up local）虽然可以匹配自然图像的统计信息，但是可能防止模型捕获上下文的长范围的特征交互。作者提出简单方法，探索上下文信息利用（context exploitation）。引出一对操作，聚集gather和激活excite。聚集gather，用于在某个较大空间范围内，有效地聚集（aggregate）特征响应；激活excit，用于重新分配（redistribute）上面的池化信息到局部特征上。带有gather-and-excite操作的ResNet-50，可以超越ResNet-101。

1 介绍

context上下文信息，不仅可以在图像空间上，还可以在特征空间上，即feature context。著名的auto-context，即appearance context。以前，我们会计算全连接层在输入图像上的感受野，但是有效的感受野比计算的感受野会小得多[2]。这在一定程度上，说明使用上下文信息，可以帮助深度网络取得较好的性能。提及SENet里面使用squeeze操作实现上下文聚集器，squeez操作就是全局平均值池化。将上下文信息模块分解为聚集和激活两种操作。

2 Gather-Excite框架

受bag-of-visual-words启发。GE操作如图1所示。原文描述聚集操作非常正式（复杂），简单地说，就是在特征图上，逐层使用不同大小的滤波器（带参数或不带参数）去聚集特征响应。不同大小就是选择操作的范围（extent）。激活操作就是把聚集操作后收集到的上下文信息，重新恢复到原来特征图的空间大小，然后与之进行相乘。

图 1：gather-excite操作对

3 模型和实验

探索和评估Gather-Excite框架的可能化身，即具体实现聚集和激活的几种可能。

3.1 无参数的聚集激活对

可以使用无参数的操作实现聚集-激活对（GE pairings）。聚集操作，利用不同步长的平均值池化（average pooling）实现。激活操作，利用resize，sigmoid和multiply实现，其中resize使用最近邻插值方法。将这种模型记作 $GE-\theta^{-}$ 。在残差单元中，实现这些操作对，如图2所示。在空间范围对性能影响上，作者进行了实验，结果表明，范围越大，性能越好，如图3左边所示。

图 2：gather-excite模块

图 3：空间范围的影响

3.2 有参数的聚集激活对

可以使用有参数的操作实现聚集-激活对。聚集操作，使用带步长的逐层卷积（strided depth-wise convolution）实现。
在空间范围对性能影响上，作者进行了实验，结果表明，范围越大，性能越好，如图3右边所示，另外，有参数的模型比无参数的模型还要好。
在不同阶段加入GE操作对性能影响上，作者进行了实验，结果表明，单独某层加入和全部层加入都对性能带来提升，并且，加入在中、后阶段对性能带来的提升更大，如果考虑计算成本，可以考虑不在阶段2加入，如表1所示。

表1：不同阶段的影响

SENet可被视为GENet的特定版本，SENet的聚集操作为无参数的全局平局值池化，激活操作为全连接子网络。SENet的聚集操作使用有参数的逐层卷积，激活操作将全连接替换为点卷积，改良后的SENet记作 $GE-\theta^{+}$ 。作者进行了实验，结果表明，改良后的 $GE-\theta^{+}$ 性能更好，超越ResNet-50-SE和 $GE-\theta$ ，以三分之一的计算复杂度接近ResNet-152，如表2所示。

表2：SENet和GENet的比较

3.3 泛化

考虑更深的网络。如表3所示，ResNet-101加入GE后，超越ResNet-152和ResNet-152-SE。

表3：SENet和GENet的比较

考虑移动端卷积网络。如表4所示，虽然可以提升，但是参数量也上来了。因此，naive的GE实现不适合移动端卷积网络。

表4：ShuffleNet和ShuffleNet-GE的比较

考虑CIFAR-10和CIFAR-100数据集，在不同网络上进行了实验，GE都带来了提升，见原文Table 5。
考虑图像分类之外的任务，在物体检测上进行了实验，Faster R-CNN ResNet-50在MS COCO上的性能为27.3 mAP，GE版本的性能为28.6 mAP，提升了1.3。

4 分析和讨论

这部分，作者对GE进行了深入的研究。在学习到的表示、收敛性、特征重要性上进行了分析。

5 相关工作

围绕context的工作。

6 结论和未来工作

未来，在语义分割任务上研究GE操作。

[1] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks NIPS 2018 [paper] [code]
[2] Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 [paper]