「Deep Learning」Note on Gather and Excite Network (GENet)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dgyuanshaofeng/article/details/84179196

QQ Group: 428014259
Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/84179196

SENet之后,Jie Hu和Li Shen等人又提出GENet[1]。

作者:Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Andrea Vedaldi
单位:Momenta, Visual Geometry Group University of Oxford

0 摘要

指出自底向上局部操作(bottom-up local)虽然可以匹配自然图像的统计信息,但是可能防止模型捕获上下文的长范围的特征交互。作者提出简单方法,探索上下文信息利用(context exploitation)。引出一对操作,聚集gather和激活excite。聚集gather,用于在某个较大空间范围内,有效地聚集(aggregate)特征响应;激活excit,用于重新分配(redistribute)上面的池化信息到局部特征上。带有gather-and-excite操作的ResNet-50,可以超越ResNet-101。

1 介绍

context上下文信息,不仅可以在图像空间上,还可以在特征空间上,即feature context。著名的auto-context,即appearance context。以前,我们会计算全连接层在输入图像上的感受野,但是有效的感受野比计算的感受野会小得多[2]。这在一定程度上,说明使用上下文信息,可以帮助深度网络取得较好的性能。提及SENet里面使用squeeze操作实现上下文聚集器,squeez操作就是全局平均值池化。将上下文信息模块分解为聚集和激活两种操作。

2 Gather-Excite框架

受bag-of-visual-words启发。GE操作如图1所示。原文描述聚集操作非常正式(复杂),简单地说,就是在特征图上,逐层使用不同大小的滤波器(带参数或不带参数)去聚集特征响应。不同大小就是选择操作的范围(extent)。激活操作就是把聚集操作后收集到的上下文信息,重新恢复到原来特征图的空间大小,然后与之进行相乘。

图 1:gather-excite操作对

3 模型和实验

探索和评估Gather-Excite框架的可能化身,即具体实现聚集和激活的几种可能。

3.1 无参数的聚集激活对

可以使用无参数的操作实现聚集-激活对(GE pairings)。聚集操作,利用不同步长的平均值池化(average pooling)实现。激活操作,利用resize,sigmoid和multiply实现,其中resize使用最近邻插值方法。将这种模型记作 G E θ GE-\theta^{-} 。在残差单元中,实现这些操作对,如图2所示。在空间范围对性能影响上,作者进行了实验,结果表明,范围越大,性能越好,如图3左边所示。

图 2:gather-excite模块
图 3:空间范围的影响

3.2 有参数的聚集激活对

可以使用有参数的操作实现聚集-激活对。聚集操作,使用带步长的逐层卷积(strided depth-wise convolution)实现。
在空间范围对性能影响上,作者进行了实验,结果表明,范围越大,性能越好,如图3右边所示,另外,有参数的模型比无参数的模型还要好
在不同阶段加入GE操作对性能影响上,作者进行了实验,结果表明,单独某层加入和全部层加入都对性能带来提升,并且,加入在中、后阶段对性能带来的提升更大,如果考虑计算成本,可以考虑不在阶段2加入,如表1所示。

表1:不同阶段的影响

SENet可被视为GENet的特定版本,SENet的聚集操作为无参数的全局平局值池化,激活操作为全连接子网络。SENet的聚集操作使用有参数的逐层卷积,激活操作将全连接替换为点卷积,改良后的SENet记作 G E θ + GE-\theta^{+} 。作者进行了实验,结果表明,改良后的 G E θ + GE-\theta^{+} 性能更好,超越ResNet-50-SE和 G E θ GE-\theta ,以三分之一的计算复杂度接近ResNet-152,如表2所示。

表2:SENet和GENet的比较

3.3 泛化

考虑更深的网络。如表3所示,ResNet-101加入GE后,超越ResNet-152和ResNet-152-SE。

表3:SENet和GENet的比较

考虑移动端卷积网络。如表4所示,虽然可以提升,但是参数量也上来了。因此,naive的GE实现不适合移动端卷积网络。

表4:ShuffleNet和ShuffleNet-GE的比较

考虑CIFAR-10和CIFAR-100数据集,在不同网络上进行了实验,GE都带来了提升,见原文Table 5。
考虑图像分类之外的任务,在物体检测上进行了实验,Faster R-CNN ResNet-50在MS COCO上的性能为27.3 mAP,GE版本的性能为28.6 mAP,提升了1.3。

4 分析和讨论

这部分,作者对GE进行了深入的研究。在学习到的表示、收敛性、特征重要性上进行了分析。

5 相关工作

围绕context的工作。

6 结论和未来工作

未来,在语义分割任务上研究GE操作。

[1] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks NIPS 2018 [paper] [code]
[2] Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 [paper]

猜你喜欢

转载自blog.csdn.net/dgyuanshaofeng/article/details/84179196