《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记

参考代码:

1. 概述

导读:在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能,但是只通过top-down的FPN网络是很难去重建由于特征图的漂移(水平或是垂直方向运动)在经过pooling操作(pooling不具有平移不变性)带来结果相差很大的问题(特别针对小目标),而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释(卷积的平移不变形),进而会导致一些小目标定位性能降低。对此可以通过添加一个bottom-up的结构实现对特征图pooling经过操作之后带来的问题补偿,但是却需要消耗很多额外的资源。对此文章提出了残差特征金字塔(residual feature pyramid),通过深层和浅层特征的双向连接构建一个对大目标和小目标都高效且鲁棒的检测器。由于其中使用了残差连接,类比于ResNet文章的网络可以较容易地完成训练,该结构的移植性也很强,而且在添加更多网络层的时候其性能不会像传统FPN网络那样导致FPN带来的提升逐渐下降。

在检测网络中一般会使用FPN来增强网络的特征表达,但是FPN网路却对pooling操作(不具备平移不变性)对平移敏感性不足,这就导致其对于小目标就存在天然的劣势,一个解决办法是添加bottom-up的结构,但是这样会增加很多开销。对此文章通过在top-down的结构上添加一些增强语义特征的结构:残差特征金字塔和BFM模块,从而极大增强了网络语义信息的表达。

PS:这篇文章的方法在纸面上看起来很好,但是其实现的细节在文章中讲解的并不清楚,比如CORE模块中的reorganization operation具体是啥?BFM模块中的reshape操作怎么划分块儿的?这些都是值得考量的。而且文章存在较多前后矛盾的表达,不过文章整体可算作是从作者的角度去理解一下检测问题,或许对以后的工作有所启发也说不一定。

2. 方法设计

2.1 网络结构

FPN网络:
传统的FPN结构见下图所示:
在这里插入图片描述
在上图中由于没有添加bottom-up的结构,这就使得由于pooling操作(不具有平移不变性)带来的定位不准(特别是小目标问题无法得到补偿,但是添加之后不仅跑得慢还吃得多。

FPN+CORE:
由于小目标的检测的对位置更加敏感性,那么一个方法就是去融合浅层次的特征,对此可以在FPN的结构上添加一个CORE(concatenation和reorganization操作的组合)模块去传导不同level特征中的语义与局部信息,其结构见下图所示:
在这里插入图片描述
FPN+CORE+PURIFIED:
在上述结构的基础上还可以添加文章的purification模块,从而去生成更具语义信息的特征表达,见下图所示:
在这里插入图片描述

FPN+CORE+PURIFIED+RESIDUAL:
进而在上述结构的基础上给它添加残差模块,进一步去提升网络的信息表达能力和可训练属性,得到下图中的结构:
在这里插入图片描述

2.2 各个子模块

CORE模块:
文章的CORE模块适用于连接三个level层次特征的结构,其结构见下图所示:
在这里插入图片描述
purification模块:
该模块用于增强网络的特征表达能力,是由几个Bottleneck和卷积组成的,见下图所示:
在这里插入图片描述
其中的 D D D代表的是channel数。

残差模块的引入:
使用上文中提到的CORE和purification已经可以得到一个不错的特征金字塔网络,在此基础上文章引入残差结构,也就是通过残差连接不同特征level上的CORE单元,其总体上的结构如下图所示:
在这里插入图片描述
其具体的细节连接情况见下图所示:
在这里插入图片描述
BFM模块引入:
在网络中由于会使用pooling操作,这就会因为pooling不具有平移不变性导致在小目标上的表达并不是很好。其中对于pooling中存在的问题,使用下图可以很好地说明:
在这里插入图片描述
左上的是原输入,右边是对应去max-pooling之后的结果,但是当原输入发生了平移变换(x方向平移1格,y方向不动)呢,结果就变成了下方这个小图的结果。小目标本来就很小,这就使得对其的性能比较差,对此文章引入BFM模块,该模块的结构见下图所示:
在这里插入图片描述
按照对文章的理解,其通过reshape操作省掉pooling操作,之后与下一层级的特征进行concat之后经过1*1卷积融合。该模块对于性能的影响见表1所示:
在这里插入图片描述
进而在此基础上文章构建了一个bottom-up的网络结构,见下图所示:
在这里插入图片描述

3. 实验结果

ReCORE和BFM对性能的影响:
在这里插入图片描述
与其它网络的性能比较(MS COCO test-dev):

猜你喜欢

转载自blog.csdn.net/m_buddy/article/details/115312961