NIPS2020-RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder

论文地址:https://arxiv.org/pdf/2010.15831.pdf
Github:暂无

在这里插入图片描述

Abstract:

现有的目标检测框架通常建立在目标/部分表征的单一形式上,即RetinaNet和Faster R-CNN中的anchor/proposal矩形框,FCOS和RepPoints中的中心点以及Corner-Net中的角点表示。尽管这些不同的表示形式通常会促使框架在不同方面表现良好,例如更好的分类或更好的定位,但是由于异构性或者通过不同表征提取到的非网格特征,通常很难将这些表示形式组合到单个框架中以充分利用每种优势。本文提出了一种基于注意力的解码器模块,与Transformer 中的模块类似,以端到端的方式将其他表示形式桥接到基于单个表示形式格式的典型目标检测器中。其他表示充当一组key实例,以增强原始检测器中的主要query表示特征。本文提出了用于有效计算解码器模块的新技术,包括key采样方法和共享位置嵌入方法。提出的模块称为桥接视觉表示(BVR)。它可以就地执行,并且我们证明了它在将其他表示形式桥接到流行的目标检测框架(包括RetinaNet,Faster R-CNN,FCOS和ATSS)方面具有广泛的有效性,其中AP的改进大约达到1.5〜3.0。特别是,我们将具有强大主干的最新框架改进了约2.0 AP,在COCO测试集中达到了52.7 AP。本文提出网络的名字称之为RelationNet ++

Introduction:

现有的目标检测方法使用的表征方式主要有anchor框和中心点/角点表示两种。通常,不同的表示方法通常会引导检测器在不同方面表现良好。 例如,边界框表示可以更好地与注释格式对齐以进行目标检测中心表示避免了anchor设计的需要,并且通常对小物体友好。 角点表示通常对于更精细的定位而言更为准确

因此,本文很自然地提出一个问题:是否可以将这些表示形式组合到一个框架中,以充分利用每种优势吗?在这里插入图片描述
为了解决这个问题,本文提出了一个类似于Transformer 的基于注意力的解码器模块,可以有效地建模异构特征之间的依赖关系。 将目标检测器中的主要表示形式,即anchor表征设置为query输入,而其他视觉表示形式,即中心点/角点表征则作为辅助keys,通过某些交互来增强query特征,其中考虑了外观和几何关系。

通常,所有特征图的点都可以充当角点/中心点的key实例,通常对于实际的注意力计算而言太多。 另外,成对的几何项是计算和内存消耗。 为了解决这些问题,本文还提出了两种新颖的技术,包括用于有效计算几何项的key采样方法和共享位置嵌入方法。 本文提出的模块称为桥接视觉表示(BVR)

上图说明了此模块在将中心和角点表示桥接到基于anchor的目标检测器中的应用。 中心和角点表示是增强anchor框特征的key实例,然后将增强的特征用于类别分类和边界框回归以生成检测结果。 该模块可以就地工作。 与原始物体检测器相比,主要变化是用于分类和回归的输入特征被增强的特征所替代,因此增强的检测器在很大程度上保持了其使用便利性。

因此,本文工作的最大创新点,就是利用了Transforms结构,将中心点/角点表征作为辅助的keys,anchor表征作为query输入,从而得到增强后的表征特征,充分利用了不同表征形式的优势。

Bridging Visual Representations:BVR

A.BVR

利用Transforms结构,具体来说,主表示充当query输入,辅助表示充当key输入。 注意力模块为主表示(queries)输出增强的功能,这些功能已桥接辅助表示(keys)中的信息。可以表示如下:
在这里插入图片描述
S()用来度量query和key之间的外观与几何相似度得到权重,T()将key的外观特征线性变换得到value特征,attention后的直接加在原始的query特征上。其中S()具体如下:
在这里插入图片描述
其中SA表示query和key特征之间的缩放点积计算的外观相似度,而SG表示通过应用较小的i和j之间相对位置上的网络,即余弦/正弦位置嵌入加2层MLP计算得到。如果query几何向量和key几何向量之间的维数不同(4-d边界框与2-d点),首先从边界框中提取一个2-d点,即中心或角点。本文采用了multi-head注意,其效果明显好于使用单head注意。 默认情况下使用的注意力head数为8。

B.BVR for RetinaNet
在这里插入图片描述

Experiments:

1. SOTA:在这里插入图片描述
2.Ablation Study && Complexity analysis:在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42096202/article/details/109715122
今日推荐