(few-shot detection)Review: One-shot Object Detection with Co-Attention and co-Excitation

DeepinScreenshot_select-area_20191203130423.png

Ref

1. 提出任务

给定一个没有在训练集中出现过的类别的图像补丁,目的是检测出与该类别相同的所有的实例。

假设查询的图像作为未见过的测试集中的的类的原型,任务是在新的目标图像中定位查询对象最可能出现的位置(检测出新的目标的位置)

2. 解决方案

首先,采用non-local 操作对query-target匹配对探索co-attention, 并生成ROI用于目标检测框;

第二,引入squeeze-and-co-excitation scheme可以适应性的调整feature的通道权重;

第三,设计一个**margin-based ranking loss ** , 学习一种度量方式用来预测ROI和query patch的相似度。

3. Model

概述:如图1所示,模型首先通过两个以Resnet-50为backbone的Siamese Network,分别学习得到Query的特征 Θ ( p ) \Theta (p) 和Target Image Θ ( I ) \Theta (I) 的特征;

其次为了解决query image和target image差别过大造成检测框质量差的问题,引入了non-local操作,采用如下公式分别得到non-local后的特征 F ( I ) , F ( p ) F(I), F(p) ;

DeepinScreenshot_select-area_20191203142228.png

由于传入RPN的是Non-Local Features,不仅仅包括了target Image I中的特征,也包括了I和query patch p的权重特征,因此RPN会生成跟query patch相似的ROI;

第三,在实验过程中,还发现 F ( I ) F ( p ) F(I)和F(p) 的通道数是相同的,所以可以考虑采用Squeeze-and-co-excitation方法探索两种features对应通道的关联。其中,Squeeze step对应图1右下角部分,采用GAP对特征进行总结;另外co-excitation部分作为 F ( I ) F ( p ) F(I)和F(p) 的桥梁调整通道的权重。SCE模块的计算过程如下:

DeepinScreenshot_select-area_20191203142950.png

最后,提出一个Proposal ranking loss; 由于proposal框的数量很多的时候,首先用前景背景缩减数量,抛弃背景框;然后采用 提出的 margin-based ranking loss作为度量方法获取与query patch最相关的proposal bounding boxes。 Loss的公式如下:

DeepinScreenshot_select-area_20191203143258.png

4. 实验结果

  • VOC上测试结果

    DeepinScreenshot_select-area_20191203143349.png

表中对部分刚体表现结果不好,同时部分见过的classes表现不如没讲过的classes
  • COCO数据集表现

    DeepinScreenshot_select-area_20191203143703.png

作者把COCO数据集按类别划为4份,类似K折验证的训练方式进行测试每个划分结果的表现
  • Ablation study

    DeepinScreenshot_select-area_20191203143948.png

发布了741 篇原创文章 · 获赞 185 · 访问量 30万+

猜你喜欢

转载自blog.csdn.net/Fire_to_cheat_/article/details/103539789