Relation Networks for Object Detection 论文理解

摘要

本文提出问题：现阶段基于深度学习的目标检测算法都是独立的检测图像中的目标，没有探索目标之间的关系并进行建模来提升目标检测的效果；
本文解决方法：提出object relation module，通过将目标之间的表征特征和集合特征进行交互来对目标之间的关系进行建模；
本文方法特点：轻量级的改动不需要额外的监督来学习，可以很便捷地嵌入现有目标检测网络中；在提升目标检测性能和bbox去重(NMS阶段)这两个阶段都很有效；证实了目标关系建模在基于CNN的目标检测方中的有效性；

现有目标检测算法(two stage)的基础单元：
- 图像特征生成：主要是卷积操作生成图像的特征；
- ROI特征提取：RPN+ROI pooling截取感兴趣区域并提取特征；
- 实例识别：独立地对每个proposal进行bbox回归以及class分类的操作；
- 检测目标后处理：使用启发式的手工的后处理操作NMS来移除重复的检测框；
object relation module是由NLP领域的attention module(attention is all your need思想)启发而来：
- 在具备attention module优势的同时有着与sequential relation modeling不同的并行处理数据的能力；
- module的输入输出维度没有改变，可以作为基本模块灵活嵌入任意框架中；
- instance recognition：在实例识别阶段实现了对所有对象的联合推理提升识别准确性；
- duplicate removal：由轻量级关系网络代替传统的NMS方法，能够端到端地学习目标检测器；
- 在基于CNN的目标检测领域探索了一个新的维度：同时对一组对象进行处理并利用其特征相互影响推理，不再是单独地对一个proposal进行识别；
- 作者提出object relation module不限于应用在目标检测领域，在计算机视觉领域有很大的扩展空间；

通过Attention is all you need中的Scaled Dot-Product Attention引出Attention机制的模块Relation Module： $v^{out}=softmax(\frac{qK^{t}}{\sqrt{d_k}})V$ ，通过这篇论文中的图来说明这个module的原始的含义：维度为 $d_k$ 的query $q$ 和key $K$ 点乘相加后除以 $\sqrt{d_k}$ 得到 $k$ 和 $q$ 的相似度，然后通过softmax计算后的结果作为矩阵 $V$ 的权重；

从上图可以看出有多个relation计算并行，公式(2)表示的就是每一个relation计算流程所做的具体操作，整体的relation module有 $N_r$ 个relations，由此可以分析出relation计算中 $W_V\cdot f_A^m$ 是对原特征的降维操作，维度为 $\frac{1}{N_r}$ 最后通过Concat操作融合特征然后和原始的特征 $f_A^{n}$ 相加得到relation特征；
在这里补充解释一下公式(5)中Geometric Feature部分的计算： $(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m-y_n|}{h_m}), log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}))^{T}$ ，由之前的分析可知首先要对两个目标的几何空间特征映射放到高维特征空间，为了使其特征具有平移旋转不变性特征，产生了一个4维的关联几何空间特征；(这是bbox回归目标函数的修改版本，它不仅仅对近距离的物体进行建模同时也对远距离的物体进行建模文中注脚补充内容)

论文在这部分首先总结了一下two stage目标检测方法的pipeline：Faster-RCNN、FPN、DCN
relation module作用域(1)：增强instance recognition阶段如图(a)
- 经过ROI Pooling后的proposal处理流程如图所示：

文中对比实验内容：是否使用几何空间特征；RM中的 $N_r$ 数量；RM的重复数次数；检测效果的提升是RM的作用还是多加了几层layer的作用；去重模块和NMS、SoftNMS的对比；端到端训练和分阶段训练的对比；
Relation Module加入network后在COCO数据集上对检测效果的提升：

本文实验证明RM的引入和独立学习目标的方法相比能够学习到一些目标间的关系信息，但是不清楚具体学习到什么内容，特别是多个目标重叠时，本文内容只是对relation module for object detection的初步探索；
RM的引入源于NLP的内容很好地运用了跨领域的知识这是一个亮点，(目前对NLP知识了解不多，知识跨度有待提高啊)；

##源代码学习

TODO