Relation Networks for Object Detection算法笔记

论文:Relation Networks for Object Detection
论文链接:https://arxiv.org/abs/1711.11575
代码链接:https://github.com/msracver/Relation-Networks-for-Object-Detection

这篇是CVPR2018的oral文章,通过引入object relation module来刻画object之间的关系,借助这样的attention来提升object detection的效果。

这篇文章的出发点在于目前大部分的目标检测(object detection)算法都是独立地检测图像中的object,但显然如果模型能学到object之间的关系显然对于检测效果提升会有帮助,因此这篇文章希望在检测过程中可以通过利用图像中object之间的相互关系或者叫图像内容(context)来优化检测效果,这种关系既包括相对位置关系也包括图像特征关系。显然,关于object的相对位置关系的利用是一个非常有意思的点,尤其是能够实现相对位置关系的attention非常不易,这也是这篇文章的吸引力。具体做法上借鉴了最近几年火热的attention机制(主要是attention is all you need这篇文章的思想)的启发,这篇文章提出一个模块(module):object relation module来描述object之间的关系,从而以attention的形式附加到原来的特征上最后进行回归和分类,另外这篇文章的一个亮点是同时将这种attention机制引入nms操作中,不仅实现了真正意义上的end-to-end训练,而且对于原本的检测网络也有提升。值得注意的是object relation module和网络结构的耦合度非常低,同时输出的维度和输入的维度相同,因此可以非常方便地插入到其他网络结构中,而且可以叠加插入。

在这篇文章中,object relation module主要放在两个全连接层后面和NMS模块,如Figure1中的红色虚线框所示。在Figure1中,作者将目前目标检测算法分为4步:1、特征提取主网络;2、得到ROI及特征(RPN网络就包含在其中);3、基于ROI做边框回归和object分类;4、NMS处理,去除重复框。从作者的分步情况和源码可以清晰地看出,这篇文章主要是基于Faster RCNN系列算法(Faster RCNN,FPN等)引入object relation module。
这里写图片描述

接下来介绍object relation module。因为这篇文章是借鉴了attention is all you need中的attention思想,因此先来了解下那篇文章中的主要公式。在attention is all you need这篇文章中介绍了一个基本的attention模块:scaled dot-product attention,如公式1所示。
这里写图片描述

接下来定义两个重要的变量。假设输入中有N个object,那么N个object的两种特征集合如下所示,fA是常规的图像特征(appearance feature),fG是位置特征(geometric feature)。这两种特征是后续算法的基础。
这里写图片描述

那么受公式1的启发,可以用公式2来刻画第n个object和所有object之间的关系特征(relation feature)。其中fAm表示第m个object的图像特征。Wv是一个线性变换操作,在代码中用1*1的卷积层实现。wmn是用来描述不同object之间的关系权重(relation weight),该变量通过后面的一系列公式可以得到。计算得到的关系特征fR将和原有的图像特征fA融合并传递给下一层网络,这就完成了attention过程。那么公式2和公式1有什么联系呢?简单讲,公式2中的WV对应公式1中的V,公式2中的wmn对应公式1中的softmax()
这里写图片描述

公式2中的wmn通过下面的公式3实现。从公式形式可以看出是一个归一化操作,因此在源码中也是通过softmax层实现(和公式1中的softmax操作对应),只不过对输入中的wG先做了一个log操作,然后将log(wG)+wA作为softmax的输入就能得到公式3。提前说一下该公式中的两个重要变量wG和wA分别表示object的位置特征权重(geometric weight)和object的图像特征权重(appearance weight),后面通过公式4和5分别得到。这里我直接用wG代替wGmn,用wA代替wAmn,一方面是因为实际代码实现中对这些变量的实现都是基于所有object统一得到,另一方面是书写简单。
这里写图片描述

公式4是计算公式3中的wA变量,也就是图像特征权重。在代码中,WKfA通过全连接层来实现,WK就是全连接层的参数,fA就是object特征;同理WQfA也是通过全连接层实现,WQ是全连接层参数。最后再做一个scale操作。
这里写图片描述

公式5是计算公式3中的wG变量,也就是位置特征权重。首先对fG做了坐标上的变换,如下面截图,主要进行尺度归一化和log操作,可以增加尺度不变性,不至于因为数值变化范围过大引起训练的发散。可以看出坐标变换公式和目标检测算法中的回归目标构造非常相似,最大的不同点在于对x和y做了log操作,原因在于这里要处理的xm与xn、ym与yn之间的距离要比目标检测算法中的距离远,因为目标检测算法中的距离是预测框和roi之间的距离,而这里是不同预测框(或者说是不同roi)之间的距离,因此加上log可以避免数值变化范围过大。EG操作主要是将4维的坐标信息embedding成高维的坐标信息(比如默认是64维),借鉴的是attention is all you need这篇文章的思想,主要由一些cosine函数和sine函数构成。接着,将WG和embedding特征相乘,这里WG也是通过全连接层实现的。最后的max操作类似relu层,主要目的在于对位置特征权重做一定的限制。wG的引入是本文和attention is all you need这篇文章较大的不同点。
这里写图片描述

fG的坐标变换公式:
这里写图片描述

在得到一个关系特征fR后,这篇文章最后的做法是融合多个(Nr个,默认是16)关系特征后再和图像特征fA做融合,如公式6所示。这里有个细节是关于关系特征的融合方式,这里采用的concat,主要原因在于计算量少,因为每个fR的通道维度是fA的1/Nr倍,concat后的维度和fA相同。假如用element-wise add的方式进行融合,那么每个fR的维度和fA都一样,这样的加法计算量太大。
这里写图片描述

综上,可以用下面的Algorithm 1来概括前面提到的公式算法,源码中的实现基本上和Algorithm 1相同,这在前面介绍公式的时候已经详细介绍了,这里就不再赘述。注意几个参数的默认值:dk默认是64,dg默认是64。
这里写图片描述

Figure2是用图表来描述Algorithm 1的算法过程。左图是整体上的attention模块和图像特征fA的融合;右图是attention模块的详细构建过程,和前面的公式2~5对应。
这里写图片描述

介绍完object relation module,接下来就是怎么应用在目标检测算法中了。Figure3是object relation module插入目标检测算法的示意图,左图是插入两个全连接层的情况,在全连接层之后会基于提取到的特征和roi的坐标构建attention,然后将attention加到特征中传递给下一个全连接层,再重复一次后就开始做框的坐标回归和分类。右图是插入NMS模块的情况,图像特征通过预测框得分的高低顺序和预测框特征的融合得到,然后将该融合特征与预测框坐标作为relation模块的输入得到attention结果,最后将NMS当作是一个二分类过程,并基于relation模块输出特征计算分类概率。
这里写图片描述

下面以object relation module插入全连接层为例,了解下这篇文章大致是怎么做的。首先是原有的全连接层形式如公式9所示:
这里写图片描述

这篇文章直接在每个全连接层后面接RM(relation module),输出的维度和输入维度一致,如公式10所示。RM右上角的r1和r2表示数量,源码中默认是1,因为RM不改变输入的维度,所以RM的数量可以任意添加。
这里写图片描述

介绍完relation module在检测模块(全连接层)的嵌入后,另一部分重要的内容是relation module在NMS模块的嵌入。

NMS的思想简单讲就是根据将和当前预测得分最高的框的IOU大于某个阈值的框过滤。因此这其实是一个二分类的问题,也就是针对每个ground truth,只有一个预测为该类的框是对的,其他预测为该类的框都是错的。具体实现参考前面的Figure3(b),其中s0是预测框的socre,这个socre对应公式9和10中最后一行的输出socre;s1是二分类的结果(1表示对的;0表示错的,要移除)。那么这个二分类怎么做呢?主要分成3步:1、先获取输入score的排序信息(index),然后对index做embedding,并将embedding后的index和图像特征(f)通过一些全连接层(维度从1024降为128)后进行融合,融合后的特征作为relation module的输入之一。2、预测框的坐标作为relation module的另一个输入,经过relation module后得到关系特征。3、关系特征经过一个线性变换(Figure3(b)中的Ws)后作为sigmoid的输入得到分类结果,这样就完成了预测框的二分类,且基于的特征引入了attention。

因此将NMS纳入end-to-end训练后,整体网络的损失函数不仅包含原来的坐标回归和分类损失函数,还包含NMS的二分类损失函数。

实验结果:
Table1主要做了3个验证:1、验证引入位置特征(geometric feature)的有效性(a);2、验证关系特征数量的影响(b);3、验证relation module在两个全连接层中的数量的影响(c)。
这里写图片描述

Table2主要是验证RM效果提升是否是因为参数量增加带来的。因此这里做了一些增加fc层、加宽fc层和增加residual结构的操作,最后表明效果的提升并非由于参数量提升带来。
这里写图片描述

Table5是关于在不同算法上引入FM的效果。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/u014380165/article/details/80779432