目标检测论文阅读:Multi-scale Location-aware Kernel Representation for Object Detection(CVPR2018)

Multi-scale Location-aware Kernel Representation for Object Detection

论文链接:https://arxiv.org/abs/1804.00428

代码链接:https://github.com/Hwang64/MLKP

(如有解读不对,请望指出纠正)

论文思想来源:最近对具有挑战性的细粒度视觉分类的研究表明,与一阶分类相比,高阶统计表示可以捕获更多的判别信息同时获得更好的提升。

发现问题:近年来的分类方法表明,将高阶统计量集成到深度卷积神经网络中可以取得显著的改进,但是他们的目标是通过丢弃位置信息对整个图像进行建模,从而使其不能直接用于目标检测。因此作者萌生把高阶统计信息集成到基于深度学习的目标检测任务中的想法。尝试在目标检测中利用高阶统计信息,为生成更多的能判别表示的候选框从而提高目标检测器性能。

解决问题:作者提出了一个多尺度位置感知核(MLKP)模型,用于捕获proposals过程中深层特征的高阶统计信息。其中包括:

  • 提出了一种新颖的多尺度位置感知核表示(MLKP),首次尝试将object proposals的判别性高阶统计量结合到目标检测任务中。
  • MLKP是基于多项式核近似的,因此它可以有效地生成低维高阶表示。 此外,MLKP固有的位置记忆性和敏感性保证了它可以灵活地用于目标检测任务当中。
  • 除了高阶核表示,还引入了一个可训练的location-weight结构来度量不同位置的贡献,使我们的表示位置变得敏感。

模型架构

1、Multi-scale Feature Map

Faster R-CNN只是把backbone最后一层卷积层的特征图用作目标检测任务。而新的工作中表明,backbone中拥有高分辨率的靠前的卷积层的特征图有助于目标检测任务中检测小的目标。证明了通过结合不同卷积层的特征图可以提升目标检测的性能。

但本文不同的是,与上述多尺度策略有所不同,本文建议利用每个convolution block的多层特征图,如把convolution block4中的conv4_2层和conv4_3层进行concatenate(两特征图通道数合并),convolution block5中的conv5_2层和conv5_3层进行concatenate(两特征图通道数合并),然后再进行Multi—scale Feature Integration多尺度特征结合。

扫描二维码关注公众号,回复: 6482491 查看本文章

2、Location-aware Kernel Representation

最近挑战性的细粒度视觉分类任务的进展表明,将高阶表示与深度CNNs集成可以带来性能提升。然而,由于特征图的高维性和位置信息缺失,这些方法不能直接用于目标检测任务。因此,作者提出了一种位置感知多项式核表示来克服上述限制,并将高阶表示集成到目标检测中。

此外,部分feature map对于定位目标更有用,应该赋予它们更大的权重。为此,作者提出了一种位置感知表示,将位置权重集成到高阶核表示中。

最后把\chi的不同阶表示进行连接,连接成一个特征图作为最终的高阶多项式核表示。

 

实验

 1、比较不同卷积层特征图的融合对目标检测性能的影响:

2、比较不同阶数r和维度D^{r}在单尺度和多尺度特征图上的目标检测性能的影响:


3、在不同的特征图上位置感知权重对MLKP的影响:

4、不同算法之间的目标检测性能的比较:

 

 

猜你喜欢

转载自blog.csdn.net/weixin_39506322/article/details/85141523