【论文学习】2018 CVPR 目标检测必读paper

1、Cascade R-CNN Delving into High Quality Object Detection.

Cascaded RCNN这篇文章的出发点非常有意思，是通过分析输入proposal和ground truth的IOU与检测模型采用的用于界定正负样本的IOU关系得到结论：当一个检测模型采用某个阈值（假设u=0.6）来界定正负样本时，那么当输入proposal的IOU在这个阈值（u=0.6）附近时，该检测模型比基于其他阈值训练的检测模型的效果要好。

2、Relation Networks for Object Detection

这篇文章的出发点在于目前大部分的目标检测（object detection）算法都是独立地检测图像中的object，但显然如果模型能学到object之间的关系显然对于检测效果提升会有帮助，因此这篇文章希望在检测过程中可以通过利用图像中object之间的相互关系或者叫图像内容（context）来优化检测效果，这种关系既包括相对位置关系也包括图像特征关系。这篇文章提出了object relation module来描述object之间的关系，从而以attention的形式附加到原来的特征上最后进行回归和分类。实验是针对two stage系列的目标检测算法而言，在ROI Pooling后的两个全连接层和NMS模块引入object relation module，如Figure1所示，因此做到了完整的end-to-end训练。

3、Single-Shot Refinement Neural Network for Object Detection

RefineDet的主要思想：一方面引入two stage类型的object detection算法中对box的由粗到细的回归思想（由粗到细回归其实就是先通过RPN网络得到粗粒度的box信息，然后再通过常规的回归支路进行进一步回归从而得到更加精确的框信息，这也是two stage类型的object detection算法效果优于one stage类型的一个重要原因）。另一方面引入类似FPN网络的特征融合操作用于检测网络，可以有效提高对小目标的检测效果，检测网络的框架还是SSD。

4、An Analysis of Scale Invariance in Object Detection – SNIP

这篇文章从数据集出发进行了非常详细的分析和实验对比，发现在COCO数据集中小目标占比要比ImageNet数据集大，这样在用ImageNt数据集的预训练模型时就会产生domain-shift问题，另外COCO数据集中的object尺寸变化范围非常大，即便采用multi-scale training的方式也很难训练一个检测器去cover所有scale的目标。因此，这篇文章针对前面提到的问题，提出一种新的训练模型的方式：Scale Normalization for Image Pyramids (SNIP)，该算法主要包含两个改进点：1、为了减少前面所提到的domain-shift，在梯度回传时只将和预训练模型所基于的训练数据尺寸相对应的ROI的梯度进行回传。2、借鉴了multi-scale training的思想，引入图像金字塔来处理数据集中不同尺寸的数据。