Object Proposal（OP）综述

目标检测（object detection），要求模型不仅能判断一幅输入图像中包含哪类目标，还得框出目标的具体位置（bounding box）。

为了实现上述要求，传统的方法是利用滑动窗口（Sliding Window）的方式，用不同尺度（scale）、比例（aspect ratio）的窗口在图像上滑动，穷举出所有可能位置上的子图像块。然后再将这些子图像块输入到目标识别（object recognition）模型中进行分类。这种方式数据量巨大，通常一幅图像需要分割成约10^6个子图像块……

相对于滑动窗口的方法，另一类就是OP方法。这类方法的基本思路就是在图像上找到一些潜在的目标，而不是穷举！然后将这些潜在的目标输入目标识别模型进行分类。

接下来本博主要整理了：

马克斯普朗克研究所（max planck institute）（网站在这儿），有一项叫What makes for effective detection proposals?的研究，综合分析了各种OP的性能表现！

OP方法一览（detection proposal methods）：

OP方法的效果一览表：

各种OP方法的复现能力（Repeatability）：

作者认为一个好的OP方法应该具有比较好的复现能力，也就是相似的图片中检索出来的object应该是具有一致性的。验证的方法是对PASCAL的图片做了各种扰动（如Figure 2），然后看是否还能检测出来相同的object的recall是多少，根据IoU的严格与否能够得到一条曲线，最后计算曲线下面积得到repeatability。

分析上图，作者认为Bing和EdgeBoxes俩算法的Repeatability更好。原因可能是这俩算法都使用了SVM。另外，作者还认为超像素（superpixels）的灵敏度对图像的扰动是一些OP算法复现能力下降的主要原因！

召回（Recall）：

还是直接上结论：

MCG， EdgeBox，SelectiveSearch, Rigor和Geodesic在不同proposal数目下表现都不错
如果只限制小于1000的proposal，MCG,endres和CPMC效果最好
如果一开始没有较好地定位好候选框的位置，随着IoU标准严格，recall会下降比较快的包括了Bing, Rahtu, Objectness和Edgeboxes。其中Bing下降尤为明显。
在AR这个标准下，MCG表现稳定；Endres和Edgeboxes在较少proposal时候表现比较好，当允许有较多的proposal时候，Rigor和SelectiveSearch的表现会比其他要好。
PASCAL和ImageNet上，各个OP方法都是比较相似的，这说明了这些OP方法的泛化性能都不错。

各种OP方法在实际做detection任务时候的效果：

实际检测，就是在OP之后，将OP结果输入到detector中进行识别！作者使用了两个有名的detector：一个是LM-LLDA，另一个是R-CNN。作者用各种OP方法提取了1K个Proposal。

全文总结：

对于repeatability这个标准，目前的OP方法效果都一般。可能通过对噪声和扰动更加鲁棒的特征能够提高OP方法的repeatablilty。但是repeatability低不代表最后mAP就低，比如SelectiveSearch，所以最后还是看要应用场景。
如果OP方法定位越准确，那么对分类器帮助会越大。所以对于OP方法来说，IoU为0.5的recall不是一个好的标准。高recall但是定位不准确，会伤害到最后的mAP
MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic是目前表现最好的5个方法，其中速度以EdgeBoxes和Geodesic为优。
目前的OP方法在VOC07和ImageNet的表现都差不多，说明它们都有着不错的泛化性能。

全文讨论：

如果计算能力上去了，OP还有用吗？作者认为如果运算性能允许的话，滑动窗口加上CNN等强分类器会有着更好的效果。
作者观察到在目前OP中使用的特征（比如object boundary和superpixel），不会在分类器中使用；然后OP方法中除了MultiBox之外就没有其他OP有使用CNN特征。作者期待会有工作能够结合下这两者的优势。
最后，作者对做了三点猜测：之后top down可能会在OP中起到更加重要的作用；以后OP和detector的联系会更加紧密；OP生成的segmentation mask会起到更加重要的作用

                </div>