Object Proposal(OP)综述

目标检测(object detection),要求模型不仅能判断一幅输入图像中包含哪类目标,还得框出目标的具体位置(bounding box)。

为了实现上述要求,传统的方法是利用滑动窗口(Sliding Window)的方式,用不同尺度(scale)、比例(aspect ratio)的窗口在图像上滑动,穷举出所有可能位置上的子图像块。然后再将这些子图像块输入到目标识别(object recognition)模型中进行分类。这种方式数据量巨大,通常一幅图像需要分割成约10^6个子图像块……

相对于滑动窗口的方法,另一类就是OP方法。这类方法的基本思路就是在图像上找到一些潜在的目标,而不是穷举!然后将这些潜在的目标输入目标识别模型进行分类。

接下来本博主要整理了:

马克斯普朗克研究所(max planck institute)(网站在这儿),有一项叫What makes for effective detection proposals?的研究,综合分析了各种OP的性能表现!


OP方法一览(detection proposal methods):



OP方法的效果一览表:



各种OP方法的复现能力(Repeatability):

作者认为一个好的OP方法应该具有比较好的复现能力,也就是相似的图片中检索出来的object应该是具有一致性的。验证的方法是对PASCAL的图片做了各种扰动(如Figure 2),然后看是否还能检测出来相同的object的recall是多少,根据IoU的严格与否能够得到一条曲线,最后计算曲线下面积得到repeatability。


分析上图,作者认为Bing和EdgeBoxes俩算法的Repeatability更好。原因可能是这俩算法都使用了SVM。另外,作者还认为超像素(superpixels)的灵敏度对图像的扰动是一些OP算法复现能力下降的主要原因!

召回(Recall):


还是直接上结论:

  1. MCG, EdgeBox,SelectiveSearch, Rigor和Geodesic在不同proposal数目下表现都不错
  2. 如果只限制小于1000的proposal,MCG,endres和CPMC效果最好
  3. 如果一开始没有较好地定位好候选框的位置,随着IoU标准严格,recall会下降比较快的包括了Bing, Rahtu, Objectness和Edgeboxes。其中Bing下降尤为明显。
  4. 在AR这个标准下,MCG表现稳定;Endres和Edgeboxes在较少proposal时候表现比较好,当允许有较多的proposal时候,Rigor和SelectiveSearch的表现会比其他要好。
  5. PASCAL和ImageNet上,各个OP方法都是比较相似的,这说明了这些OP方法的泛化性能都不错。

各种OP方法在实际做detection任务时候的效果:


实际检测,就是在OP之后,将OP结果输入到detector中进行识别!作者使用了两个有名的detector:一个是LM-LLDA,另一个是R-CNN。作者用各种OP方法提取了1K个Proposal。


全文总结:

  1. 对于repeatability这个标准,目前的OP方法效果都一般。可能通过对噪声和扰动更加鲁棒的特征能够提高OP方法的repeatablilty。但是repeatability低不代表最后mAP就低,比如SelectiveSearch,所以最后还是看要应用场景。
  2. 如果OP方法定位越准确,那么对分类器帮助会越大。所以对于OP方法来说,IoU为0.5的recall不是一个好的标准。高recall但是定位不准确,会伤害到最后的mAP
  3. MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic是目前表现最好的5个方法,其中速度以EdgeBoxes和Geodesic为优。
  4. 目前的OP方法在VOC07和ImageNet的表现都差不多,说明它们都有着不错的泛化性能。
全文讨论:
  1. 如果计算能力上去了,OP还有用吗?作者认为如果运算性能允许的话,滑动窗口加上CNN等强分类器会有着更好的效果。
  2. 作者观察到在目前OP中使用的特征(比如object boundary和superpixel),不会在分类器中使用;然后OP方法中除了MultiBox之外就没有其他OP有使用CNN特征。作者期待会有工作能够结合下这两者的优势。
  3. 最后,作者对做了三点猜测:之后top down可能会在OP中起到更加重要的作用;以后OP和detector的联系会更加紧密;OP生成的segmentation mask会起到更加重要的作用



                </div>

目标检测(object detection),要求模型不仅能判断一幅输入图像中包含哪类目标,还得框出目标的具体位置(bounding box)。

为了实现上述要求,传统的方法是利用滑动窗口(Sliding Window)的方式,用不同尺度(scale)、比例(aspect ratio)的窗口在图像上滑动,穷举出所有可能位置上的子图像块。然后再将这些子图像块输入到目标识别(object recognition)模型中进行分类。这种方式数据量巨大,通常一幅图像需要分割成约10^6个子图像块……

相对于滑动窗口的方法,另一类就是OP方法。这类方法的基本思路就是在图像上找到一些潜在的目标,而不是穷举!然后将这些潜在的目标输入目标识别模型进行分类。

接下来本博主要整理了:

马克斯普朗克研究所(max planck institute)(网站在这儿),有一项叫What makes for effective detection proposals?的研究,综合分析了各种OP的性能表现!


OP方法一览(detection proposal methods):



OP方法的效果一览表:



各种OP方法的复现能力(Repeatability):

作者认为一个好的OP方法应该具有比较好的复现能力,也就是相似的图片中检索出来的object应该是具有一致性的。验证的方法是对PASCAL的图片做了各种扰动(如Figure 2),然后看是否还能检测出来相同的object的recall是多少,根据IoU的严格与否能够得到一条曲线,最后计算曲线下面积得到repeatability。


分析上图,作者认为Bing和EdgeBoxes俩算法的Repeatability更好。原因可能是这俩算法都使用了SVM。另外,作者还认为超像素(superpixels)的灵敏度对图像的扰动是一些OP算法复现能力下降的主要原因!

召回(Recall):


还是直接上结论:

  1. MCG, EdgeBox,SelectiveSearch, Rigor和Geodesic在不同proposal数目下表现都不错
  2. 如果只限制小于1000的proposal,MCG,endres和CPMC效果最好
  3. 如果一开始没有较好地定位好候选框的位置,随着IoU标准严格,recall会下降比较快的包括了Bing, Rahtu, Objectness和Edgeboxes。其中Bing下降尤为明显。
  4. 在AR这个标准下,MCG表现稳定;Endres和Edgeboxes在较少proposal时候表现比较好,当允许有较多的proposal时候,Rigor和SelectiveSearch的表现会比其他要好。
  5. PASCAL和ImageNet上,各个OP方法都是比较相似的,这说明了这些OP方法的泛化性能都不错。

各种OP方法在实际做detection任务时候的效果:


实际检测,就是在OP之后,将OP结果输入到detector中进行识别!作者使用了两个有名的detector:一个是LM-LLDA,另一个是R-CNN。作者用各种OP方法提取了1K个Proposal。


全文总结:

  1. 对于repeatability这个标准,目前的OP方法效果都一般。可能通过对噪声和扰动更加鲁棒的特征能够提高OP方法的repeatablilty。但是repeatability低不代表最后mAP就低,比如SelectiveSearch,所以最后还是看要应用场景。
  2. 如果OP方法定位越准确,那么对分类器帮助会越大。所以对于OP方法来说,IoU为0.5的recall不是一个好的标准。高recall但是定位不准确,会伤害到最后的mAP
  3. MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic是目前表现最好的5个方法,其中速度以EdgeBoxes和Geodesic为优。
  4. 目前的OP方法在VOC07和ImageNet的表现都差不多,说明它们都有着不错的泛化性能。
全文讨论:
  1. 如果计算能力上去了,OP还有用吗?作者认为如果运算性能允许的话,滑动窗口加上CNN等强分类器会有着更好的效果。
  2. 作者观察到在目前OP中使用的特征(比如object boundary和superpixel),不会在分类器中使用;然后OP方法中除了MultiBox之外就没有其他OP有使用CNN特征。作者期待会有工作能够结合下这两者的优势。
  3. 最后,作者对做了三点猜测:之后top down可能会在OP中起到更加重要的作用;以后OP和detector的联系会更加紧密;OP生成的segmentation mask会起到更加重要的作用



                </div>

猜你喜欢

转载自blog.csdn.net/jxy0123456789/article/details/79590388