FoveaBox: Beyond Anchor-based Object Detector解读 (三)(完结)

Generating high-quality region proposals:(生成高质量的建议区域):(接续)

        将 分类目标 更改为 未知类 的头是最直接的方式,并能生成候选区域。我们将 建议的性能和区域建议网络 进行对比,并使用 不同数量的COCO minival集评估平均召回率(AR) ,如表(c)所示:

       

       令人惊讶的是,我们方法在所有的条件下都大大优于RPN 基准。具体而言,最高在100个区域建议中,FoveaBox获得了 53.0召回率,超过 RPN 8.5 分, 这证实了我们的模型在生成高质量区域建议的能力。

        跨模型深度和尺寸:下图 展示 FoveaBox 利用不同的骨干网络和输入分辨率。推理设置是恰好与RetinaNet相同,并且速度与相对应的基准相同。

如上图 所示, FoveaBox 一致地提高了 RetinaNet  基线的1--2点。当分析 小型  中型 大型物体的尺寸 的性能,我们注意到 提升来源于所有尺寸的物体。

4.2  主要的结果

     

          我们在上表中比较FoveaBox和对象中最先进的目标检测方法。我们所有模型的实例化都超过了以前最先进的模型的基准变体。在表中第一组的探测器是两阶段探测器,第二组是单阶段探测器,以及最后一组是   FoveaBox的探测器。在所有评估指标下, FoveaBox优于基于ResNet-101 骨干网下的所有单阶段探测器,也 包括最新的单阶段的CornerNet。FoveaBox也由于大多数两步探测器包括 FPN和Mask R-CNN。

        两步探测器依赖于区域子网络来进一步对稀疏区域进行分类。级联的R-CNN 将两阶段方案扩展到了多个阶段进一步提升确定区域。因为 FoveaBox 还可以通过改变模型的头到未知类方案生成去区域建议。我们相信它可以进一步提升两阶段探测器的性能,但不是本的重点。

5 .  对之前工作的讨论

         在结束前,我们调查了FoveaBox和以前作品之间的差异和关系。

         用于文本 检测的分数掩码:分数掩码技术已经广泛使用在文本检测的领域,这些工作通常是利用完全卷积神经网络去预测目标场景文字和四边形形状的存在。与场景文本检测相比,通用对象具有挑战,因为面临更多的遮挡、多类别预测和尺寸问题。单纯采用文本检测 的方法应用到通用的目标对象检测中得到较差的性能。

   锚盒的引用:它能同时预测可能存在感兴趣对象中心的位置以及相对应中心的比例和横纵比。如果(x,y )不是目标中心,则检测到的框不是最优框。Guided-Anchoring依靠中心点来提供最好的预测。相比较之下,FoveaBox预测每个前景位置的对象(上,下,左,右)边界,这更加健壮。

       FSAF(Feature selective anchor free module for single-shot object detection):与FoveaBox 同一时期的作品,它还尝试直接预测目标对象的边界。FoveaBox 和FASF之间的不同之处: (a) FASF依赖在线特征选择模块为每个实例和锚盒。然而在FoveaBox 特性尺寸的实例有相邻金字塔同时优化。   (b)为优化边界框,FSAF利用IoU-Loss 最大化预测框和真实图片。 (c):与FSAF 相比,FoveaBox 显示出更好的性能,如表所示:

CornerNet:CornerNet提出通过左上角和右下角的关键点来检测对象。CornerNet的关键步骤是识别哪些点是属于同一个实例和边界框,相反 实例类和边界框在FoveBox是联系在一起的。我们直接预测类和框,没有任何组的方案去分开实例。

6  结束语

      我们已经呈现FoveaBox用于通用对象检测。通过同时使用预测对象和相对应的边界框,FoveaBox没有使用候选框的对象检测提供一个纯净的解决方案。我们在标准的基准下解释有效性并报告大量的实验分析。

猜你喜欢

转载自blog.csdn.net/fg13821267836/article/details/91047855