FoveaBox: Beyond Anchor-based Object Detector解读 (三)(续)

3.5 优化

     FoveaBox 采用随机梯度下降训练。我们使用4个GPU的同步SG的,每个小批量共有8张图片(每个GPU 2 张 图片),除非另有说明,所有模型都被训练270k 次迭代,初始的学习率为0.005,然后在180时再除以10,再以  240K 迭代。使用 0.0001的权重衰减和 0.9 的 动量。除了标准水平图像的浮动外,我们还利用随机宽高抖动减少过拟合,当我们定义 R^{pos}R^{neg} 时我们设置\sigma 1 =0.3,\sigma 2 =0.4。R^{neg} 内的每个单元格都使用相对应的位置目标进行注释,进行边界框训练。

3.6 推理

         在 推理过程中,我们首先使用0.05的置信阈值来过滤地置信度值的预测部分。然后,我们从每个预测层中选择前100个得分框,接着,分别对每个类进行阈值为0.5的非极大值预测,最后,为每一张图片选择前100个得分预测。这个推理预测恰好与Detectron
的基线完全相同。虽然有更明智的方法去执行后处理,例如 bbox机制、Soft -NMS、测试时图像增强,为了保持简单和基线方法进行公平的对比,在这我们没有使用技巧。

(四) 实验

       我们在有挑战性的COCO基准测试的边界框检测轨迹上提供实验结果。对于训练,我们遵循常用的方法并使用COCO trainval35k 分割。我们通过评估mini分割来报告病变和敏感性研究。对于我们的实现结果。我们在test-dev 分割 报告COCO的AP值,这个分割没有公共的标签并需要使用评估服务器。

4.1  消融学习

       不同锚盒密度和FoveaBox:基于锚检测系统一个最重要的设计因素之一是他如何密集地覆盖地覆盖可能的图像框的空间。由于基于锚的探测器是使用固定的采样网格,在这些方法中实现高覆盖率的流行的方法是在每个空间位置使用多个锚盒去覆盖不同类型尺寸和横纵比的框。一个可能预期 :当我们连接 每个位置连接密集的锚盒 ,我们总能够获得好的性能。为了验证这个猜想,我们在 RetinaNet 每一个空间位置和每一级金字塔扩展一定数量的尺寸和纵横比的锚盒,包括每个位置单个方形锚盒达到每个位置12个。超过增加6--9个锚点不能显示出收获。性能饱和度的密度 意味着手工制作的超密度锚不具备优势。

          超密度的锚盒不仅增加了前景和背景的优化难度,也造成位置模糊的定义问题。对于每个空间输出位置,有A个锚点 其标签用地面真实值由IoU定义。在它们之中,一些锚盒被定义作为正样本,一些为负样本,但是他们能共享相同的输入功能。分类器不仅需要区分不用位置的样本还需要区分同一位置不同的锚点。

         对比之下,FoveaBox明确预测每个位置的目标并没有获得比基于最好锚盒模型的性能。如果目标的标签位于对象的边界框内,则定义它的标签。与基于锚盒的方案相比,FoveaBox有几大优势:

            A.  因为我们只预测每个位置的一个目标,因此输出空间已经减少到基于锚盒方法的1/4,其中A是每个位置的锚盒的数量。由于前景和背景的分类挑战已经缓和,因此求解器更容易优化模型。

            B . 没有模棱两可的问题,优化目标更直接。

            C. FoveaBox更灵活,因为我们不需要广泛设计来看到相对更好的选择。

        尺度分配分析 : 在公式     \eta   控制每个金字塔尺度分配范围。当  \eta  = \sqrt{2}   时, 对象比例被划分为重叠的区域,并且每个区间有相对应的特征金字塔预测。随着  \eta  的增加,每个 金字塔  都会 响应  更多的对象尺寸。表 2 显示了  \eta  对最终检测性能的影响。我们为所有其他实验设置了 \eta = 2 。

                            

        FoveaBox 对盒子分布更加健壮:与 传统的预定义锚盒的策略不同,FoveaBox的主要优势之一 是 对 边界框的强大的 预测。为了验证这一点,我们进行了两个实验来对比不同方法的定位性能。

         在第一个实验中,我们根据真实的 横纵比 将验证集中的框分为三组,其中N是数据集中的实例编号。我们在不同横纵比阈值下比较FoveaBox  和   RetinaNet ,如下图(b)所示

这  “ * ”  表示训练模型的横纵比抖动。当\mu 很低时,两种方法都能得到最佳的性能,虽然 FoveaBox 在你增加\mu 时也会降低性能,但是比基于锚的RetinaNet好的多。

        为了进一步验证不同方法边界框的鲁棒性,我们手动拉伸图片以及验证集中的注释,并测试不同探测器中的行为。下图

 显示在不同的\frac{h}{w} 拉伸阈值下的定位性能,在\frac{h}{w}=1 的评估标准下,两个探测器的性能差距比较小。随着拉伸阈值的增加,差距开始增大。具体来说,当\frac{h}{w} 拉伸3次时,FoveaBox 获得了21.3 AP,比RetinaNet^{*}  对手高3.7分。

      基于锚的方法依赖与锚框参考的框回归来生成最终边框。在实践中,回归器是被训练为正锚点,当预测更多任意形状的目标时,损害到通用性。在FoveaBox中,每个预测位置与特定参考形状是无关的,并且直接预测目标真实框。由于FoveaBox允许任意横纵比,因此它能够更好地捕捉那些极高或极宽的物体。

        每类的差异:

上图 显示了FoveaBox和 RetinaNet的每类的差异。两者具有ResNet-50-FPN骨干和800输入比例。纵轴表示等。 FoveaBox  显示大多数大多数类的改进,特别是对于边界框随意的类。对于牙刷 、叉子、运动球。

Generating high-quality region proposals:(生成高质量的建议区域):(待续)

猜你喜欢

转载自blog.csdn.net/fg13821267836/article/details/90765088