Cascade RCNN论文翻译

翻译仅为学习，如有侵权请联系我删除。
翻译不当之处请多多指教。

摘要
在目标检测中，需要一个交并比(IOU)阈值来定义物体正负标签。使用低IOU阈值(例如0.5)训练的目标检测器通常会产生噪声检测。然而，随着IOU阈值的增加，检测性能趋于下降。影响这一结果的主要因素有两个：1)训练过程中由于正样本呈指数级消失而导致的过度拟合；2)检测器为最优的IOU与输入假设的IOU之间的推断时间不匹配。针对这些问题，提出了一种多级目标检测体系结构-级联R-CNN.它由一系列随着IOU阈值的提高而训练的探测器组成，以便对接近的假阳性有更多的选择性。探测器是分阶段训练的，利用观察到的探测器输出是训练下一个高质量探测器的良好分布。逐步改进的假设的重采样保证了所有探测器都有一组等效尺寸的正的例子，从而减少了过拟合问题。同样的级联程序应用于推理，使假设与每个阶段的检测器质量之间能够更紧密地匹配。Cascade R-CNN的一个简单实现显示，在具有挑战性的COCO数据集上，它超过了所有的单模型对象检测器。实验还表明，Cascade R-CNN在检测器体系结构中具有广泛的适用性，独立于基线检测器强度获得了一致的增益。代码将在 https://github.com/zhaoweicai/case-rcnn 上提供。

1 简介
目标检测是一个复杂的问题，需要完成两个主要任务.首先，检测器必须解决识别问题，区分前景对象和背景，并为它们分配合适的对象类别标签。第二，检测器必须解决定位问题，为不同的对象分配精确的边界框(b-box)。这两种方法都是特别困难的，因为检测器面临许多“相似的”错误，对应于“相似但不正确”的边界框。检测器必须在消除这些相似假阳性的同时找到真阳性。

图片1、提高IOU阈值u的目标检测器的检测输出、定位和检测性能。

最近提出的许多目标检测器是基于两阶段R-cnn框架[12，11，27，21]，其中检测是一个结合分类和边界框回归的多任务学习问题。与目标识别不同的是，需要一个交并比(IOU)阈值来定义正/负。然而，通常使用的阈值u(通常u=0.5)对正项的要求相当宽松。产生的检测器经常产生噪声边界框（FP），如图1(A)所示。假设大多数人会经常考虑相似假阳性，通过IOU≥0.5测试。虽然在u=0.5准则下汇集的例子丰富多样，但它们使训练能够有效地拒绝相似假阳性的检测器变得困难。

在本工作中，我们将假设的质量定义为其与真值框的IOU，并将探测器的质量定义为用于训练它的IOU阈值。我们的目标是研究到目前为止学习高质量对象检测器的研究不足的问题，它的输出很少包含相似的假阳性，如图1(B)所示。其基本思想是，单个检测器只能是单个质量级别的最优检测器。这是众所周知的成本敏感的学习文献[7，24]，其中最优的不同点的接收操作特性(ROC)需要不同的损失函数。主要区别在于我们考虑的是给定IOU阈值的优化，而不是假阳性率。

图1©和(D)说明了这一想法，它们分别介绍了以IOU阈值u=0.5、0.6、0.7训练的三个探测器的定位和检测性能。定位性能被评估为输入提案的IOU的函数，检测性能是IOU阈值的函数，如COCO[20]。请注意，在图1©中，每个边界框回归器对于这些IOU接近于检测器训练阈值IOU的示例的性能最好。这也适用于检测性能，直到过度拟合。图1(D)显示，对于低IOU示例，u=0.5的检测器优于u=0.6的检测器，但在较高的IOU级别上表现不佳。一般来说，在单一IOU水平上优化的检测器并不一定是其他级别的最佳检测器。这些观察表明，高质量的检测要求检测器与其所处理的假设之间进行更密切的质量匹配。一般来说，只有在给出高质量的建议时，检测器才能具有高质量。

然而，为了制造出高质量的探测器，仅仅在训练中增加u是不够的。事实上，如图1(D)中u=0.7的检测器所见，这会降低检测性能。问题是，假设在提案检测器之外的分布通常是严重不平衡的低质量。一般来说，强迫较大的IOU阈值会导致阳性训练样本以指数方式减小。对于神经网络来说，这是一个特别大的问题，因为神经网络的例子非常密集，这使得“高u”训练策略很容易被过度适用。另一个困难是检测器的质量与推断的测试假设的质量不匹配。如图1所示，高质量的检测器必然是高质量假设的最佳选择。当要求他们研究其他质量水平的假设时，检测可能是次优的。

在本文中，我们提出了一种新的探测器结构，Cascade R-CNN，以解决这些问题.这是R-cnn的多阶段扩展，检测器的级联阶段越深，对相似假阳性就有更多的选择性。R-CNN级的级联是按顺序训练的，使用一个阶段的输出来训练下一个阶段。这是因为观察到回归器的输出IOU几乎总是优于输入IOU。这个观察可以在图1©中进行，其中所有的线都在灰色线之上。结果表明，用一定的IOU阈值训练的检测器的输出是训练下一次较高IOU阈值检测器的良好分布。这类似于在对象分析文献[31，8]中常用的用于组装数据集的引导方法[31，8]。主要的区别在于，Cascade R-CNN的重采样程序并不是为了挖掘硬负面。相反，通过调整边界框，每一阶段的目标是找到一组好的相似假阳性来训练下一阶段。当以这种方式操作时，适应于越来越高的IoU的一系列检测器可以克服过度拟合的问题，从而得到有效的训练。在推理时，采用相同的级联过程。逐步改进的假设在每个阶段都能更好地与不断提高的探测器质量相匹配。如图1©和(D)所示，这使检测精度更高。

级联R-CNN的实施和进行端到端训练是相当简单的。我们的结果表明，在具有挑战性的COCO检测任务[20]上，一个没有任何花哨的普通实现在很大程度上超过了所有以前的最先进的单模探测器，特别是在更高质量的评估指标下。此外，基于R-CNN框架的任何两级目标检测器都可以建立Cascade R-CNN。我们观察到了一致的增益(2∼4点)，在计算上略有增加。这种增益与基线目标检测器的强度无关。因此，我们相信，这种简单而有效的检测架构对于许多对象检测研究工作都是有意义的。

2 相关工作
由于R-cnn[12]体系结构的成功，通过将提议检测器和区域分类器结合起来的检测问题的两阶段公式在最近已经成为主流。为了减少R-CNN中多余的cnn计算量，SPP-net[15]和Fast-RCNN[11]引入了区域特征提取的思想，大大加快了整个检测器的速度。后来，Faster RCNN[27]通过引入区域提案网络(RPN)实现了进一步加速。该体系结构已成为一个领先的对象检测框架。最近的一些工作已经将它扩展到解决各种细节问题。例如，R-FCN[4]提出了有效的没有准确度损失的区域方向的完全卷积，以避免对Faster RCNN进行繁重的区域CNN计算；而MS-CNN[1]和FPN[21]则在多输出层检测提案，以缓解RPN接收字段与实际对象大小之间的规模不匹配，从而实现高召回建议检测。

或者，单阶段目标检测架构也变得流行起来，主要是因为它们的计算效率。这些体系结构接近经典的滑动窗口策略[31，8]。YOLO[26]通过转发输入图像来输出非常稀疏的检测结果，当使用高效的骨干网络实现时，它使实时目标检测具有公平的性能。SSD[23]以类似于RPN[27]的方式检测对象，但使用不同分辨率的多个特征映射在不同的尺度上覆盖对象。这些结构的主要限制是它们的精度通常低于两级探测器的精度。最近，RetinaNet[22]被提出来解决密集目标检测中的极端前景-背景类不平衡问题，取得了比最先进的两级目标检测器更好的结果。

在多阶段目标检测中的一些探索也已经被提出了。多区域检测器[9]引入了迭代边界框回归，其中多次应用R-CNN来产生更好的边界框，CRAFT[33]和AttractioNet[10]使用多级程序生成精确的建议，并将它们传递给FAST-RCNN。[19，25]在对象检测网络中嵌入了经典的[31]级联结构。[3]交替地迭代检测和分割任务，例如实例分割。

3 目标检测
在本文中，我们扩展了Faster RCNN[27，21]的两阶段体系结构，如图3(A)所示。第一阶段是一个提案子网络(H0)，应用于整个图像，产生初步的检测假设，被称为目标提案。在第二阶段，这些假设然后被一个感兴趣的区域检测子网络(H1)处理，表示为检测头。每个假设都有一个最终的分类分数(“C”)和一个边框(“B”)。我们专注于多阶段检测子网络的建模，并采用但不限于RPN[27]来进行提案检测。

3.1 边界框回归
边界框b=( $b_x$ ， $b_y$ ， $b_w$ ， $b_h$ )包含图像补丁x的四个坐标。包围框回归的任务是使用回归量f(x，b)将候选边界框b回归到目标边界框g中。这是从训练样本{ $g_i$ ， $b_i$ }中学习到的，以便将边框风险降到最低
在这里插入图片描述
其中， $L_{loc}$ 是R-CNN中的 $L_2$ 损失函数，但更新为Fast RCNN中的smoothed $L_1$ 损失函数。为了奖励尺度和位置的回归不变量， $L_{loc}$ 在距离向量 $\Delta$ =（ $\delta_x$ , $\delta_y$ , $\delta_w$ , $\delta_h$ )中的计算定义为
在这里插入图片描述
由于边界框回归通常对b进行较小的调整，所以(2)的数值可能很小。因此，(1)的风险通常比分类风险小得多。为了提高多任务学习的有效性，∆通常用均值和方差进行归一化，即用δx’=(δx−μx)/σx代替 $\delta_x$ ，这在文献[27，1，4，21，14]中得到了广泛的应用。
在这里插入图片描述
图片2、顺序∆分布(无归一化)在不同的级联阶段。增加IOU阈值时，红点是异常值，去除异常值后得到统计量。

一些著作[9，10，16]认为，f的一个回归步骤不足以精确定位。相反，f被迭代地应用，作为后处理步骤来改善边界框b
在这里插入图片描述
这被称为迭代边界框回归，表示为迭代BBOX。它可以用图3(B)的推断架构来实现，其中所有的头部都是相同的。然而，这种想法忽略了两个问题。首先，如图1所示，在u=0.5处训练的回归系数f对于较高的IOU假设是次优的。它实际上降解大于0.85的IOU的边界框。其次，如图2所示，在每次迭代之后，边界框的分布都会发生显着变化。虽然回归量对于初始分布是最优的，但在此之后，它可能是相当次优的。由于这些问题，迭代BBOX需要大量的人工工程，如提案积累、框选择等。[9，10，16]，有一些不可靠的收益。通常，使用超过两次f没有任何好处。

3.2 分类
分类器是一个函数h(x)，它将图像补丁x分配给M+1类中的一个，其中类0包含背景和剩余要检测的对象。h(x)是所有类后验分布的M+1维估计，即 $h_k$ (x)=p(y=k|x)，其中y是类标签。给定一个训练集（ $x_i$ ， $y_i$ ），它通过最小化分类风险来学习
在这里插入图片描述
其中 $L_{cls}$ 是经典的交叉熵损失。

图片3、不同框架的结构。"I"是输入图像，“conv”是骨干卷积，“pool”是区域特征提取，“H”是网络头部，“B”是边界框，“C"是分类，” $B_0$ “是所有结构的提议。

3.3 检测质量
由于边界框通常包括一个物体和一定数量的背景，因此很难确定检测是正的还是负的。这通常由IOU度量来解决。如果IOU高于阈值u，则该部分被视为类的一个示例。因此，假设x的类标号是u的函数，
在这里插入图片描述
其中 $g_y$ 是真值框g的类标签。IoU阈值u定义了检测器的质量。

对象检测具有挑战性，因为无论阈值大小，检测设置都是高度对抗性的。当u值较高时，阳性值包含的背景较少，但很难收集足够多的正面训练实例。当u值较低的时候，一个更丰富和更多样化的正训练集是可用的，但是经过训练的检测器没有什么动机拒绝相似的假阳性。一般来说，要求单个分类器在所有IOU级别上都表现良好是非常困难的。根据推论，由于提案检测器产生的大多数假设，例如RPN[27]或选择性搜索[30]，都具有低质量，因此检测器必须对质量较低的假设更具判断力。这些相互冲突的需求之间的一个标准折衷方案是以u=0.5为标准。然而，这是一个相对较低的阈值，导致大多数人认为是相似假阳性的低质量的检测，如图1(A)所示。

在这里插入图片描述
图片4、训练样例的IoU直方图。第一阶段的分布由RPN产生。红色的数字是IoU大于相应IoU的正例百分比。

NAı̈Ve解决方案是开发一组分类器，其结构如图3©所示，并以针对不同质量级别的损失为目标进行优化，
在这里插入图片描述
其中U是一组IoU阈值。这与[34]的积分损失密切相关，其中U={0.5，0.55，··，0.75}，旨在适应CoCO挑战的评价标准。根据定义，分类器需要在推理时集合起来。这一解决方案未能解决(6)的不同损失在不同数量的正数上工作的问题。如图4的第一个图所示，随着u的增加，正样本集合迅速减少。这是特别有问题的，因为高质量的分类器容易过度拟合。此外，这些高质量的分类器被要求在推理时处理压倒性低质量的提案，但它们并不是最优的。由于所有这些，(6)的集成在大多数质量级别上都无法达到更高的精度，而且该体系结构与图3(A)相比几乎没有什么好处。

4、Cascade R-CNN
在本节中，我们将介绍图3(D)中提出的Cascade R-CNN对象检测体系结构。

4.1 级联边界框回归
如图1©所示，很难要求单个回归者在所有质量级别上完美地一致执行。在级联姿态回归[6]和人脸对齐[2，32]的启发下，将难回归任务分解为一系列简单的步骤。在Cascade R-CNN中，它被描述为一个级联回归问题，其结构如图3(D)所示。这依赖于一系列专门的回归器
在这里插入图片描述
其中T是级联级的总数。请注意，对于到达相应阶段的样本分布{ $b^t$ }，对级联中的每个回归器 $f_t$ 进行了优化，而不是对{ $b^1$ }的初始分布进行优化。这种级联逐步改进了假设。

它在几个方面不同于图3(B)的迭代BBOX体系结构。首先，迭代BBOX是用于改进边界框的后处理过程，而级联回归是一种重采样过程，它改变了不同阶段要处理的假设的分布。第二，由于它既用于训练又用于推理，因此训练和推理分布之间没有差异。第三，针对不同阶段的重采样分布，对多个特殊回归器{ $f_T$ ， $f_{T-1}$ ，···， $f_1$ }进行了优化。这与(3)的单个 f 相反，后者仅对初始分布是最优的。与迭代BBOX相比，这些差异使定位更加精确，没有进一步的人类工程。

正如在第3.1节中所讨论的， $\Delta$ =（ $\delta_x$ , $\delta_y$ , $\delta_w$ , $\delta_h$ )在(2)中需要通过其均值和方差进行规范化，才能有效地进行多任务学习。在每个回归阶段之后，这些统计数据将按顺序演变，如图2所示。在训练时，相应的统计信息将用于在每个阶段规范∆。

4.2 级联检测
如图4左图所示，最初假设(如RPN提案)的分布严重倾向于低质量。这不可避免地导致了对高质量分类器的无效学习。Cascade R-CNN依靠级联回归作为重采样机制来解决这个问题.这是因为在图1©中，所有曲线都在对角灰色线之上，即为某个确切u值训练的边界框回归器倾向于产生较高的IOU边界框。因此，从一组示例( $x_i$ ， $b_i$ )开始，级联回归成功重采样出一个有高IoU的分布( ${x'}_i$ ， ${b'}_i$ )。这样，即使提高了探测器质量(IOU阈值)，也有可能使连续各阶段的一组正例保持在大致恒定的大小。这在图4中得到了说明，在每个重采样步骤之后，分布更倾向于高质量的示例。随后产生了两个后果。首先，没有过分恰当的情况，因为在所有级别上都有大量的例子。其次，针对较高的IOU阈值，对较深阶段的检测器进行了优化。请注意，一些异常值是通过增加IOU阈值来依次删除的，如图2所示，从而实现了经过更好训练的专用检测器序列。

在每个阶段t，R-cnn包括一个分类器 $h_t$ 和一个针对IOU阈值 $u_t$ 优化的回归器 $f_t$ ，其中 $u^t$ > $u^{t-1}$ 。这是通过最小化损失来保证的
在这里插入图片描述
其中 $b^t$ = $f_{t-1}$ ( $x^{t-1}$ ， $b^{t-1}$ ），g是 $x^t$ 对应的真值，λ=1是折中系数，[·]指示函数， $y^t$ 是 $x^t$ 的标号，通过（5）给出 $u^t$ 。与(6)的积分损失不同，这保证了一系列质量不断提高的有效训练的检测器。在推论中，假设的质量通过相同级联程序的应用依次得到改善，高质量的检测器只需要对高质量的假设进行操作。这可以实现高质量的对象检测，如图1©和(D)所示。

5、实验结果
Cascade R-CNN在MS-Coco2017[20]上进行了评估，其中包含用于培训的∼118 k图像、用于验证的5k图像和用于在没有提供注释的情况下进行测试的∼20k(test-dev)图像。CoCo风格的平均精度(AP)跨越IOU阈值的平均值为0.5至0.95，间隔为0.05。这些评价指标衡量各种质量的检测性能。所有模型均在COCO训练集上进行训练，并在Val集上进行评估。最后的结果也报告了test-dev集。

5.1 实现细节
对于简单性而言，所有的回归者都是类不可知的。级联R-CNN的所有级联检测阶段都具有相同的体系结构，是基线检测网络的核心。总之，Cascade R-CNN有四个阶段，一个RPN和三个检测U={0.5，0.6，0.7}，除非另有说明。第一检测阶段的取样如下[11，27]。在以下阶段，重采样是通过简单地使用前一阶段的回归输出来实现的，如第4.2节所示。除标准水平图像翻转外，不使用数据增强。推理是在单一的图像尺度上进行的，没有进一步的铃铛和哨声。所有基线探测器都用CAFFE[18]重新实现，在相同的代码基上进行公平比较。

5.1.1 基线网络
为了测试Cascade R-CNN的多功能性，对三个流行的基线检测器进行了实验：以VGG-Net为骨干的Faster RCNN[29]，以ResNet[16]为骨干的R-FCN[4]和FPN[21]。这些基线具有广泛的检测性能。除非提到，否则将使用它们的默认设置。用端到端训练代替多步训练。
在这里插入图片描述
图5、(A)单独训练的探测器的探测性能，以及它们自己的建议(实心曲线)或Cascade R-CNN阶段提案(虚线曲线)；和(B)通过在提案集中添加真值。

在这里插入图片描述
图6、所有Cascade R-CNN探测器在所有级联阶段的检测性能。

Faster RCNN: 网络头有两个完全连接的层。为了减少参数，我们使用[13]修剪不太重要的连接。每个完全连接的层保留了2048个单元，删除了dropout层。训练以0.002的学习速度开始，60k和90K迭代时减少10倍，在100 k迭代时停止，在2个同步GPU上，每个GPU每次迭代保存4幅图像。每幅图像使用128份ROI。

R-FCN: R-FCN为ResNet添加了一个卷积、一个边界框回归和一个分类层.所有级联R-CNN的头目都有这个结构。没有使用在线Hard negative mining[28]。训练开始时的学习率为0.003，在160 k和240 k迭代时下降了10倍，在280 k迭代时停止,在4个同步GPU上，每次迭代保持一幅图像。每幅图像使用256份ROIS。

FPN：由于还没有公开的FPN源代码，我们的实现细节可能会有所不同。RoIAlign[14]用于更强的基线。这被表示为FPN+，并被用于所有的消融研究。与往常一样，ResNet-50用于消融研究，ResNet-101用于最终检测.在8个同步GPU上，训练使用了120 k迭代的学习速率为0.005，在接下来的60k迭代中使用了0.0005，每个GPU每次迭代保存一幅图像。每幅图像使用256份ROIS。

在这里插入图片描述
图7、(A)局部化比较；(B)是积分损失检测器中单个分类器的检测性能。

5.2. 质量失配
图5(A)显示了三个单独训练的探测器增加IOU阈值U={0.5、0.6、0.7}的AP曲线。在低IOU水平下，u=0.5的检测器优于u=0.6的检测器，但在较高的水平上性能较差。然而，u=0.7的检测器性能不如其他两个。为了理解为什么会出现这种情况，我们在推论中改变了建议的质量。图5(B)显示了将真值框添加到提案集中时所获得的结果。虽然所有检测器都有所改进，但u=0.7的检测器收益最大，几乎在所有IOU级别上都取得了最佳性能。这些结果提出了两个结论。首先，u=0.5对于精确检测来说不是一个很好的选择，只是对低质量的方案更有鲁棒性。其次，高精度检测需要假设与检测器质量相匹配的假设，其次，原来的检测器方案被质量较高的Cascade R-CNN方案所取代(u=0.6和u=0.7，分别采用第二和第三阶段方案)。图5(A)还表明，当测试方案与检测器质量更接近时，两种检测器的性能都有了显著提高。

在所有级联阶段测试所有级联R-CNN探测器产生了类似的观测结果。图6显示，当使用更精确的假设时，每个探测器都得到了改进，而高质量的探测器具有更大的增益。例如，u=0.7的检测器对于第一阶段的低质量建议表现不佳，但对于在更深的级联阶段有更精确的假设则要好得多。此外，图6的联合训练检测器的性能优于单独训练的图5(A)检测器，即使使用了同样的建议。这表明探测器在Cascade R-CNN框架内得到了更好的训练。

5.3. 与迭代BBOX和积分损耗的比较
在这一部分中，我们比较了Cascade R-CNN与迭代BBOX和积分损耗检测器。迭代BBOX是通过迭代三次应用FPN+基线来实现的。积分损耗检测器具有与Cascade R-CNN相同的分类头数，U={0.5，0.6，0.7}。
在这里插入图片描述
表1、迭代BBox和积分损失的比较

表2、Cascade RCNN的阶段表现。1～3表示第三阶段提案中三个分类器的集合。

定位图7(a)比较了级联回归和迭代BBox的定位性能。当迭代中应用回归方程时，这种效应累积，如迭代Bbox中的，性能实际上下降。注意迭代BBox在3次迭代后的性能非常差。相反，级联回归器在后期具有更好的性能，在几乎所有IoU级别上都优于迭代BBox。

积分损失：图7(B)显示了共享一个回归器的积分损失检测器中所有分类器的检测性能。在所有IOU水平上，u=0.6的分类器最好，u=0.7的分类器最差。所有分类器的集合都没有明显的增益。

表1显示，迭代BBOX和积分损耗检测器都略微改进了基线检测器。Cascade R-CNN对所有的评估指标都有最好的性能。低IOU阈值的收益较小，而较高的IOU阈值则显著。

5.4. 消融实验
我们还进行了消融实验。

阶段比较：表2总结了阶段性能。由于多阶段多任务学习的优点，第一阶段的性能已经优于基线检测器。第二阶段大大提高性能，第三阶段相当于第二阶段。这与积分损耗检测器不同，后者较高的IOU分类器相对较弱。虽然前(后)阶段在低(高)IOU度量时更好，但所有分类器的集合总体上是最好的。

IoU 阈值：使用相同的IOU阈值u=0.5对所有头部进行了初步的级联R-CNN训练，在这种情况下，阶段只是在他们收到的假设不同。每个阶段都使用相应的假设进行训练，即计算图2的分布。表3的第一行显示，级联改进了基线检测器。这表明了为相应的样本分布优化阶段的重要性。第二行表明，通过增加级阈值u，可以使检测器对防止相似假阳性更具选择性，并专门用于更精确的假设，从而带来额外的增益。这论证了第4.2节的结论。
在这里插入图片描述表3、消融实验。”IoU↑”表示增大IoU阈值，“stat”运用了顺序回归统计。

表4、Cascade R-CNN阶段数的影响。

回归统计：利用图2中逐步更新的回归统计数据，有助于对分类和回归进行有效的多任务学习。它的好处是通过比较表3中有或没有它的模型来实现的。学习对这些统计数字不敏感。

阶段数量：表4总结了阶段数的影响。增加第二检测级显着地改进了基线检测器。三个检测阶段仍然产生非平凡的改善，但第四个阶段(u=0.75)的增加导致了轻微的性能下降。然而，请注意，虽然AP的整体性能下降，但对于高IOU级别，四阶段级联具有最佳的性能。三级级联实现了最佳的权衡。

5.5. 与最先进的检测器比较
基于FPN+和ResNet-101主干网的Cascade R-CNN与表5中最先进的单模型物体检测器进行了比较。这些设置如第5.1.1节所述，但总共运行了280 k的训练迭代，在160 k和240 k的迭代中，学习率下降了。Rois的数量也增加到512。表5中的第一组检测器为一级（one-stage）检测器，第二组为two-stage检测器，最后一组为多级检测器(3-stages+RPN的Cascade R-CNN)。所有比较的先进的探测器都是用u=0.5训练的。需要指出的是，我们的FPN+实现比最初的FPN[21]更好，提供了一个非常强大的基准。此外，从FPN+到Cascade R-CNN的扩展提高了∼4点的性能。在所有的评估指标下，Cascade R-cnn的性能也大大超过了所有单一型号的探测器。这包括2015年和2016年CoCo挑战赛获奖者的单模参赛作品(Faster R-CNN[16]和G-RMI[17])，以及最近Deformable R-FCN[5]、RetinaNet[22]和MASK R-CNN[14]。CoCO上最好的多级检测器，AttractioNet[10]，使用迭代BBOX来生成提案。虽然AttractioNet中使用了许多增强功能，但普通的Cascade R-CNN的性能仍然比它高7.1分。注意，与MASKR-CNN不同的是，在Cascade R-CNN中没有利用分段信息。最后，普通的单模级联R-cnn也超过了2015年和2016年获得CoCo挑战的重工设计集成探测器(AP 37.4和41.6)1。在这里插入图片描述
表5、与Coco Test-dev上最先进的单模探测器的比较。由“*”表示的词条在推理时使用铃铛和口哨。

表6、多个常用基线目标检测器的详细比较。在一个泰坦XP GPU上报告每幅图像的速度。

5.6. 泛化能力
表6比较了三种基线检测器的三级Cascade R-CNN。所有设置均如上，对5.5节的FPN+作了更改。

检测性能：同样，我们的实现比原来的检测器[27，4，21]更好。尽管如此，Cascade R-CNN在这些基线上持续改进2∼4点，独立于他们的力量。这些收益在Val和test-dev上也是一致的。这些结果表明Cascade R-CNN在检测器体系结构中具有广泛的应用前景。

参数和时间：Cascade R-CNN参数的数目随着级联级的数目而增加。基线探测器头参数的增加是线性的。此外，由于检测头的计算成本通常比RPN小，因此Cascade R-CNN的计算开销在训练和测试中都是很小的。

6、结论
本文提出了一种多级目标检测框架-Cascade R-CNN，用于设计高质量的目标检测器。该体系结构避免了训练中的过度拟合和推理时的质量不匹配等问题。Cascade R-CNN对具有挑战性的COCO数据集的可靠和一致的检测改进表明，为了推进目标检测，需要对各种并发因素进行建模和理解。Cascade R-CNN被证明适用于许多目标检测体系结构。我们相信，这对未来许多目标检测研究工作都是有用的。

致谢：我们要感谢何凯明的宝贵讨论。

Cascade RCNN论文翻译

猜你喜欢