【论文阅读】【2023CVPR】Optimal Proposal Learning for Deployable End-to-End Pedestrian Detection

Optimal Proposal Learning for Deployable End-to-End Pedestrian Detection

Abstract
1. Introduction
2. Related Work
3. Optimal Proposal Learning
4. Experiments
- 4.1. Comparisons with State-of-the-arts
- 4.2. Ablation Study on CrowdHuman
5. Conclusion

Abstract

端到端行人检测侧重于通过丢弃非最大抑制(NMS)后处理来训练行人检测模型。虽然已经探索了几种方法，但它们中的大多数都仍然存在更长的训练时间和更复杂的部署，无法部署在实际的工业应用中。在本文中，我们打算弥补这一差距，并提出了一个用于可部署端到端行人检测的最佳提议学习 (OPL) 框架。具体来说，我们通过使用基于 CNN 的光检测器并引入两个新的模块来实现这一目标，包括粗到细 (Coarse-to-Fine, C2F) 学习策略，通过减少训练/测试中样本分配/输出的模糊性，为 Ground-Truth (GT) 实例提出精确的正建议，以及一个 Completed Proposal Network (CPN) 来生成额外的信息补偿，以进一步召回行人难样本。本文在CrowdHuman、TJU-Ped和Caltech上进行了大量的实验，结果表明我们提出的OPL方法明显优于竞争方法。

Journal：2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)
论文地址：Optimal Proposal Learning for Deployable End-to-End Pedestrian Detection
会议日期：JUN 18-22, 2023
作者名称：Xiaolin Song, Binghui Chen, Pengyu Li, Jun-Yan He, Biao Wang, Yifeng Geng, Xuansong Xie, Honggang Zhang

1. Introduction

行人检测是一种流行的计算机视觉任务，已广泛应用于机器人[20]、智能监控[39]和自动驾驶[21]等许多应用中。它遵循传统的目标检测管道，专注于行人检测。为了提高行人的召回率，目前流行的行人检测器在测试过程中总是为Ground-Truth(GT)实例生成多个边界框(bbox)建议。然后使用非最大抑制(NMS)后处理技术通过去除重复的bbox来保证检测的最终精度。
然而，在现实世界的一些行人检测场景中，如城市中心、火车站、机场等，人群密度通常较高。由于使用单一的交并比(IoU)阈值对NMS进行了简单的重复去除，NMS在这些人群场景中往往表现不佳。例如，较低的阈值可能导致一些高度重叠的真阳性的漏检，而较高的阈值可能导致更多的假阳性。现有的一些工作尝试做了一些改进，如生成更紧凑的边界框[62,68]、软抑制策略[1]、通过额外模块[25]和动态抑制阈值[33]学习NMS功能。然而，这些工作仍然无法实现端到端培训和在实际工业应用中的简单部署。为此，一个简单的解决方案是通过丢弃NMS建立一个完全的端到端检测管道。PED[30]和[71]通过实现无nms的行人检测管道进行了一些尝试。它们都是基于查询的方法。虽然实现了更高的性能，但仍存在训练时间更长、部署更复杂和计算成本更大的问题，无法在工业应用中实际部署在资源有限的设备上。因此，获得一个“轻而甜蜜”的端到端行人检测器仍然很重要。
考虑到在实际工业应用中部署的可能性，在单阶段无锚点CNN-detector(如FCOS[60])上执行无NMS技术更具有实用性和吸引力，因为部署在资源有限的设备上更容易和高效，计算成本低，预处理/后处理少。为了实现这一目标，CNN-detector应该学会在正确的位置自适应地精确地产生真正的行人建议，以及避免重复。在一般的目标检测中，一些工作[53,55,61]提出在训练时将常用的一对多标签分配策略替换为一对一的标签分配。具体来说，对于每个GT实例，只有一个提案将被分配为正样本，而其他候选提案将被分配为负样本。
然而，该解决方案涉及以下两个挑战:1)较大实例的正面建议模糊问题。具体来说，对于相同的GT实例，理想生成的正提案应该比其他邻近的候选提案获得更高的置信度分数。然而，实际上，相邻候选区域的特征是相似的，因为它们通常共享同一实例的一些共同像素。分类分支很难找到一个紧凑的分类决策边界将它们分开。结果，这阻碍了模型的进一步优化，降低了输出建议的精度;2)对微小和遮挡的实例表示能力差。具体来说，行人的不同尺度和遮挡模式涉及到广泛的外观变化。不同外观的置信度输出很难保证彼此一致。小尺度或重度遮挡状态下的硬行人样本与简单样本相比难以获得较高的置信度分数。此外，一对一的标签分配只能为学习这些困难的实例提供较少的正训练样本，进一步增加了学习难度。
针对上述问题，提出一种可部署的端到端行人检测优化建议学习(Optimal Proposal Learning, OPL)框架。在OPL中，我们在基于CNN的检测器上建立了整体框架，然后为分类分支提出了一种由粗到细(C2F)的学习策略，以缓解歧义的积极建议的问题。具体来说，它主要是通过逐步减少分配给每个GT实例的平均正样本数量来实现的。C2F通过渐进细化边界，使分类分支有机会探索最佳分类决策边界。此外，为了缓解难实例表示能力差的问题，提出了一个完整的建议网络(CPN)。CPN用于对难检测的提案提供额外的信息补偿，使其有更多的被检测到的机会。因此，我们可以通过结合分类分支和CPN的输出来获得每个候选框的可靠置信度分数。主要贡献总结如下:

本文提出最优建议学习(OPL)框架，用于可部署的端到端行人检测。
设计了一种由粗到细(C2F)的学习策略，在训练过程中逐步减少分配给每个GT实例的正样本的平均数量。C2F旨在使模型有机会自适应地产生精确而无歧义的正样本。
本文提出了一个完整的建议网络(CPN)，可以自动为具有不同外观的硬样本提供额外的补偿。CPN主要用于进一步细化建议分数，以成功召回所有行人。

在CrowdHuman[49]、TJU-Ped[45]和Caltech[16]数据集上的实验结果验证了OPL算法的有效性。

2. Related Work

End-to-End Object Detection 端到端目标检测：最近，完全端到端管道成为通用目标检测的一种新趋势，其中NMS从管道中消除，检测结果直接输出，而不需要任何后处理。其中，RelationNet[26]模型通过构建对象关系模块来增强实例识别和学习去重。此外，DETR[8]首先利用流行的transformer架构对每个对象与全局图像上下文之间的关系进行建模，其中编码器将一组可学习的对象查询作为输入，解码器直接输出稀疏检测结果。然而，密集的信息交互方式导致计算复杂度高、收敛速度慢、对小尺度目标的处理性能较差。为了缓解这些问题，deformable DETR[77]将[8]中相对较大的注意力域限制在每个物体的一小组采样位置上。此外，DETR[8]的其他一些变种[14,19,57,72]也做出了一些显著的改进。为了完全摒弃密集方式，Sparse-RCNN[56]进行了进一步的探索。它利用一个小的可学习建议集来取代RPN[48]中密集的候选锚框。此外，通过构造动态头部，实现了提议框与对应提议特征的交互。上述方法通常可以称为基于查询的方法。此外，在考虑工业应用的效率需求时，构建一个更简单的、没有任何启发式自注意力模块的端到端目标检测器成为一个紧迫的问题。为了解决这个问题，OneNet[55]和DeFCN[61]提供了类似的解决方案，其中单阶段检测器中传统的一对多标签分配策略被一对一版本取代。虽然已被验证是有效的，但由于每个GT只分配一个正训练样本，通常会由于一些模糊样本而使分类分支混淆。为了解决这种困境，DeFCN[61]提出了基于一对多标签分配和3DMF模块的辅助损失来促进训练。这些端到端的检测器在一般的目标检测中取得了巨大的成功，但没有更多地考虑拥挤情况，即行人检测。
End-to-End Pedestrian Detection 端到端行人检测：近年来行人检测取得了快速的进展[2,7,22,23,34,35,50,51,70]。最先进的工作集中在遮挡处理[9,10,17,18,36,38,40-42,44,46,52,54,59,63,64,69,73-75]。它们几乎都利用NMS作为后处理模块来去除重复的行人建议。然而，当网络拥挤密度较高时，NMS的性能往往较差。现有的许多工作[27,33,37,43,47,58,62,68,76]对拥挤场景下的行人检测进行了一些探索。ORCNN[68]和斥力损失[62]建议通过在损失函数中引入额外的惩罚项来生成更紧凑的检测，从而缓解NMS的困境。为了提供删除重复的额外线索，预测可见框[27]和头部框[12,13]可作为额外线索。自适应NMS[33]根据相应的预测人群密度动态调整不同区域的NMS阈值。虽然已经实现了潜在的性能改进，但这些方法仍然是NMS，这禁止了检测管道进行端到端训练。为了从根本上解决拥挤场景中的挑战，消除NMS并构建端到端的行人检测器是未来的发展趋势。一些现有的工作[30,71]在通用目标检测中基于查询的检测器的主题上做了一些努力。为了提高其在行人检测任务上的性能，PED[30]针对核心模块提出了几种改进方案，并[71]设计了一种渐进预测方法。然而，他们的管道是启发式的，并受到基于查询方法的缺点的影响，这不是实际工业部署的最佳选择。基于SOTA单级检测器FCOS[60]建立了一种最优建议学习(Optimal Proposal Learning, OPL)流程，该流程与DeSL[11]一样易于在工业中部署。实验结果表明，可部署的高性能、高效的端到端行人检测是可行的。

3. Optimal Proposal Learning

本文提出了一种最优建议学习(OPL)流水线来解决端到端的行人检测问题。在FCOS[60]检测器的基础上建立了流水线，FCOS[60]检测器是一种应用广泛的单级无锚点检测器。
图1：提出的最优提案学习(OPL)框架示意图。

图1：提出的最优提案学习(OPL)框架示意图。在 OPL 中，我们提出了两个模块，即粗到细 (C2F) 学习策略和完成提议网络 (CPN)，它们共同处理了具有挑战性的无 NMS 问题。如 C2F 的玩具示例所示，其中正负训练样本分别用红色和蓝色点表示，为了使分类分支只为 GT 实例提出单个最终正输出，我们建议逐步减少分配给该 GT 实例的正样本的训练数量。通过这样做，模型将自适应地细化分类决策边界以学习并输出精确的提议，从而减少训练和测试阶段的歧义问题。此外，在CPN模块中，我们建议引入额外响应补偿的利用，使检测器有机会回忆更多的硬实例。然后，C2F 和 CPN 的输出由 hadamard 乘积组合，作为更可靠的分类分数。

3.1. Overview

本文通过联合优化大多数成熟的单阶段检测器中的分类和边界框回归子任务，将行人检测建模为定位一组行人的多任务学习问题。对于H × W × 3的输入图像，预测是大小为N × 1的置信度分数和大小为N × 4的位置坐标，其中N表示预测b框的总数。
如图1所示，整个检测管道包含两个部分:一个是带有FPN[31]的骨干网络(如ResNet-50[24])，从多个金字塔层次提取多尺度特征图;一个是具有三个独立分支的检测头，生成最终的检测结果。为了效率，来自所有级别的特征映射共享相同的检测头。共享检测头由回归分支、完整建议网络(CPN)和分类分支三部分组成。FCOS中原始的回归和分类分支具有相同的架构，即fourconv。层之后是一个额外的卷积层，用于最终检测结果。为清楚起见，我们将前四个卷积层称为分类或回归子网。在本文中，回归分支与FCOS相同。提出了一种由粗到细(C2F)的学习策略，特别是针对分类分支，其中最终的卷积层被C2F模块取代。建议的C2F和CPN的细节将分别在第3.2节和第3.3节中描述。以图像I作为输入，具有FPN的骨干网络以不同的分辨率输出多尺度特征图 $\Phi(I)$ 。给定 $\Phi(I)$ ，可以得到检测结果’ $\text{Dets}$ '： $\text{Dets}=\mathcal H(\Phi(I))=\{\mathcal B,\mathcal S\}$ ，其中生成的{B, S}表示最终检测到的边界框B和相应分数S的集合。 $\text H(·)$ 表示所有特征图的共享检测头。在流水线中，H(·)包含三个元素，即 $\text{Reg}(·)$ 、 $\text{Cls}(·)$ 和 $\text{CPN}(·)$ ，分别表示回归分支、分类分支和所提出的CPN。它们可以表述为： $\text{Reg}(\Phi(I))=\{\mathcal B,f_{reg}\},\text{Cls}(\Phi(I))=\{S_{cls},f_{cls}\},$ $\text{CPN}(f_{cls},f_{reg})=S_{cpn},S=S_{cls} \cdot S_{cpn}$ 按照FCOS，我们将特征图中的所有位置视为训练样本。每个训练样本将根据标签分配策略被标记为正或负。OPL管道可以通过优化以下损失函数进行完全端到端训练: $L=L_{reg}(\mathcal B)+L_{cls}(\mathcal S)+L_{c2f}$ 其中 $L_{reg}$ 为IoU损失； $L_{cls}$ 是focal loss[32]，其中类标签是通过[61]所示的一对一标签分配策略生成的； $L_{c2f}$ 是C2F策略中使用的损失，将在3.2节中介绍。

3.2. Coarse-to-Fine Learning

图 2. (a) 一对一分类的不同学习策略检测示例，(b) 粗到细 (C2F) 学习管道示意图，( c ) C2F 中基本分类块的架构

扫描二维码关注公众号，回复： 17274757 查看本文章

( a ) 一对一分类的不同学习策略检测示例。绿色实心框和小数表示检测到的边界框和相应的置信度分数。红色圆圈表示不正确的检测。给出了分数大于 0.1 的框。
( b ) 粗到细 (C2F) 学习管道示意图。“One-to-Mi”（Mi > 0）标签分配策略平均为每个 GT 实例分配 Mi 个正样本。我们维护 Mi−1 > Mi(i = 1, 2,., n) 用于渐进式特征学习。
( c ) C2F 中基本分类块的架构。分类损失是焦点损失[32]。

分类子任务旨在找到一个决策边界来区分行人样本和其他背景样本。主要的挑战来自遮挡、人群密度、不同的衣服等。如果NMS从检测管道中被丢弃，该挑战将进一步升级，因为分类分支成为从众多接近的候选方案中区分单个积极建议的唯一来源。这种新的挑战可以描述为一对一的分类，即一个实例一个提案。具体而言，在GT实例的局部区域中，只有一个正提案有望获得较高的置信度分数，而其他候选提案的置信度分数相对较低。为此，一般目标检测中常用的方法[55,61]是将传统的一对多标签分配策略替换为一对一的对应策略，这样模型就可以以更严格的分类目标进行训练。然而，由于基于CNN的模型容易为邻近的候选区域提取相似的外观特征，特别是在同一行人的显著身体部位，因此无法从根本上解决问题。也就是说，一对一的分类目标与CNN的特性存在冲突。因此，无论是否使用这种一对一的标签分配策略，仍然会生成许多重复/模糊的建议框。例如，如图2(a)左侧所示，复制的邻近边界框会产生较高的分数。这些高置信度的误报会影响最终的检测精度。然后提出辅助损失[61]，通过分别学习一对多目标和一对一目标，试图帮助模型缓解样本学习的模糊性。但是，它仍然在一定程度上无法产生精确的b框，如图2(a)中中间一栏所示，这是因为一对多和一对一的优化组合过于直接，无法指导模型学习无歧义的知识。
针对上述问题，需要探索更有效的学习策略来引导模型朝着严格的分类目标前进。受流行的"由粗到细"思想的启发，本文试图通过逐步分类边界细化来学习"由粗到细"的特征表示。我们在图1中展示了一个玩具模型来说明我们的想法。首先，通过分配大量正样本来放松标签分配，从而为模型学习到粗糙但丰富的特征提供充分的监督;在此基础上，进一步逐步收紧赋值规则。这样分类器就有更多的机会探索最佳决策边界。在此过程中，学习到的特征越来越精细，最终的决策边界越来越清晰，也越来越容易被发现。具体来说，序列渐进学习策略可以保持最优优化方向，因为任何偏差都会被下一个更严格的分类目标纠正。如图2(a)右侧所示，对于相应的高分GT实例只产生一个边界框。我们将这种学习方法称为从粗到细(C2F)学习策略。
我们基于多个堆叠的分类块实现C2F管道，如图2(b)所示。首先定义一个基本分类块，由两个卷积层组成，如图2( c )所示。上面的卷积层连接相邻的块，下面的卷积层为所有由分类损失监督的建议生成置信度分数。第1-st步的分类块以分类子网的输出作为输入。对于第i步中的分类块，我们采用“一对多的 $M_i$ ” $M_i >0)$ 标签分配策略，即根据该块的分类预测质量和回归分支的定位预测质量平均分配一个GT实例的 $M_i$ 正样本。第i个分类块可以优化如下： $L_i=\frac{1}{N_{pos,i}}\sum_{x,y}L_{cls}(s_{x,y,i},c_{x,y,i}^*)$ 其中 $L_{cls}$ 为[32]局灶性损失。对于每个位置(x, y)， $s_{x,y,i}$ 表示第i个分类块预测的置信度分数， $c_{x,y,i}^*$ 是由“一对多”规则分配的相应的类标签。如果位置 $(x, y)$ 是正样本，则 $c_{x,y,i}^*=1$ ，否则 $c_{x,y,i}^*=0$ 。Npos，表示第i个分类块中正样本的总数。对特征图上的所有位置计算求和。请注意，只有最后一个分类块预测的分数参与推理。
一个大的互信息可以为相对粗糙的特征学习引入更充分的正训练样本，而一个小的互信息可以产生高质量的正样本，用于特征细化。为了实现逐步细化，我们保持 $M_{i-1}>M_i(i = 1,2，…， n)$ 。随着特征通过n个分类块，且标签分配越来越严格，网络可以逐步找到一个满足训练目标的分类边界，即一对一分类。那么C2F模块的整体损失函数如下: $L_{c2f}=\sum_{i=1}^n L_i$

3.3. Completed Proposal Network

图3， ( a ) 不同设置下的检测示例。 ( b ) 完整提案网络 (CPN) 示意图。 ( c ) CPN 中多尺度特征增强 (MSFE) 的架构。

( a ) 不同设置下的检测示例。绿色实心框和小数表示检测到的边界框和相应的置信度分数。红色圆圈表示不正确的检测。给出了分数大于 0.1 的框（分数低于 0.1 可以被视为遗漏实例。）。'FP' 表示假阳性样本。“硬”是指被遮挡或具有小尺度的硬例子。“一对一”表示一对一分类的目标。
( b ) 完整提案网络 (CPN) 示意图。
( c ) CPN 中多尺度特征增强 (MSFE) 的架构。

C2F试图探索一种更好的分类决策边界。而分类分支的学习机制本质上使其更关注行人显著的人体部位，从而学习到具有判别性的特征。同时，由于某些难解实例的关键部分被遮挡，可能会被忽略。此外，一些小尺度的实例没有足够的分辨率来获得独特的表示。因此，该模型对微小且被遮挡的困难实例的表示能力较差。此外，在一对一的标签分配方式下，由于正样本较少，该问题会进一步恶化。例如，如图3(a)的左图所示，最左边的难样本得到的置信度分数比右边的容易样本的置信度分数低得多(低于0.1)。
为解决这个问题，建立了一个完整的建议网络(CPN)，为各种难度级别的实例生成更鲁棒和无偏的表示，并进一步促进一对一的分类任务。为了充分利用提取的信息，CPN同时将分类分支和回归分支的特征作为输入。分类特征( $f_{cls}$ )侧重于行人中区分性强的部分，回归特征( $f_{reg}$ )侧重于行人边界的整体定位。两个具有不同训练目标的特征流从不同角度提供了丰富的信息，可以帮助CPN学习到更鲁棒的表示。图3(b)描绘了CPN的整个流水线，其中包含三个流，即F1, F2和F3。
有了fcls和freg，这三个流以不同的方式处理它们。 $F_1$ 是一个没有任何额外操作的剩余流。它确保所有提案都有机会参与端到端的优化过程，从而避免过拟合问题。 $F_1$ 可以表示为: $F_1=C(f_{cls},f_{reg})$ 其中 $C (\cdot)$ 表示拼接操作。
此外，为了召回更多的困难实例，构建了 $F_2$ ，利用局部最大值来增强局部区域的区分性，这是通过一个新的模块实现的，即多尺度特征增强( $\text{MSFE}$ )。如图3( c)所示，MSFE将相邻特征层的特征集合起来，通过双线性插值操作将其分辨率变换到与当前特征层相同的分辨率。然后，这些特征被传递到3d最大池化层。该方法通过搜索相邻层附近区域的最大值来更新每个位置的值。因此，错过的硬提案的响应可能会增加，因为它们的价值可能被高响应的良好学习的价值所取代。这个过程可以表述为： $F_2=\text{MSFE}(\text{Conv}(C(f_{cls},f_{reg})))$ 尽管 $F_2$ 可以对硬样本提供一定的响应补偿，但它可能带来以下两个问题：
1)噪声传播。局部最大值并不总是可靠的，特别是在早期训练阶段。他们相应的建议可能是异常值，假阳性，可以被视为噪声。 $F_2$ 可能会加剧误差，因为它将它们转移到其他建议中。
2)缺少困难提案的梯度。硬建议可能会失去参与进一步优化的机会，因为在反向传播过程中，它基本上已经被其他样本取代。我们在图3(a)的中间栏中展示了一个检测示例来说明这个问题，其中产生了一些假阳性，仍然遗漏了一些困难的示例。为了解决上述问题， $F_3$ 提供了一个额外的路径，特别是针对难样本。我们提到过，分类特征偏向于显著的人体部位。此外，回归特征会偏向于较大的样本，因为大样本的训练目标(即来自四个边界的偏移量)相对于小样本更大。受此启发，本文试图在 $f_{reg}$ 上应用一个否定函数来逆转它，以便小实例可以获得比大实例更高的响应。而背景像素也会得到较高的响应，因此引入分类特征来缓解背景的不良影响。将得到的特征传递给 $\text{MSFE}$ ，以进一步增强局部特征。 $F_3$ 可以捕获硬样本，并对其进行额外的增强。这个过程可以表述为： $f_1=C(f_{cls},f_{reg}),f_2=\sigma(\text{Conv}(C(\text{Neg()}))))$ $F_3=\text{MSFE}(f_1 · f_2)$

其中 $\sigma(·)$ 是 Sigmoid 函数， $\text{Neg}(·)$ 是否定函数。最后，CPN 的输出分数可以通过以下方式获得： $S_{cpn}=\sigma(\text{Conv}(\text{ReLU}(\text{GN}(F_1+F_2+F_3))))$
其中，三个流通过元素相加和几个额外操作(即分组归一化、ReLU函数、 $co n v$ 层和Sigmoid函数)组合起来，以得到所有建议的最终得分，这些分数作为一对一分类的辅助分数。通过这种方法，我们可以得到如图3(a)第三列所示的理想检测结果。

4. Experiments

Datasets 数据集：本文在三个最大的行人检测数据集上评估了所提出方法，即CrowdHuman [49]， TJU-Ped[45]和Caltech[16]。CrowdHuman是一个具有挑战性的数据集，每张图像约有23人，涉及各种复杂和拥挤的场景。它包含15000张训练图像和4370张验证图像。TJU-Ped是最近发布的一个多样化的高分辨率数据集，包括两个集合，即TJU-Ped-campus(55,088张图像，329,623个实例)和TJU-Ped-traffic(20,338张图像，43,618个实例)。Caltech是一个流行的数据集，有大约10小时的视频，其中训练集和测试集分别包含42,782和4,024张图像。
Evaluation Settings 评估设置：根据行人检测的文献，我们将mMR作为主要的评估指标，它是每幅图像误报(False positive Per Image, FPPI)的对数平均缺失率，范围为[10−2100]。mMR越低越好。在一些实验中，平均精度(AP)和召回率(Recall)作为参考。利用一些子集进行评价，即可见度为[0.65,1]的合理集R 、高度为[50,75]、可见度为[0.65,1]的合理小集(RS)、可见度为[0.2,0.65]的合理重遮挡集(HO)、R+HO和所有集(A)。除RS外，所有子集都包含高度大于50的行人。在所有表中，最好的结果都以粗体显示。
Training Details 训练细节：除非另有说明，我们的默认骨干网是在ImageNet[15]上预训练的ResNet-50[24]。对于CrowdHuman和Caltech的实验，我们使用4个GPU (Tesla-V100)，每个GPU有2个图像。对于TJU-Ped，我们使用8个GPU(特斯拉- v100)，每个GPU有4个图像。请注意，具体标签分配规则不是本文的主要问题。我们利用了[61]中一对一和一对多的标签分配策略。

4.1. Comparisons with State-of-the-arts

Comparisons on Crowdhuman：在CrowdHuman数据集上，我们的OPL明显优于其他最先进的基于nms和无nms的检测器，如表1所示。具体来说，与最相关的无nms行人检测器PED相比，我们的OPL实现了0.7%的mMR、1.5%的AP和3.7%的召回率绝对增益[30]。为了公平比较，我们只考虑PED[30]的结果，没有使用可见框。
表1，在CrowdHuman值集上的性能比较。“NMS”列表示该方法是否使用NMS。
Comparisons on TJU-Ped：我们将我们的OPL与TJU-Ped校园和TJU-Ped交通的最新状况进行了比较，分别见表2和表3。可以看出，我们的OPL在所有子集上都达到了一致的最佳性能。具体来说，RS和HO上的结果可以反映出我们在硬实例上的优越性能。
表2：TJU-Ped-campus 的性能比较。NMS列表示该方法是否使用 NMS。表3：TJU-Ped-traffic的性能比较。NMS列表示该方法是否使用 NMS。

表2：TJU-Ped-campus 的性能比较。‘NMS’列表示该方法是否使用 NMS。
表3：TJU-Ped-traffic的性能比较。‘NMS’列表示该方法是否使用 NMS。

Comparisons on Caltech：本文将所提出的OPL与加州理工学院最先进的测试装置进行了广泛的比较。如表4所示，在不同遮挡水平下，我们的OPL在所有子集上的性能都是最好的，这也验证了OPL在不同情况下处理样本的鲁棒性。
表4：Caltech测试集的性能比较。NMS列表示该方法是否使用NMS

表4：Caltech测试集的性能比较。‘NMS’列表示该方法是否使用NMS

4.2. Ablation Study on CrowdHuman

在本节中，我们对CrowdHuman数据集进行消融分析。所有模型在CrowdHuman训练集上进行训练，并在val集上进行评估。
Components of OPL：为了分析我们提出的C2F和CPN的有效性，我们对每个组件进行了消融研究。表5总结了结果。我们首先训练一个没有C2F和CPN的基线检测器，它直接对FCOS进行一对一的标签分配[60]，不需要中心化分支和NMS后处理。在此基础上，我们增加了C2F模块，获得了2.1%的mMR绝对增益。此外，我们在基线检测器的基础上构建CPN，并将原始分类分支和CPN的输出结合起来，得到所有提案的最终分数。可以看出，CPN可以在基线上获得2.3%的mMR和0.3%的AP增益。最后，使用C2F和CPN的整个OPL管道在基线上取得了显着改善，即4.4%的mMR, 0.7%的AP，这证实了我们提出的OPL的有效性。
表5：OPL组件对CrowdHuman val集的影响。

表5：OPL组件对CrowdHuman val集的影响。

Architectures of C2F：表6研究了C2F的不同架构。单独使用CPN的检测器作为基线，其结果也如表5第四行所示。可以看出，我们提出的具有多个学习步骤的C2F在基线上取得了显著的改进，这表明我们的渐进式学习策略可以帮助模型在监督顺序精化过程中探索最佳分类决策边界。其中，当M ={16,4}时，C2F-2step的性能最好。这表明，两步细化足以进行决策边界探索，“陡峭”标签分配转换可以为优化方向提供更明显的线索。
表6：C2F 在 CrowdHuman val 集上的不同架构的消融研究。

表6：C2F 在 CrowdHuman val 集上的不同架构的消融研究，其中 n 表示学习步骤的总数，集合 M = {M1,., Mn} 决定相应步骤的“一对一 Mi”标签分配策略。

Components of CPN：在表7中，我们对CPN的组成部分进行了烧蚀。表5第三行中单独使用C2F的检测器在这里被重用为基线。作为剩余流，F1可以提高0.2%的mMR增益，这表明回归分支和分类分支的组合信息即使是通过最简单的连接获得的，也可以有利于一对一分类。在此基础上，我们加入F2，进一步获得1.0%的mMR增益。这说明局部最大值在一定程度上有助于修正局部响应。在此基础上，F3又获得了1.1%的mMR增益，说明对硬样品进行额外的响应补偿可以有效提高脱靶率。总的来说，整个版本的CPN显著优于基线2.3%的mMR。
表7：CPN 在 CrowdHuman val 集上消融组件。

表7：CPN 在 CrowdHuman val 集上消融组件。

Larger Backbone：为了进一步证明OPL的有效性和鲁棒性，我们在一个更大的主干上进行了实验，即ResNet-101[24]，该主干也在ImageNet上进行了预训练[15]。表8显示了结果比较。我们可以发现，使用更大的骨干所获得的性能增益并没有预期的那么显著，即0.2% mMR。这一现象说明无需从较大的骨干网络中提取更丰富的特征，因为我们提出的OPL可以基于较小的骨干网络以较少的计算成本很好地解决端到端行人检测任务。总的来说，我们的OPL在成本和性能之间取得了很好的平衡，可以作为实际应用程序的可部署解决方案。
表8：CrowdHuman val 集上不同主干的实验。

表8：CrowdHuman val 集上不同主干的实验。

5. Conclusion

提出了一种可部署端到端行人检测的最优建议学习(OPL)检测管道。为了减少分类歧义，设计了一种从粗到细(C2F)学习策略，通过顺序分类决策边界细化逐步学习精确的正建议。为了进一步提高硬行人样本的检测性能，我们提出了一个完整建议网络(complete Proposal Network, CPN)来为硬建议提供额外的信息补偿。大量的实验验证了我们提出的方法的有效性。我们希望我们的OPL能够在实际工业应用中成为现有主流行人检测器的强大替代品。OPL的核心思想也可以应用于其他检测任务的管道上，或者有利于其他实例级任务。我们将在今后的工作中进行更多的探索。
**Acknowledgement.**国家自然科学基金资助项目(62076034)。在此，我们特别感谢阿里巴巴集团对本文的贡献