图像跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors - 预训练目标检测器的端到端自举多目标跟踪（CVPR 2023）

摘要
1. 引言
2. 相关工作
3. 方法
4. 实验
5. 讨论
References

声明：此翻译仅为个人学习记录

文章信息

标题：MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors (CVPR 2023)

作者：Yuang Zhang, Tiancai Wang, Xiangyu Zhang

文章链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_MOTRv2_Bootstrapping_End-to-End_Multi-Object_Tracking_by_Pretrained_Object_Detectors_CVPR_2023_paper.pdf

文章代码：https://github.com/megvii-research/MOTRv2

摘要

在本文中，我们提出了MOTRv2，这是一种简单而有效的管道，用于使用预训练的目标检测器引导端到端多目标跟踪。现有的端到端方法，如MOTR[43]和TrackFormer[20]，主要由于其较差的检测性能而不如检测再跟踪的对手。我们的目标是通过优雅地加入一个额外的目标检测器来提高MOTR。我们首先采用查询的锚点公式，然后使用额外的目标检测器生成提案作为锚点，在MOTR之前提供检测。简单的修改大大缓解了MOTR中联合学习检测和关联任务之间的冲突。MOTRv2保持了查询传播功能，并在大规模基准测试上扩展良好。MOTRv2在第一届团体舞多人追踪挑战赛中排名第一（DanceTrack上有73.4%的HOTA）。此外，MOTRv2在BDD100K数据集上达到了最先进的性能。我们希望这个简单有效的管道能够为端到端的MOT社区提供一些新的见解。代码在https://github.com/megvii-research/MOTRv2.

1. 引言

多目标跟踪（MOT）旨在预测流媒体视频中所有目标的轨迹。它可以分为两个部分：检测和关联。长期以来，MOT上最先进的性能一直由检测再跟踪方法[4，36，44，45]所主导，这些方法具有良好的检测性能，可以应对各种外观分布。这些跟踪器[44]首先采用目标检测器（例如YOLOX[11]）来定位每帧中的目标，并通过ReID特征或IoU匹配来关联轨迹。这些方法的优越性能部分源于数据集和偏向检测性能的指标。然而，正如DanceTrack数据集[27]所揭示的那样，它们的关联策略在复杂运动中仍有待改进。

在这里插入图片描述

图1. 在DanceTrack和BDD100K数据集上MOTR（灰色条）和MOTRv2（橙色条）之间的性能比较。MOTRv2在不同场景下大大提高了MOTR的性能。

最近，MOTR[43]为MOT引入了一个完全端到端的框架。通过更新轨迹查询来执行关联过程，同时通过检测查询来检测新生目标。它在DanceTrack上的关联性能令人印象深刻，而检测结果不如检测再跟踪方法的结果，尤其是在MOT17数据集上。我们将较差的检测性能归因于联合检测和关联过程之间的冲突。由于最先进的跟踪器[6，9，44]倾向于使用额外的目标检测器，一个自然的问题是如何将MOTR与额外的目标检测器结合起来，以获得更好的检测性能。一种直接的方法是在轨迹查询的预测和额外的目标检测器之间执行IoU匹配（类似于TransTrack[28]）。在我们的实践中，它只在目标检测方面带来了边际改进，而不符合MOTR的端到端特性。

受以检测结果为输入的检测再跟踪方法的启发，我们想知道是否有可能将检测结果作为输入，并减少对关联的MOTR学习。最近，DETR中基于锚点的建模取得了一些进展[18，35]。例如，DAB-DETR使用定位框的中心点、高度和宽度初始化目标查询。与它们类似，我们修改了MOTR中检测和轨迹查询的初始化。我们将MOTR中检测查询的可学习位置嵌入（PE）替换为锚点的正余弦PE[30]，产生了一个基于锚点的MOTR跟踪器。通过这种基于锚点的建模，由额外的目标检测器生成的提案可以作为MOTR的锚点初始化，提供局部先验。transformer解码器用于预测锚的相对偏移，从而使检测任务的优化更加容易。

在这里插入图片描述

图2. MOTRv2的总体架构。由最先进的检测器YOLOX[11]产生的提案用于生成提案查询，它取代了MOTR[43]中用于检测新生目标的检测查询。轨迹查询从上一帧传输过来，用于预测被跟踪目标的边界框。提案查询和轨迹查询的级联以及图像特征被输入到MOTR以逐帧生成预测。

与最初的MOTR相比，所提出的MOTRv2带来了许多优点。它极大地受益于额外的目标检测器引入的良好检测性能。检测任务与MOTR框架隐式解耦，缓解了共享transformer解码器中检测任务和关联任务之间的冲突。MOTRv2学习在给定来自额外检测器的检测结果的情况下跨帧跟踪实例。

与原始MOTR相比，MOTRv2在DanceTrack、BDD100K和MOT17数据集上实现了巨大的性能改进（见图1）。在DanceTrack数据集上，MOTRv2以很大的优势超过了检测同行的跟踪（与OC-SORT[6]相比，HOTA为14.8%），AssA指标比第二好的方法高18.8%。在大规模多类BDD100K数据集[42]上，我们实现了43.6%的mMOTA，比之前的最佳解决方案Unicorn[41]好2.4%。MOTRv2还在MOT17数据集上实现了最先进的性能[15，21]。我们希望我们简洁优雅的设计能够成为未来端到端多目标跟踪研究的有力基线。

2. 相关工作

检测再跟踪。主要方法[6，44]主要遵循检测再跟踪管道：目标检测器首先预测每个帧的目标边界框，然后使用单独的算法来关联相邻帧之间的实例边界框。这些方法的性能在很大程度上取决于目标检测的质量。

使用匈牙利算法[14]进行关联有多种尝试：SORT[4]对每个跟踪的实例应用卡尔曼滤波器[37]，并使用卡尔曼滤波器的预测框和检测框之间的交并比（IoU）矩阵进行匹配。Deep SORT[38]引入了一个单独的网络来提取实例的外观特征，并使用SORT之上的成对余弦距离。JDE[36]、Track-RCNN[25]、FairMOT[45]和Unicorn[41]进一步探索了目标检测和外观嵌入的联合训练。ByteTrack[44]利用了强大的基于YOLOX的[11]检测器，实现了最先进的性能。它引入了一种增强的SORT算法来关联低分数检测框，而不是只关联高分数检测框。BoT-SORT[1]进一步设计了更好的卡尔曼滤波器状态、相机运动补偿和ReID特征融合。TransMOT[9]和GTR[48]在计算分配矩阵时使用时空transformers，例如特征交互和历史信息聚合。OC-SORT[6]放松了线性运动假设，并使用了可学习的运动模型。

虽然我们的方法也受益于稳健的检测器，但我们不计算相似性矩阵，而是使用带有锚点的轨迹查询来联合建模运动和外观。

按查询传播进行跟踪。MOT的另一个范例将基于查询的目标检测器[7，29，49]扩展到跟踪。这些方法强制每个查询在不同的框架中调用同一个实例。查询和图像特征之间的交互可以在时间上并行或串行执行。

并行方法以短视频作为输入，并使用一组查询与所有帧进行交互，以预测实例的轨迹。VisTR[34]和随后的工作[8，40]扩展了DETR[7]以检测短视频剪辑中的轨迹。并行方法需要将整个视频作为输入，因此它们消耗内存，并且仅限于几十帧的短视频剪辑。

串行方法执行与图像特征的逐帧查询交互，并迭代地更新与实例相关联的轨迹查询。Trackor++[2]利用R-CNN[12]回归头进行跨帧的迭代实例重新定位。TrackFormer[20]和MOTR[43]从可变形DETR[49]延伸而来。它们预测目标边界框并更新轨迹查询，以便在后续帧中检测相同的实例。MeMOT[5]构建短期和长期实例特征内存库，以生成轨迹查询。TransTrack[28]传播轨迹查询一次，以在下一帧中找到目标位置。P3AFormer[46]采用流引导图像特征传播。与MOTR不同，TransTrack和P3AFormer在历史轨迹和当前检测中仍然使用基于位置的匈牙利匹配，而不是在整个视频中传播查询。

我们的方法继承了用于长期端到端跟踪的查询传播方法，同时还利用强大的目标检测器来提供目标位置先验。在复杂运动的跟踪性能方面，该方法大大优于现有的基于匹配和查询的方法。

3. 方法

在这里，我们介绍了基于提案查询生成（第3.4节）和提案传播（第3.5节）的MOTRv2。

3.1 修订MOTR

MOTR[43]是一个基于可变形DETR[49]架构的完全端到端的多目标跟踪框架。介绍了轨迹查询和目标查询。目标查询负责检测新生或丢失的目标，而每个轨迹查询负责随时间跟踪一个唯一的实例。为了初始化轨迹查询，MOTR使用与新检测到的目标相关联的目标查询的输出。轨迹查询会根据其状态和当前图像特征随时间更新，这使他们能够以在线方式预测跟踪。

MOTR中的tracklet感知标签分配将轨迹查询分配给先前跟踪的实例，同时通过二分匹配将目标查询分配给其余实例。MOTR引入了一个时间聚合网络来增强轨迹查询的功能，并引入了一种集体平均损失来平衡跨帧的损失。

3.2 动机

端到端多目标跟踪框架的一个主要局限性是，与依赖独立目标检测器的检测再跟踪方法[6，44]相比，它们的检测性能较差。为了解决这一限制，我们建议结合YOLOX[11]目标检测器来生成作为目标锚的提案，在MOTR之前提供检测。它极大地缓解了MOTR中联合学习检测和关联任务之间的冲突，提高了检测性能。

3.3 总体架构

如图2所示，所提出的MOTRv2体系结构由两个主要组件组成：最先进的目标检测器和改进的基于锚点的MOTR跟踪器。

目标检测器组件首先生成用于训练和推理的提案。对于每个帧，YOLOX生成一组提案，其中包括中心坐标、宽度、高度和置信度值。修改后的基于锚点的MOTR组件负责基于生成的提案来学习轨迹关联。第3.4节描述了用提案查询替换原始MOTR框架中的检测查询。修改后的MOTR现在将轨迹查询和提案查询的连接作为输入。第3.5节描述了连接查询和框架特征之间的交互，以更新被跟踪目标的边界框。

3.4 提案查询生成

在本节中，我们将解释提案查询生成模块如何为MOTR提供来自YOLOX的高质量提案。该模块的输入是YOLOX为视频中的每一帧生成的一组提案框。与DETR[7]和MOTR使用固定数量的可学习查询进行目标检测不同，我们的框架基于YOLOX生成的所选提案来动态确定提案查询的数量。

具体来说，对于帧t，YOLOX生成 $N_t$ 个提案，每个提案由一个具有中心坐标 $x_t,y_t)$ 、高度 $h_t$ 、宽度 $w_t$ 和置信度得分 $s_t$ 的边界框表示。如图3的橙色部分所示，我们引入了一个共享查询 $q_s$ 来生成一组提案查询。共享查询是大小为 $1 \times D$ 的可学习嵌入，首先被广播到大小为 $N_t×D$ 。 $N_t$ 个提案框的预测分数 $s_t$ 通过正余弦位置编码产生大小为 $N_t×D$ 的分数嵌入。然后将广播的查询与分数嵌入相加以生成提案查询。YOLOX提案框充当提案查询的锚点。在实践中，我们还使用了10个可学习锚（类似于DAB-DETR[18]），并将它们与YOLOX提案连接起来，以回忆YOLOX检测器遗漏的目标。

在这里插入图片描述

图3. 用于跟踪的提案查询生成和提案传播。橙色标记提案查询生成，而蓝色标记提案传播路径；灰色虚线框代表N个transformer解码器。为了简单起见，省略了MOTR中的查询交互模块。

3.5 提案传播

在MOTR[43]中，轨迹查询和检测查询被连接并输入到transformer解码器，用于同时进行目标检测和轨迹关联。从上一帧生成的轨迹查询表示被跟踪的目标，这些目标用于预测当前帧的边界框。检测查询是一组固定的可学习嵌入，用于检测新生目标。与MOTR不同，我们的方法使用提案查询来检测新生目标，并且轨迹查询的预测是基于先前帧预测的。

对于第一帧 $(t = 0)$ ，只有新生的目标，它们被YOLOX检测到。如上所述，在给定YOLOX提案的共享查询 $q_s$ 和预测分数的情况下生成提案查询。在YOLOX提案 $P_0$ 进行位置编码后，提案查询通过自注意力进一步更新，并通过可变形注意力与图像特征交互，以产生轨迹查询 $q_{tr,0}$ 和YOLOX提案 $P_0$ 的相对偏移量 $(∆ x, ∆ y, ∆ w, ∆ h)$ 。预测 $\hat{Y}_0$ 是提案 $P_0$ 和预测偏移的总和。

对于其他帧 $(t > 0)$ ，类似于MOTR，从上一帧生成的轨迹查询 $q_{tr,t−1}$ 将与当前帧的提案查询 $q_{p,t}$ 连接。前一帧的框预测 $\hat{Y}_{t−1}$ 也将与YOLOX提案 $P_t$ 连接在一起，用作当前帧的锚。锚的正弦余弦编码被用作连接查询的位置嵌入，然后连接查询进入transformer解码器以产生预测和更新的轨迹查询。边界框预测由置信度得分和锚的相对偏移组成，并且更新的轨迹查询 $q_{tr,t}$ 被进一步转移到下一帧，用于检测被跟踪的目标。

在这里插入图片描述

图4. （a）MOTR轨迹查询框预测的可视化（棕色框）与序列“dancetrack0005”的第100帧上的YOLOX提案（粗体框）高度重叠，以及（b）查询自注意力图显示了提案查询和同一实例的相应轨迹查询之间的信息交换。

分析在上述设计中，提案查询被限制为仅检测新生或丢失的目标，而轨迹查询负责重新定位被跟踪的目标。提案查询需要聚合来自轨迹查询的信息，以避免重复检测被跟踪的目标，并且轨迹查询可以利用YOLOX提案来改进目标定位。这是通过transformer解码器中的自注意力层来实现的。为了更好地理解提案查询和轨迹查询之间的交互，我们在图4中可视化了查询自注意力图。对于同一个例子，提案查询和相应的轨迹查询具有很高的相似性，并且它们之间有明确的信息交换，这验证了我们的假设。

4. 实验

4.1 数据集和指标

数据集。我们使用DanceTrack[27]、MOT17[15，21]和BDD100K[42]数据集来评估我们的方法。

DanceTrack[27]是一个用于舞蹈场景中多人跟踪的大型数据集。它具有统一的外观和多样化的运动，这对于跨帧关联实例来说是一项挑战。DanceTrack包括100个视频：40个用于训练，25个用于验证，35个用于测试。视频的平均长度为52.9秒。

MOT17[15，21]是一个广泛使用的数据集，包含7个用于训练的序列和7个用于测试的序列。它主要包含相对拥挤的街道场景，行人的运动简单而线性。

BDD100K[42]是一个自动驾驶场景的数据集。它包含一个多目标跟踪子集，其中1400个序列用于训练，200个序列用于验证。序列长度约为40秒，目标类的数量为8。我们用它来测试多类多目标跟踪性能。

指标。我们使用多目标跟踪的高阶指标（高阶跟踪精度；HOTA）[19]来评估我们的方法，并分析分解为检测精度（DetA）和关联精度（AssA）的贡献。对于MOT17和BDD100K数据集，我们列出了MOTA[3]和IDF1[23]指标。

4.2 实施细节

提案生成。我们使用YOLOX[11]检测器和ByteTrack[44]和DanceTrack[27]提供的权重来生成目标提案。超参数，如输入图像大小，与ByteTrack一致。为了最大限度地提高提案召回率，我们将置信度得分超过0.05的所有YOLOX预测框保留为提案。对于DanceTrack[27]，我们使用DanceTrack官方GitHub存储库（https://github.com/DanceTrack/DanceTrack）中的YOLOX权重。对于CrowdHuman[24]和MOT17，我们使用ByteTrack[44]中MOT17测试集的公共权重。我们不在这两个数据集上训练YOLOX，只在训练MOTR之前使用它为所有图像生成提案。对于BDD100K[42]，我们将其MOT集与100k图像集一起用于训练。YOLOX检测器在8个Tesla V100 GPU上训练了16个时期。我们遵循ByteTrack[44]的其他训练超参数。

MOTR。我们的实现基于具有用于特征提取的ResNet50[13]骨干的官方repo（https://github.com/megvii-research/MOTR）。所有MOTR模型都在8个GPU上进行训练，每个GPU的批量大小为1。对于DanceTrack[27]，我们遵循YOLOX[11]，并采用HSV增强来训练MOTR。与在训练期间传播与真值轨迹匹配的轨迹查询的原始实现相反，我们传播置信度得分高于0.5的轨迹查询，这自然会产生假阳性（FP；高分但没有实例，例如丢失的轨迹）和假阴性（FN；未检测到的实例）轨迹查询，以增强推理期间对FP和FN的处理。通过这种方式，我们不遵循MOTR手动插入阴性或删除阳性轨迹查询，即 $p_{drop}=0$ 和 $p_{insert}=0$ 。我们对固定剪辑尺寸为5的5个时期的消融研究和最先进的比较模型进行了训练。剪辑内帧的采样步长是从1到10中随机选择的。初始学习率 $2×10^{−4}$ 在第4个时期下降了10倍。对于MOT17[15，21]，训练时期的数量减少到50，学习率在第40个时期下降。对于BDD100K[42]，我们使用4的剪辑大小和从1到4的随机采样步长来训练2.5个时期。学习率在第二时期结束时下降。对于多类MOT的扩展，每个YOLOX提案还包括一个类标签，我们为每个类使用不同的可学习嵌入（共享查询）。其他设置不会更改。

表1. DanceTrack[27]测试集上与最先进方法的性能比较。现有方法的结果来自DanceTrack[27]。MOTRv2*表示具有额外关联的MOTRv2，添加用于训练和测试集合的验证集。

在这里插入图片描述

与CrowdHuman联合训练。为了提高检测性能，我们还利用了大量的静态CrowdHuman图像。对于DanceTrack数据集，类似于MOT17和CrowdHuman在MOTR中的联合训练，我们为Crowdhum生成伪视频片段，并与DanceTracks进行联合训练。伪视频剪辑的长度也被设置为5。我们使用DanceTrack[27]数据集训练集的41796个样本和CrowdHuman[24]数据集训练和验证集的19370个样本进行联合训练。对于MOT17数据集，我们保留了MOTR中连接CrowdHuman验证集和MOT17训练集的原始设置。

表2. BDD100K[42]MOT验证集上与最先进方法的性能比较。MOTR*是指不使用YOLOX提案的MOTRv2。

在这里插入图片描述

4.3 DanceTrack的现状比较

我们在DanceTrack[27]测试集上将MOTRv2与最先进的方法进行了比较，结果如表1所示。在没有花里胡哨的技巧的情况下，我们的方法实现了69.9的HOTA，并在所有高阶指标上显示出最佳性能，大大超过了其他最先进的方法。与基于匹配的方法（如ByteTrack[44]和OC-SORT[6]）相比，我们的方法显示出更好的关联精度（59.0%对38.3%），同时也实现了不错的检测精度（83.0%对80.3%）。MOTRv2实现了69.9%的高阶跟踪精度（HOTA），比以前的最佳方法高14.8%。以前的方法与MOTRv2在IDF1度量上的巨大差距也表明了我们的方法在复杂运动中的优越性。为了获得更好的性能，我们在后处理中应用了一个额外的关联：如果只有一个轨迹退出，而另一个轨迹出现在20到100帧内，我们认为它们是同一实例的轨迹。通过额外的关联，添加用于训练的验证集，并使用4个模型的集合，我们在DanceTrack测试集上进一步实现了73.4%的HOTA。

4.4 BDD100K的最新技术比较

表2显示了BDD100k[42]跟踪验证集的结果。MOTRv2在所有方法中获得了最高的mMOTA和mIDF1。为了进行公平的比较，我们为MOTR配备了100k图像集联合训练和框传播，表示为MOTR*。通过使用YOLOX方案，MOTRv2比MOTR*高8.1%mMOTA和8.3%mIDF1，表明YOLOX提案大大提高了多类检测和跟踪性能。与其他最先进的方法相比，MOTRv2的性能优于最佳跟踪器Unicorn，分别为2.4%mMOTA和1.1%mIDF1。较高的mMOTA和mIDF1（在所有类别中平均）表明MOTRv2更好地处理多类别场景。整体MOTA（-1.0%）和IDF1（+1.4%）的差异表明，我们的方法在关联性方面更好。

4.5 MOTChallenge的比较

我们在MOT17[15，21]和MOT20[10]数据集上进一步比较了MOTRv2与最先进方法的性能。表3显示了MOT17的比较。与最初的MOTR[43]相比，YOLOX提案的引入始终将检测（DetA）和关联（AssA）的准确率分别提高了3.5%和4.9%。所提出的方法将基于查询的跟踪器在拥挤场景中的性能提升到了最先进的水平。我们将剩余的性能差距归因于MOT17数据集的规模太小（总共215秒），这不足以训练基于查询的跟踪器。表4显示了我们在MOT20[10]数据集上的结果。我们的方法与ByteTrack[44]之间的性能差距可以通过MOT17的联合训练来缩小，尤其是对于AssA指标。这也表明，MOT挑战中的低性能更有可能是由于真实视频的较小。

表3. 与MOT17数据集上现有方法的比较。

在这里插入图片描述

表4. 与MOT20测试集上现有方法的比较。

在这里插入图片描述

4.6 消融研究

在本节中，我们研究了我们方法的几个组成部分，包括YOLOX提案、提案传播和CrowdHuman联合训练。表5总结了组件对DanceTrack验证和测试集的影响。两组的改进是一致的。

表5. DanceTrack的累积改进总结。

在这里插入图片描述

表6. CrowdHuman联合训练的消融研究和DanceTrack验证集上的YOLOX提案。

在这里插入图片描述

YOLOX提案。为了更深入地研究使用YOLOX方案的好处，我们在两种情况下测试了YOLOX提案的效果：有和没有CrowdHuman联合训练。表6显示，无论是否使用CrowdHuman数据集，使用YOLOX预测作为提案查询都能持续改进所有三个指标（HOTA、DetA和AssA）。当与CrowdHuman数据集联合训练时，YOLOX提案将关联准确性（AssA）显著提高了9.3%。单独使用预训练的目标检测器YOLOX优于使用CrowdHuman数据集的联合训练（HOTA 56.7 vs.60.7）。

使用YOLOX方案和CrowdHuman联合训练都可以如预期的那样提高检测精度。然而，使用CrowdHuman伪视频似乎对关联的训练产生了负面影响，如AssA下降5.6%所示。这可能是由两个数据集之间的差距造成的：CrowdHuman伪视频将训练偏向于使可学习的检测查询能够处理更困难的检测，并且通过仿射变换创建的伪视频的人体运动与DanceTrack的不同。值得注意的是，使用YOLOX提案反过来有助于CrowdHuman的联合训练。我们使用YOLOX提案的方法使MOTR的检测更容易，从而减轻了对检测的偏见以及检测和关联任务之间的冲突。因此，有了YOLOX的提案，与CrowdHuman的联合训练可以进一步提高而不是损害跟踪性能。

提案传播。在这里，我们展示了将提案（中心点以及宽度和高度）从当前帧传播到下一帧的效果。比较的基线是MOTR[43]和TransTrack[28]中应用的参考点的传播。这意味着只有上一帧的中心点被用作查询参考点。此外，我们还探讨了用锚点（或参考点）的正余弦位置编码取代查询的可学习位置嵌入的效果。从表7中，我们可以很容易地发现，传播四维提案（框）而不是中心点会产生更好的关联性能。它表明MOTRv2受益于来自用于关联实例的前一帧的边界框预测的宽度和高度信息。相比之下，与在可变形DETR[49]中使用可学习位置嵌入的原始设计相比，正弦余弦位置编码几乎没有帮助关联。因此，使用锚框而不是点不仅对于引入YOLOX检测结果是关键的，而且对于向MOTR解码器提供定位信息也是足够的。

表7. 传播锚与中心点以及可学习与正弦余弦位置编码的消融研究。

在这里插入图片描述

表8. 使用YOLOX提案的置信度得分的效果以及编码置信度得分的不同方法。

在这里插入图片描述

分数编码。如第3.4节所述，提案查询是两部分的总和：（1）置信度得分的编码；（2）共享的可学习查询嵌入。我们探索了两种编码YOLOX提案置信度得分的方法，即线性投影和正余弦位置编码。对于线性投影，我们使用大小为1×D的简单权重矩阵将分数标量扩展为D维分数嵌入。此外，我们测试根本不使用置信度得分，即只使用共享查询嵌入提案查询。表8显示，不使用分数嵌入的表现最差，这意味着置信度分数为MOTR提供了重要信息。此外，可学习嵌入和正弦余弦编码都能很好地工作，使用正弦余弦编码对关联效果更好。

查询去噪。为了在训练中快速收敛，我们引入了查询去噪[16]（QD）作为DanceTrack和MOT17的辅助任务。表9显示，使用默认噪声等级（0.4）的查询去噪会损害关联性能。我们将此归因于检测和跟踪之间的差距，因为与实例的跨帧运动相比，人工噪声的规模通常更大。我们选择的噪声范围使DetA提高了2.1%。查询去噪提高了检测性能，并将HOTA指标进一步提高了0.8%。

表9. 查询去噪对DanceTrack验证集的影响。噪声标度 $λ_1$ 、 $λ_2$ 的定义遵循DN-DETR[16]。

在这里插入图片描述

表10. 轨迹查询对齐对MOT17 valhalf的影响。

在这里插入图片描述

轨迹查询对齐方式。为了在人群场景中充分利用YOLOX的精确目标检测，我们进一步引入了轨迹查询对齐，专门在MOT17[15，21]和MOT20[10]数据集上增强MOTRv2。我们首先计算MOTR预测框和YOLOX方案之间的交并比（IoU）矩阵。然后，我们对IoU矩阵执行匈牙利匹配，以找到最佳匹配对，并保持IoU超过0.5的所有匹配对的框。之后，我们提出了三种独立的对齐策略：匹配的YOLOX框可以取代（1）该帧的MOTR框预测和（2）用于检测下一帧中相应实例的轨迹查询锚。此外，（3）不匹配的MOTR预测可以从预测中去除，因为它们可能是假阳性。图5显示了这些对齐的效果。请注意，这些对齐仅适用于锚点或预测框，不会改变查询嵌入的传播，这保留了我们方法的端到端性质。

我们在MOT17上测试了这三种方法，使用每个训练序列的前半部分进行训练，其余部分进行验证。所有对齐都在训练过程中应用，对齐方法的消融研究在推理过程中进行。结果如表10所示。在这三种方法中，对齐锚对检测和跟踪性能最有利，因为单独使用时，它可以提高8.4%的MOTA和3.9%的IDF1（第1行与第3行）。将锚与相应的YOLOX方案对齐可以减少锚传播过程中定位误差的积累，从而提高检测和关联精度（见图5（a））。删除与任何YOLOX框不匹配的MOTR预测可以提高所有设置下的检测性能。除锚对齐外，它还将MOTA进一步提高了2.0%（第2行与第4行）（见图5（b））。最后，逐帧预测对齐作为一种直观的方法，可以用于进一步改进MOTA和IDF1。

在这里插入图片描述

图5. 轨迹查询对齐说明：（a）不精确的MOTR定位被相应的YOLOX提案框取代，以更好地预测和定位锚点；（b）可以通过去除不匹配的框来消除误报检测和重复轨迹查询。

5. 讨论

在本文中，我们提出了MOTRv2，这是MOTR跟踪器和YOLOX检测器的完美组合。YOLOX生成高质量的目标提案，帮助MOTR更容易地检测新目标。这降低了目标检测的复杂性，使MOTR能够专注于关联过程。MOTRv2突破了端到端框架不适合高性能MOT的普遍看法，并解释了为什么以前的端到端MOT框架失败了。我们希望它能为社区提供一些关于端到端MOT的新见解。

局限性。尽管使用YOLOX方案极大地缓解了MOTR的优化问题，但所提出的方法仍然需要数据，并且在较小的数据集上表现不够好。此外，我们观察到一些重复的轨迹查询，例如，当两个人相互交叉时。在这种情况下，一个轨迹查询可能会跟随错误的主题，导致对同一个人进行两个轨迹查询（见图5（b））。这一观察结果可以作为未来潜在改进的宝贵提示。另一个限制是效率。瓶颈主要来自MOTR[43]部分。从数量上讲，YOLOX[11]检测器在2080Ti上以25 FPS的速度运行，而MOTR则以9.5 FPS的速率运行。将这两个组件相加可获得6.9 FPS的速度。

References

[1] Nir Aharon, Roy Orfaig, and Ben-Zion Bobrovsky. Bot-sort: Robust associations multi-pedestrian tracking. arXiv preprint arXiv:2206.14651, 2022. 2, 6
[2] Philipp Bergmann, Tim Meinhardt, and Laura Leal-Taixe. Tracking without bells and whistles. In ICCV, 2019. 3, 6
[3] Keni Bernardin and Rainer Stiefelhagen. Evaluating multiple object tracking performance: the clear mot metrics. EURASIP Journal on Image and Video Processing, 2008:1–10, 2008. 5
[4] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime tracking. In ICIP, 2016. 1, 2
[5] Jiarui Cai, Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, and Stefano Soatto. Memot: Multi-object tracking with memory. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8090–8100, 2022. 3
[6] Jinkun Cao, Xinshuo Weng, Rawal Khirodkar, Jiangmiao Pang, and Kris Kitani. Observation-centric sort: Rethinking sort for robust multi-object tracking. arXiv preprint arXiv:2203.14360, 2022. 1, 2, 3, 5, 6
[7] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020. 3
[8] Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, and Rohit Girdhar. Masked-attention mask transformer for universal image segmentation. In CVPR, 2022. 3
[9] Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, and Zicheng Liu. Transmot: Spatial-temporal graph transformer for multiple object tracking. arXiv preprint arXiv:2104.00194, 2021. 1, 2
[10] Patrick Dendorfer, Hamid Rezatofighi, Anton Milan, Javen Shi, Daniel Cremers, Ian Reid, Stefan Roth, Konrad Schindler, and Laura Leal-Taix´e. Mot20: A benchmark for multi object tracking in crowded scenes. arXiv preprint arXiv:2003.09003, 2020. 6, 8
[11] Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun. Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430, 2021. 1, 2, 3, 5, 8
[12] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587, 2014. 3
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. 5
[14] Harold W Kuhn. The hungarian method for the assignment problem. Naval research logistics quarterly, 2(1-2):83–97, 1955. 2
[15] Laura Leal-Taix´e, Anton Milan, Ian Reid, Stefan Roth, and Konrad Schindler. Motchallenge 2015: Towards a benchmark for multi-target tracking. arXiv preprint arXiv:1504.01942, 2015. 2, 4, 5, 6, 8
[16] Feng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M Ni, and Lei Zhang. Dn-detr: Accelerate detr training by introducing query denoising. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13619–13627, 2022. 7, 8
[17] Siyuan Li, Martin Danelljan, Henghui Ding, Thomas E Huang, and Fisher Yu. Tracking every thing in the wild. In European Conference on Computer Vision, pages 498–515. Springer, 2022. 6
[18] Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun Zhu, and Lei Zhang. Dab-detr: Dynamic anchor boxes are better queries for detr. arXiv preprint arXiv:2201.12329, 2022. 2, 4
[19] Jonathon Luiten, Aljosa Osep, Patrick Dendorfer, Philip Torr, Andreas Geiger, Laura Leal-Taix´e, and Bastian Leibe. Hota: A higher order metric for evaluating multi-object tracking. IJCV, 129(2):548–578, 2021. 5
[20] Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, and Christoph Feichtenhofer. Trackformer: Multi-object tracking with transformers. arXiv preprint arXiv:2101.02702, 2021. 1, 3, 6
[21] Anton Milan, Laura Leal-Taix´e, Ian Reid, Stefan Roth, and Konrad Schindler. Mot16: A benchmark for multi-object tracking. arXiv preprint arXiv:1603.00831, 2016. 2, 4, 5, 6, 8
[22] Jiangmiao Pang, Linlu Qiu, Xia Li, Haofeng Chen, Qi Li, Trevor Darrell, and Fisher Yu. Quasi-dense similarity learning for multiple object tracking. In CVPR, 2021. 5, 6
[23] Ergys Ristani, Francesco Solera, Roger Zou, Rita Cucchiara, and Carlo Tomasi. Performance measures and a data set for multi-target, multi-camera tracking. In ECCV, 2016. 5
[24] Shuai Shao, Zijian Zhao, Boxun Li, Tete Xiao, Gang Yu, Xiangyu Zhang, and Jian Sun. Crowdhuman: A benchmark for detecting human in a crowd. arXiv preprint arXiv:1805.00123, 2018. 5
[25] Bing Shuai, Andrew G Berneshawi, Davide Modolo, and Joseph Tighe. Multi-object tracking with siamese track-rcnn. arXiv preprint arXiv:2004.07786, 2020. 2
[26] Daniel Stadler and J¨urgen Beyerer. Modelling ambiguous assignments for multi-person tracking in crowds. In Proceedings of the IEEE/CVF Winter Conference on Applications of
Computer Vision, pages 133–142, 2022. 6
[27] Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, and Ping Luo. Dancetrack: Multi-object tracking in uniform appearance and diverse motion. arXiv preprint arXiv:2111.14690, 2021. 1, 4, 5
[28] Peize Sun, Yi Jiang, Rufeng Zhang, Enze Xie, Jinkun Cao, Xinting Hu, Tao Kong, Zehuan Yuan, Changhu Wang, and Ping Luo. Transtrack: Multiple-object tracking with transformer. arXiv preprint arXiv: 2012.15460, 2020. 1, 3, 5, 6, 7
[29] Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, and Masayoshi Tomizuka. Sparse r-cnn: End-to-end object detection with learnable proposals. arXiv preprint arXiv:2011.12450, 2020. 3
[30] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurlPS, 2017. 2
[31] Qiang Wang, Yun Zheng, Pan Pan, and Yinghui Xu. Multiple object tracking with correlation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3876–3886, 2021. 6
[32] Shuai Wang, Hao Sheng, Yang Zhang, Yubin Wu, and Zhang Xiong. A general recurrent tracking framework without real data. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 13219–13228, 2021. 6
[33] Yongxin Wang, Kris Kitani, and Xinshuo Weng. Joint object detection and multi-object tracking with graph neural networks. In 2021 IEEE International Conference on Robotics and Automation (ICRA), pages 13708–13715. IEEE, 2021. 6
[34] Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, and Huaxia Xia. End-to-end video instance segmentation with transformers. In CVPR, 2021. 3
[35] Yingming Wang, Xiangyu Zhang, Tong Yang, and Jian Sun. Anchor detr: Query design for transformer-based detector. arXiv preprint arXiv:2109.07107, 2021. 2
[36] Zhongdao Wang, Liang Zheng, Yixuan Liu, Yali Li, and Shengjin Wang. Towards real-time multi-object tracking. In ECCV, 2020. 1, 2
[37] Greg Welch, Gary Bishop, et al. An introduction to the kalman filter, 1995. 2
[38] Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep association metric. In ICIP, 2017. 2
[39] Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, and Junsong Yuan. Track to detect and segment: An online multi-object tracker. In CVPR, 2021. 5, 6
[40] Junfeng Wu, Yi Jiang, Wenqing Zhang, Xiang Bai, and Song Bai. Seqformer: a frustratingly simple model for video instance segmentation. arXiv preprint arXiv:2112.08275, 2021. 3
[41] Bin Yan, Yi Jiang, Peize Sun, Dong Wang, Zehuan Yuan, Ping Luo, and Huchuan Lu. Towards grand unification of object tracking. In ECCV, 2022. 2, 6
[42] Fisher Yu, Haofeng Chen, Xin Wang, Wenqi Xian, Yingying Chen, Fangchen Liu, Vashisht Madhavan, and Trevor Darrell. Bdd100k: A diverse driving dataset for heterogeneous multitask learning. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2, 4, 5, 6
[43] Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, and Yichen Wei. Motr: End-to-end multipleobject tracking with transformer. In European Conference on Computer Vision, pages 659–675. Springer, 2022. 1, 2, 3, 4, 5, 6, 7, 8
[44] Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Zehuan Yuan, Ping Luo, Wenyu Liu, and Xinggang Wang. Byte-track: Multi-object tracking by associating every detection box. arXiv preprint arXiv:2110.06864, 2021. 1, 2, 3, 5, 6
[45] Yifu Zhang, Chunyu Wang, Xinggang Wang, Wenjun Zeng, and Wenyu Liu. Fairmot: On the fairness of detection and reidentification in multiple object tracking. IJCV, pages 1–19, 2021. 1, 2, 5, 6
[46] Zelin Zhao, Ze Wu, Yueqing Zhuang, Boxun Li, and Jiaya Jia. Tracking objects as pixel-wise distributions, 2022. 3, 6
[47] Xingyi Zhou, Vladlen Koltun, and Philipp Kr¨ahenb¨uhl. Tracking objects as points. In ECCV, 2020. 5, 6
[48] Xingyi Zhou, Tianwei Yin, Vladlen Koltun, and Philipp Kr¨ahenb¨uhl. Global tracking transformers. In CVPR, 2022. 2
[49] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2020. 3, 7

图像跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object ... (CVPR 2023)

图像跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors - 预训练目标检测器的端到端自举多目标跟踪（CVPR 2023）

摘要

1. 引言

2. 相关工作

3. 方法

3.1 修订MOTR

3.2 动机

3.3 总体架构

3.4 提案查询生成

3.5 提案传播

4. 实验

4.1 数据集和指标

4.2 实施细节

4.3 DanceTrack的现状比较

4.4 BDD100K的最新技术比较

4.5 MOTChallenge的比较

4.6 消融研究

5. 讨论

References

猜你喜欢

图像 跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object ... (CVPR 2023)

图像 跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors - 预训练目标检测器的端到端自举多目标跟踪（CVPR 2023）

摘要

1. 引言

2. 相关工作

3. 方法

3.1 修订MOTR

3.2 动机

3.3 总体架构

3.4 提案查询生成

3.5 提案传播

4. 实验

4.1 数据集和指标

4.2 实施细节

4.3 DanceTrack的现状比较

4.4 BDD100K的最新技术比较

4.5 MOTChallenge的比较

4.6 消融研究

5. 讨论

References

猜你喜欢

图像跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object ... (CVPR 2023)

图像跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors - 预训练目标检测器的端到端自举多目标跟踪（CVPR 2023）