Top of the list | Baidu and Shanghai AI Lab put forward CityTrack: a new multi-target tracking record!

guide

This paper introduces a multi-object tracking systemCityTrack named , which aims to solve the problem of multi-camera multi-object tracking (MCMT) in urban traffic scenes. Urban traffic scenes are complex and dynamic, often using multiple cameras with different viewing angles and viewing angles to cover a large urban area, so it becomes difficult to accurately correlate objects between different cameras, and objects often experience problems such as occlusion, lighting changes, and viewing angle changes.

TL;DR : The core of this paper is to propose a comprehensive MCMT tracking system, which effectively solves tracking challenges such as similar appearance and severe occlusion by introducing a position-aware tracker and a vehicle boundary-based ICA module.

motivation

vehicle detection

Object detection locates objects in images by predicting bounding boxes and classes. Vehicle detection is a special branch of object detection, where vehicles tend to have similar appearance but different sizes due to changes in camera perspective. Vehicle detection has made tremendous progress in the past few years through approaches such as CNNs. Therefore, this paper directly adopts the Cascade-RCNN based on the SwinTransformer backbone network as the vehicle detector, which can handle objects of different sizes and capture global information in the vehicle detection environment.

ReID feature extraction

As one of the most important components in the MCMT task, ReID feature extraction aims to retrieve the same objects captured by different cameras. ReID methods based on CNNs have strong capabilities in learning discriminative feature representations. The paper ensembles multiple ReID models trained with cross-entropy loss and triplet loss to extract more discriminative appearance features, which are used to distinguish different vehicles during tracking.

Single-channel multi-target tracking

单摄像头多目标追踪在视频理解、交通控制和自动驾驶等领域起着关键作用。其目标是在输入的视频序列中关联多个对象、保持它们的身份并生成它们的轨迹。现代的单摄像头多目标追踪器可以分为基于检测的方法和联合检测跟踪的方法。基于检测的方法首先获取检测框,然后根据外观和运动线索进行关联。近年来,一些联合检测跟踪的方法将外观嵌入或运动预测纳入检测框架中。因此,本文也采用基于检测的方法,并在车辆跟踪设置中扩展了现有的方法,以解决智能交通场景中的非线性运动问题。

跨摄像头关联

在获得上述三个模块的所有结果后,跨摄像头关联可以被视为轨迹匹配或轨迹检索问题。之前的工作尝试从不同的角度解决这个问题,例如建立全局图来优化 MCMT 解决方案,利用交通规则和时空约束来过滤候选轨迹,使用贪婪算法或匈牙利匹配算法搜索有效的轨迹对等。与现有的方法不同,论文构建了一个基于边界框的特征距离矩阵来处理相似外观的问题,并通过k-相互最近邻的方式获取更准确的轨迹对。

方法

首先,让我们先简单介绍下 CityTrack MCMT 跟踪器。上图展示了系统的框架,可以看出包含四个模块:

  1. Detector:负责检测场景中的所有车辆对象;
  2. ReID: 特征提取:提取相应的外观特征;
  3. SCMT:接收检测到的边界框及其特征作为输入,并为每个单独的对象在单个摄像头视图中生成轨迹;
  4. ICA:将所有摄像头的轨迹候选进行匹配,生成最终的MCMT结果。

关于检测器和特征提取模块我们之前的文章已经介绍得够多了,更多详情可自行搜索公众号 CVHub 历史文章进行阅读。本文我们重点介绍下 SCMT 和 ICA 两部分。

单路多目标追踪 SCMT

众所周知,在高质量的检测结果和 ReID 特征的基础上,单摄像头多目标追踪(SCMT)模块通过遵循检测跟踪的范例来关联目标。作者将数据关联方法 BYTE 集成到 StrongSORT 中作为基线追踪器。在 MCMT 任务中,SCMT 阶段的断裂轨迹尤为有害,因为额外的候选轨迹可能导致结果不完整和错误匹配。

为了解决实际交通中非线性运动严重遮挡不完美检测带来的挑战,本文设计了一个基于位置感知的 SCMT 跟踪器,以提高拥挤场景下的跟踪性能。具体来说,我们提出了三种策略:

  • 静止敏感关联(SSA)
  • 轨迹重新链接(TRL)
  • 双向跟踪(BT)

虽然在这一部分中没有引入任何新的算法,但本文贡献在于将这些先进的技术结合到 MCMT 任务中,以提高基线追踪器的效果。

静止敏感关联

车辆在路口会停下来和启动。我们通过优化检测并调整运动约束来解决非线性运动问题。如果一个轨迹及其周围的轨迹都保持静止,我们将保留得分最高的检测作为其位置,以处理由遮挡引起的检测丢失。为了进一步提高非线性运动的鲁棒性,通过采用平滑马氏距离,以避免在非线性运动阶段发生突变。

轨迹重新链接

在严重遮挡情况下,目标检测可能很困难,如图3a所示,白色车辆在被遮挡后轨迹ID发生切换。这是因为车辆启动时速度的急剧变化导致卡尔曼滤波器无法准确预测运动状态。为了解决这个问题,我们首先过滤掉在场景中间结束或开始的轨迹。然后,我们使用贪婪算法根据它们的ReID特征的余弦距离合并断裂的轨迹。如图3b所示,轨迹重新链接策略能够在遮挡后仍保持白色车辆的相同跟踪身份。

双向跟踪

尽管采用了各种技术来减少 ID switch,但由于不完美的检测结果,轨迹仍可能不完整。远离摄像头的目标通常在开始的帧中被忽略,因为小目标的检测置信度太低,无法启动轨迹。通过向后跟踪可以解决这个问题,通过在靠近摄像头的区域启动轨迹。最后,通过在正向和反向方向上分别对视频帧运行跟踪器,本文合并轨迹以生成完整的轨迹。

跨摄像头关联 ICA

ICA 模块是 MCMT 系统的最后且最关键的组成部分。它使用之前模块生成的轨迹根据外观特征时空信息将所有轨迹关联到同一身份。ICA 模块基于道路的进入和退出来匹配两个连续摄像头的轨迹。然而,ICA 模块必须克服几个挑战,例如在轨迹候选池中存在多个外观相似的车辆,这可能导致匹配过程中的错误。此外,摄像头位置的差异可能会影响因素,如光照和透视,使匹配任务更加困难。

为了解决这些挑战,本文提出了一种新颖的基于边界框的匹配(BGM)模块,该模块在边界框级别上识别相同的身份,而不是先前方法中使用的基于轨迹的匹配策略。在下面的部分中,我们首先介绍基于轨迹的基线方法,然后详细讨论 BGM 模块。

基线方法

基线方法是指在多摄像头多目标跟踪(MCMT)系统中,首先根据空间-时间信息构建轨迹候选池,然后计算轨迹级别的相似度矩阵,并执行轨迹关联以获得最终的跟踪结果。具体步骤包括:

  1. 轨迹池构建:根据预定义区域和道路拓扑结构,通过空间和时间约束过滤无效轨迹。只有通过有效区域对的轨迹才会进入匹配过程。
  2. 相似度矩阵构建:选取一定数量的最相似的轨迹对之间的特征相似度作为轨迹之间的相似度,根据相似度计算相似度矩阵。
  3. 轨迹关联:使用匈牙利算法将轨迹进行关联,通过剔除时间不合理的匹配对和合并具有相同全局ID的匹配对来得到最终的跟踪结果。

基于边界框的匹配

基于边界框的匹配是在基线方法的基础上提出的改进方法,旨在提高匹配的准确性和鲁棒性。具体步骤包括:

  1. 距离矩阵构建:根据两个相邻区域中每个边界框之间的特征相似度计算边界框级别的相似度矩阵。通过计算边界框之间的距离矩阵,考虑了整体上下文和遮挡信息,提高了匹配的可靠性。
  2. 调整权重:通过重新排名、空间-时间先验信息和遮挡大小等策略调整相似度矩阵中边界框之间的权重,进一步提高匹配的准确性。
  3. 轨迹关联:使用基于k-相互最近邻原则的匹配策略,将相邻区域中的轨迹进行关联。通过考虑每个边界框在进入区域中的最频繁出现的k-相互最近邻,实现匹配的准确性和鲁棒性。

总的来说,基于边界框的匹配相比于基线方法,通过引入边界框级别的相似度计算和关联策略,能够更准确地匹配目标,并在多目标跟踪中取得更好的性能。

实验

实现细节

下面我们将对具体的实现细节进行梳理:

检测和ReID特征提取

系统中的车辆检测模块基于Cascade-RCNN算法,使用SwinTransformer-Base骨干网络。该检测器能够检测出场景中的所有车辆并提供其位置信息。车辆ReID特征提取模块是由五个不同的ReID模型组成的集合,包括ResNet-50、ResNeXt101、Res2Net、ConvNext和HRNet。这些模型使用交叉熵损失和三元损失进行训练,它们提取的特征被拼接起来形成最终的集成特征表示。

单摄像头多目标跟踪

对于基线跟踪器,首先将置信度大于0.6的检测结果与之前的轨迹进行匹配。然后,将置信度在0.1和0.6之间的检测结果与在第一步中未匹配的任何轨迹进行匹配。如果检测框的特征向量和轨迹的特征向量之间的余弦距离小于0.45,则拒绝匹配。丢失的轨迹在30帧内保留以防它们重新出现。在轨迹重新连接步骤中,贪心匹配过程中的最大余弦距离阈值设置为0.4。

跨摄像头关联

在轨迹候选构建步骤中,人工绘制了区域,如图4所示。对于退出阈值Tout和进入阈值Tin,不同的摄像头根据道路结构具有不同的阈值。在基于边界框的距离矩阵构建步骤中,我们使用了遮挡率阈值rthre = 0.6和αo = 1.1(方程式8)。在基于边界框的轨迹关联步骤中,我们使用k-相互最近邻算法进行轨迹匹配,其中k = 7。

效果

总结

本文提出了一种针对城市规模的多摄像头多目标跟踪任务的新颖方法。所提出的方法包括车辆检测、ReID特征提取、单摄像头多目标跟踪和跨摄像头关联等关键组件,共同实现多摄像头多目标跟踪的结果。特别地,作者提出了两个关键创新点来改善跟踪性能:基于位置感知跟踪方法考虑了目标的空间上下文,基于边界框的匹配方法在跨摄像头关联过程中进行了细粒度的边界框级特征比较,提高了匹配的准确性。

最后,所提方法在 CityFlowV2 数据集的公共测试集上评估了我们方法的性能。实验结果表明,该方法在 IDF1 得分上达到了 85.45%,是该基准任务的最高得分,创造了城市规模多摄像头多目标跟踪任务的新纪录!

Guess you like

Origin juejin.im/post/7258549014910500901