基于深度学习的视觉多目标跟踪研究综述

作者:伍瀚,聂佳浩,张照娓,何志伟,高明煜

来源:计算机科学

编辑:东岸因为@一点人工一点智能

入群邀请:7个专业方向交流群+1个资料需求群

原文地址:基于深度学习的视觉多目标跟踪研究综述

多目标跟踪(MOT)旨在从给定视频序列中输出所有目标的运动轨迹并维持各目标的身份。近年来,由于其在学术研究和实际应用中具有巨大潜力,因此受到越来越多的关注并成为计算机视觉的热点研究方向。当前主流的跟踪方法将MOT任务拆分为目标检测、特征提取以及数据关联3个子任务,这种思路已经得到了良好的发展。然而,由于实际跟踪过程中存在遮挡和相似物体干扰等挑战,保持鲁棒跟踪仍是当前的研究难点。为了满足在复杂场景下对多个目标准确、鲁棒、实时跟踪的要求,需要对MOT算法作进一步研究与改进。

目前已有关于MOT算法的综述,但仍存在总结不够全面及缺少最新研究成果等问题。因此,首先介绍了MOT的原理及挑战;其次,通过总结最新的研究成果对MOT算法进行了归纳和分析,根据各类算法为完成3个子任务所采用的跟踪范式将其分为三大类,即分离检测与特征提取、联合检测与特征提取及联合检测和跟踪,并且详细说明了各类跟踪算法的主要特征;然后,将所提算法与当前主流算法在常用数据集上进行了对比分析,讨论了当前算法的优缺点及发展趋势,展望了未来的研究方向。

01  引言

多目标跟踪(Multiple object tracking,MOT)的主要任务是从给定视频中输出所有目标的运动轨迹,并维持各目标的身份信息(Identity,ID)。其中,跟踪目标可以是行人、车辆或其他对象。随着计算机视觉技术的发展,MOT已被广泛应用于众多领域,如视频智能监控、人机交互、智能导航等[1-2]。此外,MOT是姿态估计、行为识别、行为分析、视频分析等高级计算机视觉任务的基础[3-4]。然而,在复杂场景下进行鲁棒跟踪仍是当前的研究难点,主要体现在以下3个方面:

1)跟踪过程中频繁遮挡导致目标难以被精准定位;

2)不同目标之间可能具有较高的外观相似性,增加了维持目标ID的难度;

3)目标间交互可能造成跟踪框漂移。

传统的MOT算法有马尔可夫决策、联合概率数据关联、粒子滤波等,但是传统方法的预测位置误差较大且对遮挡和相似物体干扰的鲁棒性较差。随着深度学习在计算机视觉领域的广泛应用,近年来基于深度学习的跟踪方法得到了广泛的关注并成为了研究主流。而受益于目标检测技术的快速发展,当前基于深度学习的方法主要把MOT拆分为目标检测、特征提取和数据关联3个子任务[5]。具体来说,其基于目标的外观、运动和时空等特征的相似性将不同视频帧的检测目标关联为轨迹。基于深度学习的跟踪算法不需要手动选择特征,其通过大量的数据可使模型训练得到良好的特征提取能力。

为推动MOT的发展,近年来已有相关文献对MOT的研究成果进行综述。文献[6]较全面地综述了MOT中的主要挑战,并归纳了MOT中的主要技术;文献[7]综述了深度学习在MOT各步骤中的应用;文献[8]详细综述了深度学习在数据关联中的应用;文献[9]对基于RGB-D三维视觉信息的MOT方法进行了综述;文献[10]将MOT模型分为传统方法和基于深度学习的方法进行综述。然而,上述文献对算法的分类方式大多缺乏新颖性,且未涵盖最新的研究成果。

为弥补已有综述的不足,同时使广大科研工作者了解与掌握MOT领域的最新发展趋势,本文从一个新颖的角度,根据模型完成目标检测、特征提取和数据关联3个子任务所采用的跟踪范式将近年来的MOT算法分为3类进行综述,通过回顾最新的研究成果,总结了近年来的MOT算法及其优缺点,并对未来的研究方向进行展望。

02  现有MOT算法简介

近年来的MOT算法主要采取根据目标的特征相似性将视频序列中的检测目标关联为完整轨迹的跟踪策略。根据模型为完成目标检测、特征提取和数据关联3个子任务所采取的跟踪范式,可以将近年来的MOT算法分为分离检测与特征提取的方法(Separate Detectionand Embedding,SDE)、联合检测与特征提取的方法(Joint Detection and Embedding,JDE)以及联合检测和跟踪的方法(Joint Detectionand Tracking,JDT)。

如图1所示,基于SDE的方法先后完成3个子任务,即首先通过一个检测网络来定位目标,然后提取目标的特征,最后通过数据关联算法计算目标间的亲和力并关联目标。JDE的方法在一个网络中同时输出目标的位置以及外观特征,再通过数据关联算法计算目标间的亲和力并关联目标。而JDT的方法是在单个网络中完成3个子任务,从而完成跟踪过程。这3种方法的经典模型以及不同方法的跟踪效果及其优劣将在下文详细介绍。

图1 各范式结构示意图

通过国内外学者的不懈努力,已有许多MOT算法在跟踪准确性和跟踪速度等方面取得了显著的成果。图2按照算法分类展示了近年来的多个代表性算法,后文将详细介绍各算法。不难看出,当前多种跟踪方法并存,更多元化的网络结构和跟踪策略推动了MOT技术的快速发展。

图2 近年MOT算法分类

03  基于SDE范式的算法

根据算法对输入视频帧的要求,可进一步将基于SDE的算法分为离线方法和在线方法。离线方法在数据关联过程中考虑了整个视频序列所有视频帧的信息,而在线方法在跟踪过程中仅依靠当前及过去时刻的视觉和时空等信息。表1详细列出了离线和在线方法各方面的特点及差异。

表1 离线跟踪和在线跟踪的对比

3.1 离线跟踪方法

离线跟踪可以看成是一个全局优化问题,给定所有视频帧的检测结果,将属于同一目标的检测结果全局关联到一条轨迹中。

离线跟踪的关键是找到全局最优解。连续能量最小化[47]是一种常用的全局优化方法,旨在将数据关联和轨迹估计整合到能量函数中,并通过构建运动模型来约束轨迹。另一种常用的全局优化策略是将MOT任务建模为一个图模型,其中每个顶点表示一个检测目标,顶点间的边表示目标间的相似性,然后通过匈牙利算法[48-49]或贪婪算法[50]确定各顶点的匹配关系。基于图模型的方法有网络流(Network Flow,NF)[11]、条件随机场(CRF)[12]、最小代价子图多切(Minimum Cost Subgraph Multicut,MC SM)[13]和最大加权独立集(Maximum-Weight Independent Set,MWIS)[51]等。

NF是每条边都具有一定容量的有向图。对于MOT任务,图中每个节点表示一个检测目标,流被建模为是否连接两个节点的指示器,一条轨迹对应图中的一条流路径。基于NF的算法能在多项式时间内得到全局最优解,并通过同时考虑多帧的信息提升了跟踪准确性。然而,基于NF的方法在跟踪过程中难以兼顾多元信息。

CRF是一种无向图模型,可表示随机变量集之间的条件概率分布。图中每个节点表示检测目标,以轨迹作为输入,CRF预测检测目标与每条轨迹的概率关系。CRF的优势在于能有效模拟各目标之间的交互关系和相互作用。然而,基于CRF的MOT算法易陷入局部最优。

MCSM将MOT视为一个图聚类问题,每个输出集群代表一个跟踪目标。MCSM通过边缘相关成本来衡量检测目标间的相似性,然后在时间和空间维度联合多个高置信度的目标并执行聚类。

MWIS是属性图中非相邻节点的最重子集。属性图中的节点表示连续视频帧中的轨迹对,节点的权重表示轨迹对的亲和性,若多条轨迹共享相同的检测目标,则将节点相连接。最后,通过属性图得到全局关联结果。

由于在跟踪过程中可利用更多帧图像的信息,离线方法通常比在线方法具有更高的跟踪准确性和鲁棒性,但其计算量开销更高且实际应用范围相比在线方法较小。

3.2 在线跟踪方法

由于在线跟踪方法具有不依靠未来信息的特点,更契合实际需求,因此在线的跟踪算法成为如今的研究主流。在线跟踪方法通常按时间顺序逐帧关联目标,因此在线跟踪也被称为顺序跟踪。当前的在线跟踪方法常基于目标的运动和外观特征关联目标。早期的研究主要通过构建运动模型,基于目标的运动特征来跟踪目标。随后,受益于神经网络强大的特征提取能力,基于外观特征的跟踪算法吸引了广泛的关注。而为了进一步提升算法在各种复杂的场景下的跟踪准确性,结合运动和外观特征的MOT算法成为了当今的研究热点。

3.2.1 基于运动特征的算法

许多算法对目标的位置、速度和交互关系等关键特征进行建模,并根据目标的运动状态将不同时刻的目标相关联。

2016年,Bewley等[14]对各目标的位置和速度进行建模,然后基于跟踪目标经卡尔曼滤波[52]所得的预测框和FasterR-CNN[53]所得的检测框之间的IoU逐帧关联目标。2019年,Zhou等[15]基于卷积神经网络(CNN)[54]对目标的运动规律以及目标间的交互关系进行建模。随后,Shan等[16]和Girbau等[17]分别基于图卷积和循环神经网络设计了融合多帧图像信息以预测目标运动状态的模型。

基于目标运动特征的方法可以有效应对短时间的遮挡且缓解了相似目标对模型的干扰。然而,由于外观特征的缺失,在目标密集的场景下或目标发生尺度变换时,这些算法的跟踪性能往往衰退明显。

3.2.2 基于外观特征的算法

受益于CNN强大的特征提取能力,当前许多算法通过深度网络提取更具判别性的外观特征,从而增强拥挤场景下模型的跟踪鲁棒性。

2016年,Yu等[18]基于GoogLeNet[55]设计了一个特征提取网络用于提取目标的外观特征,并通过k密集邻近算法[56]关联目标。2017年,Son等[19]通过同时学习多张包含不同目标的图像学习更具判别性的目标特征。Lee等[20]提出了一种融入特征金字塔(Feature Pyramid Network,FPN)[57]的特征提取网络,通过融合多个层级的特征来增强网络的目标鉴别能力。2021年,Sun等[21]提出了一种深度亲和力网络用于提取目标的外观特征并评估目标间的外观相似性。

相比基于运动特征的算法,基于外观特征的算法在拥挤场景下的跟踪能力更强,同时对目标尺度变换的鲁棒性更高。然而,仅凭外观特征的算法在有相似目标干扰的场景下容易发生跟踪框漂移等错误。

3.2.3 结合运动和外观特征的算法

仅依靠目标的运动或外观特征难以在复杂场景下进行鲁棒跟踪,因此,结合目标运动和外观特征是当前研究的主流方向。

2017年,Wojke等[22]结合KF的预测位置和经CNN提取的目标外观特征计算目标间的亲和力。随后,为缓解噪声检测和冗余跟踪轨迹对跟踪结果的影响,Chen等[23]设计了一种评分机制用于去除不可靠的检测结果和候选轨迹,然后基于KF和目标外观特征关联剩余目标。2021年,Li等[24]设计了一种自校正KF用于预测目标位置,并通过循环神经网络评估目标间的相似性。

结合运动和外观特征的跟踪算法往往具有较高的跟踪准确性且对复杂场景下的各种挑战具有更强的鲁棒性。然而,由于网络复杂度较高且计算量相对较大,这些算法跟踪速度较慢,难以达到实时跟踪的要求。

04  基于JDE范式的算法

SDE的方法在跟踪过程中先后推理了目标检测和特征提取两个计算量较大的深度网络,这种高昂的计算开销限制了模型的跟踪速度。因此,在单个网络中完成目标检测和特征提取的JDE范式受到了关注。通过使目标检测和特征提取两个关键任务共享大量特征,JDE范式可以显著减少算法的计算量。本节首先简介JDE范式的发展历程,然后综述了近年来众多学者对JDE范式的改进方向。

4.1 JDE范式的发展历程

JDE范式通过在检测网络中添加一个并行的特征提取分支,从而在单个网络中同时输出目标的位置和外观特征。通过使两个任务共享特征,有效避免了部分重复计算,提升了模型的跟踪速度。

2019年,Voigtlaender等[58]在两阶段检测网络MaskR-CNN[59]中加入特征提取分支,并提出了TrackR-CNN。该特征提取分支通过全连接层从区域建议网络(Region Proposal Network,RPN)产生的候选区域中提取每个候选区域的外观特征。此外,MaskR-CNN中具备一个实例分割分支,使得TrackR-CNN能提取目标像素级的特征,从而有效提升了跟踪精确性。尽管Track-CNN相比基于SDE范式的算法计算量有所减小,然而受限于两阶段网络较长的推理时间,TrackR-CNN依然未达到实时跟踪的要求。

2020年,Wang等[60]在单阶段检测网络YOLOv3[61]中加入一个特征提取分支,并提出了JDE864。YOLOv3这种直接在图像中回归目标的位置和类别的检测方式有利于提升算法的跟踪速度。此外,JDE864将网络训练视为一个多任务学习问题,采用自平衡损失函数[62]平衡分类、边界框回归和重识别(Re-identification,ReID)特征提取的重要性。在单个网络中同时完成的JDE864最终成为了第一个实时跟踪的MOT算法。然而其特征提取分支设计简单,并未充分考虑目标检测和ReID间的矛盾,因此跟踪鲁棒性相对较低。

4.2 对JDE范式改进研究

虽然TrackR-CNN和JDE864有效减小了模型的计算量,但是其跟踪准确性并未明显优于先前基于SDE范式的算法。因此,众多学者分析了其跟踪结果质量不理想的原因并对其进行了改进,其改进主要集中在基于无锚框检测网络、协同多个子任务和设计注意力机制3个方面。

4.2.1 无锚框检测网络

使用锚框的检测网络中,一个锚框内可能包含多个目标,且一个目标同时对应多个锚框。这种不确定性降低了所提取的ReID特征的判别性。因此,后续研究中许多学者选择基于无锚框的检测网络设计算法。

Zhang等[25]在基于中心点的无锚框检测网络Center-Net中添加了一个并行特征提取分支,并通过学习目标的低维特征减小过拟合的风险。2021年,Liu等[26]在FCOS[64]网络中设计了一种基于可变形卷积[65]的区域转换模块用于减少网络对无关区域的关注。随后,Yan等[66]在FCOS网络中集成了一个特征提取分支。FCOS使用FPN聚合了多个层级的目标特征,使所提取的特征更适合检测和ReID。

相比基于锚框的网络,无锚框的网络能更准确地提取目标本身的特征,基于无锚框网络的算法在跟踪准确性和跟踪速度间实现了较好的平衡。

4.2.2 协同多个子任务

由于目标检测的目的是寻找同类目标的共同点,而ReID的目的是寻找同类各个目标间的差异,这种矛盾导致所提取的特征难以同时满足两个任务的需求。因此,协同网络内多个子任务是一个重要的研究方向。

2020年,Liang等[27]设计了一种互相关网络用于学习多个任务共享的通用特征以及各任务专用的特征。Chen等[28]设计了一种范数感知的特征,将特征向量映射到极坐标中,然后将向量的二范数[67]和角度分别用于检测和ReID。2021年,Wan等[29]设计了一种多通道时空特征,将目标的外观和运动特征编码到不同通道中,通过更丰富的特征来兼顾检测和ReID。随后,Liang等[30]设计了一种重检查网络用于对检测结果以及所提取的ReID特征进行修正。

由于可缓解网络内部的矛盾,协同多个子任务的改进策略能有效提升模型的跟踪准确性。但其增加了模型的网络复杂度和计算量,因此跟踪速度也相应减缓。

4.2.3 注意力机制

通过设计不同的注意力机制来增强网络对特定区域的关注,能有效提升模型在复杂场景下的检测质量并使网络准确提取目标更具判别性的ReID特征,从而有效提升算法的跟踪性能。

2020年,Meng等[31]设计了一种时空注意力机制用于学习更新跟踪目标特征时各时刻特征所占权重。Zhang等[32]通过引入空间注意力机制和通道注意力机制[68]提升了模型对相似物体干扰以及对目标尺度变换的鲁棒性。2021年,Guo等[59]提出的目标注意力机制和干扰物注意力机制能有效增强模型区分不同目标的能力。随后,Yu等[33]设计了一种变形注意力,用于捕获目标和周围背景的关联,有效学习到了目标更具判别性的ReID特征。

添加注意力机制可使网络的注意力聚集于任务相关的区域,不同的注意力能有效提升模型在不同跟踪场景下的跟踪性能。此外,添加注意力机制通常对网络的计算量和复杂度影响较小。

05  基于JDT范式的算法

尽管JDE范式相比SDE范式减小了计算量,然而其仅将目标检测和特征提取两部分相联合,因此模型复杂度依然较高且无法反向传播,导致难以全局优化。近年来,在单个网络中完成3个子任务的JDT范式吸引了众多学者的关注。

JDT范式以相邻多帧图像为输入,基于目标先前的运动或外观信息预测其当前时刻位置偏移量或外观特征,从而关联目标。当前基于JDT范式的算法主要分为基于孪生网络的方法和基于Transformer[70]的方法。

5.1 基于孪生网络的方法

孪生网络是标准CNN的一种变体。如图3所示,基于孪生网络的方法通过两个共享权重的卷积层提取不同视频帧图像中目标的特征,结合不同图像信息学习目标更具判别性的特征。随后,该算法在当前帧图像中搜索先前的跟踪目标。根据模型搜索目标的方式可将其分为基于候选区域的方法和基于中心点的方法。

图3 孪生网络示意图

5.1.1 基于候选区域的算法

基于候选区域的方法首先生成目标位置候选区域,然后根据目标先前时刻的特征在候选区域中搜索目标并回归边界框。

2019年,Bergmann等[71]将MOT视为一个集成ReID任务的检测问题,并设计了一种运动补偿模型用于缓解相机运动或低帧率视频中目标位置变化较大的问题。Peng等[34]经RPN产生候选区域后,通过链式锚框从相邻两帧图像回归目标的一对边界框。Xu等[35]基于双向循环神经网络设计了一种深度匈牙利网络用于提升算法关联目标的准确性。2021年,Shuai等[61]将目标前一帧的跟踪框扩大后映射到当前帧图像中作为候选区域,并在其中搜索跟踪目标。Pang等[37]在训练过程中选取一对邻近图像进行对比学习。通过RPN产生大量候选区域后,对比两帧图像各候选区域间的相似性,从而训练模型提取特征的能力。

这种基于候选区域的方法适用于目标位置变化相对平缓的跟踪场景中。在目标快速运动或视频帧率较低等相邻两帧目标位置变化较大的场景中,模型所产生的候选区域可能与目标的实际位置偏差较大,从而导致错跟或漏跟。

5.1.2 基于中心点的算法

基于中心点的方法直接在图像上预测目标的中心位置,同时估计跟踪目标在当前图像中的坐标位置偏移量用于后续的数据关联,最后回归目标的边界框。

2020年,Zhou等[38]通过添加两个并行的分支来预测目标在相邻两帧之间竖直和水平方向的偏移量。针对传统的边界框无法表示目标时空信息的问题,Pang等[39]设计了一种以多时刻位置描述目标状态的边界管。2021年,为增强模型对遮挡的鲁棒性,Wu等[40]设计了一个运动引导模块来预测两帧图像对应像素点的坐标位置偏移量,并基于所预测偏移量融合多时刻特征图,从而增强目标特征。Wang等[41]通过学习目标和周围背景以及其他目标之间的关系,加强模型对各目标的判别能力。为提升模型对遮挡的鲁棒性,Horna-kova等[42]设计了一种时空递归记忆模块,根据目标所有历史帧的位置预测其被遮挡时的位置。随后,为充分利用目标的时空信息,Wang等[43]通过图神经网络对目标间的时空交互关系进行建模,从而融合了多帧图像的信息。

相比基于候选区域的算法,基于中心点的算法能更精准地提取目标本身的特征。其次,基于中心点的方法更适合用于表示目标的位置偏移量。同时,根据所预测的位置偏移量,基于中心点的方法能准确地融合目标过去多个时刻的特征,从而通过充分利用时空信息来提升算法在复杂场景下的跟踪准确性。

5.2 Transformer的方法

Transformer首先在自然语言处理中被提出,其完全通过注意力机制提取目标的深度特征。近年来,由于TransGformer具有强大的特征表征能力以及良好的并行计算能力,其已在多个计算机视觉任务[72-74]中取得了显著成功。

2020年,Sun等[44]首次将Transformer应用到MOT任务中。为解决基础的Transformer难以跟踪视频中新进目标的问题,他们设计了两个解码器分别用于检测目标和跟踪先前的目标。随后,Chu等[45]提出了一种时空图Transformer用于对目标间的时空交互作用进行建模。其将各目标的跟踪轨迹排列为一组加权稀疏图,通过构建空间图编码器、时间编码器和空间图解码器,有效模拟了多个目标间的交互关系。由于复杂场景下通过边界框表示目标的方式会引入背景和其他目标等干扰信息,因此Xu等[46]提出了一种基于热图的Transformer跟踪算法,该算法基于图像像素级的特征更精准地预测目标的中心点位置。

受益于Transformer强大的数据关联能力,基于TransGformer的算法具有很强的跟踪鲁棒性。此外,Transformer结构清晰且性能卓越,其在MOT领域仍然具有较大的发展潜力,为后续研究提供了新方向。

06  数据集及评价指标

6.1 MOT数据集

为了给MOT算法提供充足的训练数据并准确评估各算法的性能水平,近年来众多学者公开了多个MOT数据集。根据各数据集跟踪对象的不同,可将其分为行人跟踪数据集和车辆跟踪数据集。

MOT15[75]是第一个MOT数据集,其包含22个视频序列。MOT15主要包含摄像头不固定、视角变化和光照变化等挑战,且提供了ACF[76]算法的检测结果。随后,Milan等公开了目标密度更高的数据集MOT16[77]。该数据集由14个视频序列组成,且提供了DPM[78]算法的检测结果。MOT17[79]和MOT16的视频序列相同,但MOT17提供了更精准的标注结果,同时提供了FasterR-CNN,DPM和SDP[80]的检测结果。MOT16和MOT17数据集的主要挑战包括摄像机抖动、频繁的目标交互以及光照变化。MOT20[81]中的跟踪场景极其拥挤,其平均目标密度远超其他数据集。TAO-person[82]是一个大规模的行人跟踪数据集,其包含418个训练视频和826个测试视频。TAO-person数据集的主要挑战来源于行人的复杂运动模式和运动模糊。

KITTI[83-84]可同时用于行人与车辆跟踪,其包含50个视频序列,并提供了DPM和Region Lets[85]的检测结果。车辆跟踪数据集UA-DETRAC[86]中大多视频拍摄于城市拥挤的道路或高速公路,因此存在大量的运动模糊和目标间相互遮挡。Waymo[87]包含了1150个拍摄于城市或郊区的视频。除2D图像及其标注结果外,Waymo还提供了雷达信息用于3D检测和跟踪任务。表2列出了当前常用数据集的信息,其中目标密度(Density)表示该数据集平均每帧图像所含的目标数量。

表2 常用 MOT 数据集

6.2 评价指标

为全面评估算法的跟踪性能,当前通常结合多个指标[90-92]对模型的跟踪性能进行评价。ID变换次数(Identity Switches,IDs)指整个跟踪过程中所有目标的ID交换次数,识别F值(Identification F-Score,IDF)综合考虑了目标ID的准确率和召回率,IDs和IDF是反应模型跟踪鲁棒性的重要指标。FP是错跟总数,FN是漏跟总数。多目标跟踪准确度(Multiple Object Tracking Accuracy,MOTA)是最重要的评价指标之一,如式(1)所示,其综合考虑了FP,FN以及IDs。

其中,N(GT)为真实值的总数。

跟踪精确度(Multiple Object Tracking Precision,MOTP)主要考虑跟踪框与真实边界框的重叠情况。多数跟踪占比(Mostly Tracked,MT)表示80%以上的轨迹被成功跟踪的目标占比;多数丢失占比(Most lylost,ML)表示80%以上的轨迹跟踪失败的目标占比。轨迹分段次数(Fragmentation,Frag)表示所有跟踪轨迹的中断总次数。2021年,Luiten等[93]提出了高阶跟踪准确度(Higher Order Tracking Accuracy,HOTA)。通过计算各定位误差阈值下的检测准确度和关联准确度的几何平均值,HOTA对模型的性能进行了全面评价。Hz用于评估算法的跟踪速度,单位为帧每秒(Frames Per Second,FPS)。

07  模型对比与分析

本节选取了多个算法,并将其在MOT17和MOT20数据集上进行性能评估。各算法在MOT17和MOT20数据集中的性能指标如表3所列,各算法的性能评价数据由相关文献提供,其中加粗字体表示该指标的最优值,下划线表示该指标的次优值。

表3 MOT17和MOT20数据集各算法的性能评价结果

SDE范式为特征提取和数据关联两个任务设计了专用的算法,因此其通常具有较好的跟踪鲁棒性,大多数算法IDs指标较小。

3个任务单独执行的策略避免了模型内部的矛盾,赋予了SDE范式良好的性能上限,例如TPAGT[16]在MOT17数据集上MOTA可以达到76.2%。然而,基于SDE范式的算法跟踪性能依赖于检测性能,漏检、错检和噪声检测等不理想的检测结果往往导致跟踪性能明显下降。

我们分别从基于运动特征、基于外观特征以及结合运动和外观特征的方法中选取了代表算法SORT[14],DAN[21]和MOTDT[23]。图4给出了这3个算法分别采用FasterR-CNN(FRCNN),MaskR-CNN(MASK),YOLOv3,DPM和SDP作为检测算法时在MOT17数据集上的MOTA,显然各算法的跟踪准确性皆因不同检测结果而发生了明显变化。

SORT和DAN采用SDP的检测结果时,MOTA分别达到56.8%和58.5%,而采用DPM的检测结果时MOTA分别下降到24.9%和15.7%。MOTDT采取SDP作为检测算法时MOTA达到57.6%,而采用YOLOv3时下降到30.2%。

此外,SDE只能单独对目标检测、特征提取和数据关联3个任务进行优化,无法通过反向传播对模型进行全局优化。

同时,SDE的方法模型复杂度高且计算量大,因此基于SDE范式的算法跟踪速度低,CRF_CNN[12],TPAGT[16],DAN[21]和MOTDT[23]在MOT17数据集上的跟踪速度分别为1.4FPS,6.8FPS,3.9FPS和6.3FPS,难以达到实时跟踪的要求。

图4 不同检测结果下跟踪算法的准确性

通过使计算量最大的两个子模块目标检测和目标外观特征提取共享特征,JDE范式具有计算量和参数量较小的特点,因此成为了目前工业界常用的跟踪方式。

而早期的基于JDE的算法在准确性上并不具有明显优势,如JDE864[38]在MOT16数据集上跟踪速度达到30.3FPS的同时,MOTA为62.1%。在后续对JDE范式的优化中,采用无锚框检测网络是一种直接且有效的策略,FairMOT[25]在MOT17和MOT20数据集上的MOTA分别达到73.7%和61.8%,跟踪速度分别达到25.9FPS和13.2FPS。

缓解网络内部目标检测和ReID矛盾的策略可以为模型的跟踪准确性带来可观的增益,如CSTrack[27]在MOT17和MOT20数据集上MOTA分别达到74.9%和66.6%,OMC[51]在MOT17数据集上MOTA达到76.3%。

然而,这种策略会对模型跟踪速度造成一定影响,在MOT17数据集上CSTrack和OMC的跟踪速度分别为15.8FPS和12.8FPS。设计注意力机制有助于提升网络在特定方向的性能,例如Relation Track[33]在MOT17数据集上IDs指标为1374,为所有算法中最优的结果,同时MOTA达到73.8%,在MOT20上MOTA达到67.2%。

此外,不同的注意力网络为模型带来的运算量不同,复杂的注意力网络往往也会导致模型速度下降严重,Relation Track虽具有较强的跟踪准确性和鲁棒性,但在MOT17和MOT20上跟踪速度分别降至6.6FPS和4.3FPS。

从上述的分析可以发现,对JDE范式跟踪准确性和鲁棒性的改进往往以降低模型的跟踪速度为代价。在今后的研究中,同步优化JDE范式算法的跟踪准确性和跟踪速度仍然是研究的重点及难点。

JDT是当前的研究趋势,其结构简单清晰且性能优越。由于JDT方式在单个网络中同时完成3个子任务,大多算法可实现端到端训练并可通过反向传播对其进行全局优化,因此基于JDT范式的算法通常具有较高的MOTA。例如Corr-Tracker[41]和GSDT[43]在MOT17上MOTA达到76.5%和73.2%。

此外,基于孪生网络的算法能同时处理多帧视频图像,充分利用时空信息,因此大多数算法的错跟次数较少,例如CTracker[34],CenterTrack[38]和TraDeS[40]在FP指标上都具有较好的表现。

此外,Transformer已被成功应用于MOT任务中[44-46],基于Transformer的跟踪算法已经表现出很好的跟踪性能。基于Transformer的算法在多个指标上取得了亮眼的结果,例如TransTrack[72]在MOT17上的MOTA和速度分别达到75.2%和16.9FPS,同时,MT和IDF指标达到了最优,TransMOT[45]在MOT20的MOTA,MT,IDF和IDs指标上达到了最优。

尽管当前多个JDT范式的算法达到了优异的跟踪性能,但仍有一些问题需要解决。首先,基于孪生网络的算法大多在IDs上并未明显优于其他算法,如何在长时间跟踪过程中鲁棒地维持各目标的ID仍是当前的研究难点。基于Transformer的方法能在复杂场景下保持很强的跟踪准确性和鲁棒性[94],且依然具有很大的研究潜力和发展空间。然而,当前基于Transformer的算法大多跟踪速度慢,难以达到实际应用的要求。此外,当前基于Transformer的MOT算法计算量较大,因此对硬件设备的要求高,对网络进行优化时通常需要多块高性能GPU。

08  结束语

MOT在智能监控和人机交互等领域具有广泛应用,本文首先介绍了MOT的原理及跟踪过程中的挑战,其次根据算法完成3个子任务所采用的跟踪范式将近年来的MOT算法分为三大类,并对其进行了较为详细的综述,然后分别讨论了每一类算法的优缺点。

近年来,基于深度学习的MOT技术迅速发展,模型的跟踪性能取得了显著的提升,目前已有越来越多的技术被应用到MOT任务上,但目前还有许多值得探索的研究方向。

(1)无监督MOT:当前的MOT算法大多是基于监督学习,然而MOT数据集的标注需要逐帧寻找不同图像间的相同目标,需花费巨大的时间和经济成本。设计基于无监督学习[95-96]的MOT算法有助于减少人工标注数据的开销,然而由于缺乏对跟踪目标的先验知识,无监督MOT任务具有很大的挑战性。

(2)目标间交互关系:通过对多个目标间的交互关系建模,可增强拥挤场景下模型对各目标的判别能力,然而当前算法对于目标间交互关系的探索依然较少。在今后的研究工作中,可采用Transformer或图神经网络[97-99]对目标间的交互关系进行建模,从而进一步提升MOT算法在高峰时段的地铁站和节假日的旅游景点等极端拥挤场景下的跟踪鲁棒性。

(3)跟踪促进检测:当前的MOT算法跟踪性能依赖于检测算法,然而目前的MOT算法通常单独执行检测算法,并未探索目标在先前时刻的信息。充分利用目标的时空信息,将目标在过去时刻的运动和外观等特征传递到当前帧,有助于提升模型在执行交通车辆跟踪和赛场运动员行为分析等存在大量遮挡和运动模糊的跟踪任务时的跟踪性能。

1. 基于多层感知器的端到端车道线检测算法

2. 计算机视觉中的数据预处理与模型训练技巧总结

3. 书籍下载-《自动驾驶中的深度学习和计算机视觉》

4. 书籍下载-《视觉目标跟踪:从相关滤波到深度学习》

5. 深度学习时代下的RGB-D显著性目标检测研究进展

猜你喜欢

转载自blog.csdn.net/weixin_40359938/article/details/130544139