SORT: SIMPLE ONLINE AND REALTIME TRACKING

引言
2 文献综述
3 方法
4 实验
5 结论
6 个人理解与笔记

引言

文献阅读笔记，有翻译错误欢迎指出，一起讨论！
在这里插入图片描述
本文探索了一种实用的多目标跟踪方法，其中主要关注的是在线和实时应用中有效地关联目标。为此，检测质量被认为是影响跟踪性能的关键因素，其中更换检测器可以提高跟踪性能高达18.9%。尽管只将卡尔曼滤波和匈牙利算法等熟悉技术进行基本组合用于跟踪组件，但这种方法实现了可与最先进的在线跟踪相媲美的精度。此外，由于我们的跟踪方法简单，跟踪器以260赫兹（FPS）的速度更新，比其他最先进得跟踪器快20倍以上。
在这里插入图片描述
针对多目标跟踪（MOT）问题，提出了一种精益执行并基于检测的跟踪框架，该框架检测每帧的目标并以检测框呈现。与许多基于批次（batch）的跟踪方法[1,2,3]不同，这项工作主要针对在线跟踪，其中只将来自前一帧和当前帧的检测呈现给跟踪器。此外，还特别强调了促进实时跟踪的效率，并促进了如自动驾驶的行人跟踪等应用更好地落地。
MOT问题可以被视为数据关联问题，其目的是关联视频序列中跨帧的检测。为了辅助数据关联过程，跟踪器使用各种方法对场景中对象的运动[1,2]和外观[5,3]进行建模。文本采用的方法通过对最近帧建立一个可视化MOT基准[6]进行观察。首先，由于成熟的数据关联技术复兴，包括多假设跟踪（MHT）[7,3]和联合概率数据关联（JPDA）[2]，它们占据了MOT基准方法中的领先位置。其次，唯一不使用聚合通道过滤器(ACF)[8]检测器的跟踪器也是排名最靠前的追踪器之一，表明检测质量可能阻碍了其他追踪器的发展。此外，精度和速度之间的权衡似乎非常明显，因为最精确的跟踪器的速度被认为对于实时应用来说太慢了(见图1)。随着传统数据关联技术在最先进的在线和批处理跟踪器中的突出地位，以及顶级跟踪器使用的不同检测器，这项工作探索了MOT可以多么简单，以及它的执行情况有多好。
在这里插入图片描述
为了与Occam的Razor保持一致，跟踪中忽略了检测组件之外的外观特征，仅将边界框位置和大小用于运动估计和数据关联。此外，关于短期和长期遮挡的问题也被忽略，因为它们很少发生，并且它们额外处理增加了跟踪框架地复杂性。我们认为，以对象重新识别的形式加入复杂性会增加跟踪框架的大量开销并潜在地限制了其在实时应用中的使用。
这种设计理念与许多提出的视觉追踪器形成对比，这些追踪器包含无数组件来处理各种边缘情况和检测错误[9，10，11，12]。相反，这项工作的重点是有效和可靠地处理常见的帧到帧关联。我们的目标不是对检测错误具有健壮性，而是利用视觉对象检测的最新进展来直接解决检测问题。通过比较常见的ACF行人检测器[8]和最近基于卷积神经网络(CNN)的检测器[13]，证明了这一点。此外，卡尔曼滤波[14]和匈牙利方法[15]这两种经典但极其有效的方法分别用于处理跟踪问题的运动预测和数据关联部分。这种最简单的跟踪公式促进了在线跟踪的效率和可靠性，见图1。在本文中，这种方法仅适用于各种环境中的行人跟踪，但由于基于CNN的检测器的灵活性[13]，它自然可以推广到其他对象类。
在这里插入图片描述
针对几个基线跟踪器对所提出的方法(SORT)的性能进行了基准测试[6]。每个标记都表示跟踪器的精度和速度，单位为每秒帧数(FPS)[赫兹]，即越高越正确。

本文的主要贡献：我们在MOT的背景下利用了基于CNN的检测能力。提出了一种基于卡尔曼滤波和匈牙利算法的实用跟踪方法，并再最近的MOT基准测试中进行了评估。代码将开源，以帮助建立研究实验的基线方法，并在防撞应用程序中采用。
本文组织如下：第2节简要回顾了多目标跟踪领域的相关文献。第3节描述了所提的精益跟踪框架，第4节论证了所提框架对标准基准序列的有效性。最后，第5节总结了学习的结果并讨论了未来的改进。

2 文献综述

在这里插入图片描述
传统上，MOT使用多假设跟踪(MHT)[7]或联合概率数据关联(JPDA)过滤器[16，2]来解决，这使得对象分配高度不确定性的情况下延迟了做出困难决策的时间。这些方法组合的复杂性在被跟踪对象的数量上呈指数级增长，这使得它们不适用在高度动态环境中实时应用。最近，Rezatofighi et al.[2]，在VISUAL MOT中重新讨论了JPDA公式[16]，目的是通过利用求解整数规划的最新发展来利用JPDA的有效近似来解决组合复杂性问题。同样，Kim等人也是如此。[3]使用每个目标的外观模型来修剪MHT图，以获得最先进的性能。然而，这些方法仍然存在决策延迟的情况，这使得它们不适用于在线跟踪。
许多在线跟踪方法的目标是通过在线学习建立单个对象本身的外观模型[17，18，12]或全局模型[19，11，4，5]。除了外观模型之外，还经常结合运动来帮助将检测关联到轨迹上[1，19，4，11]。当仅考虑建模为二部图匹配的一对一时，可以用如匈牙利算法[15]获得全局最优解[10，20]。
Geiger等人的方法。[20]在两阶段过程中使用匈牙利算法[15]。首先，通过关联相邻帧上的检测来形成轨迹小块，其中几何和外观线索被组合以形成亲和度矩阵。然后，轨迹相互关联，再次使用几何体和外观线索来桥接由遮挡导致的断开轨迹。这种两步关联方法限制了这种方法在批处理计算中的应用。我们的方法受到[20]的跟踪组件的启发，但我们将关联简化为具有基本提示的单个阶段，如下一节所述。

3 方法

在这里插入图片描述
该方法通过检测、将目标状态传播到未来帧、将当前检测与现有目标相关联以及管理被跟踪目标的寿命的关键组件来描述该方法。

3.1 检测

为了利用基于CNN的检测的快速发展，我们利用了更快的区域CNN(FrRCNN)检测框架[13]。FrRCNN是一个端到端的框架，由两个阶段组成。第一阶段提取特征并为第二阶段建议区域，第二阶段将目标分类到建议区域。该框架的优点是在两个阶段之间共享参数，从而创建了一个有效的检测框架。此外，网络体系结构本身可以切换到任何设计，从而能够快速试验不同的体系结构，以提高检测性能。
这里我们比较了FrRCNN提供的两种网络体系结构，即Zeeller和Fergus(FrRCNN(ZF))[21]和Simonyan和Zisserman(FrRCNN(VGG16))[22]的更深层次的体系结构。在整个工作中，我们使用FrRCNN对Pascal VOC挑战赛数据集来实现默认参数的学习。由于我们只对行人感兴趣，所以我们忽略所有其他类，并且只将输出概率大于50%的人检测结果传递给跟踪框架。
在这里插入图片描述
表1：通过切换探测器组件来比较跟踪性能。根据[12]中所列的验证序列进行评估。
在我们的实验中，我们发现当比较FrRCNN检测和ACF检测时，检测质量对跟踪性能有显著的影响。这是使用一组验证序列来演示的，这些序列既适用于现有的在线跟踪器[12]，也适用于这里提出的跟踪器。表1显示，对于MDP和所提出的方法，最佳检测器(FrRCNN(VGG16))导致最佳跟踪精度。
在这里插入图片描述

3.2 评估模型

这里我们描述对象模型，即用于将目标身份传播到下一帧的表示和运动模型。我们用一个独立于其他物体和摄像机运动的线性恒速模型来近似每个物体的帧间位移。每个目标的状态建模为： $x=[u,v,s,r,\dot{u},\dot{v},\dot{s}]^T$ .其中u和v表示目标中心的水平和垂直像素位置，而比例s和r分别表示目标边界框的比例(面积)和纵横比。请注意，纵横比被认为是恒定的。当检测与目标相关联时，检测到的边界框用于更新目标状态，其中速度分量通过卡尔曼滤波框架[14]被最优求解。如果没有与目标相关联的检测，则简单地预测其状态，而不使用线速度模型进行校正。
在这里插入图片描述

3.3 数据关联

在为现有目标分配检测时，通过预测每个目标在当前帧中的新位置来估计每个目标的边界框几何图形。然后计算分配代价矩阵，作为每个检测和现有目标的所有预测边界框之间的交集(IOU)距离。该任务使用匈牙利算法进行最优求解。此外，对于检测到的目标重叠小于IOUmin的分配，施加最小IOU以拒绝分配。
我们发现，检测框的IOU距离隐含地处理了由于经过目标而引起的短期遮挡。具体地说，当目标被遮挡对象覆盖时，由于IOU距离适当地有利于具有相似尺度的检测，因此仅检测遮挡物。这使得遮挡器目标可以通过检测得到校正，而被覆盖的目标不受影响，因为没有进行任何分配。（个人理解：当该帧的跟踪目标被遮挡时，没有检测结果，由于IOU距离的特性该帧的轨迹也不会得到更新，直到后续帧检测到该目标再更新轨迹。）
在这里插入图片描述
当物体进入和离开图像时，需要相应地创建或销毁唯一身份。对于创建跟踪器，我们认为任何重叠小于IOUmin的检测都表示存在未跟踪的对象。跟踪器使用速度设置为零的边界框的几何体进行初始化。由于此时未观测到速度，因此速度分量的协方差被初始化为较大的值，反映了这种不确定性。此外，新的跟踪器随后经历试用期，目标需要与检测相关联，以积累足够的证据，以防止跟踪误报。
如果未针对 $T_{Lost}$ 帧检测到轨道，则终止轨道。这防止了跟踪器数量的无限增长和由于长时间的预测而没有检测器校正而导致的定位误差。在所有实验中， $T_{Lost}$ 设置为1有两个原因。首先，恒速模型不能很好地预测真实的动态，其次，我们主要关注帧到帧的跟踪，其中目标的重新识别超出了本工作的范围。此外，及早删除丢失的目标有助于提高效率。如果对象再次出现，跟踪将以新的身份隐式恢复。

4 实验

在这里插入图片描述
我们在MOT基准数据库[6]设置一组不同测试序列上评估了跟踪实现的性能，该数据库包含运动和静态摄像机序列。为了调整初始卡尔曼滤波协方差、IOUmin和 $T_{Lost}$ 参数，我们使用与[12]中报告的相同的训练/验证分布，使用的检测架构是FrRCNN(VGG16)[22]，来自[22]的源代码和样本检测可在网上获得。

4.1 指标

由于很难使用单个分数来评估多目标跟踪性能，因此我们使用[24]中定义的评估指标以及标准的MOT指标[25]：
MOTA(↑)：多目标跟踪精度
MOTP(↑)：多目标跟踪精度
FAF(↓)：每帧虚警数
MT(↑)：主要跟踪的轨迹数。即，目标在其寿命的至少80%内具有相同的标签。
ML(↓)：多数情况下丢失的轨迹数。即，目标在其寿命的至少20%的时间内不被跟踪。
FP(↓)：误检次数
FN(↓)：漏检次数
ID sw(↓)：ID切换到先前跟踪的不同对象的次数[24]。
Frag(↓)：轨迹因未命中检测而中断的碎片数
具有(↑)的评估指标，分数越高表示表现越好；而使用(↓)的评估指标，分数越低表示表现越好。真正的正例被认为与相应的真实边界框至少有50%的重叠。评估代码从[6]下载。

4.2 性能评估

在这里插入图片描述
跟踪性能使用MOT 基准[6]测试对服务器进行评估，其中保留了11个序列的基本真实。表2将提出的方法SORT与其他几个基线跟踪器进行了比较。为简洁起见，仅列出了最相关的跟踪器，它们在精确度方面是最先进的在线跟踪器，例如(TDAM[18]，MDP[12])，最快的基于批处理的跟踪器(DP NMS[23])，以及所有接近在线的方法(NOMT[11])。此外，还列出了启发这种方法的方法(TBD[20]、ALExTRAC[5]和SMOT[1])。与这些其他方法相比，SORT在在线跟踪器上获得了最高的MOTA分数，与最先进的方法NOMT相当，后者明显更复杂，并使用未来帧。此外，由于SORT的目标是专注于帧到帧的关联，因此丢失目标的数量(ML)是最小的，尽管有类似于其他跟踪器的假阴性。此外，由于SORT专注于帧到帧的关联来增长轨迹，因此与其他方法相比，它具有最低目标丢失数量。

4.3 运行时间

在这里插入图片描述
大多数MOT解决方案旨在将性能推向更高的准确性，通常是以运行时间性能为代价的。虽然在离线处理任务中可以容忍缓慢的运行时间，但对于机器人和自动驾驶车辆来说，实时性能是必不可少的。图1显示了MOT基准[6]上的一些跟踪器与它们的速度和精度的关系。这表明达到最佳精度的方法往往也是最慢的(图1中的右下角)。在排行版的另一端，最快的方法往往具有较低的精度(图1中的左上角)。SORT结合了速度和精度这两个理想的属性，没有典型的缺点(图1右上角)。跟踪组件在英特尔i7 2.5 GHz机器的单核上以260赫兹（fps）的速度运行，内存为16 GB。

5 结论

在这里插入图片描述
本文提出了一个简单的在线跟踪框架，该框架侧重于帧到帧的预测和关联。我们证明，跟踪质量高度依赖于检测性能，通过利用检测领域的最新发展，只有经典的跟踪方法才能获得最先进的跟踪质量。所提出的框架在速度和准确性方面都取得了最好的性能，而其他方法通常牺牲了一个而换成了另一个。该框架的简单性使其非常适合作为基线，允许新的方法专注于对象重新识别以处理长期遮挡。随着我们的实验强调了检测质量在跟踪中的重要性，未来的工作将研究一个紧密耦合的检测和跟踪框架。

6 个人理解与笔记

（注：以下内容摘自笔者的硕士学位论文，目前尚在保密中）
SORT目标跟踪框架中两个核心的算法为卡尔曼滤波和匈牙利匹配算法。卡尔曼滤波算法实现目标的状态估计和更新；匈牙利匹配算法则解决目标的匹配问题，通过求解最小的匹配代价求得目标的最佳匹配结果。
卡尔曼滤波的前提是假定目标满足匀速恒定运动且始终服从高斯分布。在预测阶段，首先初始化目标轨迹，根据状态转移方程预测下一帧的轨迹位置及其协方差矩阵如式（4-1）-（4-5），所谓协方差矩阵就是预测状态中的不确定性度量，由噪声导致；在更新阶段，成功匹配的估计值和观测值根据卡尔曼增益更新当前帧轨迹的最优状态，此时协方差矩阵同时更新。
在这里插入图片描述
匈牙利匹配则主要解决最优匹配问题，检测结果与轨迹预测之间计算代价矩阵，在SORT算法中计算两者交并比（IOU），并由（1-IOU）构建代价矩阵作为匈牙利匹配算法的输入，求解检测结果与预测轨迹的最优匹配，实现目标的关联。
SORT算法实现流程：
(1)对视频序列进行目标检测，获取目标检测框位置和类别；
(2)卡尔曼滤波基于初始轨迹预测当前帧的轨迹状态；
(3)计算预测轨迹框与当前帧检测框的交并比，由算式（1-IOU）构建代价矩阵输入匈牙利算法求解最优匹配结果，最终实现轨迹与检测数据关联；
(4)卡尔曼滤波根据匹配的检测信息更新轨迹状态；
(5)未关联的轨迹在SORT算法中直接删去；未关联的检测结果再经由卡尔曼滤波初始化为新的轨迹，算法流程如下图所示。
SORT是一个简单易行且快速的基于检测的多目标跟踪算法，通过目标检测框与轨迹预测框的交并比（IOU）就可以实现快速匹配，但是复杂环境下ID 转换次数非常大。
在这里插入图片描述
SORT算法流程图

【笔记】文献阅读[SORT]-SIMPLE ONLINE AND REALTIME TRACKING