【目标跟踪】2、FairMOT | 平衡多目标跟踪中的目标检测和 Re-ID 任务

文章目录

论文：FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking

代码：https://github.com/ifzhang/FairMOT

出处：IJCV2021

一、背景

Multi-object tracking (MOT) 任务是什么：

估计视频中感兴趣目标的运动轨迹

MOT 的重要性，在计算机视觉中是一个很重要的任务：

有利于智能视频分析
人机交互

当时的方法是怎么解决 MOT 任务的

很多方法将 MOT 任务构建成了一个多任务学习的模型，包括：
- 目标检测
- reid

但作者认为，这两个任务是相互竞争的

之前的方法一般都是将 reid 作为检测后的第二个任务，其效果会被目标检测的效果影响，且网络一般都是偏向第一阶段的目标检测网络，对 reid 很不公平，而且两阶段的 MOT 方法难以实现实时推理，原因在于当目标数量很多时，这两个模型是不共享特征的，reid 模型需要对每个框都提取特征

所以，后面就出现了单阶段的追踪方法，使用一个模型来学习检测和 reid 的特征：

Voigtlaender（在 Mask RCNN 中增加了一个 reid 分支，给每个 proposal 都学习 reid 特征，虽然提升了速度，但效果远远比不上两阶段方法，一般都是检测效果很好，但追踪效果变差

所以本文作者首先探讨了上述问题出现的原因：

anchors：anchor 原本是为目标检测设计的，不适合用于对 reid 特征的学习
- 基于 anchors 的方法需要为待检测的目标生成 anchors，然后基于检测结果来抽取 reid 特征，所以，模型在训练时候就会进入 “先检测，后 reid” 的模式，reid 特征就会差一些
- 而且 anchor 会为 reid 特征的学习带来不确定性，尤其是在拥挤场景，一个 anchor 可能对应多个个体，多个 anchor 也可能对应一个个体
特征共享：这两个任务所需要的特征是不同的，所以不能直接进行特征共享
- reid 需要更 low-level 的特征来识别同一类别不同实例间的有区分力的特征
- 目标检测需要高层和低层信息结合来学习类别和位置
- 单阶段目标追踪方法会产生特征冲突，降低效果
特征维度：（reid 需要更高维的特征，MOT 需要低维的特征即可）
- reid 特征一般使用的特征维度为 512 或 1024，远远大于目标检测的维度（一般为类别+定位），所以降低 reid 特征的维度有利于两个任务的平衡
- MOT tracking 和 reid 是不同的，MOT 任务只需要对前后帧目标进行一对一的匹配，reid 需要更有区分力的高维特征来从大量的候选样本中匹配查询样本，MOT 是不需要高维特征的
- 低维度的 reid 特征会提高推理速度

在这里插入图片描述

本文提出了公平的方法 FairMOT：基于 CenterNet

将目标检测和 reid 同等对待，而不是先检测后 reid 的模式
不是对 CenterNet 和 REID 的简单结合

FairMOT 的结构图如图 1 所示：

由两个分支组成，分别来进行目标检测和抽取 reid 特征
目标检测分支是 anchor-free 的，是基于特征图来预测特征的中心点和尺寸
reid 分支为每个目标中心位置预测 reid 特征
这样的两个分支并列的而非串联的，能更好的平衡这两个任务

在这里插入图片描述

二、方法

2.1 Backbone

作者使用 ResNet-34 作为基础 backbone，能更好的平衡速度和精度

还可以使用 DLA 来实现更强版本

2.2 检测分支

检测分支使用 CenterNet，centerNet 包含一个 heatmap head，一个 wh head，一个 offset head

2.3 Re-ID 分支

作者在 backbone 输出特征的基础上，构建了 reid 分支：

reid 分支提取的特征，在不同目标上距离远，在相同目标上的距离近
所以作者使用 128 kernel 为特征图上的每个位置来抽取 reid 特性，得到的特征为 128xHxW

Re-ID loss：

reid 特征的学习方式被规范为分类任务，同一个个体的不同实例都被认为是同一类别

对一张图中的所有 gt 框，会得到其中心点位置，然后会抽取 reid 特征，并使用全连接层和 softmax 操作来将其映射为分类特征

假设 gt 类别向量为 L，预测的为 p，则 reid loss 为：

在这里插入图片描述

K 是训练数据中所有个体的数量
在训练中，只有在目标中心的个体特征会参与训练

2.4 训练 FairMOT

作者联合训练检测和 reid 分支，将所有 loss 加起来

注意：作者使用了 uncertainty loss 来自动平衡两个任务：

在这里插入图片描述

$w_1$ 和 $w_2$ 是可学习参数，用于平衡两个任务

此外，作者还提出了 single image training method 来在 image-level 目标检测数据集上训练了 FairMOT（如 COCO、CrowdHuman 等）

作者每次只属于一个图片，将图像中每个目标都当做独立的个体，将每个 bbox 都当做一个单独的类别

2.5 Online Inference

1、网络推理

输入 1088x608
对预测的 heatmap，基于 heatmap score 来进行 NMS 过滤，来抽取峰值关键点（NMS 是 3x3 最大池化），保留大于阈值的 keypoint
基于保留下来的关键点和 wh、offset 分支来计算 box 尺寸

2、Online Association

首先，将第一帧检出的检测框建立为 tracklet（短轨迹）
之后，在后面的每一帧，都会使用 two-stage 匹配策略来将检出的 bbox 和 tracklet 匹配
- 匹配策略第一阶段：使用 Kalman 滤波和 reid 的特征来得到初始追踪结果，使用 Kalman 滤波是为了预测后面的帧的 tracklet 位置，并且计算预测框和检测框的 Mahalanobis distance （ $D_m$ ）。然后将 $D_m$ 和余弦距离进行融合， $D=\lambda D_r + (1-\lambda) D_m$ ， $\lambda=0.98$ 是权重。当 $D_m$ 大于阈值 $\tau_1 = 0.4$ 时，被设置为无穷大
- 匹配策略第二阶段：对没匹配上的检测结果和 tracklet，作者会使用 box 之间的重合率来进行匹配，阈值 $\tau_2 = 0.5$ ，会更新 tracklets 的特征
最后，会给没匹配上的检测结果重新初始化，并且对没有匹配上的 tracklets 保留 30 帧