本文已参与「新人创作礼」活动，一起开启掘金创作之路。

写在前面

没有按照原标题翻译，因为觉得使用“Grand”为时过早。
不过文章这种统一的框架我很喜欢，因此对文章持推荐和支持态度。

工作简要介绍

1.提出了一种统一的方法，称为Unicorn，它可以在使用相同的模型参数的单个网络上同时解决四个跟踪问题(SOT，MOT，VOS，MOTS)。
2.SOT，MOT，VOS，MOTS分别代表单目标跟踪、多目标跟踪、视频目标物体分割和多目标分割与跟踪
3.作者交代文章写作的意义：“由于对目标跟踪问题本身定义的碎片化，大多数现有的跟踪器都是为了解决单个或部分任务而开发的，并且过于专注于特定任务的特征。相比之下，Unicorn提供了统一的解决方案，在所有跟踪任务中采用相同的输入、主干、嵌入和头部。首次实现了跟踪网络体系结构和学习范式的高度统一。在包括LaSOT、TrackingNet、MOT17、BDD100K、DA VIS16-17、MOTS20和BDD100K MOTS在内的8个跟踪数据集上，Unicorn的表现与其特定任务的同行持平或更好。相信Unicorn将成为迈向总体愿景模式的坚实一步。”

之所以说使用“Grand”还为时过早，就是觉得SOT，MOT，VOS，MOTS四条技术路线在自动驾驶宏观任务中的相似性很大，距离我预想的“统一框架”还有一段距离。
不过，仅是SOT，MOT，VOS，MOTS四个任务就已经可以拿到ECCV2022的Oral了。所以还是虚心学习。

深入讨论下“为什么要做一个统一的框架”或者说“我们很需要统一的框架吗”

1.首先，老生常谈式的介绍了一下通用人工智能(artificial general intelligence, AGI)。对于统一框架的提出，这倒也说得通。
2.单独任务的跟踪器过于专注于特定子任务的特点，缺乏泛化能力。
3.独立的模型设计导致参数冗余。例如，最近基于深度学习的跟踪器通常采用类似的主干架构，但独立的设计理念阻碍了参数的潜在重用。

第2条与第3条可以合并起来看

方法论

1.整体框架

Unicorn由三个主要部分组成：统一的输入(input)和主干(backbone)；统一的嵌入(embedding)和统一的头部(head)。三个组件分别负责获取强大的视觉表示、建立精确的对应关系和检测不同的跟踪目标。图2展示了Unicorn的整体框架。给定参考帧Iref、当前帧Icur和参考目标(targets)，Unicorn的目标是通过一个统一的网络预测当前帧上四个任务跟踪目标的状态。

2.统一的输入与主干

为了有效地定位多个潜在目标，Unicorn将整个图像(对于参考帧和当前帧)而不是局部搜索区域作为输入。这也赋予了Unicorn对跟踪失败的高抵抗力，以及在消失后重新检测被跟踪目标的能力。在特征提取过程中，参考帧和当前帧通过权重共享主干得到特征金字塔表示(FPN)。为了保持重要的细节，减少计算对应时的计算负担，选择步长为16的特征映射作为后续嵌入模块的输入。来自参考和当前帧的相应特征分别被称为Fref和Fcur。

3.统一的嵌入

目标跟踪的核心任务之一是在视频帧之间建立准确的对应关系。具体来说(寻找任务之间的本质关联)：
(1)对于SOT&VOS，像素级对应关系（pixel-wise correspondence）将用户指定的目标从参考帧（通常是第一帧）传播到第 t 帧，为最终的框或掩码预测提供强大的先验信息。
(2)对于 MOT&MOTS，实例级对应关系（instance-level correspondence）将第 t 帧上检测到的实例与参考帧（通常是第 t-1 帧）上的现有轨迹相关联。

截止到目前，将四个任务统一为了两对。

像素级对应关系是参考帧 reference frame embedding(HW x C) 和当前帧current frame embedding (HW x C) 的两两点乘(HW x HW) 。同时，由于instance embedding是在frame embedding上从实例所在位置处提取得到的，因此实例级对应关系可以看作是像素级对应关系的子矩阵！即四种跟踪任务可以共享统一的Embedding！ 即，到此可完全统一四个任务。

Embedding的训练loss应该同时适用于四种跟踪任务的需要：
(1)对于SOT&VOS来说，虽然帧间的像素级对应关系没有现成的标签，但是可以通过监督传播后的target map来提供监督信号，即target map在目标所在区域的值等于1，其他区域的值为0。
(2)对于MOT&MOTS来说，实例级对应关系可通过标准的对比学习范式得到，对于参考帧和当前帧上的实例，属于同一ID的为正样本，其余的为负样本。

4.统一的预测头

我比较喜欢将head翻译为预测头

为了实现目标跟踪的大统一，另一个重要而具有挑战性的问题是为四个跟踪任务设计一个统一的预测头。具体而言，MOT应当对特定类别的物体进行检测。然而，SOT需要检测参考帧中给定的任何目标。为了弥补这一差距，Unicorn在原始检测器头上引入了额外的输入(称为目标先验)。在不做任何进一步修改的情况下，Unicorn可以使用这个统一的检测头轻松检测四个任务所需的各种对象。

如图所示，给定相关目标图Tref，传播的目标图Tcur可以提供关于被跟踪目标的状态的强先验信息，在SOT和VOS任务时可将其作为现先验目标。

论文阅读：一种目标跟踪的统一框架(Towards Grand Unification of Object Tracking, ECCV2022, Oral)

写在前面

工作简要介绍

深入讨论下“为什么要做一个统一的框架”或者说“我们很需要统一的框架吗”

方法论

1.整体框架

2.统一的输入与主干

3.统一的嵌入

4.统一的预测头

试验

1.单目标跟踪(SOT)

2.多目标跟踪(MOT)

3.视频目标分割(VOS)

4.多目标分割与跟踪(MOTS)

猜你喜欢