旷视研究院获得第一届DanceTrack挑战赛冠军

多目标跟踪和分割任务是指在视频中定位和关联感兴趣的目标,是视频内容理解和人机交互等许多应用中的基础技术。现有的计算机视觉系统在简单场景中取得了良好的跟踪和分割性能,但是在复杂环境中表现一般。

为了提升计算机视觉系统在复杂环境中的性能,复杂环境中的多目标跟踪和分割 Workshop(Multiple Object Tracking and Segmentation in Complex Environments)在 ECCV 会议期间举办,Workshop 中探索了长视频、遮挡对象、复杂运动和开放世界四种挑战性的场景并举办了四场对应的比赛:

  • 第四届 YouTubeVIS 长视频实例分割挑战赛 (4th YouTubeVIS and Long Video Instance Segmentation Challenge)

  • 第二届 OVIS 遮挡视频实例分割挑战赛 (2nd Occluded Video Instance Segmentation Challenge)

  • 第一届 DanceTrack 团体舞蹈多人追踪挑战赛 (1st Multiple People Tracking in Group Dance Challenge)

  • 第二届 UVO 开放世界视频目标检测和分割挑战赛 (2nd Open-World Video Object Detection and Segmentation Challenge)

近日,第一届 DanceTrack 团体舞蹈多人追踪挑战赛(1st Multiple People Tracking in Group Dance Challenge)比赛结果揭晓,旷视研究院荣获第一

643244111fdc184c4d82abea2fc0bcdb.png

赛题简介

团体舞蹈 (DanceTrack) 是多目标追踪中具有明显特色的场景。在团体舞蹈中,舞者着装一致,外观高度相似,同时,舞者运动模式复杂,相对位置频繁交换。这些特点对现在广为流行的基于外观(re-ID)和线性运动模型(Kalman Filter)的追踪模型提出挑战。DanceTrack 挑战赛需要参赛选手基于给定的视频数据集实现对视频中多个舞者的运动进行实时追踪,比赛将根据选手提交的追踪轨迹结果,对 HOTA 指标(高阶跟踪精度)进行计算并进行最终的排名。

旷视夺冠算法介绍

对于团体舞蹈这样的多目标追踪任务,最大的难点在于实现对于目标运动轨迹的时序建模,最常见的想法是将结合目标的外观特征以及手工设计的开尔曼滤波模型对目标进行追踪。而我们的工作,MOTR: End-to-End Multiple-Object Tracking with Transformer [1] (以下简称:MOTR)在多目标追踪领域为时序建模提供了一个简单且强有力的基线。其结构图如下图所示:

70c4e46b39e0dcf2cd04be5a19c0a9e7.png

图1. MOTR整体框架示意图

受此启发,我们直接利用 MOTR 在 DanceTrack 数据集上进行了尝试。虽然已经能取得不错的性能,但是 MOTR 在物体检测的性能却远远满足不了需求,这主要归结于 MOTR 自身的检测、连接的耦合机制:即利用同一个解码器进行物体检测和追踪连接。为此,我们对物体检测和追踪连接过程进行解耦,将 MOTR 中的检测查询向量进行锚点化,然后利用旷视研究院研发的物体检测器 YOLOX [2] 实现对物体的高质量定位,将 YOLOX 生成的高质量建议框转化为锚点对检测查询向量进行初始化。我们称该方法为 MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors (以下简称:MOTRv2,论文后续放出,请持续关注),其总体结构如下图所示:

e9e867f7245a0373a277425c84f91bbc.png

图2. MOTRv2 整体框架示意图

为使得 MOTR 能够优雅地与 YOLOX 的检测结果进行结合,保留 MOTR 端到端多目标追踪的特性,我们提出了锚框传播的概念,如下图所示,我们对检测查询向量和追踪查询向量进行锚框初始化:

c0141845479cdf6eb30b55d33b780ead.png

图3. 锚框传播示意图

最终,我们的团队mfv(megvii-foundation model-video)在 DanceTrack 挑战赛 [3] 中凭借 HOTA 指标的显著优势取得了第一名的好成绩!在检测性能(DetA)第二名(仅低于第一名0.02%)的情况下,连接性能(AssA)高于第二名接近10%。连接性能的巨大优势,充分展现了旷视自研的 MOTR 系列框架在端到端时序建模层面的巨大优势。

1558b8e5ba504663d4485fffb2bfb839.png

图4. 第一届DanceTrack挑战赛排行榜

参考文献:

[1] MOTR: End-to-End Multiple-Object Tracking with Transformer

[2] YOLOX: Exceeding YOLO Series in 2021

[3] The 1st Multiple People Tracking in Group Dance Challenge - DanceTrack

 实习生招聘  

对多目标追踪、视频预训练、自动驾驶感知问题有兴趣的同学,欢迎投递简历,标记“ 姓名+学校+年级+Model_Video组实习生”,发送至[email protected]

8dd782e48e30ab92bdc9b8dbcf706be7.gif

猜你喜欢

转载自blog.csdn.net/Megvii_tech/article/details/127524923