ECCV 2022 Oral | 满分论文！视频实例分割新SOTA：SeqFormer & IDOL

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文主要介绍最近两篇 ECCV 2022 Oral 的工作，分别在 offline 和 online 范式下的视频实例分割（Video Instance Segmentation, VIS）任务上取得了目前最高的性能，并在CVPR2022第四届大规模视频物体分割挑战赛（ 4th Large-scale Video Object Segmentation Challenge）的视频实例分割赛道上取得第一名，模型和代码均已开源！

SeqFormer：

https://arxiv.org/abs/2112.08275

IDOL:

https://arxiv.org/abs/2207.10661

官方代码地址:

https://github.com/wjf5203/VNext

SeqFormer：Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral).

SeqFormer：用于视频实例分割的序列Transformer

基于 vision transformer，该文章提出了一种 offline 的 VIS 算法：SeqFormer。SeqFormer为视频中的每一个物体建立对应的特征，并使该特征拥有提取全局信息的能力。与现有的算法不同，SeqFormer 提出了一个 Query 分离的机制，将 Instance Query 分离成 Box Query，在每一帧分别去提取该物体对应位置的信息，然后进行聚合以在 video-level 更有效地表示每个 instance。在不使用任何tracking branches以及后处理的情况下，SeqFormer 在 YouTube-VIS 达到了 47.4 AP （ResNet-50）和 49.0 AP (ResNet-101) 的精度，分别超过了目前的最优算法 4.6 和 4.4 AP。

In Defense of Online Models for Video Instance Segmentation, ECCV, 2022 (Oral).

IDOL : 在线视频实例分割新范式

该文章是ECCV2022满分文章。文章首先分析了在VIS任务中，offline算法往往领先同时期online算法达到 10AP 左右的现象，并深入分析了导致 online 模型和 offline 模型的巨大性能差距的原因，提出了一个基于contrastive learning的 online 算法：IDOL。该算法可以学习更具有区分度的instance embedding，并且充分利用了视频的历史信息来保证算法的稳定性，将online模型表现提高到一个与offline模型相当甚至更高的水平上。IDOL 在 YouTube-VIS 2019 上达到了 49.5 AP，分别超越了之前的最优的 online / offline 算法 13.2 / 2.1 AP。在更有挑战的OVIS数据集上，IDOL 更是达到了30.2 AP，超越了之前的最优算法一倍。而在最近举行的 CVPR 2022 Large-Scale Video Object Segmentation Challenge, Video Instance Segmentation Track 上，IDOL也超越了一众 online/offline 模型，取得了第一名。

VNext是作者提出基于Detectron2的视频实例识别框架，以上两篇文章的代码目前都被整合进了VNext中。VNext旨在为视频实例识别领域提供一个统一且高效的框架来促进该领域的发展，欢迎大家在VNext上进行视频相关任务的探索和实验：https://github.com/wjf5203/VNext 。

Video Demo：

SeqFormer：Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral)

SeqFormer：用于视频实例分割的序列Transformer

一、Motivation

视频实例分割是一个近几年兴起的视觉任务，在图像实例分割的基础上引入了时序维度，在分割每一帧物体的同时要求在帧间跟踪这些物体，因此如何利用好视频的时序特征也是该任务的一大难点。最近Transformer的发展给这个领域带来一些新的解决思路，但是之前基于Transformer的方法会将整个视频的三维特征直接展平直接送入Transformer Decoder中，希望模型同时完成Segmentation和Tracking，这样直接的解决方案虽然有效，但是不符合对视频的直觉认知。文章认为，视频的二维空间特征和时序特征应该被分别以不同的方式处理。

因此，SeqFormer提出了Decoder中的Query分离机制，具体来说，SeqFormer把共享的实例Query分离到每一帧上，在每一帧上独立定位物体并提取对应特征，以此来保证模型在每一帧上提取的信息是准确的。最终，每一帧上的信息被聚合到一起成为一个全局的物体特征表示，这个特征最终被用来预测物体类别并且生成动态卷积的参数用来在每一帧上分割出物体。文章认为这样的一个聚合了全局信息的特征可以更加鲁棒和高效的表示视频中的物体，从而进一步提高Transformer在VIS上的表现。

二、SeqFormer

SeqFormer的整体结构包括三部分（1）骨干网络以及Transformer Encoder （2）Query Decompose Decoder （3）各种输出的Output Head。其中骨干网络和Transformer Encoder 都进行的是frame-level的特征提取。

2.1 Query Decompose Decoder

该部分是SeqFormer的核心结构。当给定的一个视频中，物体的形状、位置出现变化甚至被遮挡的时候，人们通常可以轻易分辨出该物体，因为人们会把这些不同帧的物体当做同一个来看待，这是视频和图片的关键区别。

因此，文章提出Instance Query和Box Query的概念：在Decoder的第一层，共享的Instance Query 会被分离到每一帧上，在每一帧上独立进行attention；且Box Query会通过Box Head预测出物体在每一帧上的包围框，并且在Decoder的每个layer之间迭代优化。Box Query 就像Instance Query留在每一帧上的Anchor，去定位并关注到同一个物体，并将提取到的信息重新聚合到Instance Query上。通过这样一个Query Decompose Decoder，SeqFormer完成了在每一帧上寻找物体并聚合全局特征的过程。

如图所示，可视化了在不同Decoder layer之后，Decoder中的同一个Instance Query 对应的Box Query 在每一帧上的关注区域。(a)是第一层Decoder的关注区域，由于每一帧上的Box Query有着相同的初始化值，所以他们的关注区域是相同的；(b)是第二层的关注区域，可以看出此时模型关注的区域已经分布在对应的物体周围了；(c)是最后一层Decoder 的关注区域，此时关注的区域更加精确。整个Decoder 以这样一种coarse-to-fine的方式定位到每个物体，并聚合得到每个物体的video-level的特征表示。

2.2 Output Head

在得到每个物体的video-level的特征表示之后，通过两个FFN分别得到该物体的分类结果以及Mask Head 的权重参数。Mask Head是一个三层的1x1卷积网络，在Encoder通过Mask Branch得到的高分辨率Feature Map上进行卷积，从而动态在每一帧上利用同一个MaskHead预测mask。由于物体在不同的帧上共用同一个Mask Head进行卷积，这使得SeqFormer对物体的分割非常高效，同时也可以利用在少量帧上生成Mask Head 在所有帧上进行卷积从而完成对整个视频的分割，扩展了SeqFormer的应用方式。

三、Demo

以下Demo 展示了SeqFormer在YouTube-VIS 2019 的一些视频上的可视化效果。

四、Performance

在Youtube-VIS 2019和 2021 上对SeqFormer进行了评测：

4.1 YouTube-VIS 2019

在YouTube-VIS 2019，SeqFormer在与各种backbone的组合下，均在mask AP上超越了之前算法一大截，在ResNet-50上mask AP能够达到47.4，通过与Swin-Transformer的组合，SeqFormer将这个benchmark上的表现推到了59.3的新高度。得益于Offline 模型能够以batch的形式对多帧并行处理，SeqFormer的FPS也达到72.3。

4.2 YouTube-VIS 2021

在YouTube-VIS 2021 上，SeqFormer也能够稳定达到state-of-the-art。