文章目录

论文阅读总结
Translation

论文阅读总结

Summary
本文提出了一个准确、实时的视频目标分割方法，它以端到端的方式集成了匹配和传播框架的优势，利用RAM模块根据对分割性能的重要性进行相似度图的重新选择，在DAVIS $_{16/17}$ 上的实验表明，RANet能够以实时的速度达到可竞争的甚至更好的性能。
Research Objective
提出一个准确、实时的视频目标分割方法。
Problem Statement
基于OL的方法精度高但速度较慢，基于匹配和传播的方法速度快但是是精度次优。本文做的就是提出一个准确实时的视频目标分割网络。
Method(s)
论文中提出的RANet的网络结构如下图所示，它使用Encoder-Decoder结构，Encoder部分使用ResNet101作为backbone，模板分支和当前帧分支共享权重，对特征进行重整，执行相关运算，得到逐像素的相似度图。将相似度图和前景（背景）掩膜输入到论文提出的RAM中，选出对分割性能最重要的256个相似度图。Decoder包含Merge模块和CNN模块。将上一帧掩膜、前景和背景相似度图送往合并模块。合并模块的输出和当前帧的多尺度特征一起送往CNN中，生成最终的分割掩膜预测。
Evaluation
论文中在DAVIS $_{16-val}$ 上将RANet与目前几乎所有的先进的VOS方法进行的统计与对比，这个统计表用起来很方便。
Conclusion
RANet能在单个Titan Xp GPU上以30FPS的速度达到实时且精确的VOS结果；RAM模块能够更好地利用相似度图进行细粒度的VOS；point-to-point的匹配特征不再作为最终的分割结果，它只作为分割结果的一种指导，可以避免噪声预测。
Notes
作者Ziqin Wang，来自悉尼大学和西安交通大学人工智能与机器人研究所。
Inception Institue of Artificial Intelligence(IIAI)，Abu Dhabi, UAE.阿联酋的起源人工智能研究院，一个人工智能的天堂。
Media Computing Lab, College of Computer Science, Nankai University, Tianjin, China.程明明大佬的实验室。

Translation

Abstract

（基于OL和基于mathching与propagation方法的优势与限制。）尽管在线学习（OL）技术提高了半监督视频目标分割（VOS）方法的性能，但是OL的巨大时间成本极大地限制了它们的实用性。基于匹配（matching）和基于传播（propagation）的方法可以以更快的速度运行，它们避免了使用OL技术。然而，由于匹配失败和漂移问题，它们受到次优精度的限制。（本文提出视频目标分割方法，RANet的简述）在本文中，我们为VOS开发了一个实时但非常准确的Ranking Attentation Network（RANet）。具体来说，为了整合基于匹配和基于传播的方法的信息，我们采用编码器-解码器框架以端到端的方式学习像素级相似性和分割。为了更好地利用相似度图，我们提出了一种新的ranking attention module，该模块会自动对这些相似度图进行排名和选择，以实现更细致的VOS性能。（RANet性能）在DAVIS16和DAVIS17数据集上进行的实验表明，我们的RANet实现了最佳的速度精度权衡，例如，每帧33毫秒，在DAVIS16上的 $\mathcal{J} \& \mathcal{F} = 85.5\%$ 。使用OL，我们的RANet在DAVIS16上达到 $\mathcal{J} \& \mathcal{F} = 87.1\%$ ，超过了最新的VOS方法。目前代码已开源：https://github.com/Storife/RANet。

1 Introduction

目前主要的VOS方法主要有三个路线：OL based，matching based，propagation based。OL based方法是提前训练一个模型，然后在测试时使用测试视频的标注掩膜帧对模型进行微调，它的特点是精度高，但是速度慢；matching based 方法利用标注掩膜帧和后续帧之间的像素级匹配分类对像素进行细分，它的特点是速度快，精度次优，主要是由于它容易匹配失效；propagation based方法是将标注掩膜在时序上传播到后续帧中，它的特点也是速度很快，但精度次优，这主要是因为它容易受到由于两个连续帧中的遮挡和快速运动造成的漂移问题的影响。本文提出的RANet是一个encoder-decoder结构，encoder使用孪生网络提取像素级的相似度图，decoder用于掩膜传播，encoder和decoder的连接是由提出的Ranking Attention Module完成的，它根据对分割性能的重要性选择前景和背景相似度图，将动态个数的相似性图转化固定个数的相似性图，输入到decoder中，完成分割。论文的contributions总结来说就是：提出RANet；提出RAM；达到SOTA。
（半监督视频目标分割问题描述的应用场景简介。）半监督视频目标分割（VOS）[4、41、42]的目的是在整个视频中从背景分割感兴趣的对象，在测试时仅提供带分割掩膜标注的第一帧作为模板帧。对于大型视频处理和编辑[52-54]以及许多视频分析应用程序，例如视频理解[15，46]和目标追踪[51]，这项具有挑战性的任务至关重要。
（目前主要的VOS方法简介：OL，matching based，propagation based。）早期的VOS方法[3、37、40、50]主要使用在线学习（OL）技术，该技术在其第一帧上对经过预训练的分类器进行微调。目前已经为VOS提出了基于匹配或传播的方法。基于匹配的方法[8、19]根据第一帧和每个后续帧（Figure 1（a））的特征之间的像素级匹配分数对像素进行细分，而基于传播的方法[9、10、38、40、54、59]主要依赖于通过对前一帧[40]的预测来对第一帧的标注掩膜进行时序上的变形（Figure 1（b））。
在这里插入图片描述
（方法各自的优缺点，OL方法精度高速度慢，基于匹配和传播的方法速度快，精度次做优，主要是因为：基于匹配的方法存在匹配失效问题，基于传播的方法易存在漂移问题。）这些方法各自的优点和缺点是显而易见的。具体来说，基于OL的方法[3、37、40、50]以速度为代价实现了准确的VOS，需要几秒钟的时间来分割每个帧[3]。相反，简单的基于匹配或传播的方法[8、40、45]速度更快，但VOS精度欠佳。基于匹配的方法[8,19,38]存在着匹配失效的问题，即在视频中目标外观不断变化的情况下违反了主要目标在上时间的一致性。另一方面，基于传播的方法[9,10,38,40,47,59]由于两个连续帧之间的遮挡或快速运动而遭受漂移问题。总而言之，大多数现有方法都无法以令人满意的精度和速度来解决VOS任务，这对于实际应用是必不可少的。仍然需要更有效的方法来达到VOS任务的更好的速度与精度权衡。
（RANet的主要结构是一个encoder-decoder结构，孪生网络作为encoder来提取像素级的用于匹配的特征，金字塔网络作为decoder，用于掩膜传播和分割。）基于以上考虑，在这项工作中，我们开发了一个实时网络以实现细粒度的VOS性能。这个先进的网络得益于编码器-解码器结构，并以端到端的方式学习像素级匹配，掩膜传播和分割。Figure 1（c）展示了我们提出的网络。孪生网络[2]被用作编码器，用于提取像素级匹配特征，而金字塔形解码器则用于同时进行掩膜传播和高分辨率分割。
（通过提出的RAM模块来以有意义的方式连接像素级匹配的encoder和基于传播的decoder，在DAVIS16上以30 FPS的速度达到 $\mathcal{J} \& \mathcal{F} = 85.5\%$ 。）我们框架中的关键问题是如何以有意义的方式连接像素级匹配编码器和基于传播的解码器。编码器生成动态的前景和背景相似度图，无法将其直接接入解码器。为此，我们提出了一个Ranking Attention Module（RAM，见Figure 1（c）），以根据相似度图对VOS性能细化的重要性（由网络学习）来重新组织（即，对其进行排名和选择）。我们提出的Ranking Attention Net（RANet）可以更好地利用像素级相似度图来实现细粒度的VOS，从而大大缓解了以前基于匹配或传播的方法的弊端。在DAVIS16和DAVIS17数据集上进行的实验[41，42]表明，所提出的RANet在速度和准确性方面优于先前的VOS方法，例如，在DAVIS16上以30 FPS的速度达到 $\mathcal{J} \& \mathcal{F} = 85.5\%$ 。
（contributions：提出RANet；提出RAM；达到SOTA）这项工作的贡献主要是以下三个方面：

我们以端到端的方式集成了匹配和传播框架的优势，并为半监督VOS任务开发了一个实时网络。
我们提出了一种新的"Ranking Attention Module”，用于根据其对细粒度VOS性能的重要性对合适的相似度特征图进行排名和选择。
在DAVIS $_{16 / 17}$ 数据集上进行的实验表明，与以前的VOS方法相比，所提出的RANet能够以实时速度达到竞争甚至更好的性能。所提出的RANet甚至仅使用静态图像进行训练也可以获得准确的VOS结果。

2 Related Works

目前主要的VOS方法主要有三个路线：OL based，matching based，propagation based。基于OL的代表方法有OSVOS、OnAVOS、OSVOS-S、DyeNet和PReMOVS等等，基于传播的代表方法有Masktrack、RGMP、OSMN和CINM，基于匹配的比较有代表性的方法有VideoMatch和FEELVOS等等。
（基于OL方法主要是在第一帧上进行微调，然后逐帧分割视频，代表的方法有OSVOS、OnAVOS、OSVOS-S、DyeNet和PReMOVS等等，OL已经成为VOS的常规技术，但在实际应用中，它的计算代价非常昂贵。论文的方法比先前的基于OL的方法快了130-400倍） Online learning based methods. 基于OL的方法[3、25、30、33–35、37、40、50]在视频的第一帧上进行微调，以提取原始目标，然后逐帧分割视频。OSVOS [3]使用预训练的视频目标分割网络，并使用测试视频的第一帧对其进行微调。OnAVOS [50]通过在线调整机制扩展了OSVOS，OSVOS-S [37]利用了来自实例分割网络的语义信息。LucidTracker [25]引入了一种用于在线微调的数据增强机制。DyeNet [30]集成了实例重新标识和时序传播方法，并使用OL来提高性能。PReMVOS [33-35]结合了实例分割[16]，光流[12、20]，细化和reID技术[57]以及广泛的微调技术，并获得了令人满意的性能。总之，OL对于VOS任务非常有效。因此，随后的方法[1,30,40]将OL视为提高VOS性能的常规技术。但是，基于OL的方法在实际应用中在计算代价非常大。在这项工作中，我们用一个非常快的网络解决了VOS问题，该网络在DAVIS16上以30 FPS的速度获得了具有竞争力的精度，比以前的基于OL的方法要快130〜400倍[3，37，40，50]。
（基于传播的方法是利用前一帧来获得更好的VOS性能，代表的方法有Masktrack、RGMP、OSMN和CINM，基于传播的策略是非常有效的，但是存在漂移问题。论文的方法中使用有效的匹配技术来解决这样的漂移问题。）Propagation or matching based methods. 基于传播的方法利用先前的帧，以获得更好的VOS性能。Masktrack [40]通过结合前一帧的图像和分割掩膜作为输入来解决VOS问题。此策略也用于CINM [1]，OSMN [59]和RGMP [38]。RGMP [38]在使用孪生网络进行传播，堆叠了第一帧，先前帧和当前帧的特征。在这项工作中，我们也利用了孪生网络，但是使用像素级匹配技术，而不是简单地堆叠，同时RGMP [38]中的编码器不同的是，我们将前一帧的掩码输入解码器。OSMN [59]引入了一种调制器，通过使用视觉和空间信息的指导来操纵分割网络的中间层。在许多方法[10、23、40、47]中，光流[12、20]也用于指导传播过程。但是，它无法将非刚性对象与背景的静止部分区分开。所有这些策略都是有效的，但是仍然存在漂移问题。MaskTrack [40]使用OL来记住目标对象，从而消除了此问题并提高了VOS性能。但是，由于OL非常耗时，因此我们采用了更有效的匹配技术来解决这样的漂移问题。
（基于匹配的方法计算模板帧和当前帧之间特征的像素级匹配，从匹配结果中分割当前帧的每个像素，比较有代表性的方法有VideoMatch和FEELVOS等等，但是点对点的匹配策略经常导致噪声预测。论文中应用解码器来将匹配结果作为指导，利用RAM更好地利用相似性信息。）基于匹配的方法[8,19,45,49]非常有效。它们首先计算视频中模板帧和当前帧的特征之间的像素级匹配，然后直接从匹配结果中分割当前帧的每个像素。像素级度量学习[8]通过像素空间中与模板帧的最近邻匹配来预测每个像素。然而，点对点的对应策略[43，45]经常导致噪声的预测。为缓解此问题，我们应用了解码器以将匹配结果用作指导。Hu等人在VideoMatch [19]中提出了一种软匹配机制，该机制对匹配特征的平均相似度得分图执行软分割，以生成平滑的预测。但是，由于缺乏时间信息，它们仍然遭受匹配失败问题的困扰。在这项工作中，我们采用像素级目标定位和时间传播的逐像素对应匹配策略来处理不匹配和漂移问题。FEELVOS [49]使用全局和局部匹配来获得更稳定的像素级匹配，但是仅计算用于最终分割的极值图，从而丢失了相似图的主要信息。我们的RAM可以更好地利用相似性信息。此外，为了获得更快的速度，我们使用了轻量级的解码器，并采用了在ImageNet [27]上预先训练的标准ResNet [17]作为主干，而不是使用在以前的方法中[19，40]常用的费时的语义分割网络[5-7，39]。
在这里插入图片描述

3 Proposed Method

在本节中，我们首先在Section 3.1中概述我们提出的Ranking Attention Net（RANet）。在第3.2节中，我们描述了拟议的Ranking Attention Module（RAM），并在第3.3节中将其扩展为适用于多对象VOS。最后，我们分别在第3.4节和第3.5节中介绍了RANet的实施细节和训练策略。

3.1 Network Overview

我们的RANet包括三个无缝连接的部分：用于特征提取的编码器，相关性和RAM的集成以及用于特征合并和最终分割的解码器。Figure 2显示了我们的RANet。
Siamese Encoder. （使用孪生网络对模板分支和当前帧分支进行特征提取，用于后续相关性计算。）为了获得准确的VOS的相关信息，我们使用孪生网络[2]（具有共享的权重）作为编码器来提取第一帧和当前帧的特征。然后，我们从第一帧中提取像素级特征，将其重塑为合适的形状，作为用于相关性计算的模板特征。
Correlation and RAM for Matching. （使用相似性图来定位目标位置，每个像素级模板特征都有一个相似度图，RAM用来解决前景和背景像素相似度图个数是动态的问题，它根据对分割性能影响的重要性对相似度图进行排序和选择。从而保证输入到decoder的FG和BG特征图形状是固定的。）相关性在目标追踪中被广泛使用。在SiamFC [2]中，相关性用于使用相似性图来定位目标的位置。在我们的RANet中，为了定位目标的每个像素从而进行分割，我们需要通过计算模板的每个像素级特征与当前帧之间的相关性来获得像素级相似度图。请注意，每个像素级模板特征都有一个相似度图。相关的详细公式将在第3.2节中描述。然后，我们利用第一帧的掩膜选择前景（FG）或背景（BG）相似度图作为FG或BG特征进行分割。由于FG或BG像素的数量在不同的视频中有所不同，因此FG或BG相似度图的数量是动态的，因此解码器必须处理具有动态通道大小的FG或BG相似度特征。为了处理此动态通道大小问题，我们提出了一个RAM模块来对最重要的相似度图进行排序和选择，并将它们组织成合适的形状。本部分还将在第3.2节中进行详尽说明。RAM模块提供了丰富而有序的分割特征，并带来了更好的性能，这将在第4.3节的消融研究中显示。为简单起见，在这里我们仅考虑第3.2节中的单对象VOS。第3.3节中将描述针对多对象VOS的RANet扩展。
在这里插入图片描述
Propagation. 这里我们使用简单的掩膜传播方法[40]，而其他传播[20，30]或局部匹配[49]方法可能会改善我们的RANet。我们将前一帧的预测掩膜与提议的RAM所选择的FG（或BG）特征一起输入后续解码器。这样，我们的RANet既利用了匹配技术又利用了传播技术。
Light-weight Decoder. 此部分包含合并模块和类似金字塔的网络，这在补充文件中进行了描述。合并模块会细化排名相似图的两个流，然后将这些图与上一帧的掩膜连接起来。在合并模块中，网络的两个流共享相同的参数。采用金字塔状网络[31、44、56]来获得最终的分割，并使用跳跃连接来利用不同层的多尺度特征。
在这里插入图片描述
Alt

3.2. Correlation and Ranking Attention Module

Correlation. 我们利用相关性来查找模板中的像素与当前帧之间的匹配。将模板帧的特征表示为 $\textbf{\textit{I}}^1\in \mathbb{R}^{C\times H_0 \times W_0}$ ，当前帧特征表示为 $\textbf{\textit{I}}^t\in \mathbb{R}^{C\times H \times W}$ ，它们都是由孪生网络提取的，其中 $C$ 是特征的通道数量， $H_0(W_0)$ 和 $H (W)$ 分别是模板帧和当前帧的特征图的高（宽）。模板特征 $\textbf{\textit{I}}^1\in \mathbb{R}^{C\times H_0 \times W_0}$ 的形状是 $H_0W_0\times(C\times1\times1)$ 。将形状调整后的模板特征表示为 $\mathcal{K}=\{ {K}_j|j=1,...,H_0\times W_0\}$ ，它包含 $H_0\times W_0$ 个尺寸为 $C\times 1\times 1$ 的特征。在我们的RANet中，相关性是在模板帧 $\mathcal{K}$ 的 $\ell_{2}$ 归一化特征 $K_j$ 和当前帧 $\textbf{\textit{I}}^t$ 之间计算的。在相关计算之后，得到尺寸为 $W\times H$ 的相似度图 $\boldsymbol{S}_{j}=\boldsymbol{K}_{j} * \boldsymbol{I}^{t}$ 。将张量 $\mathcal{S}\in \mathbb{R}^{H_0 W_0\times H \times W}$ 表示为相关性图的集合。（对应Figure2中的Correlation部分的计算，其中特征维度是 $C$ 。最终有 $H_0\times W_0$ 个形状为 $H\times W$ 的相似性图， $H_0\times W_0$ 代表模板帧的特征像素的个数， $H\times W$ 代表着当前帧特征图的尺寸，每个相似度图与模板帧中特定像素相关联，它在当前帧中的位置位于它的相似度图的最大值处）可以得到： $\mathcal{S}=\left\{\boldsymbol{S}_{j} | \boldsymbol{S}_{j}=\boldsymbol{K}_{j} * \boldsymbol{I}^{t}\right\}_{j \in\left\{1, \ldots, H_{0} \times W_{0}\right\}}$ 在Figure 4中，我们给出了相似度图的一些示例。每个相似度图与模板帧中的某个像素相关联，其在当前帧中的新位置位于它的相似度图的最大值（即最亮点）。另外，与SiamFC [2]相比，由于我们以弱监督的方式获得这些相似度图，因此基本保留用于分割的熊的轮廓。在Figure 4的右侧，我们显示了合并模块的一些输出特征。合并网络后可以区分对象。
Ranking Attention Module (RAM). 我们首先利用第一帧的掩膜来过滤FG和BG相似度图。然后，我们设计了FG path和BG path网络来处理相似性特征。由于FG或BG像素的数量在不同的视频中有所不同，因此FG或BG相似度图的数量会动态变化。但是，常规的CNN要求输入特征具有固定数量的通道。为了解决此问题，我们使用Ranking Attention Module（RAM）来对重要特征进行排序和选择。也就是说，我们为相似度图学习一种评分方案，然后根据它们的得分对这些图进行排名和选择。
如Figure 2所示，RAM中包含三个步骤。第一步，我们使用第一帧的掩膜过滤FG（或BG）相似度图。具体来说，将相似度图的空间和通道尺寸交换（将 $\mathcal{S}\in \mathbb{R}^{H_0 W_0\times H \times W}$ 变换为 $\mathcal{\hat{S}}\in \mathbb{R}^{H W\times H_0 \times W_0}$ ），然后把它们分别与FG或BG掩膜（调整大小为 $W_0\times H_0$ ）相乘。因此，我们可以获得FG（BG）的特征 $\mathrm{\hat{S}^1}$ （ $\mathrm{\hat{S}^0}$ ）。在FG部分中，BG像素的特征设置为零，反之亦然。在第二步中，对于每个相似度图 $S_j$ ，我们学习一个排名分数 $r_j$ ，该分数显示每个图的重要性。以FG张量 $\mathrm{\hat{S}}$ 为例，为了计算 $\mathrm{\hat{S}^1}$ 中相似图的排名分数，我们使用了一个两层网络 $f_n$ ，它通过对张量 $\mathrm{\hat{S}^1}$ 的通道方向全局最大池 $f_{max}$ 进行求和来加强。分数越高，表明 $\mathrm{\hat{S}^1}$ 中相应相似度图的重要性越高。**每个相似度图的通道方向最大值表示模板帧中相应像素找到当前帧中匹配像素的可能性。**我们将最终的FG排名得分度量 $\mathrm{R}^1\in \mathbb{R}^{W_0\times H_0}$ 定义为： $\mathrm{R}^1=f_n(\mathrm{\hat{S}^1})+f_{max}(\mathrm{\hat{S}^1})$ 然后，我们将 $\mathrm{R}^1$ 的形状变成一个向量 $\mathrm{r}^1\in \mathbb{R}^{H_0W_0}$ 。同样，我们可以获得BG排名得分向量 $\mathrm{r}^0$ 。
最后，我们根据 $\mathrm{r}^1$ 中的相应得分（从最大到最小）对 $\mathrm{S}^1$ 中的相似性图进行排序： $\overline{\mathbf{S}}^{1}=\operatorname{Rank}\left(\mathbf{S}^{1} | \mathbf{r}^{1}\right)$ 如果FG相似度图 $\overline{\mathbf{S}}^{1}$ 的数量少于1个目标通道大小（256），则将零填充到排序的特征上；如果该数目大于目标通道大小，则丢弃冗余特征，从而可以固定通道大小。BG张量 $\hat{\mathbf{S}}^{0}$ 被类似地处理。图3显示了提出的排名机制。

3.3. Extension for Multi-object VOS

单目标VOS方法用于处理多目标VOS的一个简单扩展是，对多目标视频按目标逐个处理。但是，当有许多目标时，这个策略的效率很低。为了使提出的RANet对于Multi-boject VOS有效，我们共享编码器提取的特征以及所有 $N$ 个目标通过相关性计算的相似度图 $\mathrm{S}$ 。然后，对于每个目标 $i （ i = 1, . . ., N ）$ ，我们生成其FG和相应的BG掩膜，并使用轻型解码器独立地对FG（或BG）进行分割。最后，我们使用softmax函数在VOS上计算最终结果。

3.4. Implementation Details

在这里，我们简要描述编码器和解码器，并在补充文件中介绍详细的网络结构。
Encoder. 两分支的孪生网络[2]的骨干是在ImageNet [27]上预先训练的ResNet-101网络[17]。我们用instance normalization[48]代替了batch normalization[21]。最后三个块中的特征被提取为多尺度特征。我们通过卷积层将这些多尺度特征的通道大小减少了四倍。特征图也将调整为合适的大小。在每个卷积层之后添加 $\ell_{2}$ 通道标准化[18]，以进行特征修剪和多尺度合并。
Decoder. 解码器是具有跳跃连接的三级金字塔状网络。编码器提取的当前帧的多尺度特征被送入解码器。但是，使用解码器中的所有功能将带来巨大的计算成本。为了加快RANet的速度，我们首先使用卷积层减小多尺度特征的通道大小，然后将其输入到解码器中。

3.5. Network Training

我们使用Adam [26]训练网络，初始学习率为 $10^{-5}$ ，以优化二值交叉熵损失。在训练和测试过程中，输入图像的大小将调整为 $480\times 864$ 。我们使用random Thin Plate Splines（TPS）变换，旋转（−30°〜30°），缩放（0.75〜1.25）和随机裁剪进行数据增强，就像[40]里做的一样。通过设置16个控制点并在图像尺寸的15％范围内随机移动这些点来执行随机TPS转换。
Pre-train on static images. 参照[40]的方法，我们使用静态图像对提出的RANet进行了预训练。为了针对单对象VOS训练RANet，我们使用显着性社区中的MSRA10K [11]，ECSSD [58]和HKU-IS [29]数据集的图像[14、15、32、55、60、61]。为了为多目标VOS训练RANet，我们添加了包含多目标图像的SOC [13]和ILSO [28]数据集。Figure 5（a）示出了一对生成的静态图像。如第4.2节和第4.3节所示，仅使用静态图像进行训练时，提出的RANet可获得竞争性结果。
在这里插入图片描述
Video fine-tuning. 尽管仅使用静态图像进行训练时，我们的RANet可以取得令人满意的结果，但是我们通过对benchmark的视频进行微调来进一步优化其性能。为了针对特定的单目标VOS任务微调我们的RANet，然后在 $\mathrm{DAVIS}_{16}$ 数据集的训练集上微调网络[41]。在训练期间，我们从一个视频中随机选择两个帧进行数据变换作为模板和当前帧，并随机选择当前帧附近的掩膜（我们将最大间隔设置为5）（作为前一帧的预测掩膜）。我们在 $\mathrm{DAVIS}_{17}$ 数据集的训练集上微调了RANet以适应特定的多目标VOS任务[42]。 Figure 5（b）示出了成对的视频训练图像的示例。

4. Experiments

在本节中，我们首先描述我们的实验基础（第4.1节），然后将提出的Ranking Attention Net（RANet）与最新的VOS方法（第4.2节）进行比较。接下来，我们将进行全面的消融研究，以更深入地了解拟议的RANet，尤其是Ranking Attention Module的有效性（第4.3节）。最后，我们给出可视化结果，以显示RANet在具有挑战性的情况下的稳健性（第4.4节）。补充文件中提供了更多结果。

4.1. Experimental Protocol

Training datasets. 我们在DAVIS $_{16}$ [41]和DAVIS $_{17}$ [42]数据集上对论文提出的RANet进行评估。DAVIS $_{16}$ 数据集[41]包含50个视频（480p），在总共3455个密集地标注有像素级目标掩膜（每个序列一个目标）的帧上，将其分为训练集（30个视频）和验证集（ 20个视频）。DAVIS $_{17}$ 数据集[42]包含具有多个目标的视频，是DAVIS $_{16}$ 的扩展，它包含一个由60个视频组成的训练集，一个由30个视频组成的验证集和一个由30个视频组成的测试集。在所有数据集中，训练集、验证集和测试集之间没有重叠。
Testing phase. 与SiamFC [2]相似，我们裁剪第一帧并将特征 （这里便是 $W_0,H_0,W,H)$ 是不同的由来吧）提取为模板特征（第3.2节中的 $\mathcal{K}$ ），然后逐一计算模板帧和测试帧的特征之间的相似度图，最后完成对测试帧的分割。按不同的目标使用数据集：1）为了评估我们的RANet的单目标VOS，我们在[41]的验证集（20个视频）上对其进行了测试；2）为了判断仅在静态图像上训练的RANet的有效性，我们在整个DAVIS $_{16}$ 数据集的50个视频中对其进行了评估；3）为了评估我们的RANet的多目标VOS，我们在[42]的验证和测试集上对其进行评估，其中分别包含30个视频。为了与基于OL的方法进行比较，我们遵循[3,40]，在每个视频上，使用第一帧同时进行数据增强来进行微调。我们使用与静态图像预训练相同的训练策略，但是学习率是 $10^{-6}$ 。
Evaluation metrics. 我们使用[41]建议的七个标准度量：三个区域相似性度量 $\mathcal{J}$ Mean， $\mathcal{J}$ Recall和 $\mathcal{J}$ Decay；三个边界精度度量 $\mathcal{F}$ Mean， $\mathcal{F}$ Recall， $\mathcal{F}$ Decay；和 $\mathcal{J} \& \mathcal{F}$ Mean，即 $\mathcal{J}$ Mean和 $\mathcal{F}$ Mean的平均值。
在这里插入图片描述

4.2. Comparison to the state of the art

Comparison Methods. 对于单目标VOS，我们在Table 1中将RANet与6种基于OL的最新技术和11种离线方法进行了比较[1、3、8-10、19、22、23、35、37、38、40、45、49 –51、59]，包括OSVOS-S [37]，PReMVOS [35]，RGMP [38]，FEELVOS [49]等。为了评估使用静态图像训练的RANet，我们将其与未使用DAVIS训练集的方法[22、23、36、40、47]进行了比较。对于多目标VOS，我们将其与一些最新的离线方法进行比较[3，9，19，50，59]，并列出了一些基于OL的方法[1、3、19、37、50]的结果作为参考。
Results on DAVIS16-val. 如Table 1所示，在不使用在线学习（OL）技术的情况下，我们的RANet仍以33毫秒（30FPS）的速度达到85.5％的 $\mathcal{J} \& \mathcal{F}$ Mean。对于RANet，其度量结果高于所有不使用OL技术的方法，而其速度则高于除了SiamMask外 [51]的所有参与比较的方法。但请注意，SiamMask在客观指标上的表现不佳，例如它的 $\mathcal{J} \& \mathcal{F}$ 只有70.0％，比我们的RANet低15.5点。即使与最先进的基于OL的方法（例如OSVOS-S [37]和OnAVOS [50]）进行比较，我们的离线RANet也能获得可比较的结果。 RANet也可以通过OL技术进行改进。使用OL进行改进的RANet（表示为RANet +）的 $\mathcal{J} \& \mathcal{F}$ Mean达到87.1％，优于所有基于OL的VOS方法。
在这里插入图片描述

Results on DAVIS16-trainval. 我们还评估了仅使用静态图像训练的RANet的性能（即没有进行视频微调）。在这种情况下，MaskTrack [40]与我们的RANet具有最相似的设置，因为它也仅使用静态图像来训练其网络。与MaskTrack相比，我们的RANet不依赖于OL技术，速度提高了近一百倍。在Table 2中，我们列出了不需要对视频数据进行微调/训练的不同方法的结果。同样，我们的RANet明显胜过所有其他方法。
DAVIS17 dataset. 由于是多目标场景，DAVIS $_{17}$ 数据集具有挑战性。为了在DAVIS $_{17}$ -val和DAVIS $_{17}$ 测试集上评估RANet，我们在多实例静态图像和DAVIS17train数据集上训练的RANet，如第3.5节所述。在Table 3中，我们显示了我们的RANet与最新VOS方法的比较。可以看出，在DAVIS $_{17}$ -val数据集上，与没有OL方法相比，我们的RANet可以实现更高的度量结果。此外，在更具挑战性的DAVIS $_{17}$ testdev数据集上，就 $\mathcal{J}$ Mean而言，我们的RANet甚至优于基于OL的方法OnAVOS。
Speed. 在这里，我们评估了DAVIS $_{16}$ -val数据集上不同方法的速度和精度性能。我们的RANet在TITAN Xp GPU上运行。在表1中，我们列出了处理480p分辨率帧的不同方法的平均时间。请注意，提出的RANet在每个帧上花费33毫秒，比大多数以前的方法快得多。如图6所示。最近提出的方法SiamMask [51]比我们的RANet快一点，但 $\mathcal{J} \& \mathcal{F}$ Mean的结果却比我们的结果低得多。

4.3. Validation of the Proposed RANet

现在，我们对VOS任务上的拟议RANet进行更详细的测试。我们评估1）拟议的Ranking Attention Module（RAM）对RANet的贡献；2）相关层（CL）对RANet的重要性；3）传播前一帧的掩膜（PM）对RANet的影响；4）静态图像预训练（IP）和视频微调（VF）对RANet的影响； 5）在线学习（OL）技术对RANet的影响。
1. Does the proposed ranking attention module contribute to RANet? 在VOS任务上评估提出的RAM模块对RANet的贡献。我们将原始RANet（称为w / RAM）与两个baseline进行比较。对于第一个，称为w/o Ranking，我们维持相似度图 $\mathcal{S}$ ，根据模板掩膜设置对应的BG（或FG）为0来获得FG（或BG）相似度图 $\mathrm{S}^1$ （或 $\mathrm{S}^0$ ） $\in \mathbb{R}^{H_0W_0\times H\times W}$ 。对于第二个，Maximum，与使用RAM获得丰富的embedding maps不同，我们分别在相似度图 $\mathrm{S}^1$ 和 $\mathrm{S}^0$ 上采用了在[49]中也使用过的通道级最大值运算，得到一个FG map和一个BG map， $\mathrm{S}^1_M$ ， $\mathrm{S}^0_M$ $\in \mathbb{R}^{H\times W}$ 。然后将它们送往decoder中。
Table 4列出了RANet w/ RAM, w/o Ranking，和Maximum 的比较。可以看出，RANet w/ RAM分别比baseline w/o Ranking和 Maximum的基准高出3.6％和4.4％。RANet w/o Ranking 基于模板框架的空间信息来组织相似度图，而具有最大损失的RANet仅通过提取最大值来损失相似度图中最有用的信息。
2. How important is the correlation and RAM to our RANet? 为了评估RANet中相关层的重要性，我们删除了相关层，并像RGMP [38]那样简单地将编码器提取的特征连接起来。后续的RAM模块也没有意义，因此已被删除。因此，我们有了RANet的新变体：-CL。但是，如表5所示，此变体的性能非常差（ $\mathcal{J}$ Mean为67.5％）。因此，相关层对我们的RANet很重要，并且是提出的RAM模块的基础。
3. How does the previous frame’s mask (PM) influence our RANet? 我们研究了PM如何影响我们的RANet。为此，我们将PM的所有像素设置为零，然后重新训练RANet。因此，我们有一个baseline-PM。Table 5中的结果表明，RANet的-PM变体会将 $\mathcal{J}$ Mean降低4.1点。这表明PM传播的时间信息对于我们的RANet非常有用。
4. What are the effects of pre-training on static images and video fine-tuning in our RANet? 为了回答这个问题，我们研究了每种训练策略如何影响RANet的性能。首先，我们仅根据视频数据训练RANet，并具有以下baseline：-IP。然后，我们仅在静态图像上训练RANet，并具有第二个baseline：-VF。Table 5列出了DAVIS $_{16}$ -val数据集上的-IP和-VF变体的 $\mathcal{J}$ Mean结果。可以看出，与原始RANet相比，这两个baseline在 $\mathcal{J}$ Mean上均显着下降。具体而言，静态图像预训练（IP）将 $\mathcal{J}$ Mean从73.2％提高到85.5％，而视频微调（VF）将 $\mathcal{J}$ Mean提高了5.6点。删除IP的性能下降（从85.5％下降到73.2％），主要是由于RANet在DAVIS $_{16}$ 训练集上的过度拟合，该训练集仅包含30个单目标视频。
5. The trade-off between performance and speed using online learning. 在Table 6中，我们还显示了使用或不使用OL技术的RANet的性能和运行时间。可以看到，随着OL中迭代次数的增加，RANet的结果在 $\mathcal{J} \& \mathcal{F}$ Mean上会在不同程度上不断提高，当然是以速度为代价。
在这里插入图片描述

4.4. Qualitative Results

在Figure 7中，我们在DAVIS $_{16}$ 和DAVIS $_{17}$ 数据集上显示了提出的RANet的定性可视化结果。可以看出，RANet在许多挑战性场景中表现得非常强大，例如外观变化（第1行），快速运动（第2行），遮挡（第3行）和多目标（第4 - 5行）。

5. Conclusion

提出了端到端学习的30FPS速度的实时准确的VOS网络；提出的RAM能更好地利用相似性特征；RANet将匹配特征视为分割的指导，而不是最终特征，可以避免噪声预测；在DAVIS $_{16 / 17}$ 数据集的实验表明RANet可以在精度和速度上都达到最先进的性能。
在这项工作中，我们提出了一个实时且准确的VOS网络，该网络在单个Titan Xp GPU上以30 FPS的速度运行。提出的Ranking Attention Net（RANet）端到端地学习了VOS的像素级特征匹配和掩膜传播。本文还提出了Ranking Attention Module，以更好地利用相似性特征实现细粒度的VOS性能。该网络将点对点匹配特征视为分割指导，而不是最终结果，以此来避免噪声预测。在DAVIS $_{16 / 17}$ 数据集上进行的实验表明，我们的RANet在分割精度和速度上均达到了最先进的性能。
这项工作可以进一步扩展。首先，所提出的Ranking Attention Module可以应用于其他应用，例如目标追踪[51]和立体视觉[24]。其次，可以采用更好的传播方法[12，20]或局部匹配[49]技术来获得更好的VOS性能。

Supplementary File

1 Content

在此补充文件中，我们提供了拟议的Ranking Attention Network（RANet）的更多详细信息，以及其他定量和定性结果，以支持我们的主要实验。

在第2节中，我们介绍了拟议RANet的更多实施细节，包括其总体结构（编码器和解码器）和数据处理策略；
在第3节中，我们给出了定性结果，以显示拟议的排名注意模块（RAM）的效果；
在第4节中，我们提供了更多定性结果，以显示训练策略的影响，包括静态图像预训练（IP）和视频微调（VF）（如主论文第3.5节所述）以及在线学习；
在第5节中，我们对DAVIS $_{16 / 17}$ 数据集上的不同方法进行了定性比较；
在第6节中，我们给出了两个失败的例子来说明所提出的RANet的潜在局限性。

2 More Implementation Details of RANet

在这里，我们介绍了拟议的RANet的更多细节。
Encoder. 编码器基于基本的ResNet-101 [3]，从最后三个块中提取的特征用于相关性计算。我们通过卷积层（内核大小为 $1\times 1$ ）处理这些特征，以将其通道大小减小四倍。将特征调整为相同的大小并进行连接。然后，将连接的特征穿过卷积层以进行特征合并。组合特征的大小为 $W = 54$ 和 $H = 30$ ，其中 $W$ 和 $H$ 分别是当前帧的宽和高度。为了减少计算成本并提高特征匹配的鲁棒性，我们在编码器中的模板流之后添加了一个池化层。因此，模板特征的大小为 $W_0 = 27,H_0 = 15$ ，其中 $W_0$ 和 $H_0$ 分别是模板特征的宽和高度。
在这里插入图片描述

Decoder. 如Figs.1 和Figs.2所示，解码器由合并模块和金字塔网络组成。对于每个目标，RAM模块分别为前景（FG）和背景（BG）生成两组相似度图。合并模块旨在整合FG和BG 图以及上一帧的掩膜。合并模块（Figs. 1）中的FG流和BG流共享相同的参数，并且每个流包含一个Res块和两个Conv块。Res块和Conv块的详细结构如Figs. 1的右侧所示。接下来，将两个流的特征连接起来并送入金字塔网络以进行优化。我们的解码器中使用了金字塔结构网络以及多尺度跳跃连接，该网络使网络可以利用来自不同层的丰富特征进行细化。然而，如果将所有特征都送到解码器中，则在计算上将是昂贵的。为此，在将卷积层送到解码器之前，我们使用卷积层减小了多尺度特征的通道大小。如Fig.2所示，解码器是三级金字塔。每个级别都有一个多尺度块，一个Res块和两个Conv块，如Fig.1所示。多尺度块具有三个卷积层分支，其dilated大小分别为1、6和9。所有分支都通过按元素求和来合并。

3 Qualitative Results for RAM

在Fig.3中，我们将不同变体的结果与RANet进行了比较：w / RAM（原始RANet），w / o Ranking和Maximun，如主文件第4.3节所述。可以看到RANet在RAM模块上的性能更好。

4 Qualitative Results for Training Strategies

现在我们提出定性结果，以显示不同训练策略的效果。在Fig.4中，我们显示了仅在静态图像（IP）上预训练的RANet，在静态图像上预训练的RANet和在训练视频（IP + VF）上进行微调的RANet的结果，以及通过在线学习（OL）技术增强方法结果。可以看出，IP，VF和OL均有助于改善所提出的RANet的VOS性能。对应的定量结果提供在主论文中的Table.5和Table.6中。

5 Qualitative Results of Different Methods on DAVIS $_{16/17}$ Datasets.

在这里，我们提供了DAVIS $_{16 / 17}$ 数据集上不同VOS方法的定性比较。结果在图5-8中列出。可以看出，提出的RANet在单目标和多目标任务上都比其他竞争方法OSVOS [1]，SiamMask [6]和FAVOS [2]在VOS上实现了更准确的性能。

6 Failure Case

我们在Figure 9中显示了RANet的一些失败案例。由于相似度图是在像素级别上测量的，因此很难区分在空间上接近的相似实例。在这种情况下，在空间和时间上都无法定位对象。
在这里插入图片描述