论文阅读总结

Summary
SiamMask在SiamRPN的分类和回归分支的基础上，增加一个掩膜分支，同时对这三个任务进行训练，最终能同时完成目标追踪和分割任务。它能在目标追踪任务中达到新的SOTA，并且以可以比较的精度在VOS中达到最快的速度。SiamMask也表明通过改进对目标的描述可以进一步的提高追踪的性能。
Research Objective
作者的研究目标是，用一种方法同时视觉目标追踪和半监督视频目标分割。
Problem Statement
如何用一种方法同时进行视觉目标追踪和半监督视频目标分割？
Method(s)
通过增加二值分割任务的损失函数，来改进目前流行的用全卷积孪生网络方法进行目标追踪的离线训练过程。
Evaluation
论文中，在VOT2016和VOT2018上对SiamMask在追踪性能上进行评估，在DAVIS2016，DAVIS2017和YouTube-VOS评估它在视频目标分割上的性能，并且分析了改进目标表示对结果的影响有多大。
Conclusion
SiamMask是一个简单的方法，它能使用全卷积孪生网络产生目标的类别无关的掩膜。论文中也证明了SiamMask能够同时应用于这两个任务，并且在VOT里达到了SOTA结果，在VOS上达到了最快的速度。SiamMask的两个变体都使用一个简单的框初始化，在线实时运行，并且不需要在线调整。这些研究也表明，与简单报告轴对齐边界框的流行策略相比，MBR策略如何从对象的二进制掩膜获得旋转边界框具有显著优势。
Notes
王强大佬的知乎分享。

Translation

Abstract

在本文中，我们说明了如何使用一种简单的方法来进行实时视觉目标追踪和半监督视频目标分割。我们的方法也就是所谓的SiamMask，通过增加二值分割任务的损失函数，来改进目前流行的用全卷积孪生网络方法进行目标追踪的离线训练过程。一旦训练完成，SiamMask只依赖于一个单独的bbox初始化，以55fps的帧率在线运行并同时产生类别无关的目标分割掩膜和旋转边界框。尽管它很简单、多功能并且快速，我们的策略允许我们在VOT2018竞赛中建立一个新的SOTA实时追踪器，与此同时，在视频目标分割数据集DAVIS2016和DAVIS2017上，我们的方法能达到最高的速度，并且能达到有竞争性的性能。项目的网址是：http://www.robots.ox.ac.uk/~qwang/SiamMask/。

1 Introduction

在任何需要对感兴趣目标进行一定程度推理的视频应用中，追踪都是一项基本任务，因为它允许在帧之间建立物体对应关系[38]。它能在很多场景中得到应用，如自动监控、车辆导航、视频标注、人机交互和活动识别。给出第一帧中任意感兴趣目标的位置，视觉目标追踪的任务是以尽可能好的精度估计目标在后续帧中的位置[69,65,55]。
对于很多应用，当视频是给流的形式获取时，实时地进行追踪非常重要。换言之，追踪器不应该利用未来的帧来推断目标的当前位置[30]。这是视觉目标追踪benchmark所描绘的场景，这些benchmark用简单轴对齐的[62、34、42、59、43]或旋转的[30]边界框来描述目标。这些简单的标注能让我们以较低的成本标注数据，另外，它也允许用户简单快速的初始化目标。
与目标追踪类似，半监督视频目标分割任务也需要估计第一帧中标注的任意目标的位置。但是，VOS这种情况中，目标的表示包含了描述一个像素是否是目标的二值分割掩膜[46]。如此详细的表示在一些需要像素级信息的应用中非常需要，如视频编辑[44]和rotoscoping[41]。可以理解，与生成简单的边界框相比，生成像素级别的估计需要更多的计算资源。因此，VOS方法传统上都较慢，通常每帧需要几秒钟的时间[61,57,45,2]。最近，人们对更快的方法产生了兴趣[66,40,63,10,9,24,23]。但是，即使最快的方法仍然无法实时运行。
本文中，我们旨在通过提出的SiamMask来缩小视频中任意目标追踪和VOS的差异，SiamMask是一个多任务学习方法，它能够解决这两个问题。我们的方法受到基于由大规模视频帧[31,71,17,67]对离线训练的全卷积孪生网络[4]的快速追踪方法的成功和近期大规模逐像素标注的视频数据集YouTube-VOS[64]可以获利使用的启发。我们旨在保留这些方法的离线可训练性和在线速度，同时显着改善其对目标对象的表示，这受限于简单的轴对齐边界框。
为了达到这一目标，我们同时在三个任务上训练孪生神经网络，每个任务都对应一种不同的策略，以在新框架中建立目标对象与候选区域之间的对应关系。同Bertineto[4]等人的全卷积方法一样，其中一项任务是学习目标对象和多个候选对象之间在滑动窗口方式上的相似性度量。它的输出是密集的响应图，它仅指示目标的位置，而没有提供有关其空间范围的任何信息。为了完善此信息，我们同时学习了另外两个任务：使用区域提议网络[53，31]和类别无关的二进制分割掩膜[49]进行边界框回归。值得注意的是，仅在离线训练期间才需要二进行标签来计算分割损失，而在在线分割和追踪的过程中不需要二进制标签。 在我们提出的体系结构中，每个任务都由一个不同的分支来表示，该分支从共享的CNN中分开，通过将这三个损失相加，共同得到最终的损失。
一旦训练完成以后，SiamMask仅依靠单个边界框进行初始化，无需更新即可在线运行，并且55FPS的帧率生成目标分割掩膜和旋转边界框。尽管它简单并且速度很快，SiamMask在实时目标追踪问题VOT2018上建立了一个新的SOTA结果。此外，与最近在DAVIS-2016和DAVIS-2017上使用半监督VOS的方法相比，该方法也具有很大的竞争力，同时又是最快的方法。通过简单的边界框初始化（而不是掩码）即可获得这一结果，而无需采用VOS方法经常使用的昂贵技术，例如微调[39、45、2、60]、数据增强[25、33]和光流[57，2，45，33，10]。
论文的剩余部分组织如下。第2节，简要概述了视觉对象跟踪和半监督VOS中最相关的现有工作；第3节介绍了我们的方法；第4节以四个benchmark对我们的方法进行了评估，并举例说明了一些ablation实现。第5节总结全文。

2 Related Work

在本节中，我们简要介绍了针对本文所解决的两个问题的最具代表性的技术。
Visual object tracking. 可以说，直到最近，用于追踪任意目标的最流行的范式是仅根据视频第一帧中提供的标注信息在线训练判别式分类器（然后在线进行更新）。这种策略通常被称为“tracking-by-detection”（例如[1，55]）。在过去的几年中，“相关过滤器”（Correlation Filter），可以在任意目标的模板及其2D变换之间进行判别的一种简单算法，成为一种特别快速有效的tracking-by-detection策略，这要归功于Bolme等人的开创性工作[6]。通过采用多通道公式[26、2]，空间约束[27、15、37、32]和深度特征（例如[14、58]），基于相关过滤器的追踪器的性能得到了显着改善。
最近，已经引入了一些截然不同的方法[4、21、6]。这些方法不是在线学习判别式的分类器，而是离线地对成对的视频帧训练相似性函数。在测试时，可以简单地在新视频上逐帧的进行评估。特别是，通过使用region proposals[31]，hard negative mining[71]，ensembling[17]和memory networks67]，全卷积孪生网络的发展[4]大大提高了追踪性能。
在这里插入图片描述
大多数现代跟踪器，包括上述所有追踪器，都使用矩形边界框来初始化目标并估计其在后续帧中的位置。尽管方便，但一个简单的矩形通常无法正确表示一个对象，如Figure.1的示例所示。这促使我们提出了一种追器，该追踪器能够仍然仅依赖于边界框的初始化生成二进制分割掩膜。
有趣的是，过去的追踪器通常也会生成目标对象的粗糙二进制掩膜（例如[13、48、5]）。但是，据我们所知，唯一与我们一样能够在线运行并从边界框初始化开始生成二进制掩膜的最新追踪器是基于Yeo等人的超像素的方法[68]。但是，它以4fps的帧率运行，其最快的变体比我们的方法还要慢很多。而且，它在现代追踪或VOS的benchmark中没有表现出像我们一样的竞争力，Perazzi和Ci等人从一个矩形初始化，输出每帧的掩膜。但是，在线微调使他们很慢。
Semi-supervised video object segmentation. 任意目标追踪的benchmark（例如[55、30]）假定追踪器以顺序方式接收输入帧。这个方面通常被称为在线属性或因果[30]。而且，方法通常集中在实现超过典型视频帧速率[29]的速度上。相反，传统上，半监督VOS算法更关注感兴趣对象的准确表示[44，46]。为了利用视频帧之间的一致性，几种方法通过图标记方法（例如[61、47、57、40、2]）将第一帧的监督分割掩码传播到时间相邻的掩膜。特别是，Bao等人 [2]最近提出了一种非常精确的方法，该方法利用了时空MRF，其中时间相关性是通过光流建模的，而空间相关性是由CNN表示的。
另一种流行的策略是独立处理视频帧（例如[39、45、60]），这与大多数追踪方法中的情况类似。例如，在OSVOS-S中，Maninis等人[39]不使用任何时间信息。他们依靠经过预训练的全卷积网络进行分类，然后在测试时使用第一帧中提供的标注对其进行微调。相反，MaskTrack [45]是从头开始对单个图像进行训练的，但是它通过使用最新的模板预测和光流作为网络的附加输入，在测试时确实利用了某种形式的时间性。
为了达到最高的准确性，在测试时，VOS方法通常采用计算密集型技术，例如微调[39、45、2、60]，数据增强[25、33]和光流[57、2、45、33 ，10]。因此，这些方法通常以低帧速率和无法在线操作为特征。例如，对于像DAVIS这样短短几秒钟的视频，要求几分钟[45，11]甚至几小时[57，2]的方法并不罕见。
最近，VOS社区对更快的方法越来越感兴趣[40，63，10，9，24，23]。据我们所知，Yang等[66]和Wug等[63]人的方法具有与最新技术竞争的性能，是最快的方法。前者使用元网络“调制器”在测试期间快速适应分割网络的参数，而后者不使用任何微调，而是采用经过多阶段训练的编码器-解码器孪生网络结构。这两种方法都以每秒10帧的速度运行，而我们的速度要快六倍以上，并且仅依赖于边界框初始化。

3 Methodology

为了实现在线可操作性和更快的速度，我们采用Bertinetto等人的全卷积Siamese框架 [4]。此外，为了说明我们的方法与作为起点的特定全卷积方法无关（例如[4，31，71，67，18]），我们认为流行的SiamFC [4]和SiamRPN [31]是两个代表性的例子。我们首先在3.1节中介绍它们，然后在3.2节中描述我们的方法。

3.1 Fully-convolutional Siamese networks

SiamFC. Bertinetto等人[4]提出使用离线训练的全卷积孪生网络作为追踪系统的基本构建块，它比较模板图像 $z$ 和一个更大的搜索图像 $x$ 来获得一个密集响应图。 $z$ 是一个以目标为中心进行裁剪的 $w\times h$ 大小的图像， $x$ 是以最后一次估计位置为中心裁剪的一个更大的图像。这两个输入被相同的CNN $f_{\theta}$ 处理，产生两个特征图，然后执行互相关操作：
$g_{\theta}(z,x)=f_{\theta}(z)\star f_{\theta}(x)$
在本文中，我们将响应图的每个空间元素（等式1的左侧）称为候选窗口（RoW）的响应。例如， $g_{\theta}^{n}(z,x)$ 对模板 $z$ 和 $x$ 中的第 $n$ 个候选窗口之间的相似性进行编码。对于SiamFC而言，目标是使用响应图的最大值与搜索区域 $x$ 中的目标位置相对应。作为取代的，为了允许每个RoW编码有关目标对象的更丰富的信息，我们使用深度互相关[3]替代了简单的互相关，并产生多通道响应图。SiamFC在数百万个视频帧上使用logistic loss进行了离线训练，我们将它称为 $\mathcal{L}_{sim}$ 。（这里描述的是对相似度学习部分训练的方法，可以回到SiamFC仔细看看）
SiamRPN. Li等人依靠RPN[53,16]，大大提高了SiamFC的性能，该网络允许使用可变纵横比的边界框来估计目标位置。特别来说，在SiamRPN中，每个RoW编码一组 $k$ 个anchor的候选框提议和相应的目前/背景得分。因此，SiamRPN同时输出框预测和分类得分。这两个输出分支的训练使用smooth $L_1$ 和cross-entropy losses[31, Section 3.2]。接下来，我们会分别把它们称为 $\mathcal{L}_{box}$ 和 $\mathcal{L}_{score}$ 。（这是分类和回归分支的训练方法，可以猜测，它们应该是分步训练的，一部分一部分的训练）

3.2 SiamMask

与现有的依赖于低保真度目标表示的追踪方法不同，我们认为产生每帧二进制分割掩膜是非常重要的。为此目的，我们表明，除了相似度分数和边界框坐标外，全卷积孪生网络的RoW还可以对生成像素级二进制掩膜所需的信息进行编码。（就是说RoW里面是编码了生成掩膜所需要的信息了，mask生成功能的实现就是通过增加新的分支和损失函数来训练实现的，所以这一分支需要在分割数据集上进行训练）这可以通过增加分支和损失扩展现在的孪生网络来实现。
我们使用一个简单的带可学习参数 $\phi$ 的两层神经网络 $h_{\phi}$ 来预测 $w\times h$ 的掩膜（每个RoW都预测一个）。我们用 $m_n$ 表示第 $n$ 个RoW对应的预测掩膜，
$m_n=h_{\phi}(g_{\theta}^{n}(z,x))$
从上面的等式可以看出，掩膜预测是待分割图像 $x$ 和包含目标的图像 $z$ 的函数。在样一来， $z$ 可以作为一个参考帧来指导分割过程，从而可以追踪任意类的目标。显然，在给定不同的参考图像 $z$ 的情况下，网络将为 $x$ 产生不同的分割掩膜。（可以看出，这里其实是以第一帧作为参考帧的分割方法）
Loss function. 在训练阶段，每个RoW都用真值二进制值 $y_n\in \{\pm1\}$ 标注，也与大小为 $w\times h$ 的逐像素级真值掩膜 $c_n$ 关联。令 $c_n^{ij}\in \{\pm1\}$ 表示与第 $n$ 个候选RoW中的目标掩膜的像素 $(i, j)$ 对应的标签。掩膜预测任务的损失函数 $\mathcal{L}_{mask}$ 是所有RoW上的logistic regression loss：
$\mathcal{L}_{m a s k}(\theta, \phi)=\sum_{n}\left(\frac{1+y_{n}}{2 w h} \sum_{i j} \log \left(1+e^{-c_{n}^{i j} m_{n}^{i j}}\right)\right)$
因此，分类层 $h_{\phi}$ 包含 $w\times h$ 个分类器，每个分类器指示给定的像素是否属于候选窗口中的目标。需要注意的是，仅对正的RoW（ $y_n=1$ ）才考虑使用 $\mathcal{L}_{mask}$ 。
Mask representation. 与语义分割方法 $\acute{a}$ - $l a$ [36]和Mask R-CNN[19]相比，它们在整个网络中维护明确的空间信息，我们的方法遵循[49,50]的思想，从对象的flattened representationg开始生成掩膜。特别的，在我们的情况下，这一表示对应于由 $f_{\theta}(z)$ 和 $f_{\theta}(x)$ 之间的深度互相关所产生的 $(17\times 17)$ RoW之一。重要的一点是，分割任务的网络 $h_{\phi}$ 由两个 $1\times 1$ 的卷积层组成，一个具有256个通道，另一个具有 $63^2$ 通道。这允许每个像素分类器利用整个RoW中包含的信息，从而在 $x$ 中具有其相应候选窗口的完整视图，这对于消除看起来像目标的实例（例如，Figure.4的最后一行）之间的歧义至关重要，也称为分散器[52，71]。为了产生更精确的目标掩膜，我们遵循[50]的策略，该策略使用由上采样层和跳跃连接组成的多个refine模块合并了低分辨率和高分辨率特征（请参阅附录）。代码里的Refine模块的原理。
在这里插入图片描述
Two variants. 在我们的实验中，我们通过分割分支和损失 $\mathcal{L}_{mask}$ 扩展了SiamFC[4]和SiamRPN[31]的体系结构，获得了我们称为SiamMask的两分支和三分支变体。它们分别优化多任务损失 $\mathcal{L}_{2B}$ 和 $\mathcal{3B}$ ，它们的定义是：
$\begin{array}{c}{\mathcal{L}_{2 B}=\lambda_{1} \cdot \mathcal{L}_{m a s k}+\lambda_{2} \cdot \mathcal{L}_{s i m}} \\ {\mathcal{L}_{3 B}=\lambda_{1} \cdot \mathcal{L}_{m a s k}+\lambda_{2} \cdot \mathcal{L}_{s c o r e}+\lambda_{3} \cdot \mathcal{L}_{b o x}}\end{array}$
对于 $\mathcal{L}_{sim}$ 请读者参考[4,Section 2.2]，对于 $\mathcal{L}_{box}$ 和 $\mathcal{L}_{score}$ 请参考[31,Section 3.2]。对于 $\mathcal{L}_{3B}$ ，如果RoW的其中一个锚点框与真值的锚点框的IOU至少为 $0.6$ ，则RoW被视为正值 $y_n=1)$ ，否则为负值 $y_n=-1)$ 。对于 $\mathcal{L}_{2B}$ ，我们采用和[4]相同的策略来定义正样本和负样本。我们不对上面等式的超参数进行搜索，而是简单地像[49]里设置 $\lambda_1=32$ ，而 $\lambda_2=\lambda_3=1$ 。box和score任务的输出分支由两个 $1\times 1$ 的卷积层组成。
Box generation. 请注意，尽管VOS benchmark需要二进制掩膜，但典型的追踪benchmark(例如VOT[30])需要边界框作为目标的最终表示。我们考虑三种不同的策略来从二进制掩膜中生成边界框（Figure.3）：（1）轴对齐的边界矩形(Min-Max)，（2）旋转的最小边界矩形（MBR），（3）VOT2016提出的自动边界框生成的优化策略。我们将在Section4(Table 1)中经验性的评估这些方案。
在这里插入图片描述

3.3 Implementation details

Network architecture. 对于这两个变体，我们使用ResNet-50[20]直到第4个阶段的最后卷积层作为我们的主干 $f_{\theta}$ 。为了在更深的层中获得较高的空间分辨率，我们使用步幅为1的卷积将输出步幅减小为8。此外，我们通过使用扩张卷积来增加接收场[8]。在我们的模型中，我们向共享主干 $f_{\theta}$ 添加了一个非共享的调整层（具有256个输出的 $1\times 1$ 的卷积）。为了简单起见，我们在等式1中将它忽略。我们在附录中会更详细地描述这一网络体系结构。
Training. 像SiamFC[4]一样，我们使用 $127\times 127$ 的模板图像和 $255\times 255$ 的搜索图像。在训练过程中，我们会随机拉动样本并进行搜索。具体来说，我们考虑随机变换（最多 $\pm$ 像素）和重新缩放（模板图像是 $2^{\pm 1/8}$ ，搜索图像是 $2^{\pm 1/4}$ ）。
在ImageNet-1 $k$ 分类任务中对网络主干进行了预训练。我们将SGD与第一个warmup阶段一起使用，在该阶段中，前5个学习周期的学习率从 $10^{-3}$ 线性增加到 $5\times10^{-3}$ ，然后再对数递减，直到15个学习周期的 $5\times10^{-4}$ 。我们使用COCO [35]，ImageNet-VID [54]和YouTube-VOS [64]训练所有模型。
Inference. 在追踪过程中，SiamMask对每帧仅进行一次评估，而无需进行任何调整。在我们的两个变体中，我们都使用在分类分支中获得最高分数的位置来选择输出掩膜。然后，在应用了每个像素的Sigmoid之后后，我们将掩模分支的输出使用阈值0.5进行二值化。在两个分支的变体中，对于第一个之后的每个视频帧，我们在输出掩膜中使用Min-max框进行拟合，并将其用作裁剪下一帧搜索区域的参考。相反，在三分支变体中，我们发现利用box分支的最高得分输出作为参考更为有效。

4 Experiments

在这一节中，我们在两个相关的任务上评估我们的方法，VOT（VOT2016，VOT2018），VOS（DAVIS2016，DAVIS2017）。我们将我们的两分支和三分支变体分别称为SiamMask-2B和SiamMask。

4.1 Evaluation for visual object tracking

Datasets and settings. 我们采用两种广泛使用的benchmark来评估目标追踪任务：VOT- 2016 [28]和VOT-2018 [29]，两者均带有旋转的边界框。
为了初始化SiamMask，我们从第一帧中提供的遮罩中提取了与轴对齐的边界框（最小-最大策略，Figure.3）。与大多数VOS方法类似，如果同一视频中有多个对象（DAVIS-2017），我们只需执行多个推断即可。我们使用VOT-2016进行实验，以了解不同类型的表示形式如何影响性能。对于第一个实验，我们使用（IOU）和平均精度（AP）@ {0.5，0.7} IOU。然后，我们使用官方的VOT工具包和“预期平均重叠（EAO）”与VOT-2018的最新技术进行比较，该方法同时考虑了跟踪器的准确性和鲁棒性[29]。
在这里插入图片描述
How much does the object representation matter? 现有的追踪方法通常以固定的[4、22、15、37]或可变的[31、21、71]长宽比来预测与轴对齐的边界框。我们有兴趣了解产生每帧二进制掩膜可以在多大程度上改善跟踪。为了专注于表示精度，对于本实验，我们仅忽略时间方面，并随机采样视频帧。以下段落中描述的方法在VOT-2016序列的随机裁剪的搜索pathc（随机移位在 $±16 \pm 16$ 像素以内，缩放变形最大为 $21\pm 0.25$ ）上进行了测试。
在Table 1中，我们使用Min-max，MBR和Opt方法（在3.2节末尾和 Figure 3中进行了描述）比较了三分支变量。为了便于理解，我们还报告了SiamFC和SiamRPN的结果，这些结果代表了固定纵横比和可变纵横比方法，以及三个可以获取每帧真值信息并充当不同表示策略上限的Oracle。（1）固定的宽高比Oracle使用每帧的地面面积和中心位置，但将宽高比固定为第一帧中的一个，并产生一个与轴对齐的边界框。（2）Minmax Oracle使用旋转的真值边界框的最小包围矩形来生成轴对齐的边界框。（3）最后，MBR oracle使用旋转的真值最小边界矩形。请注意，可以分别将（1），（2）和（3）作为SiamFC，SiamRPN和SiamMask表示策略的性能上限。
表1显示，无论使用哪种box生成策略，我们的方法都能达到最佳的mIOU（Figure 3）。尽管SiamMask-Opt提供了最高的IOU和mAP，但由于其缓慢的优化过程而需要大量的计算资源[28]。SiamMask-MBR的[email protected] IOU为85.4，比起两个完全卷积的baseline分别提高了+29和+9.2点。有趣的是，当在精度为0.7的IOU的条件下考虑mAP时，差距显著扩大：分别为+41.6和+18.4。值得注意的是，我们的准确性结果离固定的宽高比Oracle差别不远。此外，通过比较Oracle代表的上限性能，可以注意到，仅通过更改边界框表示，有很大的改进空间。例如，固定长宽比与MBROracle之间的mIOU提高了10.6％
总的来说，这项研究表明，与简单报告轴对齐边界框的流行策略相比，MBR策略如何从对象的二进制掩膜获得旋转边界框具有显著优势。
Results on VOT-2018 and -2016. 在Table 2中，我们将采用MBR策略的SiamMask和SiamMask–Opt的两种变体与最近发布的VOT-2018 benchmarks的五个最新追踪器进行了比较。除非另有说明，否则SiamMask指的是具有MBR策略的三分支变体。SiamMask的两种变体均具有出色的性能并可以实时运行。特别是，我们的三分支变体大大优于最近和性能最高的DaSiamRPN [71]，实现了0.380的EAO，并以55fps的速度运行。即使没有框回归分支，我们更简单的两分支变量（SiamMask-2B）仍能达到0.334的高EAO，与SA_Siam_R [17]相当，并且优于已出版文献中的任何其他实时方法。此外，SiamMask-Opt的EAO为0.387时可以达到最佳性能，但运行速度仅为5fps。这是预料之中的，因为盒优化策略需要更多的计算才能提供更高的IOU。我们的模型在精度指标下特别强大，相对于基于相关滤波器的跟踪器CSRDCF [37]，STRCF [32]而言，它显示出显着优势。这并不奇怪，因为SiamMask依赖于更丰富的对象表示，如Table 1所示。有趣的是，与我们相似，He等人的（SA_Siam_R）[17]的动机是通过考虑多个旋转和缩放的边界框来实现更精确的目标表示。但是，它们的表示仍然限于固定的纵横比框。
Table 3给出了在VOT-2018和-2016上采用不同box生成策略的SiamMask的进一步结果。SiamMask-box表示尽管训练了mask分支，但仍采用SiamMask的box分支进行推理（mask预测出来不用于box）。通过使用mask分支生成框，我们可以观察到所有评估指标的明显改进。
在这里插入图片描述

扫描二维码关注公众号，回复： 13280409 查看本文章

4.1 Evaluation for semi-supervised VOS

我们的模型经过训练后，也可以用于VOS的任务，以达到竞争性能，而无需在测试时进行任何调整。重要的是，与典型的VOS方法不同，我们的方法可以在线运行，实时运行，并且只需要简单的边界框初始化即可。
Datasets and settings. 我们报告了SiamMask在DAVIS-2016 [46]，DAVIS-2017 [51]和YouTube-VOS [64] benchmarks上的性能。对于这两个DAVIS数据集，我们使用官方的性能度量：Jaccard指数（ $\mathcal{J}$ ）表示区域相似度，而F度量（ $\mathcal{F}$ ）表示轮廓精度。对于每个度量 $\mathcal{C}\in \{\mathcal{J,F}\}$ ，要考虑三个统计量：平均值 $\mathcal{C_M}$ ，召回率 $\mathcal{C_O}$ 和衰减 $\mathcal{C_D}$ ，这会告诉我们随着时间的推移性能的增/减[46]。根据[64]，YouTube-VOS上的最终结果 $\mathcal{O}$ 是四个指标的平均值： $\mathcal{J}$ 代表可见类别， $\mathcal{F}$ 代表可见类别， $\mathcal{J}$ 代表看不见类别， $\mathcal{F}$ 代表看不见类别。
为了初始化SiamMask，我们从第一帧中提供的遮罩中提取了与轴对齐的边界框（最小-最大策略，Figure.3）。与大多数VOS方法类似，如果同一视频中有多个对象（DAVIS-2017），我们只需执行多个推断即可。
Results on DAVIS and YouTube-VOS. 在半监督场景下，VOS方法使用二进制掩码初始化[44]，其中许多方法需要在测试时使用计算密集型技术，例如微调[39、45、2、60]，数据增强[25、33]， MRF / CRF [61、57、40、2]和光流[57、2、45、33、10]。结果是，VOS技术需要几分钟来处理一个短序列并不少见。显然，这些策略使在线应用（这是我们的重点）成为不可能。因此，在我们的比较（Table 4、5和6）中，我们主要集中在快速的最新方法上。
这三个表显示了如何将SiamMask视为在线VOS的强大baseline。首先，它比OnAVOS [60]或SFL [11]之类的精确方法快了近两个数量级。其次，它与不采用微调的最新VOS方法相比具有竞争优势，而效率却是最快的VOS方法的四倍（即OSMN [66]和RGMP [63]）。有趣的是，我们注意到，SiamMask在DAVIS-2016和DAVIS-2017上都实现了区域相似度（JD）和轮廓精度（FD）的低衰减[46]。这表明我们的方法具有一定的鲁棒性，因此特别适用于较长的序列。
SiamMask对VOT和DAVIS序列的定性结果如Figure 4和附录所示。尽管速度很高，SiamMask甚至在存在干扰物的情况下仍可以产生精确的分割掩膜。

4.3 Further analysis

在本节中，我们将说明消融研究，追踪失败的案例以及我们方法的时间消耗。
Multi-task training. 我们进行了另外两个实验，以弄清多任务训练的效果。结果报告在Table 7和Table 3中。为实现此目的，我们在推理过程中修改了SiamMask的两个变体，以使它们分别报告来自得分分支（SiamMask-2B分数）或框分支（SiamMask-box）的轴对齐边界框。因此，尽管经过了训练，但在推理过程中仍未使用mask分支。我们可以观察到这两个变体相对于其无掩膜分支对应物（SiamFC和SiamRPN）如何获得改进：VOT2018的两个分支的EAO为0.251至0.265，三分支的EAO为0.359至0.363。因此，差距仅归因于多任务训练的好处。
Timing. SiamMask可以在线运行，而无需任何在测试序列上的调整。在单个NVIDIA Titan X GPU上，我们针对两个分支和三个分支的变体分别测量了每秒55帧和60帧的平均速度。注意，最大的计算负担来自特征提取器 $f_{\theta}$ 。
Failure cases. 最后，我们讨论了SiamMask失败的两种情况：运动模糊和“无对象”模式（Figure 5）。尽管本质上有所不同，但这两种情况可以说是完全由于缺乏训练集（例如YouTube-VOS [64]）中类似的训练样本而引起的，该训练集中于可以从前景明确分割的对象。
在这里插入图片描述

5 Conclusion

我们介绍了SiamMask，这是一种简单的方法，可以使全卷积的Siamese追踪器生成目标对象的类别无关的二进制分割掩膜。我们展示了如何将其成功地应用于视觉对象跟踪和半监督视频对象分割任务，与最新的追踪器相比，它显示出更高的准确性，同时，也是VOS方法中最快的速度。我们提出的SiamMask的两个变体都通过一个简单的边界框进行初始化，可以在线操作，实时运行并且不需要对测试序列进行任何调整。我们希望我们的工作能够激发进一步的研究，将视觉对象跟踪和视频对象分割这两个问题同时考虑在内。

Supplementary Meterial

1 Network architecture details

Network backbone. Table 1列出了我们的骨干架构的详细信息（主要是论文中的 $f_{\theta}$ ）。对于这两种变体，我们使用ResNet-50 [2]直到第4阶段的最后卷积层。为了在深层获得更高的空间分辨率，我们使用步幅为1的卷积将输出步幅减小为8。此外，我们通过使用扩张卷积来增加感受野[1]。具体来说，我们在conv4 1的3×3 conv层中将步幅设置为1，将扩张率设置为2。与原始的ResNet-50不同，conv4 x中没有下采样。我们还向主干添加了一个调整层（一个具有256个输出通道的1×1卷积层）。模板和搜索分支共享从conv1到conv4_x的网络参数，而adjust层的参数不共享。然后将调整层的输出要素在深度方向上进行互相关，从而生成尺寸为 $17\times 17$ 的特征图。
Network heads. 两个变体的分支的网络体系结构如Table 2和Table 3所示。两个变体中的conv5块均包含归一化层和ReLU非线性，而conv6仅包含1×1卷积层。
Mask refinement module. 为了产生更精确的目标掩膜，我们遵循[5]的策略，该策略使用由上采样层和跳跃连接构成的多个优化模块合并低分辨率和高分辨率特征。图1说明了如何使用堆叠的优化模块生成掩膜。图2给出了优化模块 $U_3$ 的示例。

2 Further qualitative results

Different masks at different locations. 我们的模型为每个RoW生成一个掩码。在推断过程中，我们依靠得分分支来选择最终的输出掩膜（使用获得最大分数的位置）。图3的示例说明了由掩膜分支产生的多个输出掩码，每个掩码对应于不同的RoW。
Benchmark sequences. VOT和DAVIS序列的定性结果如Figure 4和5所示。
在这里插入图片描述