摘要

我们处理半监督视频对象分割的任务，即使用第一帧的地面真实像素掩模来分割属于视频中的对象的像素。我们建立在最近引入的一次性视频对象分割（OSVOS）方法上，该方法使用预训练网络并在第一帧对其进行微调。虽然在测试时间内实现了令人印象深刻的性能，但OSVOS以未改变的形式使用微调网络，无法适应物体外观的巨大变化。为了克服这个限制，我们提出了在线自适应视频对象分割（OnAVOS），其使用基于网络的可信度和空间配置而选择的训练示例在线更新网络。另外，我们在PASCAL上学习基于对象的预训练步骤。我们的实验表明，两种扩展都非常有效，并将DAVIS的最新技术状态改进为85.7％的交叉点合并分数。

引言

视觉对象跟踪是计算机视觉中的一个基本问题，许多应用程序包括视频编辑，自动驾驶汽车和机器人。最近，有一种趋势是从边界框级别转换到像素级别跟踪，主要由新数据集的可用性驱动，特别是DAVIS [34]。在我们的工作中，我们关注于半监督视频对象分割（VOS），即使用第一帧的地面真实像素遮罩来分割属于视频中的通用对象的像素的任务。

最近，基于深度学习的方法通常利用大分类数据集进行预训练，对于VOS [7,20,24,35]和单目标跟踪[5,18,31]和背景的相关任务建模[2,6,44]。特别是Caelles等人提出的一次性视频对象分割（OSVOS）方法。 [7]对VOS显示出非常有希望的结果。该方法在目标视频的第一帧上微调预训练卷积神经网络。然而，由于在测试时OSVOS仅从序列的第一帧开始学习，所以它不能适应外观上的大的变化，这可能例如由视点的剧烈变化引起。

虽然在线自适应已成功用于边界框级别的跟踪（例如[14,23,27,31,43]），但其对VOS的使用[3,4,10,32]受到的关注较少，特别是在上下文中深度学习。因此，我们提出了在线自适应视频对象分割（OnAVOS），其基于所选择的训练实例来更新卷积神经网络。为了避免漂移，我们通过选择像素来仔细选择训练样例，网络非常确定它们属于感兴趣的对象作为正例，远离最后假定的像素掩模的像素作为反例（请参阅图1，第二行）。我们进一步表明，天真地执行在每一帧的在线更新很快就会导致漂移，这表现在性能强烈退化。作为一种对策，我们建议在第一帧（已知地面像素掩模）作为在线更新期间的附加训练示例进行混合。

我们的贡献如下：我们介绍OnAVOS，它使用在线更新来适应外观变化。此外，我们采用更新的网络架构和额外的目标性预训练步骤[20,21]，并展示它们对半监督设置的有效性。我们进一步表明，OnAVOS显着改善了两个数据集的艺术状态。

图1：DAVIS验证集的两个序列的定性结果。第二行显示选择为正（红色）和负（蓝色）训练示例的像素。可以看出，在线上适应后，网络可以更好地处理视点（左侧）和场景中出现的新对象（车辆以正确顺序）中的变化。

2 Related Work

视频对象分割。许多经典的视频对象分割（VOS）方法的常用方法是减小输入空间的粒度，例如，通过使用超像素[8,15]，补丁[12,38]或对象提议[33]。虽然这些方法显着降低了后续优化步骤的复杂性，但它们可能会在流水线早期引入不可恢复的错误。然后将获得的中间表示（或直接使用像素[30]）用于整个视频的全局优化[30,33]，其中部分[15]，或仅使用当前帧和前一帧[8 ，12,38]。

最近，包括OSVOS [7]在内的基于神经网络的方法[7,20,24,35]已经成为VOS的最新技术。由于OnAVOS是建立在OSVOS之上的，因此我们在第3节中包含详细描述。尽管OSVOS独立处理每个视频帧，但我们期望合并时间上下文应该会有所帮助。作为这个方向的一步，Perazzi等人[35]提出了MaskTrack方法，其中将来自最后一帧的估计分割掩模用作神经网络的附加输入通道，使其能够使用时间上下文。 Jampani等人[22]提出了一个视频传播网络（VPN），该网络应用了学习的双边过滤操作来跨视频帧传播信息。此外，在半监督[24,35]和无监督设置[40]中，光流被用作附加时间提示，其中第一帧的基本事实不可用。在我们的工作中，我们专注于通过在线修改网络来隐式地包含上下文信息，即我们将时间上下文信息存储在网络的适应权值中。

最近，Jain等人[21]提出训练像素对象的卷积神经网络，即为每个像素决定它是否属于类似物体的区域。在另一篇论文中，Jain等人[20]表明，使用像素对象在无监督的VOS设置中很有帮助。我们采用像素对象作为基于一次性方法的半监督设置的预训练步骤。

来自Khoreva等人的LucidTracker获得了DAVIS当前的最佳结果。 [24]，它通过一种精心设计的数据增强方法扩展了MaskTrack，该方法从第一批注释的帧中创建了大量训练样例，并减少了大规模数据集对预训练的依赖。我们的实验表明，我们的方法使用传统的数据增强方法实现了更好的性能。

在线适应。对于边界框水平跟踪，Kalal等人[23]引入了跟踪 - 学习 - 检测（TLD）框架，该框架试图检测使用的目标检测器的错误并在线更新检测器以避免将来出现这些错误。 Grabner和Bischof [14]使用AdaBoost的在线版本[13]进行包括跟踪在内的多种计算机视觉任务。 Nam和Han [31]提出了一种用于边界框级别跟踪的多域网络（MDNet）。 MDNet为每个训练序列训练一个单独的域特定输出层，并在测试时初始化一个新的输出层，该层与两个完全连接的层一起在线更新。为此，训练样本在当前假定的物体位置附近随机抽样，根据其分类得分用作正面或负面的目标。这种在线培训实例的方案与我们的方法有一些相似之处。然而，我们的方法在像素级而不是边界框级别上工作，为了避免漂移，我们特别注意只选择在线的训练样例，我们非常肯定他们是正面或负面的例子。对于VOS，在线适应方面的研究较少;主要提出了经典的方法，如在线更新的颜色和/或形状模型[3,4,32]和在线随机森林[10]。

完全卷积网络的语义分割。 Long等人已经引入了用于语义分割的全卷积网络（FCN）。 [29]。主要思想是通过用1x1卷积替换完全连接的层并引入跳过连接来帮助捕获更高分辨率的细节，重新设计最初设计用于语义分割分类的网络。这种方法的变种已被广泛应用于语义分割，并取得了巨大的成功（例如He等人的ResNets [17]）。

最近，吴等人。 [45]引入了ResNet变体，其具有比原始ResNet架构更少但更宽的层[17]和简单的分割方法，其通过用扩张卷积[47]替代它们并避免了一些子采样步骤，并且不使用任何跳过连接。尽管分割架构简单，但他们在多个分类和语义分割数据集中获得了出色的结果，这促使我们采用他们的架构。

图2：OnAVOS的管道。从预训练的权重开始，网络首先在PASCAL（a）上进行对象预训练。之后，我们在DAVIS上预先介绍了具体的信息（b）。在测试期间，我们对第一帧进行微调，以获得测试网络（c）。在以下帧中，网络随后在线调整以适应外观变化（d）。

3 One-Shot Video Object Segmentation

OnAVOS（参见图2的概述）基于最近推出的一次性视频对象分割（OSVOS）方法[7]，但将像素对象的预训练[21]作为新组件引入，采用更新的网络架构，并结合了一种新颖的在线适应方案，详见第4节。

基地网络。 OnAVOS的第一步是在大型数据集（例如用于图像分类的ImageNet [9]）上预先训练一个基础网络，以便学习对象的强大表示，以后可以将其用作视频对象分割的起点（VOS ）任务。

物体网络。在第二步中，使用二元交叉熵损失对网络进行像素对象进一步预训练[21]。为了获得前景和背景的目标，我们使用PASCAL [11]数据集并将所有20个带注释的类映射到前景，并将所有其他图像区域视为背景。正如Jain等人所证明的那样。 [20]，仅由此产生的对象网络已经在DAVIS上表现良好，但在这里我们只将对象用作预训练步骤。

域特定对象网络。对象网络在PASCAL数据集上进行了训练。然而，应在其上执行VOS的目标数据集可能表现出不同的特征，例如，在DAVIS的情况下分辨率更高，噪音更小。因此，我们使用DAVIS训练数据对对象网络进行微调，并获得领域特定的对象网络。DAVIS注释不直接对应于对象，因为通常只有一个对象可能是多个注释。然而，我们认为这里学到的任务仍然类似于一般的对象，因为在DAVIS的大多数序列中，可见对象的数量相对较少，并且感兴趣的对象通常相对较大且显着。请注意，OSVOS直接在DAVIS上训练基础网络，无需在PASCAL上进行对象预训练。我们的实验表明这两个步骤都是互补的。

测试网络。在上述预训练步骤之后，网络已经学习了领域特定的对象概念，但是在测试时间内，它还不知道它应该分割的目标序列的可能多个对象中的哪一个。因此，我们在第一帧的地面实况蒙版上微调预训练网络，为它提供感兴趣对象的身份和特定外观，并允许它学习忽略背景。这一步骤已被证明对VOS非常有效[7]，我们在实验中也证实了这一点。但是，第一帧并不能为网络提供足够的信息来适应外观或视点的剧烈变化。在这些情况下，我们需要在线适应方法（见第4节）。

网络架构。尽管OSVOS使用了众所周知的VGG网络[39]，但我们选择采用更新的网络架构，其中包含残留连接。特别是，我们采用吴等人的模型A. [45]，这是一个非常广泛的ResNet[17]变体，有38个隐藏层和大约1.24亿个参数。分割的方法非常简单，因为不使用上采样机制或跳过连接。取而代之的是，使用步进卷积的向下取样仅执行三次。这会导致每个维度的分辨率损失八倍，之后使用扩张卷积[47]增加感受野，而不会额外损失分辨率。尽管简单，但这种架构在分类（ImageNet）和分割（PASCAL）任务方面都表现出了优异的结果[45]。当将其应用于分割时，我们在以0.5进行阈值化之前将像素后验概率双线性上采样到初始分辨率。

我们使用Wu等人提供的权重。 [45]，这是通过在ImageNet [9]，Microsoft COCO [28]和PASCAL [11]上进行预训练获得的，作为基础网络的强大初始化。然后，我们用两级softmax替换输出层。作为损失函数，我们使用自助交叉熵损失函数[46]，该函数将交叉熵损失值的平均值仅作为最困难像素的一部分，即网络预测最差的像素，而不是全部像素。这种损失函数已被证明对于不平衡的类分布很有效，这对于VOS来说也是常见的，这是由于背景类的主导。在我们所有的实验中，我们使用25％最硬像素的一部分，并使用Adam优化器[25]优化这种损失。在我们的评估中，我们将网络架构的效果与算法改进的效果分开。

4 Online Adaptation

由于感兴趣对象的出现随着时间的推移而变化并且可能出现新的背景对象，因此我们引入在线适应方案以适应这些变化（参见算法1）。进入场景的新物体在进行物体预训练时特别成问题，因为它们从来没有用作负面训练的例子，因此被分配的概率很高（例如参见图1（右））。

我们的在线自适应方案的基本思想是将非常可靠的预测像素作为训练示例。我们选择预测的前景概率超过特定阈值α的像素作为正例。有人可能会争辩说，使用这些像素作为正面的例子是无用的，因为网络已经对它们给出了非常有把握的预测。然而，重要的是适应能够保留积极类别的记忆，以便为增加的许多负面例子创造平衡。在我们的实验中，忽略这一步骤会在前景蒙板上产生空洞。

我们最初以相同的方式选择负面训练样例，即使用前景概率非常低的像素。然而，这可能会导致性能下降，因为在大的外观变化过程中，假阴性像素将被选为负面训练示例，从而有效地摧毁了适应这些变化的所有机会。因此，我们基于两帧之间的移动很小的假设，以不同的方式选择负面训练示例。这个想法是选择离最后预测的对象掩码很远的所有像素。为了处理噪音，最后的面具可以首先被侵蚀操作收缩。对于我们的实验，我们使用大小为15的方形结构元素，但我们发现此参数的确切值并不重要。之后，我们计算一个距离变换，该变换为每个像素提供距离掩模最近的前景像素的欧几里得距离。最后，我们应用阈值d并将距离大于d的所有像素视为负面示例。

既未标记为正面也未标为负面例子的像素被分配了“不关心”标签，并且在线更新期间被忽略。我们现在可以在当前帧上微调网络，因为每个像素都有一个用于训练的标签。然而，在实践中，我们发现使用获得的训练样例进行天真的微调很快就会导致漂移。为了避免这个问题，我们建议在第一帧中作为在线更新期间的附加训练样例，因为对于第一帧，地面实况是可用的。我们发现为了获得好的结果，第一帧应该比当前帧更频繁地采样，即在在线适应期间，我们每帧执行总共非线性更新步骤，其中在当前帧上仅执行n行，并且其余的是在第一帧上执行的。此外，我们将当前帧的损失权重降低β因子（例如β≈0.05）。值为0.05可能看起来小得惊人，但必须记住第一帧经常用于更新，快速导致更小的梯度，而当前帧仅被选择几次。

在线自适应期间，根据前一帧的掩码选择否定训练示例。因此，可能发生像素被选作负面的例子，并且它被同时预测为前景。我们称这些像素为不利底片。发生硬阴性的常见情况是当先前看不见的物体远离感兴趣的物体进入场景时（见图1（右）），这通常会被网络检测为前景。我们发现从下一帧中使用的前景蒙版中移除难以确定否定训练示例的难题很有帮助。此步骤允许再次选择下一帧中的负片作为反面示例。此外，我们试图通过增加更新步骤的数量和/或在存在严重负面情况下当前帧的损失范围来更强调网络以适应硬性负面情况。但是，这并没有进一步改善结果。

除了前面描述的步骤之外，我们还提出了一个简单的启发式方法，它可以使我们的方法更好地抵抗像遮挡这样的困难：如果（在可选侵蚀之后）最后假定的前景蒙版上没有任何东西，我们假设感兴趣的对象丢失并且不要应用任何在线更新，直到网络再次找到非空的前景蒙板。

5 Experiments

数据集。对于物体预训练（参见第3节），我们使用了PASCAL VOC 2012数据集[14]的1,464个训练图像以及Hariharan等人提供的附加注释。 [16]，总共有10 582个训练图像，包含20个类别，我们都将其映射到单个前景类别。对于视频对象分割（VOS），我们对最近推出的DAVIS数据集[34]进行了大部分实验，该数据集由50个短全高清视频序列组成，其中30个用于训练，另外20个用于验证。与大多数先前的工作一致，我们对分采样版本进行了所有实验，分辨率为854×480像素。为了说明我们的方法的概括性，我们还对VOS的YouTube-Objects [19,37]数据集进行了实验，该数据集由126个序列组成。

实验装置。我们在PASCAL和DAVIS上预训，每个10个时代。对于基线一次性方法，我们在第一帧上发现了50个更新步骤，学习率为3·10-6，效果很好。为了简单起见，我们只使用了一个图像的小批量。由于DAVIS仅具有训练和验证集，因此我们使用三重交叉验证调整了30个序列的训练集上的所有超参数，即20个训练序列用于训练，并且10个用于每个折叠的验证。按照惯例，我们通过随机翻转来增加训练数据，使用从[0.7,1.3]和伽玛增强[36]均匀采样的因子进行缩放。

为了评估，我们使用了Jaccard指数，即预测的前景蒙板和地面实况蒙板之间的平均交汇点（mIoU）。 Perazzi等人提出的额外评估措施的结果[34]显示在补充材料中。我们注意到，特别是对第一帧进行微调时，随机增强会在结果中引入不可忽略的变化。因此，对于这些实验，我们进行了三次运行并报告了平均值和标准偏差值。所有的实验都是在我们基于TensorFlow [1]的实现中完成的，我们将在https://www.vision.rwth-aachen.de/software / OnAVOS上提供预训练模型。

5.1 BaselineSystems

预训练步骤的效果。从基础网络开始（参见第3节），我们的完整基线系统（即无适应性）包括在PASCAL上进行物体第一预训练步骤，然后是DAVIS训练序列，最后在第一步进行微调帧。这三个步骤中的每一个都可以单独启用或禁用。表1显示了DAVIS对所有结果组合的结果。可以看出，这些步骤中的每一步都很有用，因为删除任何步骤总会使结果恶化。

基础网络被训练用于与二元分割不同的任务，因此需要在微调网络的其余部分的同时学习新的输出层。没有PASCAL或DAVIS预训练，随机初始化的输出层仅从目标序列的第一帧中学习，这导致仅仅65.2％mIoU的性能大幅降低。然而，当使用PASCAL或DAVIS进行预训练时，结果分别显着提高至77.6％mIoU和78.0％mIoU。虽然两种结果非常相似，但可以看出PASCAL和DAVIS确实提供了补充信息，因为使用两个数据集一起进一步将结果提高到80.3％。我们认为相对较大的PASCAL数据集对于学习一般对象是有用的，而有限的DAVIS数据对于适应DAVIS数据的特征（例如相对高的图像质量）是有用的，这为DAVIS的评估提供了优势序列。

有趣的是，即使没有看第一帧的分段掩模，即在无监督的设置中，我们已经获得72.7％mIoU的结果;稍好于当前最好的无监督方法FusionSeg [20]，它在DAVIS验证集上获得70.7％的mIoU，使用目标性和光流作为附加提示。

与OSVOS比较。如果不包括边界捕捉后处理步骤，OSVOS在DAVIS上达到77.4％的mIoU。我们的系统在PASCAL上没有对象进行预训练，与此结果直接相当，达到78.0％mIoU。我们将这种适度的改进归因于我们采用的更新的网络架构。包括PASCAL在对象预训练中将这一结果进一步提高了2.3％至80.3％。

表1：（预）训练步骤对DAVIS验证集的影响。可以看出，三个训练步骤都是有用的。 PASCAL上的对象预训练步骤显着改善了结果。

5.2 OnlineAdaptation

超参数研究。如第4节所述，OnAVOS涉及相对较多的超参数。在DAVIS训练集上进行粗略的手动调整后，我们发现α= 0.97，β= 0.05，d =220，非线性= 15，ncurr = 3可以很好地工作。虽然第一帧的最初50个更新步骤以3·10-6的学习率进行，但对于当前帧和第一帧的在线更新，使用不同的学习率λ= 10-5是有用的。从这些值作为操作点开始，我们通过一次更改一个超参数进行更详细的研究，同时保持其他参数不变。我们发现OnAVOS对于大多数超参数的选择并不是非常敏感，我们尝试的每种配置都比非适配的基线表现得更好，与操作点相比，我们只取得了小的改进（详细的图表在补充材料中显示）。为了避免过度拟合小DAVIS训练集，我们保留了所有进一步实验的操作点的值。

消融研究。表2显示了在DAVIS验证集上提出的在线自适应方案和多个变体的结果，其中部分算法被禁用。使用完整的方法，我们获得了82.8％的mIoU分数。当禁用所有适应步骤时，性能显着下降至80.3％，这证明了在线适应方法的有效性。该表进一步显示负面的训练例子比正面的例子更重要。如果我们在在线更新期间不混合第一帧，由于漂移，结果显着降低到69.1％。

时序信息。对于第一帧的初始微调阶段，我们使用了50个更新步骤。包括所有其他帧的正向传递时间，这导致使用NVIDIA Titan X（Pascal）GPU的DAVIS验证集的每个序列的总运行时间约为90秒（对应于每帧约1.3秒）。当使用非线性= 15的在线适应时，运行时间增加到每个序列大约15分钟（对应于每帧大约13秒）。然而，我们的超参数分析显示，通过减少非线性而不会损失精度，可显着降低运行时间。请注意，为了获得最佳效果，OSVOS在第一帧上使用更多的更新步骤，每个序列需要大约10分钟（对应于每帧大约9秒）。

5.3 Comparisonto State of the Art

当前最先进的方法使用后处理步骤，如边界捕捉[7]或条件随机场（CRF）平滑[24,35]来改善轮廓。为了与它们进行比较，我们使用DenseCRF [26]包括了每帧后处理。这可能特别有用，因为我们的网络只为每个8×8像素块提供一个输出。另外，我们在测试期间添加了数据增强。为此，我们通过随机翻转，缩放和伽玛增量创建了每个测试图像的10个变体，并对所有10幅图像的后验概率进行平均。

为了演示OnAVOS的泛化能力，并且由于没有针对YouTube-Objects的单独训练集，我们使用与DAVIS相同的超参数值（包括CRF参数）对该数据集进行了实验。此外，我们省略了DAVIS的预训练步骤。请注意，对于YouTube-Objects，以前出版物中的评估协议有时会因不包含感兴趣对象不存在的帧而有所不同[24]。在这里，我们报告遵循DAVIS评估协议的结果，即包括这些框架，与Khoreva等人一致。 [24]。

表3显示了我们的后处理步骤的效果，并将我们在DAVIS和YouTube-Objects上的结果与其他方法进行了比较。请注意，与在线适应相结合时，测试时间增加的效果更强。我们认为这是因为在这种情况下，增强不仅直接提高了最终结果作为后处理步骤，而且它们还提供了更好的适应目标。在DAVIS上，我们达到了85.7％的mIoU，据我们所知，这个数字远远高于以前发布的任何结果。与OSVOS相比，这个数字提高了近6％。在YouTube-Objects上，我们获得了77.4％的mIoU，与LucidTracker获得的第二最佳结果（76.2％）相比，这也是一个重大改进。

6 Conclusion

在这项工作中，我们提出了基于OSVOS方法的OnAVOS。我们已经证明，包含一个对象预训练步骤和我们的半监督视频对象分割的在线自适应方案是非常有效的。我们进一步表明，我们的在线自适应方案对超参数的选择是强健的，并且推广到另一个数据集。我们预计在未来，更多的方法将采用适应方案，使它们在外观上发生较大变化时更加稳健。对于未来的工作，我们计划明确地将时间背景信息纳入我们的方法。

Online Adaptation of Convolutional Neural Networks for Video Object Segmentation论文阅读