2019论文阅读3:Actor and Action Video Segmentation from a Sentence

Actor and Action Video Segmentation from a Sentence

Kirill Gavrilyuk,　Amir Ghodrati,　Zhenyang Li,　Cees G. M. Snoek QUVA Lab, University of Amsterdam

CVPR2018

文章链接：https://arxiv.org/pdf/1803.07485.pdf

摘要

本文致力于对演员及其在视频内容中的行为进行像素级分割。与现有的作品不同，我们都学会从演员和动作对的固定词汇中进行细分，我们从自然语言输入句中推断出细分。这允许区分同一超类别中的细粒度参与者，识别参与者和动作实例，以及在参与者和动作词汇表之外的片段对。我们提出了一种完全卷积模型，用于像素级演员和动作分段，使用针对视频优化的编码器 - 解码器架构。为了展示来自句子的演员和动作视频分割的潜力，我们扩展了两个流行的演员和动作数据集，其中包含超过7,500种自然语言描述。实验证明了句子引导分割的质量，我们模型的泛化能力，以及与现有技术相比传统演员和动作分割的优势。

1、介绍

本文的目标是演员及其在视频中的动作的像素级分割，无论是攀爬的人，跳跃的汽车还是飞行的鸟。徐等人定义了这一具有挑战性的计算机视觉问题，旨在将视频理解提升到更加传统的关于管内人类行为的时空定位的工作之外，例如： [19,26,32]。许多人已表明，因为联合行动者和行动推理对他们的独立分割是有益的，例如 [10,28]。如果所有现有作品都学会从一组固定的预定义的动作和动作对中进行分割，我们建议根据自然语言句子输入来分割演员及其在视频中的动作，如图1所示。

![2019-01-15 09-19-02屏幕截图](/home/superior/图片/2019-01-15 09-19-02屏幕截图.png)

我们受到了视觉和语言解决方案的最新进展的启发，这些解决方案可以应对诸如对象检索、人员搜索和对象跟踪等挑战。为了从句子到达对象分割，Hu等人依靠LSTM网络将输入句子编码成矢量表示，然后完全卷积网络从图像中提取空间特征图并输出目标对象的上采样响应图。Li等人提出了从句子中追踪物体的方法。在不指定边界框的情况下，它们从句子中识别目标对象并在整个视频中跟踪它。他们的网络的目标定位类似于Hu等人。无论是它们引入了动态卷积层，以允许基于输入句子动态调整视觉滤波器。实际上在匹配之前进行文本嵌入卷积。我们还提出了一种端到端的可训练解决方案，用于将文本和图像嵌入到联合模型中的句子进行分割。我们不是依赖LSTM，而是从一开始就选择完全卷积模型，包括动态滤波器。此外，我们优化了我们的模型，用于分割演员及其在视频中的动作，而不是在图像中，允许我们利用RGB和流。

首先本文最重要的贡献是从一个句子中去分割演员和动作的这样的新任务。第二个贡献，提出了一个全卷积模型，用于像素级演员和动作分割，使用编码器 - 解码器神经架构，该架构针对视频和端到端可训练进行了优化。第三，为了展示一个句子中行动者和行动分割的潜力，扩展了A2D [29]和J-HMDB [9]数据集，其中包含超过7,500个描述视频内容中出现的演员和行为的文本句子。最后，实验证明了句子引导分割的质量，模型的泛化能力，以及与现有技术相比传统演员和动作分割的优势。在详细介绍我们的模型之前，首先讨论相关工作。

2、相关工作

2.1 演员和动作分割

徐等人提出视频中的演员和动作分割的问题，并介绍具有挑战性的演员动作数据集（A2D），其中包含43个演员和动作对的固定词汇。他们建立了一个多层条件随机场模型，并从一个视频中为每个超级体素分配一个来自演员动作产品空间的标签。在[28]中，Xu和Corso提出了一个分组过程，将长范围交互添加到条件随机字段中。闫等在超级体素t特征上显示一个多任务排序模型，允许使用视频级标签进行弱监控的演员和动作分割。Kalogeiton等人没有依赖于超体素，提出一个多任务网络架构，共同为视频训练演员和动作检测器。他们将边界框检测扩展到像素级分割，随后使用最先进的分割方案[22]。

上述工作仅限于从一组固定的预定义标签对模拟参与者和操作之间的交互。我们的工作使用一组和语言一样丰富的开放标签来模拟联合参与者和动作空间这有一个优势，我们能够区分同一超级类别下细粒度的演员，例如鹦鹉或鸭子，并识别不同的演员和动作实例。由于预先训练了单词嵌入，我们的模型还能够从演员和动作词汇之外但嵌入中存在的单词推断出分段。我们采用一种完全端到端可训练的编码器-解码器神经体系结构，而不是为视频生成中间超体素或分割建议。

本部分先介绍前人的工作，随后指出前人工作的局限性，从而提出本文的方法。即使用一组和语言一样丰富的开放标签来模拟联合参与者我们从一个句子中介绍了演员和动作视频分割的新任务。我们用于像素级分割的编码器-解码器神经架构明确考虑了视频的时空特性。为了使用我们的模型实现句子引导的分割，我们扩展了两个现有的数据集，其中包含描述参与者及其在视频内容中的动作的句子级注释。实验证明了该模型的可行性和鲁棒性，以及该模型适应行为人和动作对语义分割任务的能力，优于目前的技术水平。和动作空间，有两个优势：1）能够区分同一超级类别下细粒度的演员，例如鹦鹉或鸭子，并识别不同的演员和动作实例；2）由于预先训练了单词嵌入，我们的模型还能够从演员和动作词汇之外但嵌入中存在的单词推断出分段。采用的是端对端的编码解码神经结构

2.2 句子中演员的定位

最近的工作是，从一个基于句子的图像或视频中将一个演员定位。在[14]中，Li等人介绍一个包含句子注释的人员描述数据集和来自五个现有人员重新识别数据集的人员样本。他们的神经网络模型捕捉单词图像关系，并估计句子和人图像之间的亲缘关系。更接近我们工作的是[30]，Yamaguchi等人提出视频时空人搜索。他们用个人描述补充了ActivityNet数据集[1]中的数千个视频片段。他们的人员检索模型首先提出候选管道，根据联合可视化文本嵌入中的查询对其进行排名，然后输出最终排名。

与[14，30]相似，我们也用句子描述来补充现有的数据集，在我们的案例A2D[29]和JHMDB[9]中，但目的是进行行动者和动作分割。其中[30]演示了描述人类行为体的句子在视频中的动作定位价值，我们将其概括为任何行为体所执行的动作。此外，在[14，30]中，将它们的定位简化为围绕感兴趣的人类参与者的边界框，我们输出视频中参与者和动作的像素级分割。

2.3 句子中动作的定位

Gao等人[4]和Hendricks等人[5]考虑通过句子检索包含动作的特定时间间隔。相比之下，我们的工作提供了一个独特的机会来研究一个句子的时空分割，包括一组不同的行动者和动作。

jain等遵循零触发协议，从描述（以前未知的）动作类的句子中证明时空动作定位是可行的。它们首先生成一组动作管，通过数千个对象分类器响应对每个动作管进行编码，然后计算动作建议和动作查询中得分较高的对象类别之间的词向量相似性。Mettes和Sneek[18]也遵循零触发机制，将句子与Word2vec空间中的动作进行匹配，但他们不依赖动作建议和对象分类器，而是只喜欢对象检测器，允许查询人与对象之间的时空关系。不同于他们的零触发协议，我们在一个监督制度下运作。我们还致力于视频中动作的时空定位，但与生成边界框相比，我们更喜欢像素分割而不是任何参与者执行的动作。

本小部分，指出是监督学习

3、模型

给定一个视频和一个自然语言句子作为一个查询，我们的目标是按照查询的指定，在视频的每一帧中分割演员及其动作。为了实现这一点，我们提出了一种模型，该模型结合了视频和语言信息，以根据输入查询执行像素分割。我们通过从文本表示生成卷积动态滤波器并使用不同分辨率的可视表示对其进行卷积来输出分段掩码。我们的模型由三个主要部分组成：文本编码器，视频编码器和解码器，如图2所示。

![2019-01-15 14-58-00屏幕截图](/home/superior/图片/2019-01-15 14-58-00屏幕截图.png)

3.1 纹理编码

它使我们能够处理训练集中句子之外的单词。此外，我们使用一个简单的一维卷积神经网络而不是LSTM来编码输入句子，我们将在消融研究中进一步详细介绍。

细节：输入语句的每个字都表示为一个300维的词向量嵌入，不需要进一步的预处理。在培训期间，所有单词嵌入都是固定的，没有进行微调。然后，输入语句被表示为其单个单词表示的串联，例如，一个10个单词的句子由一个10×300的矩阵表示。每个句子都加上了相同大小的软垫。该网络由单个一维卷积层组成，时间滤波器大小等于2，输出尺寸与词向量表示相同。在卷积层之后，我们应用relu激活函数并执行max pooling以获得整个句子的表示。

3.2 视频编码

给定一个输入视频，我们的目标是获得一个视觉表示，编码演员和行动信息，同时保留空间信息，这是必要的执行像素分割。与使用基于二维图像模型的[6，15]不同，我们的模型也利用了视频的时间动态。最近，Carreira和Zisserman[2]提出将卷积神经网络的二维滤波器膨胀为三维滤波器（i3d），以更好地利用视频的时空特性。通过对图像对象数据集IMAGENET[23]和视频动作数据集动力学[11]的预训练，他们的模型实现了最先进的动作分类结果。我们采用i3d模型从视频中获得视觉表现。

此外，我们还遵循众所周知的双流方法[24]将外观和运动信息结合起来，这一方法在早期成功应用于各种视频理解任务，如动作分类[3，27]和检测[21，33]。在我们的消融研究中，我们研究了有RGB和流量输入对参与者和动作分割的影响。

细节：所有视频的帧都被填充成相同的大小。作为RGB和Flow输入的可视特征表示，我们在I3D网络的最后一个最大池层之前使用初始块的输出，然后是时间维度上的平均池。为了在每个空间位置获得更鲁棒的描述符，将L2标准化应用于特征图中的每个空间位置。在[6,15]之后，我们还将每个位置的空间坐标作为额外通道附加到视觉表示，以允许学习诸如“左边”或“上方”的空间限定符。

3.3 动态滤波解码

为了从自然语言句子中执行逐像素分割，我们依赖于动态卷积滤波器，正如前面在[15]中提出的那样。与传统卷积神经网络中使用的静态卷积滤波器不同，动态滤波器是根据输入生成的，在我们的例子中是编码的句子表示。它使我们能够将文本信息传输到可视域。与[15]不同，我们注意到具有tanh激活函数和特征的L2归一化的更好结果。此外，我们为具有不同网络参数的多种分辨率生成动态滤波器。

给定句子表示T，我们为每个分辨率r属于R生成动态滤波器fr，并使用单独的单层完全连接网络：

其中tanh是双曲正切函数，fr具有与视频表示Vtr相同的通道数在时间步t和分辨率r输入。然后用V r t对动态滤波器进行卷积，以在时间步长t获得分辨率为r的像素分段响应图：

为了获得与输入视频分辨率相同的分割掩模，我们进一步采用了反卷积神经网络。与在分割响应图上应用反卷积积的[6，15]不同，我们直接在视频表示VTR上使用反褶积层。它使我们能够更好地处理小对象并输出更平滑的分割预测。此外，它有助于获得更精确的高重叠值分段，如我们将在实验中显示的那样。

细节：我们的每一个反卷积网络都由两个块组成，其中一个块具有一个核大小为8×8和步长为4的反卷积层，然后是一个核大小为3×3和步长为1的卷积层。我们只使用最高分辨率的响应图进行最终分割预测。

3.4 训练

我们的训练样本包括输入视频剪辑，输入句子和用于每个输入视频剪辑中间的帧的每个分辨率r 2R的二进制地面实况分割掩码Y r。对于每个训练样本，我们定义了一个损失，同时考虑了多个分辨率，这有助于更好地模拟模型中的梯度流，类似于跳过连接方法：

4、数据集

4.1 A2D Sentences

Xu等人的Actor-Action Dataset（A2D）保留为一般演员和动作分段任务的最大视频数据集。它包含来自YouTube的3,782个视频，带有像素级标记的演员及其动作。数据集包括八个不同的操作，而总共七个actor类被认为执行这些操作。

注释过程共产生6656句，其中不同名词811个，动词225个，形容词189个。

4.2 J-HDMDB Sentences

J-HMDB包含928个视频剪辑，其中21个不同的动作用2D关节人类木偶注释，为每个动作中涉及的人提供尺度，姿势，分割和粗略视角。

5、实验

5.1 Ablation Study

在第一组实验中，我们研究了单个组件对我们提出的模型的影响。

设置：我们为这些实验选择了A2D数据集的句子，并使用训练拆分进行训练和测试拆分进行评估。我们模型的输入是描述要分割的内容的句子和要分割的帧周围的N个RGB帧的视频剪辑。

评估：miou

在A2D句子上的结果：我们首先评估输入帧的数量对视觉编码器和分割结果的影响。我们在n=1；4；8；16的情况下运行模型，就总体IOU而言，我们分别得到48:2%、52:2%、52:8%和53:6%。揭示了大时间背景对演员和动作视频分割的重要作用。因此，对于所有剩余的实验，我们选择n=16。

接下来，我们将1d卷积文本编码器与LSTM编码器进行比较。我们遵循与[6，15]中相同的lstm设置，我们使用lstm的最终隐藏状态作为整个句子的文本表示。隐藏状态的维度设置为1000。我们用相同的word2vec嵌入模型来表示两个模型中的单词。我们观察到简单的1d卷积文本编码器在总体IOU方面优于LSTM：编码器为53.6%，LSTM为51.8%。我们还试验了双向LSTM，它比普通LSTM稍微提高了52.1%。因此，我们选择卷积神经网络对其余实验中的文本输入进行编码。

我们进一步研究了多分辨率损失的重要性。当我们使用所有三种分辨率计算损耗（αr= 1; r 2f32; 128; 512g）时，我们比较设置时只使用最高分辨率（α32; 128 = 0;α512= 1）。就整体IoU而言，多分辨率设置执行53.6％，而单一分辨率执行49.4％。这证明了我们模型中多分辨率损失的好处。

在最后一个实验中，我们研究了两种流方法对我们任务的影响。我们对两种类型的输入进行比较 - RGB和Flow。对于两个流，我们使用16帧作为输入。 RGB流产生比Flow更好的结果：RGB为53.6％，Flow为49.5％。然后，我们通过计算每个流的响应图的加权平均值来探索RGB和流的融合。当我们将RGB的重量设置为比Flow大2倍时，它进一步将我们的结果提高到55.1％。

5.2 句子分割

在这个实验中，我们基于给定的自然语言句子对新注释的A2D句子和J-HMDB句子数据集进行分段，并将我们提出的模型与基线方法进行比较。

设置：由于目前还没有对一个句子进行视频分割的前期工作，我们选择了两种方法[6，15]，作为我们的基线，用于一个句子图像分割的相关任务。准确地说，我们比较了[6]的分割模型和[15]的语言规范模型。我们在两个训练设置中报告基线结果。在第一种情况下，基线仅在参考数据集[12]上进行培训，如原始文件所示。在第二个设置中，我们使用来自A2D句子的培训视频进一步微调基线模型。我们只在A2D句子的分裂上训练我们的模型。在测试过程中，我们按照[29]对测试视频的每个帧上的模型进行评估，每个视频的分段注释大约有一到三帧可用。两个基线模型的输入都是一个带有句子描述的RGB框架。对于我们的模型，我们使用同一句话作为输入，但不是单一的RGB帧，而是在要分割的帧周围使用16帧，因为此设置显示了我们消融研究的最佳结果。

除了整体IoU，我们还将平均IoU视为聚合。平均IoU计算为每个测试样品的IoU平均值。虽然整体IoU倾向于大型分段区域，但意味着IoU平等对待大小区域。此外，在[6,15]之后，我们还测量了五个不同重叠值的精度，范围从0.5到0.9以及平均精度超过.50：.05：.95 [16]

在表1中，我们报告了A2D句子数据集的结果。[6]和[15]的模型在refereit[12]上进行了预训练，由于此数据集包含描述对象的丰富语句，因此其执行适度，但提供的关于操作的信息较少。对A2D句子的这两个基线进行微调有助于将动作的概念纳入模型中，从而提高它们的性能。我们的模型优于使用RGB帧作为输入的所有指标的两个基线，使mAP的绝对改善率为3.5％，整体IoU为2.1％，平均IoU为6.7％。 RGB和Flow流的融合进一步改善了我们的结果。与整体IoU相比，平均IoU的较大改进表明我们的模型在分割小物体时特别好。mAP中的结果显示了我们的模型对更大重叠值的好处。我们在图4中可视化一些句子引导的分割结果。首先，我们的模型可以解决当演员不在框架中时的场景，例如：在第二个视频中。一旦人离开相机的视图，模型就会停止生成分割。我们的模型还可以处理当演员执行的动作与句子中指定的动作不同时的场景，例如在第一个视频中。该模型不输出任何帧分割的汽车不在跳跃状态。它显示了我们的模型在时空视频分割中的潜力。第二，与从演员动作标签中进行的分割不同，我们可以从第二个视频中看到，我们从句子中进行的分割能够通过更丰富的描述来区分同一个演员动作对的实例。在第三个视频中，我们的模型混淆了两条狗，但是我们很容易区分不同类型的演员。

在 J-HMDB句子中的结果：我们进一步评估了我们的模型和基线的泛化能力。我们在J-HMDB句子数据集的所有928个视频中测试模型，对A2D句子进行微调或培训，无需任何额外微调。对于每一个视频，我们按照与前一个实验相同的设置，统一抽取三帧进行评估。我们在表2中报告了我们的结果。

J-HMDB句子只关注人类行为，21个动作中有4个与A2D句子中的动作重叠，即爬楼梯、跳、走和跑。与A2D句子的结果一致，我们的方法为地图显示的重叠值提供了更精确的分割。我们将更好的泛化能力归结为两个方面。基线依赖于VGG16 [25]模型来表示图像，而我们使用的是视频特定的I3D模型。第二个方面来自我们的文本表示，它可以在A2D句子和J-HMDB句子的描述中利用相似性。

5.3 演员和行为的分割

最后，我们从一组预先定义的参与者和动作对中分割一段视频，并将其与原始A2D数据集[29]上最先进的分割模型进行比较。

设置：我们不再输入句子，而是使用数据集提供的43个有效的参与者和动作对来训练我们的模型，例如成人走路和遛狗。我们使用这些对作为模型的文本输入。视觉输入与以前保持相同。由于我们的模型明确要求给定视频的文本输入，我们从所有可能的对中选择一对子集作为对模型的查询。为此，我们在A2D数据集上微调多标签分类网络，并选择置信度得分高于0.5的对。我们使用这组简化的对作为我们模型的查询，并选择每个像素具有最高响应的类标签。分类网络包含RGB和Flow I3D模型，其中最后一层中的神经元数量被设置为43并且激活函数被用于多标签分类的S形模式替换。在训练期间，我们在随机64帧视频剪辑上微调最后一个初始块和两个模型的最后一层。我们在视频剪辑中水平地随机翻转每个帧，然后提取224×224随机裁剪。我们使用Adam优化器训练3000次迭代并将学习率固定为0.001。在培训期间，我们在随机的64帧视频剪辑上对两个模型的最后一个起始块和最后一层进行微调。我们在视频剪辑中随机水平翻转每个帧，然后提取一个224×224随机裁剪。我们使用Adam优化器训练了3000次迭代，并将学习率固定为0.001。在测试期间，我们在视频上提取32帧剪辑，并对所有剪辑、RGB和流进行平均分数，以获得给定视频的最终分数。对于这种多标签分类，我们的平均精度为70%，而[29]中的平均精度为67%。

评估：我我们从一个句子中介绍了演员和动作视频分割的新任务。我们用于像素级分割的编码器-解码器神经架构明确考虑了视频的时空特性。为了使用我们的模型实现句子引导的分割，我们扩展了两个现有的数据集，其中包含描述参与者及其在视频内容中的动作的句子级注释。实验证明了该模型的可行性和鲁棒性，以及该模型适应行为人和动作对语义分割任务的能力，优于目前的技术水平。们在[10]中报告了类平均像素精度，全局像素精度和平均IoU。像素精度是标签正确预测的像素百分比，可以是所有像素（全局），也可以是先为每个类别首先计算，然后对类别进行平均（类别平均）。

在A2D上的结果：我们将我们的方法与表3中的最新技术进行了比较。尽管我们的方法不是针对此设置而设计的，但它在联合行动者和行动分割方面优于所有竞争对手（表3的最后3列）。特别是，我们在级别平均准确度方面提高了4.9％的平均水平，在平均IoU方面提高了5.1％。除了联合演员和动作分段，我们还分别报告演员和动作分段的结果。对于演员分割，Kalogeiton等人的方法。 [10]在类平均准确度方面略胜一筹，对于所有其他指标和设置，我们的方法设定了新的最新技术水平。我们的改进尤其值得注意的是行动分割，其中我们在等级平均精度方面的表现优于现有技术的8：8％，在平均IoU方面优于7.2％。它验证了我们的方法适用于actor和action分段，无论是单独的还是组合的。

6. 总结

我们从一个句子中介绍了演员和动作视频分割的新任务。我们用于像素级分割的编码器-解码器神经架构明确考虑了视频的时空特性。为了使用我们的模型实现句子引导的分割，我们扩展了两个现有的数据集，其中包含描述参与者及其在视频内容中的动作的句子级注释。实验证明了该模型的可行性和鲁棒性，以及该模型适应行为人和动作对语义分割任务的能力，优于目前的技术水平。