摘要

现有的动作识别研究将活动视为视频中发生的单一事件。最近，随着包含此类注释的数据集的出现，将动作组合为原子动作的好处已经在改进动作理解方面显示出了希望，允许我们学习捕获此信息的表示。然而，目前还缺乏扩展动作组成和利用多视角和多模式数据进行表示学习的研究。为了促进这一方向的研究，我们介绍了Home Action Genome (HOMAGE):一个具有多种模式和视角的多视图动作数据集，辅以分层活动和原子动作标签以及密集的场景组成标签。

相关工作

视频中的动作识别

动作识别一直是计算机视觉研究的一个重要方向。二维卷积在图像分类中的成功使得帧级动作识别成为一种可行的方法。随后，用于动作识别的双流网络导致了许多具有竞争性的方法，这表明使用光流等多种模式有助于大大提高性能。他们的工作激发了其他方法，将时间运动特征与视频中的空间图像特征结合起来建模。有研究证明用3D卷积代替2D卷积可以进一步提高性能。最近的方法如I3D通过将2D卷积网络膨胀为3D，以受益于预训练模型的使用。3D- resne增加了残余连接，构建了一个非常深的3D网络，从而提高了性能。

多模态学习

视频的多种模态是监督和自我监督学习的丰富信息来源。引入对比学习框架，以自我监督的方式最大化模态之间的相互信息。该方法在无监督学习基准上获得了最先进的结果，同时具有模态不可知性，并可扩展到任何数量的模态。用于动作识别的两种流网络已经导致了许多具有竞争性的方法，这些方法表明，即使使用可衍生的模式，如光流，也有助于大大提高性能。有一些方法利用不同的模态，有时可以从其他模态推导出来，以学习更好的表示。

Home Action Genome (HOMAGE)

一种新的动作识别基准，包括来自多个视点(自我视角、第三人称)的多模态同步视频数据，包括高级活动和低级动作定义。由于所涉及的挑战，例如动作的复杂性和长时间，物体的相互作用，以及频繁的遮挡，HOMAGE专注于住宅环境中的动作。HOMAGE提供了多个视图和传感器来应对这些挑战。

本文是目的是建立一个活动识别数据集，描述在生活空间中观察到的行为。为了涵盖日常活动，作者采用了ATUS中的活动分类法。ATUS分类法根据两个关键维度组织活动:1)社交互动和2)活动的位置。ATUS编码词典包含18个顶级类别下的大量日常人类活动，如个人护理、工作相关、教育和家庭活动。

如上图为该数据集的部分截图，每个序列都有一个自我视角视频，以及至少一个或多个同步的第三人称视角。

数据的收集

通过在两个不同的房子的厨房、浴室、卧室、客厅和洗衣房记录了27名参与者。使用了12种传感器类型:相机(RGB)、红外(IR)、麦克风、RGB光、光、加速度、陀螺、人的存在、磁铁、气压、湿度、温度。我们将从具有不同模式的给定活动中收集的数据集称为一个同步的动作序列。传感器被连接到房间的几个位置，用于第三人称视角，并连接到参与者的头部，用于自我视角。平均而言，每个动作序列有超过3个视图。我们同步了所有视图的传感器记录，使我们的同步视频便于使用，而不需要任何额外的后期处理。

上图为相关数据集与HOMAGE的比较。可以看出HOMAGE提供了丰富的多模态操作数据，包括密集的注释(如场景图)以及分层操作标签。

对于每个动作，我们在整个动作中统一采样3或5帧，并注释执行动作的人和与之交互的对象的边界框。我们还注释了主题和对象之间的成对关系。

实验

按照前面讨论的允许使用单独模式进行推断的设计本文为每种模式使用单独的编码器。

图像：在所有的实验中，作者将自我视角视为一种模式，而所有第三人称视角视频则是另一种模式。每个输入帧的大小调整为128x12，使用一个3D-ResNet作为编码器f(·)。之后，将最后两个残差块中的卷积核展开为3D的卷积核，实验使用3DResNet18，记为ResNet18。

接着研究了合作多模态学习对行为理解的有效性。研究了合作学习的影响，并将其与知识蒸馏方法进行了比较。

合作的影响：合作训练方法依赖于多模态信息有助于提高整体表示质量的假设。为了验证假设，文章将CCAU的性能与其他一些可比方法进行了比较。

(1)单一模式训练(SM) -模式独立训练

(2)合作训练(CT) -所有模式和个体推理的联合训练。

与知识蒸馏的比较：考虑到学生-教师方法在这种情况下的潜在适用性，文中还研究了与他们方法相比的表现。研究了两种变体。

(1)静态知识蒸馏(SKD) -我们将其他训练过的模式中的知识转移到自我视图编码器中。

(2)合作知识蒸馏(CKD)——为了分离合作对提高绩效的影响，我们还提出了一种合作版本的知识蒸馏，它允许所有模式同时提高(详见附录)。下表总结了展示这些方法之间性能差异的结果。

多模态训练

本文通过研究多种训练方式的影响来研究模式对表现的影响。

考虑到以下三点

1)分别训练每种模式;

2)多摄像头视图联合训练，即Ego和第三人称RGB视频剪辑。

3)多摄像头视图联合训练以Ego为中心的音频剪辑。

上表为对不同模式的编码器进行活动分类的联合训练。随着我们与越来越多的模式进行联合训练，我们看到了不同模式之间的显著性能提升，这可能是由于丰富的互补信息的存在。

实验结果

CCAU背后的激励因素之一是将不同编码器联合训练在一起以获得通过不同模式提供的更高阶视角的好处。我们观察到，在没有额外监督的情况下，跨模态的学习结构会导致高阶语义的出现，例如，合理的类关系和良好的特征表示。与模态的联合训练可以产生更好的表现和副产品，如感兴趣的视觉区域的本地化。

t-SNE可视化。我们探索了我们学习表征的t-SNE可视化。为了清晰起见，只显示了几个操作类。我们根据它们的关系松散地对动作类进行排序;具有相似颜色的类在语义上是相似的。下图总结了我们的结果。

颜色映射表示动作类之间的关系，例如，红色:衣服;绿色:梳理;蓝色:厨房。CCAU能够利用成分信息学习有意义的聚类。

结论

我们引入了Home Action Genome (HOMAGE)，这是一种具有多种模式和视点的人类动作识别基准，具有分层活动和原子动作标签。我们还提出了CCAU，这是一种合作和组合学习方法，可以在HOMAGE中利用跨多种模式的信息以及动作组合，以更好地学习表示。由于合作学习的本质，CCAU允许推理个人模式没有特权信息和还有其他的模式。我们证明了效益学习原子动作的组合导致信号显著提高了在少数镜头学习设置的结果。

凭借丰富的多模态数据和成分注释，HOMAGE促进了多模态动作识别和定位、可解释动作理解以及时空场景图推理等子领域的研究。我们希望HOMAGE能够促进在多模态合作学习和动作理解方面的研究，使用组合来丰富人类动作识别中的特征表示，并提高对可推广视频理解的兴趣。

Home Action Genome: Cooperative Compositional Action Understanding

摘要