论文翻译：Pose-conditioned Spatio-Temporal Attention for Human Action Recognition

我们解决了从多模态视频数据的动作识别涉及到铰接姿势和RGB帧，并提出了一种两流的方法。以保存子序列数据的三维张量作为输入，卷积模型对位姿流进行处理。特定的联合排序遵循人体的拓扑结构，确保不同的卷积层对应于有意义的抽象级别。

原始RGB流由一个时空软注意机制处理，该机制以姿态网络的特征为条件。一个LSTM网络在每个瞬间接收来自一组图像位置的输入。一个可训练的瞥见传感器从一组预定义的位置上提取特征，这些位置由位姿流指定，即参与活动的两个人的4只手。外观特征提供手部运动和每只手所持物体的重要线索。我们发现，根据活动本身，在不同的时间步长，将注意力转移到不同的手是很有趣的。最后，时间注意机制学习如何随着时间的推移融合LSTM特征。我们在3个数据集上评估了该方法。最先进的结果是在最大的数据集为人类活动识别，即NTU-RGB+D，以及在SBU Kinect交互数据集。性能接近艺术的状态是在较小的MSR日常活动3D数据集上实现的。

人类活动识别是一个应用广泛的领域，包括视频监控、人机交互、机器人技术、自动驾驶等。消费者深度摄像机目前在近距离室内应用领域占主导地位，因为它们允许估计铰接姿势我们解决了类似的设置，即活动识别问题的铰接姿势可用。作为补充信息，我们还使用RGB流，它提供关于人类活动的丰富上下文线索，例如关于所持有的或与之交互的对象与计算机视觉和机器学习中的其他问题相比，准确识别人类行为仍然是一项具有挑战性的任务。我们认为，这部分是由于缺乏大型数据集。而大规模数据集已经有一段时间可用的对象识别(ILSVRC[29])和一般视频分类(sports -1百万[16]，最近youtube8百万[1])，更多的时间显示近距离人类活动的视频的消费获取过程将这种类型的数据集限制为几百或几千个视频。因此，在这类数据集上表现最好的方法，要么是基于手工制作的特征，要么是在社区花费了数年时间调优方法后，被怀疑在小型数据集上过度拟合。最近引入的像NTURGB-D[30]这样的数据集(约为57000个视频)有望带来更好的自动学习表示。其中一个挑战是视频中的大量信息。向下采样是一个明显的选择，但是在某些位置使用完整的分辨率可能有助于提取关于小的或远的物体(或人)的重要线索。在这方面，视觉注意力的模型[26,7,33](见第2节的完整讨论)最近引起了相当大的兴趣。参数能够将他们的注意力集中在特定的重要点上，不会浪费在被认为与手头任务相关性低的输入上我们提出了一种新的人类活动识别方法，通过融合铰接姿态和原始RGB输入来解决这一问题。在我们的方法中，pose有三个互补的作用:一)它本身被用作一个输入流，为区分活动类提供重要的线索;(二)raw pose(关节)作为模型处理RGB流的输入，选择在图像中瞥见的位置;iii)姿态学习的特征作为软注意机制的输入，与RGB视频[33]上的无约束软注意相比，软注意机制根据估计的当前任务的重要程度w.r.t.对每个瞥见输出进行加权。

RGB流模型是循环的(一种LSTM)，而我们的位姿表示是使用卷积神经网络学习的，它以视频的子序列作为输入。这样做的好处是双重的:一个大时间范围内的姿势表示允许注意力模型在考虑到这个时间范围内的知识的情况下，为每一个瞥见点和每一个瞬间分配一个估计的重要性例如，pose流可能表明一个人的手移向另一个人的方向，这仍然为activity类留下了几个可能的选择。这些选择可能需要在特定的瞬间将注意力转移到这只手上，以验证手中拿的是什么东西，这本身就有助于区分活动。
我们的工作贡献如下:

我们提出了一种方法，随着时间的推移，将铰接的位姿数据编码为3D张量，可以作为递归神经网络的替代方案提供给cnn。我们提出了一种特殊的关节排序来保持身体关节之间的邻域关系。提出了一种基于完整子序列的姿态特征的RGB视频空间注意机制。

我们提出了一种时间注意机制，学习如何汇集特征输出从周期性(LSTM)网络随时间的变化而自适应。作为额外的贡献，我们实验表明知识从一个大的活动数据集，如NTU(57000活动)转移到更小的数据集，如MSR Daily Activitiy 3D(300个视频)是可能的。据我们所知，这种意象式的转移还没有在人类活动中尝试过。

动画视频可以在项目页面上找到

活动、手势和多模态数据——最近的手势/动作识别方法处理几种模式，通常将2D+T RGB和/或深度数据处理为3D。帧序列被堆叠成卷，并在第一阶段被送入卷积层[3,15,27,28,41]。当额外的位姿数据可用时，三维关节位置通常被送入一个单独的网络。据报道，预处理姿态在某些情况下可以提高性能，例如增加速度和加速度[47]的坐标。据报道，姿态归一化(骨长度和视点归一化)在某些情况下有助于[28]。姿态和原始视频模式的融合传统上是通过[27]后期融合，或通过[41]早期融合层进行。在[21]中，通过随机正则化方法学习融合策略和模型参数。

动作识别的经常性架构-
大多数最近的活动识别方法是基于某种形式的递归神经网络。在变长中短期记忆(LSTM)[12]，内部记忆细胞的门控机制学习长期和短期的依赖顺序输入数据。Part-awareLSTMs[30]将内存单元分离为基于部分的子单元，并让网络分别学习每个部分的长期表示，熔合输出部件。类似地，Du等[8]使用双向LSTM层，这符合解剖层次结构。骨骼被分割成解剖学上相关的部分(腿、胳膊、躯干等)，因此第一层的每个子网络都专门针对一个部分。特性在通过层时逐步合并。多维LSTMs[11]是从不同维度多次重复出现的模型。最初用于图像识别，现在已经应用于姿态序列[23]的活动识别。一个维度是时间，第二个维度是在双向深度优先搜索中对节点的拓扑遍历，它保留了图中的邻域关系。

我们对姿态具有类似的关节遍历。然而，我们的位姿网络是卷积的而不是循环的(而我们的RGB网络是循环的)。注意机制——人类的知觉有选择地集中在场景的一部分上，在特定的地点和时间获取信息。在机器学习中，这种过程被称为注意机制，并且在处理语言、图像和其他数据时越来越引起人们的兴趣。整合注意力可以潜在地提高整体精确度，因为系统可以集中在与任务最相关的部分数据上。在计算机视觉中，视觉注意机制可以追溯到Itti等人对物体检测[14]的工作。早期的模型与显著性映射高度相关，即对局部突出的图像部分进行像素加权，不涉及学习。Larochelle和Hinton[20]开创了将注意力融入学习架构的先河，通过将限制性玻尔兹曼机器与中心凹表征相耦合。

最近，注意力机制逐渐被分为两类。在选择部分输入数据时，注意力集中需要做出艰难的决定。这就导致了随机算法的出现，而这种算法很难通过梯度下降和反向传播来学习。在一篇重要论文中，Mnih等人[26]提出了围绕递归网络构建图像分类的视觉硬关注，它实现了虚拟代理的策略。从而解决了在[40]学习过程中的一个强化学习问题。模型根据过去的信息选择下一个要关注的位置。Ba等[2]对该方法进行了改进，解决了多目标识别问题。在[19]中，硬注意力模型生成显著性图。Yeung等[44]使用hard-attention进行动作检测，通过一个模型来决定下一步观察哪个帧以及何时发出动作预测。

另一方面，“软关注”则将整个输入考虑在内，动态地对每一部分观测值进行加权。目标函数通常是可微的，使基于梯度的优化成为可能。软注意被用于各种应用，如神经机器翻译[5,17]或图像字幕[42]。最近，软注意被提出用于图像[7]和视频理[33,34,43]，具有空间、时间和时空的变化。Sharma等人[33]提出了一种从RGB数据进行动作识别的循环机制，该机制集成了时空体不同部分的卷积特征。Yeung等人报告了一种用于视频[43]密集标记的短暂反复注意模型。在每一个时间步长，对多个输入帧进行集成，并对多个帧进行软预测。巴扎尼等[6]学习由的混合物表示的空间显著性映射它的参数包含在一个LSTM网络的内部状态。然后使用显著性映射顺利选择与人体运动相关的区域。Song等人[34]提出了分离的空间和时间注意网络来从姿态识别动作。在每一帧中，空间注意模型将重点放在与当前动作最相关的关节上，而时间模型选择帧，据我们所知，目前还没有同时利用关节姿态和RGB数据的注意力模型。我们的方法与hard attention有一些相似之处，因为hard choice是在每一帧的位置上进行的。然而，这些选择不是后天习得的，它们依赖于姿态。另一方面，我们学习了一个软注意机制，动态加权特征从几个位置。该机制是有条件的姿态，这允许它转向它的焦点取决于运动。

单个或多人活动由两种模式序列描述:一组RGB输入图像I={It}和一组铰接的人体姿势x={xt}。我们在方法中不使用原始深度数据，尽管扩展很简单。两种信号都由时间t进行索引。姿势xt由关节的3D坐标定义，例如由深度摄像机的中间件提供。每个输入序列的庞大数据量使得直接在序列{I0上训练经典(卷积或循环)模型变得非常困难。，它，x0，…我们提出了一个双流模型，该模型通过从铰接的人体姿态和RGB帧中提取特征来对活动序列进行分类。

卷积的构成特征
在每个时间步长t，物体用其K个体关节的三维坐标表示。在我们的例子中，我们将应用程序限制为涉及一到两个人及其交互的活动。其目的是提取特征，以模型i)位姿(s)的时间行为和ii)不同关节之间的相关性。与[34]类似，对姿势的注意机制也是一种选择。我们认为可用的位姿信息足够紧凑，可以学习a全局表示，并证明这是有效的。然而，我们也认为需要找到一个层次表示，尊重数据的时空关系。在姿态数据的特殊情况下，人体的关节也具有很强的邻域关系。在[23]线中，我们将人体关节的拓扑排序定义为关节上的连通循环路径(见图2a)。路径本身不是哈密顿函数因为每个节点都可以被访问多次:一次是在向前通过一个肢体时，一次是在向后通过这个肢体回到它所连接的关节时。路径中的双条目很重要，因为它们确保路径保持邻域关系。

图2:(a)关节的拓扑排序(类似于[23]):蓝色箭头表示第一次访问关节，橙色箭头表示返回到“中间脊柱”。(b)在输入到姿态学习者的矩阵中再现顺序)

在[23]中，类似的路径用于定义多维LSTM网络中的顺序。相反，我们提出了一种卷积模型，它通过在一段时间内连接姿态向量来计算三维输入(张量)。特别地，输入张量X被定义为X={Xt,j,k}，其中t为时间指标，j为关节坐标指标，k为特征指标(见图2b):每条线对应一个时间瞬间;前三列对应于第一个关节的x, y, z坐标然后是第二个关节的x y z坐标，它是第一个关节的邻居，等等。第一个通道对应于原始坐标，第二个通道对应于坐标的一阶导数(速度)，第三个通道对应于第二阶导数(加速度)。两个人的姿态沿着第二维被堆叠成一个张量。这种张量组织的选择将在下面进一步证明。

我们学习了一个位姿网络fsk，它的参数在这个输入上是由：

在这里和在本文的其余部分，映射的下标和它们的参数将选择一个特定的映射，它们不是索引。变量和张量的下标是指标。
fsk是一种卷积神经网络，卷积和最大池交替使用。结合输入张量列的拓扑顺序，这就形成了特征图的特定层次表示。卷积的第一层主要是从坐标之间的相关性中提取特征。

相同关节(或相邻关节)的。随后的卷积将提取邻近关节之间的特征，网络中更高的层次对应于提取人体中更远的特征，就图中路径长度而言。最后一层对应于两个不同姿态之间提取的特征，对应于两个不同的人。

这种表示的一种设计选择是将相同关节的不同坐标(x, y, z)叠加到张量的后续列中，而不是将它们分布在不同的通道上。这确保了，第一层在不同的坐标上计算特征。实验已经证实了这种选择的兴趣。输入张量X中的双分量人为地增大了它的大小，因为一些关节被多次表示。但是，早期卷积层提取关节对上的特征来补偿这一代价，输入张量X中的双分量人为地增大了它的大小，因为一些关节被多次表示。然而，早期卷积层提取图(在人体中)中相邻的关节对上的特征，从而补偿了这种代价。

RGB视频的空间注意
RGB输入图像序列{It}可能不够紧凑，无法用前馈神经网络轻松提取高效的全局表示。我们选择一个循环的解决方案，其中，在每一个时刻，对所看到的输入的一瞥被选择使用注意机制。在某些方面与[26]相似，我们定义了带有限传感器的可训练带。但是，与[26]相反，我们的注意过程是条件输入xt的，因此被限制在N个离散注意点的集合中。在我们的实验中，我们选择了N=4个注意点，分别为：

图3:空间注意机制

参与互动的两个人的4个手关节。目标是提取关于手的形状和操纵对象的额外信息。大量的活动，如阅读、写作、吃、喝，在运动上是相似的，但可能与操纵的物体高度相关。由于网络不输出视线位置，这就产生了一个可微的软注意机制，该机制可以通过梯度下降来训练。

给定注意点i的瞥见表示为参数为机转g的卷积网络fg，以其在集合xt中关节i位置的图像裁剪作为输入:

其中，vt，:，i是时间t和手i的(列)特征向量，对于给定的时间t，我们将这些向量叠加到一个矩阵中V t={vt,j,i}，其中i是手关节的指标，j是特征的指标。V t是一个矩阵(一个二维张量)，因为t在给定时刻是固定的。循环模型按顺序接收来自瞥见传感器的输入，并用组件隐藏状态ht对所见序列的信息进行建模:

我们选择了一个包括输入、遗忘和输出门和单元状态的全门控LSTM模型。为了使符号简单，我们从方程中省略了门和单元状态。LSTM网络的输入上下文向量v˜t,下面进一步定义,对应于一个集成不同的注意事项(手)v t。一个明显的集成选择是简单的函数，比如和和连接。前者倾向于将强特征激活与平均或低激活集中在一起，从而挤压特征动力学;后者导致模型具有低泛化的高容量。软注意机制是动态的：

图4:RGB数据的完整循环模型(门和内存单元没有显示)。姿态s输入到注意机制。图3详细说明了空间机制。

通过分布pt衡量集成过程，用计算出的重量pt,i来确定我需要多少注意力。与RGB视频[33]的无约束软注意机制相比，我们的注意分布不仅依赖于LSTM状态ht，还依赖于从子序列中提取的位姿特征s，通过一个带有参数的学习映射:

注意分布pt和特征V t通过线性组合整合为：

在t时刻输入到LSTM网络(见eq.(3))。在4中对姿态特征的制约是重要的，因为它提供了有价值的背景推导运动。注意，递归模型本身(eq.(3))不是条件[25]，这将显著增加参数的数量。

图5:随着时间的推移，空间注意力:把一个物体放进某人的口袋里，注意力会转移到这只手上。

时间的关注
递归模型可以为每个时间步长t提供预测。目前序列分类的大部分工作都是通过这些预测的时间池进行的，例如通过总和或平均[33]。我们表明，以一种自适应的方式执行这个池是很重要的。在最近的密集活性标记工作中，对LSTM logits动态池的时间注意已经提出了[43]。相比之下，我们直接在特征向量级别上执行时间池。特别地，在每个瞬间t，给定当前隐藏状态，通过学习映射计算特征:

将子序列所有瞬间t的特征堆叠成一个矩阵U={uj,t}，其中j为特征维数上的索引。时间注意分布p0是通过学习映射预测的。为了提高效率，这种映射在给出一个瞬间t的预测之前应该已经看到了完整的子序列，因为在序列的开始给特征赋予较低的权值可能是由于需要在最后给特征赋予较高的权值造成的在序列到序列比对的上下文中，这已经通过双向循环网络[4]来解决。为了使模型保持简单，我们受益于(子)序列是固定长度的，并且空间注意信息已经可用。我们推测(结合姿态)时间t上的空间注意分布pt是时间注意的良好指标，并将它们叠加成单个向量P，输入到预测时间注意的网络中:

这种关注是用作自适应权重颞U池的功能,即U˜= Up0

流融合
pose和RGB每一个流都有自己的一组特征，而pose特征的特殊性是输入到RGB流的注意机制中。每个表示都使用自己的一组参数进行分类。我们在logit级别上融合这两个流。更复杂的技术，如学习融合[28]，似乎没有必要。

网络架构与培训
架构——位姿网络fsk由3个卷积层组成，每个卷积层的大小分别为8 * 3,8 * 3,5 * 75。输入大小为20×300×3,feature map分别为10×150、5×75和1×1×1024。在每个卷积层之后使用最大池，重新激活。瞥见senor fg被实现为初始V3网络[35]。每个向量vt，:，i对应于输出前的最后一层，大小为2048。LSTM网络跳频有一个1024单元的单一递归层。空间注意网络fp是一个具有单一隐藏的MLP256个单位和乙状结肠激活。时间注意网络f0 p是一个具有单一隐藏层512个单位和sigmoid激活的MLP。特征提取器fu是一个具有ReLU激活的单层线性层。这两个流表示的输出层都是线性层，然后是softmax激活。完整的模型(没有瞥见传感器fg)有3800万可训练参数。

训练-所有分类输出是softmax激活和训练交叉熵损失。在ILSVRC 2012数据[29]上训练了瞥见传感器fg。姿势学习者被区别地训练与额外的线性+softmax层预测动作类。利用位姿参数和瞥见参数对RGB流模型进行训练。端到端训练模型并没有产生更好的性能。

图6:随着时间的推移，空间和时间的注意力:给别人一些东西会使注意力转移到动作中主动的手。

实验
该方法已在三个数据集上进行了评估:NTU RGB+D, MSR日活动3D, SBU Kinect交互。我们在NTU上进行了广泛的测试，并在较小的数据集SBU和MSR上进行了两个迁移实验：

MSR Daily Activity3D Dataset (MSR)[38] -由于类内的高度变化，该数据集是最具挑战性的基准测试之一。它由一个Kinect v1传感器拍摄的320个视频组成。16个日常活动由10个受试者从一个单一的视角进行两次。在[38]之后，我们使用来自主题1、3、5、7和9的视频进行训练，剩下的视频用于测试。

SBU Kinect交互数据集(SBU)[45] -这个交互数据集包括两个受试者，共282个序列(6822帧)和8个交互活动类，使用Kinect v1传感器拍摄。我们遵循标准的实验方案[45]，包括5倍交叉验证。MSR和SBU数据集对于执行表示学习的方法是极具挑战性的，因为只有很少的视频可供训练(分别为160和225)。

实现细节——遵循[30]，我们将视频分割成20帧的子序列和样本子序列。在训练过程中采样一个子序列，在测试过程中取10个子序列和对数的平均值。我们对关节coor进行归一化处理.

SBU Kinect交互数据集(SBU)[45] -这个交互数据集包括两个受试者，共282个序列(6822帧)和8个交互活动类，使用Kinect v1传感器拍摄。我们遵循标准的实验方案[45]，包括5倍交叉验证。
MSR和SBU数据集对于执行表示学习的方法是极具挑战性的，因为只有很少的视频可供训练(分别为160和225)。实现细节——遵循[30]，我们将视频分割成20帧的子序列和样本子序列。在训练期间

通过将它们平移到以“脊柱的中部”关节为原点的以身体为中心的坐标系中来校准(图2中的灰色关节)。如果一个框架中只有一个主体，我们将第二个主体的坐标设为零。我们裁剪手部关节位置上静态大小的子图像(NTU为50×50,MSR和SBU为100×100)。剪裁后的图像将被调整为299×299大小，并输入到Inception模型中。培训是使用Adam Optimizer[18]完成的，初始学习率为0.0001。我们使用大小为64和dropout概率为0.5的小批量。培训是使用Adam Optimizer[18]完成的，初始学习率为0.0001。我们使用大小为64和dropout概率为0.5的小批量。后[30]，我们抽取初始训练集的5%作为验证：

用于超参数优化和早停。所有的超参数都在各自数据集的验证集上进行了优化。将知识从南洋理工大学传递给MSR和利用NTU上预训练的模型对目标网络进行初始化。骨架定义是不同的，并且是适应的。所有层都在较小的数据集上进行微调，初始学习速率比学习速率小10倍。

培训前的薪资。
与最先进的方法的比较——我们分别在表1、表2和表3中展示了我们的模型与最先进方法的比较。我们实现了在NTU数据集上的最先进的性能与姿态流单独或与完整的模型融合两个流。在SBU数据集上，我们获得了完整模型的最新性能，在MSR数据集上，我们接近。如上所述，在NTU和MSR数据集上报告的性能包括从知识转移南大的数据集。MSR的测试结果表明，训练难度较大。

我们进行了广泛的消融研究来了解我们设计选择的影响。
联合排序——输入张量的联合排序X对性能有影响，如表4所示。按照3.1节中描述的拓扑顺序，得到的结果>对NTU数据集w.r.t.随机联合顺序的1个百分点，这证实了一个有意义的层次表示的兴趣。正如预期的那样，在张量中保留冗余的双关节项提供了一个优势，尽管它增加了可训练参数的数量。

注意机制的作用-注意机制对RGB数据的性能有显著影响，如表6所示。我们将其与基线求和(B)或连接(C)特征进行比较。
在这些情况下，超参数优化了这些元架构。在单流RGB模型(met)的情况下，性能边际特别高在多模态(两流)模型中，注意优势仍然很高，但没有单独RGB那么高。获得的一部分关注过程的似乎是互补构成流中的信息,也不能排除在一个流设置(小)构成的一部分信息是通过一种创新转化为直接线索歧视(但诚然不是原计划)使用注意机制。然而，这一增长仍然非常显著，与基线相比约为2.5个百分点。

图5展示了空间注意过程效应的一个例子:在将一个物体放入某人口袋的活动中，注意力转移到实际放置物体的地方的“放置”手

姿势条件注意机制——使空间注意模型对姿态特征有条件，被确认为一个关键的设计选择，如表所示5. 在多模式设置，一个完整的点是获得，>12点在RGB唯一的情况。

运行时——对于20帧的子序列，我们得到了一个titanium - x (Maxwell) GPU和一个i7-5930 CPU的运行时:来自features takes的完整预测1.4ms包括姿态特征提取。这还不包括RGB预处理，后者需要额外的1秒(加载全高清视频，剪切子窗口，提取盗梦特征)因此，分类可以接近实时地进行。在titanium - x GPU上，完全训练一个模型(无开端)需要约4h。超参数已经在一个拥有12个titanium - x gpu的计算集群上进行了优化。提出的模型被称为imp。

结论
本文提出了一种处理位姿的通用方法RGB视频数据，用于人类动作识别。姿态数据卷积网络处理特定组织的输入张量。手部关节上的软注意机制使模型能够收集手部形状和被操纵物体的相关特征。自适应时间池进一步提高了性能。我们的方法在几个基准测试中显示了最先进的结果，据我们所知，是第一个在pose和RGB上执行注意力的方法，也是hu中执行知识转移的第一个方法

论文翻译：Pose-conditioned Spatio-Temporal Attention for Human Action Recognition

猜你喜欢