论文翻译：Skeleton-Based Action Recognition with Multi-Stream Adaptive Graph Convolutional Networks

摘要：

抽象图卷积网络(GCNs)将神经网络推广到更一般的非欧几里得结构，在基于骨架的动作识别方面取得了显著的性能。但是，以往基于gc的模型仍然存在一些问题。首先，图形的拓扑被启发式地设置并固定在所有模型层和输入数据上。这可能不适用于GCN模型的层次结构和动作识别任务中的数据多样性。第二，骨架数据的二阶信息，即。骨骼的长度和方向，这对人类行为识别来说，自然是更具信息性和鉴别性的。在这项工作中，我们提出了一种新的多流注意力增强自适应图卷积神经网络(MS-AAGCN)用于基于骨架的动作识别。我们的模型中的图形拓扑可以基于输入数据以端到端方式统一学习或单独学习。这种数据驱动的方法增加了模型构造图的灵活性，并为适应不同的数据样本带来了更多的通用性。此外，本文提出的自适应卷积层进一步增强了时空通道注意模块，使模型更加关注重要的节点、帧和特征。此外，将关节和骨骼的信息以及关节和骨骼的运动信息同时建模在多流框架下，对识别精度有了明显的提高。在NTU-RGBD和kinetics -骨架这两个大型数据集上进行的广泛实验表明，我们的模型的性能超过了使用signi的最先进水平。

动作识别在视频监控、人机交互等应用中发挥了重要作用，得到了广泛的研究。近年来，与传统的RGB视频识别方法相比，基于骨架的动作识别因其对动态环境和复杂背景的适应性强而受到越来越多的关注，早期基于深度学习的骨骼动作识别方法将骨骼数据手工构造为一系列关节坐标向量或者作为一个伪形象将其输入到RNNs或CNNs中生成预测。然而，将骨架数据表示为矢量序列或二维网格并不能完全表达相关节点之间的依赖关系。在非欧几里得空间中，该骨架是自然构造的关节作为顶点，它们在人体中的自然连接作为边缘。以前的方法不能利用骨架数据的图结构，也难以推广到任意形式的骨架。近年来，图卷积网络(GCNs)成功地应用于许多应用中，它将卷积从图像推广到图形对于基于骨架的动作识别任务，Yan等[20]首先使用GCNs对骨架数据建模。它们基于人体关节的自然连接构造空间图，并在连续帧中添加相应关节之间的时间边。提出了一种基于距离的采样函数构造图卷积层，并将其作为基本块构建最终的时空图卷积网络(ST-GCN)。

然而，ST-GCN[20]的图构造过程存在三个缺点:(1)ST-GCN使用的骨架图是根据人体的自然连通性启发式地预定义的。因此，它不能保证是最优的动作识别任务。例如，两只手之间的关系对于识别像“拍手”和“阅读”这样的类是很重要的。但是，ST-GCN很难捕获两只手之间的依赖关系，因为它们在预定义的基于人体的图中相距很远。神经网络是分层的，不同的层次包含不同层次的语义。然而，ST-GCN中应用的图的拓扑结构是固定在所有层上的，这缺乏对不同层中包含的多层语义建模的灵活性和能力。(3)对于不同动作类的所有样本，单一固定的图结构不一定是最优的。在“擦脸”和“摸头”这类课程中，手和头的联系应该更紧密一些，但在其他一些类中则不是这样，如“跳起来”和“坐下”。这一事实表明，图结构应该是依赖于数据的，但是ST-GCN不支持这一点。为了解决上述问题，本文提出了一种新的自适应图卷积层。它参数化了两种自适应图的图形卷积。一个是全局图，它是通过学习基于数据集中提取的知识的图的邻接矩阵得到的。学习过程中使用了任务型丢失。因此，所得到的图拓扑比以往的基于人体的图更适合于动作识别任务。另一个被称为单个图，其边被建立根据图顶点之间的特征相似度。由于数据样本是不同的，因此模块可以为每个输入捕获唯一的结构。两种图的融合使用了门控机制，可以自适应地调整它们在每个模型层中的重要性。请注意，这两个图是在不同的层中单独优化的，因此它可以更好地适应神经网络的层次结构。总之，这种数据驱动的方法增加了模型构造图的灵活性，带来了更多的通用性，以适应各种数据此外，由于注意机制在许多任务中已经证明了其有效性和必要性，研究基于骨架的动作识别是必要的。从空间的角度来看，某种动作通常与关节的一个关键子集有关，并以其为特征。从时间的角度来看，动作流可以包含多个阶段，其中不同的子阶段或帧对最终识别有不同的重要程度从特征的角度来看，卷积特征图的多个通道包含多个语义层次。每个通道对于不同的动作和数据样本扮演不同的角色。这些观察启发我们设计一个时空通道(STC)注意模块，自适应地重新校准关节、帧和通道的激活对不同的数据样本。该模块插入每个图形卷积层，具有少量的参数，但鼓励性能改进在以前的方法中另一个值得注意的问题是，附加到每个顶点的特征向量只包含关节的2D或3D坐标。我们称之为骨架数据的一阶信息。但是，代表两个关节之间的骨骼特征的二级信息没有被利用。通常情况下，骨骼的长度和方向对于动作识别来说，具有更丰富的信息和更强的辨别能力。在这项工作中，我们制定了骨骼信息作为一个矢量指向从源关节到目标关节。此外,由于光学流场已经演示了一个在时间流中usefulmodality RGB-based动作识别[2],[5],对于骨骼数据,我们建议提取坐标差异两个连续帧之间的关节和骨骼的运动信息来帮助行为的演化建模。最后，关节信息和骨骼信息以及它们的运动信息被集成在一个多流框架中。所有的流使用相同的体系结构和这四个流的sof tmax分数。

为了验证所提出的多流注意力增强自适应图卷积网络(MS-AAGCN)的优越性，我们在NTU-RGBD[9]和KineticsSkeleton[34]两个大数据集上进行了大量实验。我们的模型在基于骨架的动作识别的两个数据集上实现了最先进的性能。我们也将学习到的自适应图形和模型的注意图可视化，并分析四种模式的互补。此外，由于RGB数据包含比骨架更丰富的外观信息，我们提供了一个并提出了骨架导向的裁剪策略来融合两种模式。融合模型在NTU-RGBD数据集的CV和CS基准上分别获得了99%和96%的精度，显著超过了其他方法。

总的来说，我们的工作主要贡献在四个方面:(1)提出了一种自适应的图卷积网络，以端到端方式自适应地学习图的拓扑，能够更好地适应动作识别任务、GCNs的层次结构和多样化的骨架样本。(2)提出了STC-attention模块，并将其嵌入到图的各个卷积层中，帮助模型学习选择性地聚焦于区分关节。帧和通道。(3)本文首先对骨骼数据的二阶信息(bones)进行表述，并将其与一阶信息(joint)相结合，显著提高了识别性能。我们进一步提取关节和骨骼的运动信息，并将这四种模式整合到一个多流框架中。(4)在两个大数据集上验证了MS-AAGCN对基于骨架的动作识别的有效性。与基线法相比，即STGCN，它获得了+7.9%和显著的改进
在NTU-RGBD数据集的CV和CS基准上分别增加8.5%。通过与骨架裁剪RGB数据的结合，得到了进一步的改进+ 2.8%和+ 6.1%。这个代码是为了将来的工作和方便交流而发布的本文在许多方面是我们以前工作[35]的扩展版本。首先，我们优化了全局图和单个图的组合方案，并引入门控机制自适应调整两个图的重要性。其次，我们提出了一个STC-attention模块，该模块可以有效地帮助模型关注重要的节点、框架和特征。第三，我们将先前的模型扩展到一个多流框架，整合了关节和骨骼的运动模式我们提供了更广泛的实验，更全面的讨论和可视化来证明所提出的模块和数据模式的有效性和必要性。基于这些设计的模型在基于骨架识别的NTU-RGBD数据集的跨视图和跨主题基准上分别提高了+1.1%和+1.5%。最后，我们提出了一种有效的姿态引导裁剪策略，以融合骨架与RGB模式，表现出良好的效果。

本文的其余部分组织如下。第二节介绍了相关工作。第三节制定基于骨架的动作识别的基本GCNs。我们提议的MS-AAGCN的组成部分在第三节中作了详细介绍。消融研究和与最先进的方法的比较显示在第五节。第六节研究与RGB模式的骨骼数据的融合。第七节提供了一些定量结果和讨论。第七- d节对本文进行了总结。

Skeleton-based行动识别：

基于骨架的动作识别近年来得到了广泛的研究。在这里，我们只回顾与我们的方法相关的工作。传统的基于骨架的动作识别方法通常采用手工特征设计来对人体[6]、[7]进行建模。例如，Vemulapalli等人[6]在李群中对骨架进行旋转和平移编码。Fernando et al.[7]使用秩池方法用秩的参数表示数据。随着深度学习的发展，数据驱动方法已经成为主流方法，其中使用最广泛的模型是RNNs和CNNs。基于rnnn的方法通常将骨架数据建模为沿时空维度的坐标向量序列，其中每个向量代表人体关节。Du等[8]采用分层双向RNN模型来识别骨骼序列，将人体分割成不同的部分，发送到不同的子网络Song等人[11]在基于lstm的模型中嵌入了一个时空注意模块，使网络能够自动关注骨骼序列的判别时空区域。Zhang等[12]在基于lstm的模型中引入了视图转换机制，自动将骨架数据转换为更有利于动作识别的角度。Si等人[36]提出了一个具有空间推理(SRN)和时间堆栈学习(TSL)的模型，在哪里SRN可以捕获不同身体部位之间的结构信息，TSL可以建模详细的时间动态。

基于cnn的方法基于人工设计的转换规则将骨架数据建模为伪图像。基于网络神经网络的方法比基于网络神经网络的方法更受欢迎，这是因为网络神经网络具有更好的并行性和更容易训练。Kim等人[15]使用一维残留识别骨骼序列，其中关节的坐标是直接连接的。Liu等[17]提议对10种时空图像进行骨骼编码，并采用视觉和运动增强方法对这些图像进行增强。Li等人使用多尺度残差网络和各种数据增强策略进行基于骨架的动作识别。Cao等[37]设计了一个置换网络来学习关节重排的优化顺序。

然而，RNNs和CNNs都不能完全表示骨架数据的结构，因为骨架数据是自然嵌入到图形中，而不是向量序列或二维网格。最近，Yan等[20]提出了一种时空图卷积网络(ST-GCN)，将骨架数据直接建模为图结构。该算法不需要手工设计转换规则将骨架数据转换为矢量序列或伪图像，从而获得更好的性能。在此基础上，Tang等[21]进一步提出了一种基于强化学习的关键帧选择策略。

图卷积神经网络：

传统cnn的输入通常是低维规则网格，如图像、视频和音频。然而，使用CNN对图形数据建模并不简单，图形数据总是具有任意大小和形状。图在野外更常见和普遍，如社会网络，分子和解析树。如何操作图已经被广泛地探索了十年，现在最流行的解决方案是使用图卷积网络(GCNs)。GCNs与传统的CNNs相似，但它能将图像的卷积推广到任意图形。构造GCNs的原理主要有两种:空间透视和光谱透视。空间透视方法直接对图形顶点及其相邻点进行卷积。该方法的关键在于如何从缺少顶点和边的隐式顺序的图中构造局部连通邻域。这些方法总是根据手工设计的规则提取邻居，Niepert等人[25]根据图中顶点的距离对每个顶点的邻域进行采样。提出了一种裁剪多余顶点和填充虚拟顶点的归一化算法。王,古普塔。[42]将视频表示为包含人物和被检测物体的图形，用于动作识别。根据特征相似度和时空关系定义各顶点的邻域。

与空间透视方法不同，光谱透视方法使用图拉普拉斯矩阵的特征值和特征向量。这些方法利用图的傅里叶变换[38]在频域进行图的卷积，不需要在每个卷积步骤[39]，[40]，[23]，[41]中提取图的局部连通区域。Defferrard等[41]提出使用循环切比雪夫多项式作为滤波方案，比以往的多项式滤波器更有效。Kipf和Welling[23]进一步简化了这种方法。

图卷积网络：

在这一节中，我们将介绍一个基本的基于骨架的动作识别图卷积网络及其实现。

图施工：

一帧的原始骨架数据总是由一系列向量表示。每个向量表示二维的or
相应的人体关节的三维坐标。对于不同的样本，一个完整的动作包含多个长度不同的帧。我们使用一个时空图来模拟这些关节在空间和时间维度上的结构信息。这里，空间维度指的是同一坐标系中的关节，时间维度指的是所有坐标系中的相同关节。图1中左边的子图给出了一个构造的例子。时空骨架图，其中关节以顶点表示，其在人体中的自然连接以空间边缘表示(图1中橙色线，左)。对于时间维度，将连续两帧中对应的节点用时间边缘连接，如图1中左侧的绿线所示)。将每个关节的坐标向量设置为对应顶点的属性。由于图是内在的，是建立在人体的自然连通性上的，我们称之为基于人体的图。

图1所示。左:时空图的插图。右:映射策略的说明。不同的颜色表示不同的子集。

图卷积
由上定义的图，对于空间维数，图顶点vi上的卷积运算公式为:

其中f为特征映射，v为图的顶点。Bi为vi卷积的采样面积，定义为1-距离的相邻顶点w是类似于传统卷积运算的权值函数，它根据给定的输入提供一个权值向量。注意，卷积的权向量的数量是固定的，而Bi中的顶点的数量是可变的。所以需要一个映射函数li来映射所有相邻的顶点到一个固定数目的子集，每个子集都与w相关在哪里x表示骨架重心。Bi为曲线所包围的采样面积。该策略经验地将核大小设为3，并进行自然分割Bi分成3个子集:Si1是顶点本身(红圈内)图1右);Si2是向心子集，它包含靠近重心的相邻顶点
(绿点);Si3是离心子集，它包含远离重心(蓝点)的邻近顶点。Zij表示包含vj的Sik的基数。它的目标是平衡每个子集的贡献。

c实现：
空间维数的图形卷积的实现并不简单。具体来说，网络的feature map实际上是一个张量f∈R为顶点数，T为时间长度，C为通道数。为了在代码中实现GCN，将Eq. 1转换为C乘以T乘以N，其中N

式中，Kv为空间维数的核大小。根据上述映射策略，设Kv为3。正义与发展党=Λ−12 k¯kΛ−12 k，其中A¯k∈RN乘以N类似于邻接矩阵。它的元素A¯ij k表示顶点vj是否在顶点vi的子集Sik中。它用于从fin中选择特定子集中的连接顶点作为相应的权值向量Λii k =P j(¯ij k) +××为规范化对角矩阵。为了避免空行，将视图设置为0.001。周∈RCout * Cin * 1 * 1是1 * 1卷积运算的权值向量，表示式1中的权值函数w。

对于时间维度，由于每个顶点的邻居数固定为2(两个相邻帧中对应的关节)，可以直接进行类似于传统卷积操作的图的卷积。
具体来说，我们对上面计算的输出特征图进行Kt×1卷积，其中Kt是时间维的核大小.

利用上述公式，对图进行多层时空图卷积运算，提取高级特征。然后使用全局平均池化层和sof tmax分类器根据提取的特征预测动作类别.

MULTI-STREAM ATTENTION-ENHANCED适应性:图卷积网络:

在本节中，我们将详细介绍所提出的多流注意力增强自适应图卷积网络(MS-AAGCN)的组成部分。

自适应的图形卷积层:

上述骨架数据的时空图卷积是基于一个固有的基于人体的图计算的，这可能不是最好的选择，如第一节所述，为了解决这个问题，我们提出了一个自适应的图卷积层。它通过端到端学习的方式对图的拓扑结构和网络的其他参数进行优化。对于不同的层和样本，图是唯一的，这大大增加了模型的灵活性。同时将其设计为残差分支，保证了原模型的稳定性。
具体来说，根据Eq. 2，图实际上是由邻接矩阵和掩模确定的，即。分别是Ak和Mk。Ak决定两个顶点之间是否有连接，Mk决定连接的强度。为了使图拓扑自适应，我们将Eq. 2修改为如下形式:

主要区别在于图的邻接矩阵，它被分为两个子图:Bk和Ck。第一个子图(Bk)是从数据中学习到的全局图。它表示了更适合于动作识别任务的图拓扑。用基于人体图的邻接矩阵初始化，即:Eq. 2中的Ak。和Ak不同,在训练过程中，对Bk的元素进行参数化，并与其他参数一起更新。对于Bk的值没有约束，说明图是完全根据训练数据学习的。使用这种数据驱动的方法，模型可以学习完全针对识别任务的图形。Bk对于每一层都是唯一的，因此对于不同层中包含的不同层次的语义更加个性化:

第二个子图(Ck)是单个图，它为每个样本学习唯一的拓扑。为了确定两个顶点之间是否存在连接以及连接的强度，我们使用规范化嵌入高斯函数估计两个顶点的特征相似度为:

N是顶点的数量。我们使用点积来度量嵌入空间中两个顶点的相似性。其中，给定输入feature map fin∈R我们首先将其嵌入到嵌入空间R中Ce乘以T乘以N，有两个嵌入函数，即和。这里，通过大量的实验，我们选择1×1卷积层作为嵌入函数。两个嵌入的特征图被重塑为矩阵M∈k∈RN×CeT和矩阵M k∈RCeT(中央东部东京)×N。然后将它们相乘，得到相似矩阵Ck∈RN×N，其元素C ij k表示顶点vi与顶点vj的相似性。矩阵的值归一化为0 - 1，作为两个顶点的软边。由于归一化高斯函数有一个sof tmax运算，我们可以根据eq4计算Ck如下:

W∈RCe x Cin x 1 x 1, W∈RCe * Cin * 1 * 1分别为包埋功能的参数:

门控机制:全局图确定动作识别任务的基本图拓扑，个体图根据不同的样本特征添加个性。在实验中，我们发现顶层对单个图的需求比底层图的需求更强烈。这是合理的，因为底层的接受域较小，限制了从不同样本中学习图拓扑的能力。此外，顶层包含的信息语义更丰富，变化更大，对图的拓扑结构要求更个性化。单个图更容易满足要求，因为它是基于输入特征构造的，并且对每个样本都是独立的。基于这些观察，我们使用一个门控机制来调整不同层的单个图的重要性。其中Ck乘以

图2所示。自适应图形卷积层(AGCL)的说明。在每一层中有两种图，即。， Bk和Ck。橙色框表示该部分是网络的参数，在训练过程中进行了更新。其中，kernel size为(1×1)的两个嵌入函数为，Kv为子集数。⊕表示元素智慧的相加。⊗表示matirx乘法。G是控制两种图的重要性的门。仅当Cin与Cout不相同时，才需要残余盒(虚线)。参数化系数，对于每一层都是唯一的，并且在训练过程中被学习和更新。
初始化:在实验中我们发现，在训练过程的早期，图的拓扑结构发生了剧烈的变化，从而造成了不稳定，影响了模型的收敛。为了稳定训练，我们尝试了两种策略。第一种策略是使用Ak + blk + klk作为邻接矩阵，其中Ak是基于人的固定图。Bk, Ck，全寿命，长寿命被初始化为0，因此Ak将在训练初期占据主导地位.

第二种策略是用Ak初始化Bk，在训练初期阻断Bk的梯度传播，直到训练稳定。第二种策略在V-C中验证得稍好一些。嵌入函数的权重和融合系数全局文件都被初始化为0.自适应图形卷积层(AGCL)的总体架构如图2所示。图的卷积(Kv)的核大小被设为3。wk为Eq. 1中引入的权重函数，其参数为引入wkEq。3。为每一层添加一个类似于[43]的剩余连接，这允许将该层插入到任何现有模型中，而不破坏其初始行为如果输入通道数与输出通道数不同，则在残差路径中插入一个1×1的卷积(图2中带有虚线的橙色方框)，对输入进行变换，使其在通道维上与输出匹配。G是控制这两种图的语义的门。

注意模块
注意力模块有很多公式[30][31][32][33]。这里，通过大量的实验，我们提出了一个STC-attention模块，如图3所示。它包括三个子模块:空间注意模块、时间注意模块和信道注意模块。空间注意模块可以帮助模型对每个关节给予不同程度的注意。计算方法为:

式中，fin∈RCin * T * N为输入feature map，对所有帧进行平均。gs是一个一维卷积操作。Wgs∈R1×Cin×Ks，其中Ks为kernel size。为Sigmoid激活函数。注意力地图∈R女士然后将1×1×N以残差的方式乘到输入的feature map上，进行自适应的feature细化。时间注意模块(TAM)与SAM和的计算公式为:

其中Mt∈R1乘以T乘以1，其他符号的定义与公式6相似通道注意模块(CAM)可以帮助模型根据输入样本加强描述特征(通道)。它生成的注意图如下:

鳍在所有的关节和框架上取平均值。Mc∈RC×1×1。W1∈R(C C r×)和W2∈R(为两个全连接层的权重。指ReLu激活函数。

注意模块的排列方式:以上介绍的三个子模块可以采用不同的排列方式:并行方式或顺序不同的顺序方式。最后我们发现顺序方式更好，顺序为SAM、TAM和CAM。这将在V-C节中显示.

图3所示。STC-attention模块的说明。三个子模块按照SAM、TAM、CAM的顺序依次排列。⊗表示element-wise乘法。⊕表示元素智慧的相加。

基本块
沿时间维的卷积与ST-GCN相同，即，对C×T×N张feature maps进行Kt×1卷积。空间GCN和时间GCN后面都跟着批处理标准化(BN)层和ReLU层。如图4所示，一个基本块是一个空间GCN (Convs)、一个STC-attention模块(STC)和一个时间GCN (Convt)的序列。为了稳定训练和缓和梯度传播，每个基本块都添加了一个残差连接。

d .网络体系结构
如图5所示，网络的总体架构就是这些基本块的堆栈(图4)，共有9个块。每个块的输出通道数为64、64、64、128、128、128、256、256、256。在开始添加一个数据BN层，用于规范化输入数据。一个最后执行全局平均池化层，将不同样本的特征映射池化到相同大小。最后输出到一个sof tmax分类器中进行预测。

进行多流网络”e .
如第I节所述，一阶信息(关节坐标)和二阶信息(骨骼的方向和长度)以及它们的运动信息，对于基于骨骼的动作识别任务是值得研究的。在这项工作中，我们在一个多流框架中建模这四种模式。

特别地，我们定义离骨架重心较近的关节为源关节，离骨架重心较远的关节为目标关节。每根骨头都表示为一个从源关节指向目标关节的矢量。例如，给定一根在t坐标系中的骨，其源关节vi,t = (xi,t, yi,t, zi,t)，目标关节vj,t = (xj,t, yj,t, zj,t)，骨的向量计算为ei,j,t = (xj,t−xi,t, yj,t−yi,t, zj,t−zi,t)。由于在骨骼数据的图中没有循环，每个骨骼可以分配一个唯一的目标关节。注意关节的数量比骨头的数量多1，因为根关节没有分配给任何骨头。为了简化网络的设计，我们给根关节分配一个值为0的空骨。这样，骨骼的图形和网络都可以设计成与关节相同的图形和网络。分别用j -流和b -流表示关节和骨骼网络.

对于运动信息，计算为同一关节或骨骼在连续两帧中的差值。例如，给定坐标系t中的一个关节，即。， vi,t = (xi,t, yi,t, zi,t)，在坐标系t + 1中相同的关节，即， vi,t+1 = (xi,t+1, yi,t+1, zi,t+1)， vi,t与vi,t+1之间的运动信息表示为mi,t,t+1 =
(xi,t+1 - xi,t, yi,t+1 - yi,t, zi,t+1 - zi,t).

总体架构(MS-AAGCN)如图6所示。四种形态(关节、骨骼及其运动)被注入四种流。最后，采用加权求和的方法融合四个流的sof tmax得分，得到动作得分并预测动作标签。

图6所示。说明MS-AAGCN的总体架构。将四个流的sof tmax得分采用加权求和的方法进行融合，得到最终的预测结果。J为联合信息。B为骨信息。M为运动信息。

诉实验
为了与ST-GCN进行头对头的比较，我们的实验是在相同的两个大规模动作识别数据集上进行的:NTU-RGBD[9]和KineticsSkeleton[34]，[20]。首先，由于NTU-RGBD数据集小于kinetics -骨架数据集，我们对其进行了彻底消融研究，以验证基于识别性能提出的模型组件的有效性.然后，在两个数据集上对最终模型进行评估，以验证通用性，并与其他基于骨架的动作识别任务的最新方法进行比较。最后，我们将骨架数据与poseguided裁剪RGB数据进行融合，以达到更高的精度NTU-RGBD数据集。两个数据集中的关节及其自然连接的定义如图7所示。

图7所示。左边的子图显示了Kinetics-Skeleton数据集的联合标签，右边的子图显示了NTU-RGBD数据集的联合标签。

NTU-RGBD: NTU-RGBD[9]是目前最大和最广泛使用的室内捕获的动作识别数据集，它包含60个动作类中的56,000个动作剪辑。
这些片段是由40名志愿者表演的，他们年龄从10岁到35岁不等。所捕获的每个操作3个摄像头在相同的高度，但从不同的水平角度:−45◦,0◦,45◦。该数据集提供了Kinect深度传感器检测到的每一帧的三维关节位置骨骼序列中每个主体有25个关节，而每个视频中不超过2个主体。数据集的原始论文[9]推荐了两个基准测试:(1)Cross-subject (CS):这个基准测试中的数据集被划分为一个训练集(40320个视频)和验证集(16560个视频)，其中这两个子集中的主题是不同的。(2) Cross-view (CV):本基准测试中的训练集包含摄像头2和3采集的37,920个视频，验证集包含摄像头1采集的18,960个视频。我们遵循这个惯例，在两个基准上报告最高的准确性.

动力学[34]是一个大规模的人类动作数据集，包含300,000个视频剪辑在400类。视频剪辑来自YouTube视频，种类繁多。它只提供没有骨架数据的原始视频剪辑。使用公开可用的OpenPose工具箱[44]估计剪辑每一帧上18个关节的位置。基于平均联合置信度，选择两个人进行多人视频剪辑。我们使用他们发布的数据(动力学骨架)来评估我们的模型。数据集被分为训练集(240,000个剪辑)和验证集(20,000个剪辑)。按照[20]中的评估方法，我们在训练集上训练模型，并报告验证集上的top-1和top-5的准确率。

培训细节
所有实验都在PyTorch深度学习框架[45]上进行。采用涅夫斯基动量(0.9)的随机梯度下降(SGD)作为优化策略。批大小为64。交叉熵作为梯度反向传播的损失函数。权重衰减设置为0.0001。

对于NTU-RGBD数据集，数据集的每个样本中最多有两个人。如果样本中物体的数量小于2，我们用0填充第二个物体。每个样本的最大帧数为300。对于小于300帧的样本，我们重复样本直到达到300帧。学习率设为0.1，在第30和第40个epoch被除以10。训练过程在50世纪结束了。

对于运动学-骨架数据集，动力学输入张量的大小设置与[20]相同，包含150帧，每帧有2个物体。我们执行与[20]中相同的数据增强技能。具体来说，我们是随机选择的从输入的骨架序列中选取150帧，并通过随机选择的旋转和平移来轻微扰动关节坐标。学习率也设为0.1，在第45 epoch和第55 epoch被除以10。训练过程在65轮结束了。

烧蚀研究
我们验证了所提出组件的有效性使用NTU-RGBD数据集。1)学习率调度器和数据预处理:在ST-GCN的原始论文中，学习率乘以
0.1在第十和五十世纪。训练过程在80个时代结束。我们重新安排了学习率调度程序[10,50,80]到[30,40,50]，获得更好的性能
(标签所示。我,“预处理”)。在此基础上采用了一些预处理策略NTU-RGBD数据集。Kinect的身体追踪器更容易检测到2个以上的身体，其中一些是物体。为了过滤不正确的身体，我们首先在每个样本中根据身体能量选择两个身体。能量定义为通过每个通道的骨架标准差的平均值。然后对每个样本进行归一化，使每个通道的数据分布统一其中，每个关节的坐标从“脊柱关节”(图7中左子图的第2个关节)的坐标中减去。最后，由于不同的样本可能以不同的视角捕捉，类似于[9]，我们对原始样本进行平移从摄像机坐标系到人体坐标的人体关节的三维位置。对于每个样本，我们执行a三维旋转固定了平行于X轴的三维矢量“右肩”(第5关节)到“左肩”(第9关节)，Y轴从“脊柱基底”指向三维向量(21关节)到脊柱(2关节)。图8显示了预处理的示例。预处理后的性能在Tab中称为“后预处理”。

图8所示。NTU-RGBD数据集上的数据预处理示例。左边是原始骨架，右边是经过预处理的骨架。
表1。我证明了预处理在很大程度上有助于识别。这是因为原始数据的噪声太大。

2) Adaptive graph convolutional block:我们使用STGCN作为基线方法。正如在第四- a节所介绍的，在我们提出的AGCL中有两种子图，即。，即全局图B和单个图c。我们测试使用每个图并将它们组合在一起的性能。结果如表中AGCN-B、AGCN-C、AGCN-BC所示。分别二世。结果表明，两种设计的图形对动作识别任务都有显著的改善。将两个图相加，模型的性能最佳。

此外，还引入了初始策略的绩效第二节IV-A进行了测试，在表中显示为AGCN-ABC和AGCN-BC。2这表明第二种策略稍好一些。此外，我们验证了加入浇注机制(AGCN-BC-G)的有效性，也带来了鼓舞改进。总的来说，完整的AGCL在CS和CV基准上分别提高了3.1%和1.7%。

在NTU-RGBD上验证精度的比较数据集。A表示基于主体的邻接矩阵如图EQ. 2所示。B和C表示全局图和在SEC IV-A中分别介绍了个体图。G表示使用浇注机制。

3)注意模块:在本节中，我们验证了IV-B节中介绍的提议的STC-attention模块的有效性。结果显示在选项卡中。3我们首先分别测试三个子模块的贡献(SAM，TAM和CAM)基于ST-GCN，分别显示为ASTGCNS、ASTGCN-T和ASTGCN-C。这三个子模块都有助于提高性能。然后测试添加每个子模块以及按顺序连接它们的性能，如下所示STGCN-ADD和STGCN-STC。这表明，将三个子模块连接起来稍微好一些。最后，我们将STC-attention模块嵌入AGCN中，得到了相似的结果。注意，注意模块对AGCN的改善(+0.6%和+0.7%)不如STGCN的改善(+2.8%和+1.5%)显著。我们认为，这是因为AGCN的强大和精度已经非常高，因此注意模块的效果是有限的。

比较NTU-RGBD上的验证精度数据集为每个注意子模块和不同的安排策略。STGCN和AGCN表示标签中的STGCN-M和AGCN-BC-G。分别二世。STC)意味着依次连接三个子模块。

4)多流框架:最后我们使用四种提出的数据模式测试了性能，并在Tab中显示结果。IV.这里，J、B、J- m、B- m分别为第IV- e段引入的关节形态、骨形态、关节运动和骨运动。显然，多流方法优于单流方法。对于单流方法，骨骼模式(B-AAGCN)在CS基准测试中的性能略优于联合模态(J-AAGCN)。对于CV基准测试，结果是相反的。这表明两者是相辅相成的形式。通过对关节和骨骼的梳理(JB-AAGCN)，效果如预期的明显改善。运动模式的表现(J-M-AAGCN和B-M-AAGCN)通常低于关节和骨模式的性能。然而，把它们加在一起仍然带来了改进：

比较不同输入的验证精度模式在NTU-RGBD数据集。表示使用关节和骨骼模式。MS代表使用这四种方法形式。AAGCN表示TAB中的AAGCN- stc。

D.与先进方法的比较
我们将最终模型与NTURGBD数据集和kineticsskeleton数据集上最先进的基于骨骼的动作识别方法进行比较。结果显示在选项卡中。V选项卡。分别六世。用于比较的方法包括基于手工特征的方法[6]、[7]、基于rnn的方法[36],CNN-based方法和基于gc的方法[20]，[21]。我们的模型实现了最先进的性能与一个大的空白数据集，

与最先进的验证精度的比较对NTU-RGBD数据集的方法。

与RGB模式的融合
骨架数据对动态环境和复杂背景具有较强的鲁棒性。但是，它缺少外观信息。例如，如果一个人在吃东西，仅凭骨架数据很难判断他是在吃苹果还是苹果。在本节中，我们研究融合骨架数据和RGB数据进行动作识别的必要性：

任务对NTU-RGBD数据集。我们使用两流框架，其中一个流使用3D卷积网络建模RGB数据，另一个流使用我们的MS-AAGCN建模骨架数据。skeletonstream的细节与Sec V-B相同。对于RGB-stream，受到[46]的启发，我们使用了在ImageNet和Kinetics上预先训练好的ResNeXt3D-101模型。在训练时，我们从整个视频中随机截取一个片段，其长度为随机采样的[32,64,128]。裁切位置从四个角和一个中心随机选择。然后根据c对图像进行裁剪请注意，裁剪后的图像的宽度和高度可以不同。最后对裁剪后的图像序列进行归一化，调整大小为[16,224,224]，即剪辑的长度、高度和宽度。学习率以0.01初始化，并在验证精度饱和后乘以0.1。
我们使用四个titanium - gpu，批处理大小设置为32. 动量- sgd作为优化器，重量衰减设置为0.0005。在测试时，我们在不同位置裁剪不同长度和大小的剪辑。结果就是这些片段的平均值。

此外，为了消除背景的干扰，我们提出了从原始图像中裁剪人物，只使用人物部分进行识别。具体来说，我们计算每个图像中人物的边界，并使用他们的联合作为作物盒。这就是所谓的耕作方式。

选项卡。VII展示了我们的方法以及之前使用RGB模态的方法的结果。其中，C表示采用耕作姿势引导的种植策略。结果表明，仅使用RGB模态(RNX3D101 vs RNX3D101- c)时，姿态导向种植策略有显著改善。这表明该模型仅使用RGB数据很容易被复杂的背景误导。然而，当骨架数据和RGB数据融合时，改进降低(RNX3D101 + MS-AAGCN vsRNX3D101 + MS-AAGCN-C)。这是因为骨架数据可以有效地避免环境的干扰，使得裁剪策略的贡献不像以前那么明显。我们最好的模RNX3D101+MSAAGCN-C，达到96.1%的CS基准和99.0%的简历基准。如选项卡所示。VII，它大大超过了以前的方法。

可视化和讨论
答:自适应图形在我们的模型中有两种图:全局图和个体图。图9是一个学习了不同子集和不同层的全局图邻接矩阵的例子。第一和第二行分别显示了第三- b节中介绍的向心子集(Si2)和离心子集(Si3)的邻接矩阵。第一列是根据人体的自然连通性定义的图形结构，即,一个在Eq。2。其他的是全局图在不同层中的邻接矩阵。矩阵中各元素的灰度表示连接强度。

图9所示。学习全局图邻接矩阵的例子。不同的行显示不同的子集。第一列是NTU-RGBD数据集中基于人的图的邻接矩阵。其他例子是我们的模型学习的不同层的自适应邻接矩阵。

结果表明，在基于人体的图的基础上，学习图的拓扑结构得到了更新，但有很多变化。验证了基于人体的图形并不是动作识别任务的最佳选择。结果表明，上层的图拓扑变化比下层的图拓扑变化大。这是因为越高层所包含的信息语义性越强，所要求的图的拓扑结构与基于人的图的拓扑结构就有较大的不同。类似地，图10展示了两个不同样本的单个图的学习邻接矩阵的一些例子。这说明不同的样本和层需要不同的图拓扑，这证实了我们的动机。

图10所示。单个图的邻接矩阵的学习例子。第一行和第二行显示了不同的示例。不同的列代表不同的层。

两种图形通过浇注机构融合。在图11中，我们将这两种图在每一层中的重要性形象化。它表明单个图在顶层更重要。这是因为单个图是基于数据样本的特征学习的。顶层的接受域更大，其特征信息更丰富。因此，上层比下层更容易学习单个图的拓扑。

图11所示。可视化说明了两种图形在每个层中的重要性。

为了清晰地看到学习后的图拓扑，我们在骨架草图上画出关节之间的连接，如图12所示。橙色的线表示值在前50名的连接。线的alpha值表示连接的强度。结果表明，所学习的图的拓扑结构符合人的直觉。例如，手和头之间的关系在识别“自拍”的动作时应该更重要，而第一行显示的已学习的图表中它们之间的联系确实更多。验证了自适应图对流层的有效性和必要性。

注意模块
我们提出的stc注意模块有三个子模块:空间注意模块、时间注意模块和信道注意模块。对于空间注意，我们在图13中展示了不同样本和不同层次的学习注意图。圆的大小。

图12所示。学习图拓扑的例子。橙色的线表示值在前50名的连接。表示相应关节的重要性。结果表明，该模型更多地关注手和头部的关节。此外，下层的重视程度也不明显。这是因为下层的接受野相对较小，因此很难学习到好的注意图。

图13所示。学习空间注意力地图的例子。圆的大小代表相应关节的重要性。
对于时间注意力，我们在图14中展示了每个帧和相应骨架草图的学习注意力权重的例子。对于自拍的样本，可以看出第五层的模型更关注抬手的过程，第七层的模型更关注自拍的最终姿势。对于投掷的样本，虽然在同一第五层，但它学习了不同的结构，并对于投掷的样本，虽然在相同的第五层，但是它学习了不同的结构，并且更加注重手在较低位置的框架。说明了所设计模块的有效性和适应性。

多模
为了说明不同模式之间的互补性，我们绘制了不同模式之间某些类别的准确性差异。我们使用NTU-RGBD数据集的CV基准测试。图15显示了骨架模态和RGB模态之间的精度差异。这表明骨架模态在“搓手”类上对RGB模态有很大帮助，而RGB模态在“搓手”类上对骨架模态有很大帮助“阅读”和“写作”课程。我们在“reading”类和“writing”类中找到两个例子，如图16所示：

图14所示。时间注意力地图的可视化。第一行显示了对不同层次和样本的每个帧学习的时间注意权值。第二行和第三行显示相应的骨架草图。

这两个例子的框架非常相似，因此很难区分。但是借助RGB数据，可以根据手中是否有笔来区分。这个例子说明了骨架模态和RGB模态之间的互补性。

结论
在这项工作中，我们提出了一种新的多流注意力增强自适应图卷积神经网络用于基于骨架的动作识别。将模型中使用的骨架数据的图拓扑参数化，嵌入到网络中，与其他参数共同学习和更新。这种数据驱动的方法增加了模型的灵活性和泛化能力。自适应学习的图的拓扑结构比基于人体的图更适合于动作识别任务。此外，在每个图形卷积层中嵌入STC-attention模块，使模型更加关注重要节点、框架和特征。此外，我们提出将关节、骨骼和相应的运动信息在统一的多流框架中建模，进一步提高了性能，最后的模型在两个大规模的动作识别数据集上进行评估。NTU-RGBD和
Skeleton-Kinetics。它实现了最先进的性能在他们两个。此外，我们融合了骨架数据和骨架引导裁剪的RGB数据，这带来了额外的改进。未来的工作可以集中在如何更好地融合RGB模式和骨架模式。在统一框架下，将基于骨架的动作识别算法与姿态估计算法相结合也值得研究。

论文翻译：Skeleton-Based Action Recognition with Multi-Stream Adaptive Graph Convolutional Networks

猜你喜欢