论文翻译：Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

人体骨骼的动力学特性为人体动作识别提供了重要的信息。传统的骨架建模方法通常依赖于手工制作的部件或遍历规则，从而导致表达能力有限，难以泛化。在这项工作中，我们提出了一个新的动态骨架模型，称为时空图卷积网络(ST-GCN)。它通过自动学习数据的空间和时间模式，超越了以往方法的局限性。这个公式不仅带来了更大的表达能力，而且更强的泛化能力。在两个大数据集动力学和NTU-RGBD上，它实现了对主流方法的实质性改进。

人的动作识别在视频理解中起着重要的作用，近年来成为一个活跃的研究领域。一般而言，人类行为可以从多种模式被识别(Simonyan和Zisserman 2014;Tran等人2015;王、乔、唐2015年;王等。2016;(Du, Wang, and Wang 2015;(Liu等，2016)。在这些模式中,动态的人体骨骼通常传达重要的信息，这些信息与其他信息是互补的。然而，相对于外观和光流的建模，动态骨架的建模受到的关注较少。在本研究中，我们系统地研究了这一模态，旨在发展一种原则和有效的方法来建模动态骨架，并利用它们来进行动作识别。

动态骨架模态可以自然地用人体关节位置的时间序列以二维或三维坐标的形式表示。然后，通过分析人类的运动模式，可以识别人类的动作。早期使用骨架进行动作识别的方法是简单地利用单个时间步长的关节坐标形成特征向量，并对其进行时间分析(Wang et al. 2012;Fernando et al. 2015)。这些方法的能力是有限的，因为它们没有明确地利用关节之间的空间关系，这对理解人类行为至关重要。最近，新方法试图利用关节之间的自然连接(Shahroudy et al. 2016;Du,王王2015)。这些方法显示出了令人鼓舞的改进，这表明了连接的重要性。然而，现有的方法大多依靠手工制作的部件或规则来分析空间模式。因此，为特定应用而设计的模型很难推广到其他应用。

图1:这个工作中使用的骨架序列的时空图，在这里建议的ST-GCN操作。蓝点表示身体的关节。人体关节之间的内部边界是根据人体的自然连接来定义的。框架间的边缘连接着连续框架之间的相同关节。关节坐标用作ST-GCN的输入。

为了超越这些限制，我们需要一种新的方法来自动捕获嵌入在关节的空间结构中的模式以及它们的时间动态。这就是深度神经网络的力量所在。然而，正如前面提到的，骨架是图形形式的，而不是2D或3D网格，这使得使用卷积网络等经过验证的模型变得困难。最近，图神经网络(GCNs)将卷积神经网络(CNNs)推广到任意结构的图，图神经网络(gcn)概括卷积神经网络(cnn)图的任意结构,收到越来越多的关注并成功地采用在许多应用程序中,如图像分类(布鲁纳et al . 2014),文档分类(Defferrard,布松,Vandergheynst 2016),和semi-supervised学习(Kipf和威林2017)。然而，以前沿着这条线进行的许多工作假设是固定的图作为输入。应用GCNs对大规模数据集(如人体骨骼序列)上的动态图建模还有待探索。

摘要本文提出将图神经网络扩展到时空图模型，即时空图卷积网络(ST-GCN)，设计一种用于动作识别的骨架序列的通用表示。如图1所示，该模型建立在一系列骨架图之上，其中每个节点对应于人体的一个关节。有两种类型的边，即符合节点的自然连通性的空间边和跨越连续时间步连接相同节点的时间边。在此基础上构造了多层时空图卷积，使得信息可以在时空维度上进行集成。ST-GCN的层次化本质消除了手工构造部分分配或遍历规则的需要。这不仅可以提高表达能力，从而提高性能(如我们的实验所示)，而且还可以很容易地归纳出不同的上下文。在通用GCN公式的基础上，从图像模型中得到启发，研究了设计图形卷积核的新策略。

本工作的主要贡献在于三个方面:1)我们提出ST-GCN，一个用于动态骨架建模的通用的基于图的公式，它是第一个应用基于图的神经网络来完成这项任务的公式。2)提出了设计卷积核的几个原则ST-GCN满足骨架建模的具体要求。3)在两个大数据集上进行基于骨架的动作识别，与以往使用手工制作零件或遍历规则的方法相比，该模型具有更好的性能，并且大大减少了手工设计的工作量。ST-GCN的代码和模型是公开的1。

相关工作：

图形上的神经网络。将神经网络推广到具有图形结构的数据是深度学习研究中的一个新兴课题。讨论的神经网络结构包括递归神经网络，这项工作与CNNs(图卷积网络)的泛化有关(gcn)。在图上构造GCNs的原理一般有两种:1)光谱视角，其中以光谱分析的形式考虑图卷积的局域性(Henaff, Bruna, LeCun 2015);Duvenaud等，2015;Li et al. 2016;Kipf和威林2017);2)空间视角，将卷积滤波器直接应用于图节点及其相邻节点(Bruna et al. 2014;Niepert, Ahmed和Kutzkov2016)。这项工作遵循th的精神，在空间域上构造CNN过滤器，通过限制每个过滤器的应用到每个节点的1邻居。

基于骨骼的动作识别。人体骨骼和关节轨迹对光照变化和场景变化具有很强的鲁棒性，并且由于高度精确的深度传感器或姿态估计算法，易于获取(Shotton et al. 2011;Cao等，2017a)。因此，有大量的基于骨架的动作识别方法。这些方法可以分为基于手工特征的方法和深度学习方法。第一类方法设计了几个手工制作的特征，以捕捉关节运动的动力学。这些可以是关节轨迹的协方差矩阵(Hussein et al. 2013)，关节的相对位置(Wang et al. 2012)，或者身体部位之间的旋转和平动(Vemulapalli, Arrate, and Chellappa 2014)。最近，深度学习的成功导致了基于深度学习的骨架建模方法的激增。这些作品使用了递归神经网络时间cnn (Li et al. 2017;Ke等人2017;以端到端的方式学习动作识别模型。在这些方法中，许多强调了建模人体部分关节的重要性。但是这些部分通常是使用领域知识明确分配的。我们的ST-GCN是第一个将图CNNs应用到基于骨架的动作识别任务中的。与以往的方法不同的是，它可以通过利用图卷积的局部性和时间动态来隐式地学习部分信息。通过消除手工分配部分的需要，模型更容易设计，更有效地学习更好的动作表示。

空间时间图ConvNet：

在进行活动时，人体的关节以局部小群的形式活动，称为“身体部位”。现有的基于骨骼的动作识别方法已经验证了在建模中引入人体部位的有效性(Shahroudy et al. 2016;Liu et al. 2016;张，刘，肖2017)。我们认为，改进的主要原因是部分限制了建模的关节轨迹“局部区域”，而不是整个骨架，从而形成了骨骼序列的层次表示在图像目标识别等任务中，层次化表示和局部性通常是由卷积神经网络(Krizhevsky，Sutskever和Hinton 2012)，而不是手动分配对象部件。这促使我们将cnn的吸引力引入到基于骨架的动作识别中。这一尝试的结果是ST-GCN模型。

管道概述：

基于骨架的数据可以从动作捕捉设备或视频中的姿态估计算法中获得。通常数据是一系列的坐标系，每个坐标系都有一组关节坐标。给定身体关节的序列以二维或三维坐标的形式，以人体结构中的节点为图节点，以人体结构和时间中的自然连通性为图边，构造空间时间图。因此ST-GCN的输入是图节点上的关节坐标向量。这可以看作是一种类似于基于图像的网络神经网络，其中输入由驻留在二维图像网格上的像素强度向量构成。对输入数据进行多层时空图卷积操作，生成图上更高层次的特征图。然后由标准的SoftMax分类器将其分类到相应的动作类别。整个模型采用带反向传播的端到端训练。现在我们将介绍ST-GCN模型中的组件。

骨架图施工：

骨骼序列通常用人体各关节在每一帧中的二维或三维坐标表示。之前的工作使用卷积的骨架动作识别(Kim和(Reiter 2017)将所有节点的坐标向量进行拼接，形成每帧单一的特征向量。在我们的工作中，我们利用空间时间图来形成骨架序列的层次表示。特别地，我们在具有N个关节和T个框架的具有体内连接和帧间连接的骨架序列上构造无向空间时间图G = (V, E)。

在此图中，节点集V = {vti|t = 1，…， T, i =1、……， N}包含了一个骨架序列中的所有关节。作为ST-GCN的输入，节点F(vti)上的特征向量由坐标系t上第i个关节的坐标向量和估计置信度组成。我们分两步构造骨架序列上的时空图。首先，根据人体结构的连通性将一个框架内的关节进行边缘连接，如图1所示。然后在连续坐标系中，每个关节都连接到同一个关节上。因此，自然地定义了此设置中的连接，而不需要手动分配部分。这也使得网络架构能够在具有不同数量的关节或关节连接性的数据集上工作。例如，在动力学数据集上，我们使用来自OpenPose的2D位姿估计结果(Cao等。工具箱输出18个关节，而在NTURGB+D数据集(Shahroudy et al. 2016)上我们使用3D关节跟踪结果作为输入，产生25个关节。STGCN可以在两种情况下运行，并提供一致的优越性能。所构造的时空图示例如图1所示。形式上，边集E由两个子集组成，第一个子集描述每一帧的内骨架连接，记为ES = {vtivtj |(i, j)∈H}，其中H为人体自然连接关节的集合。第二个子集包含了连接连续帧中相同节点的帧间边，如EF = {vtiv(t+1)i}。
因此，对于一个关节i, EF中的所有边都表示它随时间的轨迹。

图2:对视频进行姿态估计，构建骨架序列的时空图。采用多层时空图卷积(ST-GCN)，逐步在图上生成更高层次的feature map。
然后由标准的Softmax分类器将其分类到相应的动作类别。

空间图形卷积神经网络：

在深入研究成熟的ST-GCN之前，我们先看一下单个框架内的graph CNN模型。在这种情况下，在单帧的时间序列中，会有N个关节节点与骨架边一起ES(缩放)= {vtivtj |t =(i, j)∈H}。回想一下在二维自然图像或特征图上卷积运算的定义，它们都可以被视为二维网格卷积运算的输出特征图也是2D网格。使用stride 1和适当的填充，输出的feature map可以与输入的feature map具有相同的大小。我们将在下面的讨论中假设这个条件。给定核大小为K×K的卷积算子，输入特征图fin为通道数c，空间位置x上单个通道的输出值为：

抽样函数p: Z在哪2×Z2→Z2枚举位置x的邻居，在图像卷积的情况下，也可以表示为p(x, h, w) = x + p0(h, w)权重函数w: Z2→R c提供了一个c维实空间中的权值向量，用于计算与采样后的c维输入特征向量的内积，注意权值函数与输入位置x无关，因此滤波器权值在输入图像上处处共享。因此，在图像域上的标准卷积是通过编码矩形来实现的。网格在p (x)。(Dai et al. 2017)对该公式进行了更详细的解释和其他应用。将上述公式扩展到输入特征映射位于空间图Vt上的情况，即:Vt→Rc中的特征映射f t在图的每个节点上都有一个向量，从而定义了图上的卷积运算。扩展的下一步是重新定义采样函数p和权函数w。

抽样函数。在图像上，采样函数p(h, w)是根据中心位置x在相邻像素上定义的。在图形上，我们同样可以定义相邻集合B(vti) =的采样函数节点vti的d(vtj, vti)≤d}。其中d(vtj, vti)表示从vtj到vti的任意路径的最小长度。因此，抽样函数p: B(vti)→V可以写成：

在这个工作中，我们使用D = 1对于所有情况，即，关节节点的1邻居集。更多的D留给以后的工作。

权函数。与采样函数相比，权函数的定义更加复杂。在二维卷积中，刚性网格自然地围绕中心位置存在。所以邻域内的像素可以有固定的空间顺序。然后，权重函数可以通过根据空间顺序索引(c, K, K)维的张量来实现。对于一般的图，比如我们刚刚构造的图，没有这样的隐式排列。这个问题的解决方法首先在(Niepert, Ahmed, and Kutzkov 2016)进行了研究，其中顺序是由根节点周围的邻接图中的图形标记过程定义的。我们按照这个想法来构造权重函数。我们没有给每个邻居节点一个唯一的标记，而是通过将一个联合节点vti的邻居集B(vti)划分为一个固定数目的K个子集来简化这个过程，其中每个子集都有一个数字标记。这样我们就有了一个映射lti: B(vti)→{0，…， K−1}，它将邻域中的一个节点映射到它的子集标签。权函数w(vti, vtj): B(vti)→Rc可以通过对(c, K)维张量索引来实现：

我们将在第3.4节中讨论几种划分策略。

空间图卷积。利用改进的采样函数和权值函数，我们现在将Eq. 1用图形卷积重写为

其中规范化项Zti(vtj) =| {vtk|lti(vtk) = lti(vtj)} |等于相应子集的基数。这一项的增加是为了平衡不同的贡献输出的子集。将式2、式3代入式4，得到：

值得注意的是，这个公式可以类似于标准二维卷积，如果我们把一幅图像当作一个常规的二维网格。例如，为了类似于一个3×3的卷积操作，我们在一个像素为中心的3×3网格中有一个9个像素的邻居。然后将邻居集划分为9个子集，每个子集有一个像素。

空间时间建模。在制定了空间图CNN之后，我们现在进入了在骨架序列内建模空间时间动态的任务。回想一下，在构造图的过程中，图的时间方面是通过在连续的框架中连接相同的关节来构造的。这使我们能够定义一个非常简单的策略来将空间图CNN扩展到时空域。也就是说，我们扩展了邻域的概念，将时间连通的节点也包括在内：

Γ控制时间范围的参数被包含在你的邻居图,因此可以称为颞内核大小。为了完成对空间时间图的卷积运算，我们还需要采样函数(与只在空间的情况相同)和权函数，特别是标记图lST。由于时间轴是有序的，因此我们直接将植根于vti的空间时间邻域的标签映射lST修改为：

其中，lti(vtj)是vti的单帧情况的标签映射。这样，我们在构造的空间时间图上就有了一个定义明确的卷积运算。

分区策略。
鉴于空间时间图卷积的高级公式，设计一种划分策略来实现标签图l是很重要的。在本工作中，我们探索了几种划分策略。为简单起见，我们只讨论单个框架中的情况，因为它们可以使用Eq. 7自然地扩展到时空域。

Uni-labeling。最简单和最直接的划分策略是有子集，它是整个邻居集本身。在该策略中，每个相邻节点上的特征向量与相同的权向量有一个内积。实际上，这种策略类似于(Kipf和Welling 2017)中引入的传播规则。该策略有一个明显的缺点，即在单帧情况下，使用该策略相当于计算权向量与所有相邻节点的平均特征向量的内积。这对于骨架序列分类来说是次优的，因为在这个操作中可能会丢失局部微分性质。形式上，我们有K = 1和lti(vtj) =0,∀i, j∈V。

图3:构建卷积运算的分区策略。从左到右:(a)输入骨架的示例框架。身体的关节是用蓝点画的。D = 1的过滤器的接受域用红色虚线圆圈绘制。(b)单标记划分策略，即邻域内所有节点具有相同的标记(绿色)。(c)距离分区。两个子集分别是距离为0(绿色)的根节点本身和距离为1的相邻点。(蓝色)。(d)空间配置分区。节点根据它们到骨架重心的距离进行标记(黑叉)与根节点(绿叉)的比较。向心节点的距离较短(蓝色)，离心节点的距离较长(黄色)。

距离分区。另一种自然的分区策略是根据节点到根节点vti的距离d(·，vti)对邻居集进行分区。在这个工作中，因为我们设D = 1，所以邻居集将被分成两个子集，其中D = 0表示根节点本身，其余的邻居节点在D = 1的子集中。因此，我们将有两个不同的权值向量，它们能够建模局部微分特性，如关节之间的相对平移。形式上，我们有K = 2且lti(vtj) = d(vtj, vti)。

空间配置分区。由于body骨架是空间定位的，我们仍然可以在分割过程中利用这个特定的空间配置。我们设计了一个策略将邻居集划分为三个子集:1)根节点本身;2)向心群:比根节点更接近骨架重心的邻近节点;3)其他离心组。这里以一个框架上所有骨架关节的平均坐标作为其重心。这一策略的灵感来自这样一个事实，即身体各部分的运动可以大致分为同心运动和偏心运动。形式上,我们有

其中ri为训练集中所有帧从重心到关节i的平均距离。三种划分策略的可视化结果如图3所示。我们将在基于骨骼的动作识别实验中实证地检验所提出的分配策略。期望更高级的划分策略能带来更好的建模能力和识别性能。

可学习的边重要性加权。
虽然关节在人们执行动作时是成群活动的，但一个关节可以出现在多个身体部位。然而，这些现象应该具有不同的重要性对这些部件进行动力学建模。在这个意义上，我们在时空图卷积的每一层添加一个可学习掩模M。该掩码将根据ES中每个空间图边的重要性权重，将节点的特征对其邻近节点的贡献进行缩放。实验表明，添加该遮罩可以进一步提高ST-GCN的识别性能。为了这个目的，也可以有一个数据依赖的注意力地图。我们把这个留给以后的工作。

实现ST-GCN
基于图形的卷积的实现不像2D或3D卷积那么简单。这里我们提供了实现ST-GCN的细节，用于基于骨架的动作识别。我们采用了与in (Kipf and Welling 2017)相似的图卷积实现。单个框架内关节的体内连接由一个邻接矩阵a和一个单位矩阵I表示自连接。在单帧情况下，采用第一次划分策略的ST-GCN可通过以下公式实现(Kipf和Welling 2017)

Λii =P j(Aij + I ij)这里将多个输出通道的权值向量进行叠加，形成权值矩阵w。实际上，在时空条件下，我们可以将输入特征图表示为(C, V, T)维张量。图像卷积实现通过执行1×Γ标准二维卷积和繁殖产生的张量与规范化的邻接矩阵Λ−12 (A + I)Λ−1在第二个维度上是2。

对于具有多个子集的分区策略，即、距离分区和空间配置分区，我们再次使用这个实现。但是注意，现在邻接矩阵被分解成几个矩阵，其中AjA + I =P j Aj。例如在距离划分策略中，A0 = I, A1 = a，对Eq. 9进行变换

在同样Λii j =P k(j Aik队效力)+α。这里，我们设置了oval = 0.001以避免Aj中的空行。它是直接实现可学习的边缘重要性加权。对于每个邻接矩阵，我们都伴随一个可学习的权值矩阵m。我们将Eq. 9中的矩阵a + I和Eq. 10中的Aj中的Aj替换为(一+ I)⊗M和Aj⊗M,分别。这里⊗表示element-wise两个矩阵之间的产品。蒙版M被初始化为一个全一矩阵。网络架构与培训。由于ST-GCN在不同节点上共享权重，因此在不同节点上保持输入数据的尺度一致是很重要的。在我们的实验中，我们首先将输入骨架输入到一个批处理归一化层来对数据进行归一化。ST-GCN模型由9层时空图卷积算子(ST-GCN单位)组成。前三层有64个输出通道。下面三层有128个通道用于输出。最后三层有256个输出通道。这些层有9个暂时内核大小。Resnet机制应用于每个ST-GCN单元。在每个STGCN单元后，我们以0.5的概率随机剔除特征，以避免过拟合。将第4和第7时序卷积层的步长设为2为池化层。然后对得到的张量进行全局池化，得到每个序列的256维特征向量。最后，我们将它们提供给SoftMax分类器。模型采用随机梯度下降法，学习率为0.01。我们每隔10个epoch将学习速率衰减0.1。为了避免过拟合，在对动力学数据集进行训练时，我们进行了两种增强来替换dropout层(Kay et al. 2017)。首先，为了模拟摄像机的运动，我们对所有帧的骨架序列进行随机仿射变换。具体地说，从第一帧到最后一帧，我们选择几个固定角度、平移和缩放因子作为候选因子，然后随机抽样三个因子的两个组合来生成一个仿射变换。这个转换是插值为中间帧产生的效果，如果我们平稳地移动的观点在回放。我们称之为随机移动。其次，我们在训练时从原始骨骼序列中随机抽取片段，并使用所有帧进行测试。网络顶部的全局池化使网络能够处理不确定长度的输入序列。

实验
在本节中，我们评估ST-GCN在基于骨架的动作识别实验中的性能。我们在两个属性迥异的大型动作识别数据集上进行验:Kinetics human action dataset (Kinetics) (Kay et al. 2017)是迄今为止最大的无约束动作识别数据集，而NTURGB+D 区分动作识别数据集。特别是，我们首先对动力学数据集进行详细的消融研究，以检查所提出的模型组件对识别性能的贡献。然后将ST-GCN的识别结果与其他先进的方法和其他输入模式进行比较。为了验证我们在无约束设置中获得的经验是否具有普遍性，我们在NTURGB+D上试验约束设置，并将ST-GCN与其他最先进的方法进行比较。所有实验均在PyTorch深度学习框架上进行，使用8台TITANX gpu。

数据集和评价指标：

动力学。Deepmind Kinetics human action dataset (Kay et al. 2017)包含了从YouTube上检索到的大约30万个视频剪辑。这些视频涵盖了多达400个人体动作类课程，从日常活动、体育场景到复杂的互动动作。动力学的每个片段持续约10秒，动力学数据集只提供原始视频剪辑没有骨架数据。在这项工作中，我们专注于基于骨骼的动作识别，因此我们使用估计的关节位置在像素坐标系中作为我们的输入，而放弃原始的RGB帧。为了得到关节位置，我们首先将所有视频的分辨率调整为340×256，并将帧率转换为30 FPS。然后我们利用公共资源OpenPose (Cao等，2017b)工具箱，用于估计每一帧剪辑上18个关节的位置。工具箱给
18个人体关节的像素坐标系二维坐标(X, Y)和置信评分C。因此，我们用元组(X, Y, C)来表示每个关节，并且一个骨架框架被记录为一个包含18个元组的数组。对于多人的情况，我们在每个clip中选择平均联合置信度最高的2个人。这样，一个带有T帧的剪辑被转换为这些元组的骨架序列。在实践中，我们用(3,t, 18,2)维的张量来表示卡箍。为了简单起见，我们通过从一开始就重放序列来填充每个剪辑，使T = 300。我们将在动力学上发布估计的关节位置来重现结果。我们根据数据集作者(Kay et al. 2017)推荐的top-1和top-5分类准确率来评估识别性能。数据集提供了240,000个片段的训练集和20,000个片段的验证集。我们在训练集上训练比较模型，并报告验证集的准确性。

NTU-RGB+D: NTU-RGB+D (Shahroudy et al. 2016)是目前最大的具有3D关节标注的用于人类动作识别任务的数据集。这个数据集包含60个动作类中的56000个动作剪辑。这些片段都是由40名志愿者在受限的实验室环境中拍摄的，同时记录三个摄像头的视图。所提供的注释给出了Kinect深度传感器检测到的摄像机坐标系中的3D关节位置(X, Y, Z)。在骨骼序列中，每个受试者有25个关节。每个剪辑保证有最多2个科目。

这个数据集的作者推荐了两个基准:1)交叉学科(X-Sub)基准为40,320和

表1:动力学数据集的消融研究。“STGCN +小鬼。是用来与其他先进的方法进行比较的。有关各设置的含义，请参阅
Sec.4.2。

16,560个剪辑用于训练和评估。在这种设置中，训练剪辑来自于一个演员子集，模型根据来自其余演员的剪辑进行评估;2) crossview(X-View)基准37,920和18,960剪辑。训练剪辑在这个设置来自摄像头视图2和3、评价剪辑均来自摄像头视图1。
我们遵循这个惯例，并报告了在两个基准测试中排名第一的识别精度。

烧蚀研究
在本节中，我们通过在动力学数据集上的动作识别实验来检验ST-GCN中提出的组件的有效性(Kay et al. 2017)。

时空图卷积。首先，我们评估了使用时空图卷积运算的必要性。我们使用一个基线网络架构(Kim和(Reiter 2017)，其中所有的时空卷积都被仅仅的时间卷积所代替。也就是说，我们将所有输入的关节位置连接起来，形成每个t帧的输入特征。然后，时域卷积将对这个输入进行运算，并对时间进行卷积。我们称这个模型为“基线TCN”。这类识别模型在约束数据集上表现良好，如NTU-RGB+D (Kim and Reiter 2017)。从表1可以看出，采用时空图卷积的模型，通过合理的划分策略，在上的表现始终优于基线模型
动力学。实际上，这个时间卷积等价于在全连通关节图上具有未共享权值的空间时间图的卷积。所以基线模型和ST-GCN模型的主要区别在于卷积操作中的稀疏自然连接和共享权值。此外，我们评估了基线模型和ST-GCN之间的中间模型，称为“局部卷积”。在该模型中，我们使用稀疏联合图作为ST-GCN，但是使用非共享权重的卷积滤波器。我们认为，基于ST-GCN模型的较好性能可以证明时空图卷积在基于骨架的动作识别中的能力。

在本研究中，我们提出了三种划分策略:1)单标记;2)距离分区;3)空间配置划分。我们评估使用这些分区策略的ST-GCN的性能。
结果如表1所示。我们观察到，使用多个子集进行划分通常比单标记要好得多。这与单标记的明显问题是一致的，它等价于简单地在卷积操作之前平均特征。鉴于这一观察结果，我们在距离划分和单标记之间进行实验，称为“距离划分*”。在这个设置中，我们仅将距离划分中的两个子集的权重绑定为不同，乘以一个比例因子- 1，或者说w0 = - w1。此设置仍然比单标记获得更好的性能，这再次证明了使用多个子集进行分区的重要性。在多子集分区策略中，空间配置分区的性能更好。这证实了我们设计这个策略的动机，它考虑了同心和偏心运动模式。基于这些观察，我们在接下来的实验中使用了空间配置划分策略。

可学习的边重要性加权。ST-GCN的另一个组成部分是可学习的边重要性加权。我们尝试在带有空间配置分区的STGCN模型上添加这个组件。这被称为“ST-GCN+Imp”。”，见表1。考虑到高性能的香草ST-GCN，该组件仍然能够将识别性能提高1%以上。回想一下，这个组件是由关节启发的。在不同的地方有不同的重要性。实验证明，ST-GCN模型可以学习表达联合重要性，提高识别性能。根据这一观察，与其他最先进的模型相比，我们总是将此组件与STGCN一起使用。

与艺术现状的比较
为了验证ST-GCN在无约束和有约束环境下的性能，我们分别对动力学数据集(Kay et al. 2017)和NTURGB+D数据集(Shahroudy et al. 2016)进行了实验。

动力学。在动力学方面，我们比较了三种基于骨骼的特征识别方法。第一种是手工特征的特征编码方法(Fernando et al. 2015)，在表2中称为“特征编码”。我们还实现了两种基于动力学的深度学习方法，即deep LSTM (Shahroudy et al. 2016)和Temporal ConvNet (Kim and Reiter 2017)。我们比较了这些方法在前1和前5的准确率方面的识别性能。在表2中，ST-GCN能够超过以前的代表性方法。为供参考，我们列出我们比较了这些方法在前1和前5的准确率方面的识别性能。在表2中，ST-GCN能够超过以前的代表性方法。为了参考，我们列出了使用RGB帧和光流进行识别的性能，如Kay等。2017)。NTU-RGB + D。NTU-RGB+D数据集是在一个约束环境中捕获的，这允许需要很好稳定的骨架序列才能正常工作的方法。我们还可以将我们的ST-GCN模型与此数据集上最先进的方法进行比较。由于该数据集的约束性质，我们在训练ST-GCN模型时不使用任何数据增强。我们遵循文献中的标准做法，就top1分类精度报告交叉学科(X-Sub)和交叉视图(X-View)识别性能。比较的方法包括李群分层RNN (Du, Wang, and Wang 2015)， Deep LSTM (Shahroudy et al. 2016)， Part-Aware LSTM (pam -LSTM) (Shahroudy et al. 2016)，带有信任门的时空LSTM (STLSTM+TS) (Liu et al. 2016)， Temporal Convolutional Neural Networks (Temporal Conv.) (Kim and Reiter 2017)，以及CNN+多任务学习(C-CNN+MTLN) (Ke et al. 2017)。我们的ST-GCN模型，具有相当简单的架构，不像(Kim和Reiter)中使用的那样增加数据2017;Ke等人，2017年)，能够在此数据集上超越以往的先进方法。

表2:动力学数据集上基于骨架模型的动作识别性能。在表格的顶部，我们列出了基于框架的方法的性能。

表3:基于骨架的动作识别性能NTU-RGB + D数据集。我们报告了交叉主体(X-Sub)和交叉视图(X-View)基准测试的准确性。

讨论。实验中的两个数据集具有非常不同的性质。动力学上输入为深度神经网络检测的二维骨架(Cao et al. 2017a)，而NTU-RGB+D输入为Kinect深度传感器。在NTU-RGB+D的摄像机是固定的，而动力学上的视频通常是手持设备拍摄的，导致摄像机运动较大。ST-GCN在两个数据集上都能很好地工作，证明了所提出的时空图卷积运算和所建立的ST-GCN模型的有效性。我们还注意到，在动力学上，基于骨架的方法的精度不如基于视频帧的模型(Kay et al. 2017)。我们认为这是由于大量的动理学课程要求识别演员与之互动的物体和场景。为了验证这一点，我们选择了30个与身体运动密切相关的类子集，命名为“Kinetics-Motion”，并列出了基于骨架和框架的模型的平均类精度(Kay等。在表4的这个子集上。我们可以看到，在这个子集上，性能差距要小得多。我们还探讨了在双流动作识别中使用ST-GCN捕捉动作信息的方法。如图5所示，我们基于骨架的模型ST-GCN也可以为RGB和光流模型提供互补信息。我们从抓痕开始对TSN (Wang et al. 2016)标准车型进行培训RGB和光流模型的动力学。将STGCN添加到RGB模型中会带来0.9%的增长，甚至比光流(0.8%)还要好。结合RGB、光流和ST-GCN进一步将性能提升到71.7%。这些结果清楚地表明，骨架可以提供补充信息时，有效利用(例如使用ST-GCN)。

表4:动力学数据集的“动力学运动”子集的平均类精确度。这个子集包含动力学中30个动作类，这些动作类与身体运动密切相关。

表5:Kinects数据集上的类精确度ImageNet pretraining。尽管我们的骨架模型ST-GCN不能达到目前基于RGB和光流模型的精度，它能提供比基于光流模型更强的互补信息。

结论
本文提出了一种新的基于骨架的动作识别模型——空间时间图卷积网络。该模型在骨架序列上构造了一组时空图形卷积。在两个具有挑战性的大规模数据集上，提出的ST-GCN优于以前的最先进的基于骨架的模型。此外，ST-GCN还可以捕获动态骨架序列中的运动信息，与之互补RGB模式。骨架模型和框架模型的结合进一步提高了动作识别的性能。ST-GCN模型的灵活性也为未来的工作开辟了许多可能的方向。例如，如何将场景、对象和交互等上下文信息合并到ST-GCN中成为一个自然的问题。

论文翻译：Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

猜你喜欢