论文翻译：Skeleton-Based Action Recognition with Directed Graph Neural Networks

骨架数据由于能够较好地适应动态环境和复杂背景，在动作识别任务中得到了广泛的应用。在现有的方法中，骨骼数据中的关节和骨骼信息都被证明对动作识别任务有很大的帮助。然而，如何将这两种类型的数据结合在一起，最大限度地利用关节和骨骼之间的关系，仍然是一个有待解决的问题。在这项工作中，我们将骨骼数据表示为基于关节和骨骼之间的运动学依赖i的有向无环图(DAG)设计了一种新型有向图神经网络，用于提取关节、骨骼及其关系信息，并根据提取的特征进行预测。此外，为了更好地拟合动作识别任务，根据训练过程对图的拓扑结构进行自适应，改进明显。利用骨架序列的运动信息与空间信息相结合，进一步提高了双流框架的性能。我们最终的模型在两个大数据集上进行了测试，即NTU-RGBD和Skeleton-Kinetics，并且在这两个数据集上都超过了最先进的性能。

动作识别在视频监控和人机交互中起着至关重要的作用，它已被广泛研究，但尚未得到充分解决。与传统的使用RGB图像或视频进行识别的方法相比，基于骨架的动作识别由于其对身体尺度变化、运动速度、摄像机视点和背景干扰的鲁棒性，越来越受到人们的关注。骨骼数据表示人体为一个人体主要关节的坐标序列，深度传感器(如动力学)或位姿估计算法可以很容易地捕捉到[4,10]。传统的基于骨架的动作识别方法主要集中在设计手工特征来代表骨骼[30,8]。随着深度学习方法的发展，数据驱动方法已成为主流在基于深度学习的方法中，最广泛使用的模型是递归神经网络(RNNs)、卷积神经网络(CNNs)和图卷积网络(GCNs)，其中关节坐标分别表示为向量序列、伪图像和图。近年来，骨骼信息作为代表骨骼方向和长度的信息，被证明是基于骨骼的动作识别的一种良好模式[26,18]。这个信息是直观的，因为人类很自然地根据人体骨骼的方向和位置来评估行动，而不是根据关节的位置。此外，已经证明关节和骨骼信息是互补的，结合它们可以进一步提高识别性能。在人体中，关节和骨头是紧密耦合的，每个关节(骨头)的位置实际上是由它们相连的骨头(关节)决定的。例如，肘关节的位置取决于上臂骨的位置，上臂骨的位置同时也决定了前臂骨的位置。现有的基于图形的方法通常将骨骼表示为无向图，用两个独立的网络对骨骼和关节进行建模，不能充分利用关节和骨骼之间的依赖性。为了解决这个问题，我们将骨架表示为一个有向无环图，以关节为顶点，骨为边，其中关节和骨之间的依赖关系可以很容易地通过图的有向边建模。此外，设计了一种新的有向图神经网络(DGNN)来建模所构造的有向图，该有向图神经网络可以传播有向图信息并在每一层更新它们的相关信息。最终提取的特征不仅包含关节和骨骼的信息，还包含关节和骨骼的依赖关系，有利于动作识别。

另一个问题是原始的骨骼是根据人体的结构手工设计的，对于动作识别任务可能不是最优的。例如，双手在拍手、拥抱等动作类中有很强的依赖关系，但在基于人体结构构建的图形中不存在这种联系。我们通过应用自适应图而不是受启发的固定图来解决这个问题[26]，即在学习过程中对图的拓扑进行了参数化和优化。由于学习图中没有约束，[26]中描述的方法增加了一个固定的手动设置的图来稳定训练过程，同时在一定程度上失去了灵活性。在这项工作中，我们提出了一种简单而有效的方法，既保证了训练过程的稳定性，又避免了灵活性的丧失，带来了显著的提高。

基于双流的架构是一种广泛应用于rgb动作识别的方法，通过提取视频的光流场来建模帧间的时间依赖性[27,31]。这种方法是有效的，因为有些类强烈地依赖于动作的顺序信息，比如“向左挥手”和“向右挥手”。受此方法的启发，我们从关节和骨骼中提取运动信息，以帮助识别。提出了一种融合空间流和运动流结果的双流框架来进一步提高性能。

最后的模型是在两个大数据集上评估基于骨架的动作识别任务。， NTURGBD和骨骼动力学，并超过了最先进的性能在两者。我们的主要贡献包括:(1)据我们所知，这是第一个将骨骼数据表示为有向无环图来建模关节和骨骼之间的依赖关系的工作。设计了一种新的有向图神经网络来提取这些依赖关系，并用于最终的动作识别任务。(2)采用自适应学习的图结构，在训练过程中与模型参数联合训练和更新，以更好地适应动作识别任务。(3)提取连续帧之间的运动信息，进行时态信息建模。空间和运动信息都被输入一个两流的框架，以完成最终的识别任务。(4)在基于骨架的动作识别的两个大规模数据集上，我们的模型大大超过了目前最先进的性能。

相关工作
2.1。Skeleton-based行动识别
传统的基于骨架的动作识别方法通常使用手工制作的特征来代表人体，这在设计过程中存在挑战，导致性能不理想[30,8]。近年来，深孔法已被证明比传统方法优越。基于深度学习的方法主要有三种框架:基于序列的方法、基于图像的方法和基于图形的方法。

基于序列的方法根据设计的遍历策略将骨架数据表示为关节序列，然后使用基于rn的架构对其建模[25,20,28,37,18,3]。另一个框架涉及到基于图像的方法，将骨架数据表示为伪图像，实现在图像分类领域成功应用的cnn[6, 14, 21, 16]。基于图形的方法不是将骨骼数据表示为序列或伪图像，而是将数据建模为以关节为顶点、以骨骼为边的图形[34,29,26]。与基于序列的方法和基于图像的方法相比，基于图形的方法更直观，因为人体是自然地组织成一个图形，而不是序列或图像。

图网络
图是一种比图像和序列更通用的数据结构，传统的深度学习模块如CNNs和RNNs不能直接对图进行建模。直接在图上操作和解决基于图的问题的方法已经被广泛地探索了几年[15,9,33,24,1,11,2]。例如，Kipf等人[15]提出了一种无监督的神经关系推理模型，它可以从物理模拟的观察数据中推断交互并学习动态。Gilmer等[9]提出了一种消息传递网络来解决化学预测问题，该网络可以直接从分子图中提取特征，并且对图的同构不变性。Wang et al.[33]将视频表示为时空区域图，对人与物体之间的时间动态和关系进行建模，从而可以用来理解人的行为。

方法
通常，原始骨架数据是一系列帧，每个帧包含一组关节坐标。给定一个骨骼序列，首先根据关节的二维或三维坐标提取骨骼信息。然后将每一帧中的关节和骨骼(空间信息)表示为有向无环图内的顶点和边缘，并将其送入有向图神经网络(DGNN)中提取特征进行动作识别。最后，利用与空间信息相同的图形结构提取运动信息，并与空间信息在两流框架中结合，进一步提高性能。

骨吸收：

之前的研究已经表明了将关节信息和骨骼信息结合在一起对于基于骨骼的动作识别的重要性[26,18]。骨头用两个连接的关节之间的坐标差来表示。以三维骨架数据为例，将原始数据中的关节表示为一个包含三个元素的向量，即。它的x坐标，y坐标，z坐标。给定两个关节v1 = (x1, y1, z1)和v2 = (x2, y2, z2)，将v1到v2连接的骨表示为两个关节向量的差，即(x1 - x2, y1 - y2, z1 - z2)。

图施工
传统的方法通常将骨架数据建模为一个向量序列或拟像，以供RNNs或CNNs处理。然而，这些表示忽略了关节和骨骼之间的运动学相关性。在人体解析中，骨骼数据通常根据人体的物理结构建模为基于树的图形结构[39,35]。在这项工作中，我们将骨骼数据表示为一个有向无环图(DAG)，以关节为顶点，骨为边。每条边的方向由顶点和根顶点之间的距离决定，其中离根顶点较近的顶点与离根顶点较远的顶点相交。这里，根顶点被定义为骨架的重心。图1显示了一个骨架及其对应的有向图表示的示例，其中顶点1是根顶点。这种表现是直观的，因为人体自然是一个铰接的系统。远离人体中心的关节在物理上总是由靠近中心的相邻关节控制。例如，腕关节的位置是由肘关节的位置和前臂的形状决定的。通过这种方式，我们将前臂表示为从肘部指向手腕的有方向的边缘。形式上，对于每个顶点vi，我们将朝向它的边定义为进入的边e- i和从它发射出的边e+我。类似地，对于有向边ej，我们定义它是一个来自源顶点vsj的向量如果vi是ej的目标(源)顶点，那么ej就是vi的进(出)边，反之亦然。例如，如图2 (a)所示，v1和v2分别是e1的源顶点和目标顶点。e1是v2进来的边。e2和e3是v2向外的边。注意，每条边只有一个源顶点和一个目标顶点。对于一个顶点，如何但是，它的输入边和输出边的数量是不同的。我们使用E- i和E+ i表示顶点vi的输入边集和输出边集,分别。这样，基于骨架的框架可以表示为一个有向图G = (V, E)，其中V是顶点(关节)的集合，E是有向边(骨)的集合。基于skeletbased的视频是一个帧序列，可以表示为S = {G1, G2，···，GT}，其中T表示视频的长度。

图1所示。说明了骨架数据的图形构造。蓝色圆圈表示根顶点。

有向图神经网络
既然我们已经将骨骼数据表示为有向图，那么现在的问题就是如何提取图中包含的信息进行动作分类，特别是如何利用图中关节和骨骼之间的依赖关系。在此工作中，我们提出一个有向图神经网络(DGNN)来解决这个问题。该网络包含多个层，每个层都有一个包含顶点和边属性的图，并输出相同的图，更新属性。这里，属性表示被编码为向量的顶点和边的属性。在每一层中，顶点和边的属性根据其相邻的边和顶点进行更新。在底层，每个顶点或边只能从其相邻的边或顶点接收属性。这些层中的模型在更新属性时提取顶点和边缘的局部信息。例如，模型可以提取一个关节的角度信息，而这个关节只需要一个关节及其相连的两个骨头的信息。在在最顶层，来自彼此距离较远的关节和骨骼的信息可以聚集在一起。因此，所提取的信息对于识别任务更具有全局性和语义性。这个概念类似于卷积神经网络的原理，即卷积神经网络。、层次表示和局部性。与CNNs不同的是DGNN是专为有向无环图，可以建模基于树的骨架数据结构。该设计也类似于以往基于骨架的动作识别中的“身体部位”概念，目的是限制关节建模在人体局部部位[6,25,16]。但是，我们的方法不需要手工设计分割策略，取得了比这些方法更好的性能。

有向图网络块：

有向图网络(DGN)块是有向图神经网络的基本块;它包含两个更新函数，h v和h e和两个聚合函数g e-和g e+。更新函数根据顶点和顶点之间的连接边和顶点来更新顶点和边的属性。聚合函数用于聚合连接到一个顶点的多个传入(传出)边中包含的属性。这是因为连接到每个顶点的传入(传出)边的数量是变化的，而参数的数量是固定的。因为这些边没有明显的顺序，所以聚合函数应该对其输入的排列是不变的，并且可以接受可变数量的参数，例如平均池化、最大池化和元素级的求和。这一过程的正式表述如下:

其中[·]表示连接操作。v′e'分别为v和e的更新版本。这个过程包括四个步骤:

1. 对于每个顶点vi，所有指向它的边都由传入聚合函数ge处理−，它返回聚合的结果e¯−我。
2. 与步骤1类似，vi发出的所有边都由外出聚合函数ge处理+，它返回聚合的结果e¯+我。
3.6e¯i和e¯+ i被连接到vertexupdate函数h v中，返回v' i为vi的更新版本。
4. 对于每条边ej，其源顶点、目标顶点和自身都由边更新函数he进行连接和处理。函数返回e

该过程还可以总结为顶点更新过程和边更新过程，见图2所示。通过大量的实验，我们选择平均池作为输入边和输出边的聚合函数，选择单一全连接层作为更新函数。

图2。(a)为原始图。(b)显示了顶点更新的过程，其中顶点本身的属性(v2)和它进来的边(e1)和出去的边(e2和e3)的属性结合起来得到一个更新的顶点(v2)′)。(c)显示了边的更新过程，其中边本身的属性e1和它的源顶点的属性v1′)和目标顶点(v2′)组合得到一条更新的边(e1′)。蓝色的圆圈表示正在更新的边(或顶点)。橙色的圆圈和红色的圆圈分别代表更新中涉及的源顶点(或进来的边)和目标顶点(或出去的边)。

DGN块的实现
在实现DGN块时，顶点的输入数据实际上形成了一个C×T×Nv张量fv，其中C为通道数，T为帧数。Nv表示骨架中的顶点数图。同样，边的数据形成a C×T×Ne张量fe，其中Ne为图中边的数量。用这种形式的输入数据来实现DGN块是不令人满意的。根据上一节，实现DGN块的关键是找到每个顶点(即顶点)的输入边和输出边。E- i和E+我)，并找到每条边的源顶点和目标顶点(即v s j和v t j)。为此，我们使用图的关联矩阵。给定具有Nv顶点和的有向图A的关联矩阵为一个Nv×Ne矩阵，其元素(Aij, i = 1，···，Nv;j = 1，···，Ne)表示对应顶点(vj)与边(ei)的关系。其中，如果vi是ej的源顶点，则Aij =−1。如果vi是ej的目标顶点，则Aij = 1。如果vi和ej没有连接，则Aij = 0。为分离源顶点和目标顶点，我们用As表示源顶点的关联矩阵，它只包含元素的绝对值A小于0。类似地，我们将At定义为目标顶点的关联矩阵，它只包含A中大于0的元素。如式2所示为关联矩阵及其对应的As和At表示图1 (a)所示的曲线图：

在⊺表示矩阵的转置操作。给定一个输入张量和关联矩阵，我们现在可以过滤所需的边和顶点，并通过矩阵乘法执行聚合函数。例如，已知fv和As首先将fv重塑为CT×Nv矩阵;然后，将fv与As相乘得到CT×Ne张量。根据矩阵乘法的定义，这个张量的每个元素都对应于对应边的源顶点的总和。注意，在这项工作中使用的聚合函数是平均池操作，关联矩阵需要标准化。在细节中,我们定义一个˜= AΛ−1的归一化版本,Λ是一个对角矩阵Λii =P j Aij +ǫ。ǫ少量避免除零。通过这些修改，将式1转化为：

式中，H为单层全连通层，即:Eq. 1中的更新函数。与传统的卷积层类似，我们在每个DGN块之后增加了BN层和ReLU层。

自适应DGN块
根据人体的自然结构手工设计DGN块的输入图形。我们认为这种配置可能不适合动作识别任务。例如，左手和右手之间没有联系;然而，对于许多动作，如拍手和拥抱，两只手之间的关系是重要的识别。为了使图的构造更加灵活，传统的方法是在训练过程中通过学习图结构的拓扑结构来构造自适应的图。例如，Yan等[34]在原始邻接矩阵上应用一个注意图，对不同的边赋予不同的重要程度。如果我们用Ao表示原始邻接矩阵，新的邻接矩阵A按A = P Ao计算，其中P的元素被初始化为1，并在训练过程中进行更新。但是乘法运算不能改变原来邻接矩阵中为0的元素，这意味着这种方法只能改变现有边的重要性，不能增加新的边，例如两只手之间的边。与ST-GCN不同，Shi等[26]直接设置邻接作为网络的参数。为了稳定训练过程，他们设置A = Ao + P，其中P与Ao大小相同，初始化为0。这样，在学习过程中，如果需要，可以通过参数P添加新的边。然而，由于Ao是不可修改的，我们不能删除我们不想要的边缘，这也降低了模型的灵活性。但是，如果去掉Ao，直接不受限制地学习图结构会降低性能。

在本工作中，我们发现[26]中有无Ao情况的区别主要在于训练过程的开始(注意这里的A表示关联矩阵，而不是之前工作中的邻接矩阵)。这个结果是直观的，因为在训练过程的开始有更多的不确定性;因此，该模型具有较少的约束条件和大量的参数，易于收敛到局部最优。添加一个图表固定拓扑相当于基于人体先验知识对模型进行正则化，使模型收敛到全局最优。基于此，我们提出了一个简单有效的策略来解决这一问题。我们直接将A设置为模型的参数，但将其固定在前几个训练时期。早期确定图的结构可以简化训练，后期解除确定可以为图的构造提供更大的灵活性。

时间信息建模
通常，一个动作被记录为一系列基于骨架的帧。以上介绍的DGN块只能处理单帧的空间信息;因此，我们现在推进到任务建模的时间内的骨骼序列。伪3d CNN[23]在基于rgb的动作识别领域显示出了其优势，它可以对空间信息进行建模然后用一维卷积对时间信息建模。通过对时空维度的解耦，伪三维CNN可以对其进行建模以更经济、更有效的方式提供时空信息。受此启发，在更新了每个DGN块的关节和骨骼的空间信息后，我们采用沿时间维的一维卷积来建模时间信息。这很容易实现，因为在所有的框架中相同的关节或骨骼可以自然地组织为一维序列。

与DGN块类似，每个1D卷积层后面跟着BN层和ReLU层，形成一个时间卷积块(TCN)。有向图神经网络(DGNN)的总体结构为9个单元，每个单元包含一个DGN块和一个DGN块TCN块。该单元的输出通道为64年、64年、64128128128256256年和256年。最后添加一个全局平均存储层和一个sof tmax层，用于类预测。

二束框架
有些动作，比如“站起来”和“坐着”，很难从空间信息中辨认出来。传统的基于rgb的动作识别方法通常使用光流场描述视频的运动信息[27,31,5]，计算连续帧之间的像素运动信息。受到这些方法的启发，我们在这项工作中提取了关节的运动和骨骼的变形来帮助识别。由于骨架数据用关节坐标表示，关节的运动很容易计算为沿时间维度的坐标差。同样，骨骼的变形用连续帧中同一骨骼的向量的差来表示。形式上，关节v在t时刻的运动计算为mvt = vt+1−vt，骨骼变形的定义类似于met = et+1−et。与空间信息建模一样，运动信息被表述为一系列有向无环图S m = {Gm1克米2，···，G mT，其中G m = (V m, E m)， V m ={mvj}j=0，···，Nv和E m = {mei}i=0，···，Ne。然后将运动图输入另一个DGNN，对动作标签进行预测。最后通过将sof tmax层的输出分数相加，将两个网络融合。

实验
为了验证我们的方法，我们在两个骨架动作识别数据集上进行了广泛的实验:NTU-RGBD[25]和骨架动力学[34]。这两种数据集都被广泛应用于基于骨架的动作识别。我们对NTU-RGBD数据集进行了烧蚀研究，以验证所提议的模型组件的有效性，因为它比骨骼动力学小。最后，在NTU-RGBD数据集和骨架动力学数据集上评估了该模型，并与最新的方法进行了比较。

NTU-RGBD: NTU-RGBD是目前使用最广泛的基于骨架的动作识别数据集;它包含56000个视频，每个视频都包含一个动作。总共有60个类，包括单人动作，如饮水，和双人动作，如踢人。数据集包含4种不同的数据模式:RGB视频、深度地图序列、3D骨架数据和红外视频。这里，我们只使用骨架数据。这些数据由Microsoft Kinect V2 at捕获30 fps。这些动作是由40名年龄在10岁到35岁之间的志愿者完成的。有三个摄像头的每一个动作，设置在相同的高度，但从不同的水平角度:−45◦,0◦,45◦。如图3所示，摄像机可以提供25个关节的三维位置。我们遵循描述数据集的原始论文[25]的惯例，其中推荐了两个基准:1).交叉学科(Crosssubject, CS):训练集和验证集中的人员是不同的。训练集包含40320个视频，验证集包含16560个视频。2)。Cross-view(简历):在训练集和验证集中使用的摄像机的水平角度是不同的。训练集(0◦,45◦)

包含37,920个视频，和验证集(−45◦)内载18,960部影片。在两个基准上都报告了最高1的准确性。骨骼动力学:Deepmind Kinetics公司最初的人类动作数据[12]不包含骨骼数据，而是包含了从YouTube上检索到的大约300,000个视频剪辑。有400个人类动作类，每个动作至少有400个视频剪辑。每个片段大约持续10秒。行动范围很广关注人类行为的类。中的骨架数据使用OpenPose[4]工具箱提取骨架动力学[34]。所有视频的分辨率为340×256，并转换为30帧/秒的帧速率。Openpose工具箱可以为每个人预测18个关节，如图3所示。工具箱提供了预测关节在图像坐标系中的二维坐标(X, Y)及其对应的置信评分C. Yan等人，[34]用元组(X，Y, C);我们采用这种方法来进行结果的比较。如果超过两个人，自信心较低的人被忽略。释放的数据垫每剪辑到300帧。以Top-1和Top-5的识别准确率作为推荐。将数据集分为训练集和验证集，分别包含240000个剪辑和20000个剪辑。

培训细节
所有的模型都是在相同的批大小下训练的学习进度(SGD，初始学习率为0.1，在epoch 60和90中减少了10)和训练epoch(120)与Pytorch[22]框架。此外，我们还对NTU-RGBD数据集执行了一些预处理。Kinect的身体追踪器更容易检测到2个以上的身体，其中一些是物体。来过滤错误的身体，我们首先定义每个身体的能量为骨骼的标准偏差的总和，通过每个通道。然后我们在每个样本中根据他们的身体能量选择两个身体。随后，对每个样本进行规范化，并将其转换为中心透视图，这与之前使用的[25]方法相同。

。烧蚀研究
在本节中，我们将检查所提议的有效性DGN块，自适应图策略和两流框架。以识别精度作为评价指标。
4.3.1 DGN块
首先，我们评估应用DGN块结合骨信息和关节信息的必要性。表1显示了结果。我们使用ST-GCN[34]作为基线方法。由于学习率计划的调整通过uler和数据预处理，我们得到了更高的识别准确率(92.7%)，高于原始论文的结果(88.7%)。2s-ST-GCN表示关节信息和骨骼信息分别用两个ST-GCNs建模，并通过添加sof tmax层的预测分数来融合。与仅使用关节信息相比，该方法获得了更好的性能，说明了使用骨信息的重要性。我们也测试添加全连接层或基于池的方法来融合sof tmax得分，其精度与直接添加相似。1s-ST-GCN表示沿着通道维将关节信息和骨信息拼接并送入STGCN, STGCN每层的通道数是原始通道数的两倍。性能优于使用2s-ST-GCN，可能是由于连接引起的两种形式的信息的深度融合。然后在相同的条件下对DGNN模型进行了测试。自将ST-GCN中的图结构与掩码相乘，也固定了DGNN的图结构，并使用掩码与关联矩阵相乘，以达到公平比较的目的。得到的模型称为蒙面DGNN。最后的结果表明，掩蔽的DGNN模型比1s-ST-GCN具有更好的性能。验证了该融合策略的优越性，充分利用了骨骼的图结构和关节与骨骼之间的依赖关系。

自适应DGN块
(1)与ST-GCN相似，我们用掩模P乘以原始关联矩阵a，将其设置为模型参数并初始化为1(标记为P a在表2中);

(2)我们将P设置为剩余连接，初始化为0并添加到A(标记为P + A);

(3)直接设置关联矩阵为参数P，初始化参数为A(标记为P0);

(4)与(3)相似，将关联矩阵设置为模型的参数，用A初始化，但固定在前10个epoch(标记为P10)。我们也测试了没有自适应图策略(标记为A)的性能，表2显示了结果;P10策略可以提供最好的性能。这支持了我们在3.3.3节中描述的设计策略。

二束框架
为了测试使用运动信息的必要性，我们比较了在NTU-RGBD数据集中分别使用空间信息和运动信息和融合两种流的性能
骨架动力学数据集如表3所示。我们发现空间信息和运动信息的融合在所有基准测试中都提高了性能，验证了该方法的优越性。

表3。比较空间信息、运动信息和两种模式融合的识别准确率(%)。SK为骨骼动力学数据集;t1和t5分别表示精度top-1和top-5。

与先进方法的比较
为了显示我们的方法的优越性和普遍性，模型与最新的方法使用NTU-RGBD数据集和骨架动力学数据集比较。我们将这些方法分为四类，分别是基于handcraftfeature的方法、基于rnnn的方法、基于cnn的方法和基于gcn的方法，并在结果表中用水平线对它们进行了分割。使用NTU-RGBD数据集，在跨视图(CV)和跨sub (CS)基准测试我们的模型，使用NTU-RGBD数据集，在跨视图(CV)和跨sub (CS)基准测试我们的模型，如表4所示。基于深度学习的方法的性能通常优于基于手工特征的方法基于cnn的方法通常优于基于rnn的方法。该模型的性能明显优于上述方法，验证了该模型在基于骨架的动作识别中的优越性。

由于从YouTube上收集的视频的多样性，骨骼动力学数据集比NTU-RGBD数据集更大，更具挑战性。我们在表5中报告了top-1和top-5的识别准确率。结果与在NTU-RGBD上的实验相同，其中我们的模型表现出最好的性能。这些结果证实了我们的模型对大规模数据集的通用性。

结论
在这项工作中，我们将关节和骨骼信息表示为一个有向无环图，并设计了一个自定义的新型有向图神经网络(DGNN)来基于所构建的图预测动作。此外，我们使图结构自适应，以更好地适应多层架构和识别任务。进一步提取连续帧间的运动信息来建模骨架序列的时间信息，并将空间信息和运动信息融合到双流框架中。最终的模型在NTURGBD和骨架动力学两个大型数据集上的性能超过了目前的水平。未来的工作可能集中在如何一起利用骨架数据和RGB数据。此外，本文还对如何在统一架构下将姿态估计问题与基于骨架的动作识别结合起来进行了探讨。

论文翻译：Skeleton-Based Action Recognition with Directed Graph Neural Networks

猜你喜欢