论文翻译：Make Skeleton-based Action Recognition Model Smaller, Faster and Better

摘要:虽然基于骨架的动作识别方法近年来取得了很大的成功，但现有的方法大多存在模型规模大、执行速度慢的问题。
为了解决这一问题，我们通过分析骨架序列的特性，提出了一种基于骨架的动作识别的双特征双运动网络。通过使用一个轻量级的网络结构(例如。DD-Net可以达到超快的速度，在一个GPU上可以达到3500帧/秒，在一个CPU上可以达到2000帧/秒。利用鲁棒特性，DD-Net实现了最先进的性能

我的介绍。
基于骨架的动作识别在多媒体应用中得到了广泛的应用，如人机交互[1]、人类行为理解[2]和医学辅助应用[3]。然而，现有的大多数方法都存在模型规模大，执行速度慢的问题[4]，[5]，[6]，[7]，[8]。

在实际应用中，一个理想的基于骨架的动作识别模型应该通过使用一些参数有效地运行，并且也能适应各种应用场景(例如，手/身体，2D/3D骨架，以及与全局轨迹相关或不相关的动作)。为了实现这一目标，我们研究了骨架序列的属性，提出了一个轻量级的双特征双运动网络(DDNet)，它配备了一个联合收集距离(JCD)特征和双尺度全局运动特征。更具体地说，我们对四种骨架序列性质进行了研究。

相比之下，我们通过简化输入特性和网络结构来解决这些挑战。我们的JCD特征包含了骨架序列的位置-视点不变信息。与其它类似特征相比，它计算简单，包含的元素较少。由于全局运动不能纳入位置视点不变特征，我们引入了两尺度的全局运动特征来提高DD-Net的泛化。此外，该算法的双尺度结构使其对运动尺度方差具有较强的鲁棒性。通过嵌入过程，DD-Net可以实现。自动学习关节的相关性，这是很难用关节指标预定义的。与依赖复杂模型结构的方法相比，DD-Net提供了更高的动作识别精度，并在我们的经验数据集上证明了它的泛化性。DD-Net在计算复杂度和参数数目方面的效率足以应用于实际应用中

相关的工作
如今，随着深度学习的快速发展，骨骼的获取已经不仅仅局限于运动捕捉系统[10]和深度摄像机[11]。例如，RGB数据可以用来推断2D骨架[12]、[13]或实时三维骨架[14]，[15]。甚至可以利用WiFi信号来估计骨架数据[16]、[17]。这些成就使得基于骨架的动作识别在大量的多媒体资源上可用，从而促进了模型的发展。总的来说，为了实现更好的skel性能。一个好的骨架序列表示应该包含全局运动信息并具有位置-视点不变性。然而，在一个特性中同时满足这两个需求是很有挑战性的。对[19]、[21]、[8]、[23]的研究主要集中在全局运动上，没有考虑其特征中的位置-视点变化。其他研究[18]、[20]、[22]则相反，在不考虑全局运动的情况下，引入了位置-视点不变特征。我们的工作通过无缝集成位置-视点不变特征和双尺度全球运动特征来弥补两者之间的差距虽然递归神经网络(RNNs)在基于骨架的动作识别中常用我们认为它对于并行计算来说相对缓慢和困难，与[24]方法相比，使用卷积神经网络(CNNs)。由于我们将模型的速度作为优先考虑的因素之一，我们利用一维CNNs来构建DDNet的主干网络，双特征双运动的网络结构网络(DD-Net)如图2所示。下面，我们将解释设计DD-Net的输入特性和网络结构的动机。A.关节建模位置-视点不变特征
收集距离(JCD)基于骨架的动作识别常用两种输入特征:几何特征[18]、[22]和笛卡尔坐标特征[31]、[32]、[34]、[6]、[7]。

DD-Net的网络结构。“2×CNN (3
2*f过滤器)，/2 "表示两个1D ConvNet层(内核大小)
= 3，通道= 2*f过滤器)和一个Maxpooling(跨距= 2)。
其他微波层的定义也采用相同的格式。GAP表示全球平均池。FC表示完全连接
层(或密集层)。我们可以通过改变滤光器来改变模型的尺寸。

笛卡尔坐标特征随位置和视点的变化而变化。如图1 (a)所示，当骨骼旋转或移动时，笛卡尔坐标特征会发生显著变化。另一方面，几何特征(例如角度/距离)是位置-视点不变的，因此它被用于基于骨架的动作识别已有一段时间了。但是，现有的几何特征可能需要从一个数据集重新设计到另一个数据集[18]、[22]，或者包含冗余元素[33]。为了缓解这些问题，我们引入了联合收藏区，我们计算一对集体关节之间的欧几里得距离，以获得一个对称矩阵。为了减少冗余，只使用无对角部分的下三角矩阵作为JCD特征(图3)，因此JCD特征小于[33]的一半大小。

图3:第k帧关节集合距离(JCD)特征示例，其中关节个数为N。

为一个主题。在坐标系k处，关节n的三维笛卡尔坐标表示为jki = (x, y, z)，二维笛卡尔坐标表示为jki = (x, y)，将所有关节放在一起，得到关节集合S k

i6 = j)表示之间的欧几里得距离我们的处理中，JCD特征被扁平化为一个一维向量，作为模型的输入。平坦的JCD维数为N。

.用双尺度建模全局尺度不变的运动运动特性虽然JCD特征是位置-视点不变的，但与其他几何特征一样，它不包含全局运动信息。当动作与全局轨迹相关联时(见图1 (c))，单独使用JCD特征是不够的。与之前只使用几何特征[18]、[22]或笛卡尔坐标特征[24]、[25]、[26]、[27]的作品不同，我们的DD-Net无缝地集成了它们。

我们计算时间差异(即。，速度)的利用笛卡尔坐标特征获得全局运动，具有位置不变性。然而，对于同样的运动，全球运动的规模可能并不完全相同。有些可能更快，有些可能更慢(见图1 (b))。要学习鲁棒的全局运动特征，需要同时考虑快运动和慢运动。将这种直觉赋予DD-Net，我们采用一个快速的全局运动和一个缓慢的全局运动来形成一个两尺度的全局运动特征。这个想法是受到f提出的双尺度光流的启发。

从技术上讲，两尺度运动可以由以下等式产生：

、

其中Mk slow和Mk fast分别表示在帧k处的慢运动和快运动。sk +1和sk +2在后面S k分别是一个坐标系和两个坐标系。对应的年代(1,…,K)我们有M[1,……，K−1]慢，M[1,……,K / 2−1)快。为了在每一帧上生成一个一维输入，我们将Mk slow和Mk fast重塑为Mk slow∈RDmotion和Mk fast∈R其中Dmotion是平坦向量的维数。为了匹配JCD特征的帧数，我们进行线性插值来调整M的大[1,……，K−1]慢。

这样的过程可以在我们的DD-Net中完成。.通过嵌入来建模联合相关性图1 (d)显示了关节指数(即例如，头部、左手、右手等的id)在局部不相关。此外，在不同的动作中，关节的相关性可以动态变化。因此，当我们试图通过手动排序关节的索引来预定义关节的相关性时，就出现了困难，由于大多数神经网络固有地假设输入是局部相关的，直接处理局部不相关的联合特征是不合适的。为了解决这个问题，我们的DD-Net将JCD特征和两尺度运动特征嵌入到每帧的潜向量中。通过嵌入自动学习关节的相关性。另一个好处是，嵌入过程也降低了骨架噪声的影响，更正式地，让嵌入表示JCDk，Mk慢，和，Mk快，等于，nkkJCDεk我和我的朋友
Mfast，嵌入操作分别为:

其中Embed1被定义为Conv1D(1,2∗f过滤器)→Conv1D(3, f过滤器)→Conv1D(1, f过滤器)，将Embed2定义为Conv1D(1,2台f滤镜)→Conv1D(3台f滤镜)→f ilters Conv1D (1)→M axpooling(2)，因为JCDk和Mk slow的时间长度是Mk fast的两倍。
进一步地，DD-Net将嵌入特征串联到一个k by的表示中。

⊕是连接操作。
嵌入过程结束后，后续过程不受关节指数的影响，因此DD-Net可以利用一维卷积网学习时间信息，如图2所示。

实验
答:实验数据集我们选择了两个基于骨架的动作识别数据集SHREC数据集[4]和JHMDB数据集[9]，以评估我们的从不同的角度来看(见表一)。虽然其他信息(例如RGB数据)是可用的，但在我们的实验中只使用了骨架信息。三维骨架由来自于的SHREC数据集给出RGB-D数据，包含更多的空间信息。在JHMDB数据集中，2D骨架是由RGB视频解释的。可应用于更一般的情况，其中推断深度信息可能是困难或不可能的。此外,行动SHREC数据集与受试者的全局轨迹有很强的相关性(例如，一只手划过一个“V”形)，而JHMDB数据集可能与全局轨迹有微弱的相关性。我们展示了这些特性如何影响性能，并证明了在消融研究中DD-Net的推广。

在两种情况下对SHREC数据集进行评估:14种手势和28种手势。JHMDB数据集是通过使用手工标注的骨架来评估的，我们对三个分割的训练/测试集的结果进行平均。在消融研究中，我们探讨了如何通过去除其中一种成分而保持其他成分不变，从而使每个DD-Net成分对动作识别性能作出贡献。此外，通过调整图2中f滤波器的值，我们还探究了性能如何随模型尺寸的不同而变化。由于DD-Net是小的，它是可行的，把所有的训练集成一批在一个单一的GTX 1080Ti GPU。我们选择Adam (dicer1 = 0.9, dicer2 = 0.999)[36]作为优化器，退火学习率从1下降−3比1−5。在训练过程中，DD-Net只进行了一次时间扩增，随机选取整个帧中的0.9个。为了显示DD-Net的优越性，我们没有使用任何集成策略或预先训练的权重来提高性能。为了使DD-Net能够很容易地部署到实际的应用程序中，我们通过Keras[37]后端来实现它Tensorf。

表二给出了SHREC数据集的动作识别结果，其混淆矩阵列出了更多细节。14个动作和28个动作的混淆矩阵为
图4、图5。JHMDB数据集的动作识别结果如表3所示。
总的来说，尽管DD-Net使用的参数较少，但它在SHREC dataset和JHMDB上可以获得更好的结果。

可应用于更一般的情况，其中推断深度信息可能是困难或不可能的。此外,行动SHREC数据集与受试者的全局轨迹有很强的相关性(例如，一只手划过一个“V”形)，而JHMDB数据集可能与全局轨迹有微弱的相关性。我们展示了这些特性如何影响性能，并证明了在消融研究中DD-Net的推广。

评价设置：

在两种情况下对SHREC数据集进行评估:14种手势和28种手势。JHMDB数据集是通过使用手工标注的骨架来评估的，我们对三个分割的训练/测试集的结果进行平均。在消融研究中，我们探讨了如何通过去除其中一种成分而保持其他成分不变，从而使每DD-Net成分对动作识别性能作出贡献。此外，通过调整图2中f滤波器的值，我们还探究了性能如何随模型尺寸的不同而变化。

实现细节：

由于DD-Net是小的，它是可行的，把所有的训练集成一批在一个单一的GTX 1080Ti GPU。我们选择Adam (dicer1 = 0.9, dicer2 = 0.999)[36]作为优化器，退火学习率从1下降−3比1−5。在训练过程中，DD-Net只进行了一次时间扩增，随机选取整个帧中的0.9个，为了显示DD-Net的优越性，我们没有使用任何集成策略或预先训练的权重来提高性能。为了使DD-Net能够很容易地部署到实际的应用程序中，我们通过Keras[37]后端来实现它因为执行速度慢而“臭名昭著”的Tensorflow。使用其他神经网络框架可以使DD-Net更快。结果分析与讨论表二给出了SHREC数据集的动作识别结果，其混淆矩阵列出了更多细节。14个动作和28个动作的混淆矩阵为图4、图5。JHMDB数据集的动作识别结果如表3所示。总的来说，尽管DD-Net使用的参数较少，但它在SHREC dataset和JHMDB上可以获得更好的结果:

图4:DD-Net得到的SHREC数据集(14个手动动作)的混淆矩阵。

数据集。模糊矩阵也表明了DD-Net对每个动作类的鲁棒性。尽管存在数据属性差异，但DD-Net表现出了其泛化能力.

表明它可以适应广泛的骨骼动作识别场景。从消融研究中，我们可以检查当行为与全局轨迹(例如SHREC数据集)强相关时，仅仅使用JCD特征不能产生令人满意的性能。当行为与全局轨迹(例如，JHMDB数据集)不强相关时，全局运动特征仍然有助于提高性能，但不像之前的情况显著。这样的结果与我们的假设是一致的:虽然JCD特征是位置-视点不变的，但它是孤立的全球运动。实验结果还表明，采用双尺度运动特征比单尺度运动特征具有更高的分类精度，表明本文提出的双尺度运动特征对运动的尺度变化具有更强的鲁棒性。在组件相同的情况下，DD-Net可以通过修改CNN层中f滤波器的值来调整其模型大小。我们选择
64、32、16作为f滤波器的值进行实验。当DD-Net在SHREC上达到最佳性能时JHMDB数据集，f滤波器的值为64。值得注意的是，DD-Net仅使用0.15万个参数就可以产生可比较的结果。另外，由于DD-net采用一维CNNs来提取特征，因此比其他使用RNNs[31]、[22]、[32]、[25]或2D/3D CNNs[5]的模型速度要快得多。在推断过程中，DD-Net在一个GPU上的速度可以达到3500 FPS左右。， GTX 1080Ti)或在一个CPU上(即,英特尔e5 - 2620)。而基于rnnn的模型面临着并行处理的巨大挑战(由于顺序依赖性)，我们的DD-Net没有这个问题，因为使用的是CNNs。因此，无论是低计算量的应用(如在小型设备上)还是高计算量的应用(如在并行计算站上)，我们的DD-Net都具有显著的优势。

过分析骨架序列的基本特性，提出了两种特征和一种基于骨架的动作识别方法。虽然DD-Net只包含几个参数，但它可以在我们的实验数据集上实现最先进的性能。由于DD-Net的简单性，存在许多可能性来加强/扩展它以进行更广泛的研究。例如，可以通过修改帧采样策略来实现在线动作识别;可结合RGB数据或深度数据进一步提高动作识别性能;这也是可能的可结合RGB数据或深度数据进一步提高动作识别性能;通过添加时间分割相关模块，也可以将其扩展为时间动作检测。

论文翻译：Make Skeleton-based Action Recognition Model Smaller, Faster and Better

猜你喜欢