论文翻译：Unsupervised Representation Learning with Long-Term Dynamics for Skeleton Based Action Recognit

摘要
近年来，基于骨骼的动作识别正成为一个越来越有吸引力的替代现有的视频替代方法，得益于其强大和全面的3D信息。在本文中，我们首次探索了一种无监督表示学习方法来获取骨骼序列的长期全局运动动力学。在对抗训练策略的指导下，我们设计了一个有条件的绘画架构来学习固定维度的表示。我们在三个行之有效的动作识别数据集上定量地评估了我们的学习方法的有效性。实验结果表明，我们的学习表示对分类动作具有鉴别性，能显著减少序列内画错误。

介绍
动作识别作为计算机视觉的一个重要分支，在智能视频监控、机器人视觉、人机交互、游戏控制等领域得到了广泛的应用(Weinland, Ronfard, and)波伊尔2011;杨和田(2017)。传统的动作识别研究主要集中在二维摄像机拍摄的视频上。由于难以实现视点和尺度不变性，其性能仍不能令人满意2D视频会丢失一些3D空间的信息。另一种常用的方法是基于骨骼的动作识别，用关键关节的三维坐标位置来表示一个人。这种表示对于位置、规模和观点的变化是健壮的。
本文主要研究基于骨架的动作识别问题。这一问题的关键是学习具有辨别能力的身体姿态及其运动动力学。大多数传统的基于骨骼的动作识别方法基于隐马尔可夫模型(HMMs) (Xia, Chen, and Aggarwal 2012)或时间金字塔(TPs) (Vemulapalli, Arrate, and Chellappa 2014)对骨骼关节的时间动力学进行建模。这些模型通常需要选择有效的特征来表示人或者选择适当的滑动窗口宽度来模拟时间动态。在过去的几年里，端到端深度学习技术(Sutskever, Vinyals, Le 2014; LeCun, Bengio, and Hinton 2015)，尤其是经常性的神经网络(RNNs)已用于动作识别，并取得了令人印象深刻的更好的性能(Du，Wang, and Wang 2015;(朱等2016)。这些模型背后的见解是提取区分特征以进行再现发送了不同动作的时间演化。然而，上面提到的这些方法大部分都被称为监督学习方法，这些方法很大程度上依赖于大量的带标记的训练例子。这些标签数据通常非常昂贵，无法获得。因此，如何有效地、高效地从常见的、易于访问的无标记示例中学习表示，是一个挑战，也越来越受到研究的关注。
最近，一系列的无监督表示学习方法被提出。这些方法是根据不同的目标制定的。一些表示法暂时平滑并学习缓慢变化的表示法(Foldi¨ak 2008)，而其他人通过重构过去的帧或预测未来的帧来学习“表示法”(Srivastava, Mansimov, and Salakhudinov 2015;(罗等，2017)。这些模型接收固定长度的输入序列，然后重建过去或预测未来固定长度的帧。虽然他们显示了良好的结果，大多数学习表征仍然集中在捕获外观特征或局部运动动力学。这些方法在处理变长序列时不够灵活，且没有考虑对骨骼序列中长期全局运动依赖项的编码。它们的学习表示对于骨架序列的分类没有足够的区分能力。为了解决上述的局限性，我们提出了一个无监督表示学习框架来紧凑编码长期全局运动动力学条件inpaint。如图1所示，该框架由三个子网络组成，其工作方式为以下低点。编码器(左侧)运行输入序列，并将其压缩成固定维的表示形式。一个解码器(中间)学习重建随机掩蔽(损坏)输入序列条件在学习表征上。鉴别器(右侧)学习区分原始序列和重建序列。只有传统的元素损失，重建序列可能看起来不现实，因为填充区域可能与他们的背景不一致。鉴别器负责通过给予对抗性损失来引导译码器产生视觉上真实的序列。我们称我们的模型为条件inpaint，就像解码器inpaint序列的条件是学习的表现。通过使用有效的破坏策略和减少内画误差，我们的目标是诱导学习的表示来捕获长期的全局运动动力学。在三个公共数据集上的实验结果表明，我们的学习表示对分类动作具有区分能力，并且与最近提出的无监督模型和有监督模型相比，我们的学习表示取得了更好的性能。我们的工作贡献如下：

不同于现有的序列特征学习方法只学习表象或短期局部运动，我们引入了一种新的条件骨架嵌入网络，以获取长序列的长期全局运动动态。此外，据我们所知，我们是第一个探索基于骨架的动作识别的无监督表示学习方法的人。

通过设计额外的对抗性训练策略，我们增强了编码器-解码器模型，以学习更多的有区别的表示，并减少了骨架序列内画的错误。
针对最近提出的无监督和监督网络，在现实世界基准上的详尽实验验证了我们的方法的效率。作为一个非平凡的副产品，我们对不同方法学习的表示法进行了全面的评价和研究。

概述

我们首先介绍了序列无监督表示学习的相关工作。然后，对现有的基于骨架的动作识别方法进行了简要的概述。

学习顺序表示
Wiskott和Sejnowski提出了利用序列中的时间结构的慢速特征分析框架，并试图学习慢变表示(Foldi¨ak 2008)。Memisevic和Hinton通过学习连续时刻对之间的转换，使用生成模型来解决这个问题(Memisevic和Hinton 2010)。近年来，人们提出了一系列基于重建和预测的模型。Ranzato et al。提出一种生成模型，使用递归神经网络预测下一帧或在帧之间插入(Ranzato et al. 2014)。Srivastava等人利用LSTM编解码架构扩展了这项工作，该架构可以重构固定长度的过去帧或预测固定长度的未来帧(Srivastava, Mansimov, and Salakhudinov 2015)。Luo等人提出了进一步的研究通过预测视频的3D运动来表示(Luo等，2017)。这些模型可以学习一些特定任务的有用语义特征。但是，它们的一个共同的缺点是，这些模型只读取定长序列，不能灵活地处理变长序列。这些模型天生就无法建模长期的时间依赖性。

Skeleton-based行动识别
基于骨架的动作识别模型使用身体姿态和运动动力学来代表人类动作。以往大多数基于骨骼的动作识别方法都是通过TPs (Wang et al. 2012)或HMMs (Wu and Shao)对骨骼关节的时间动态进行显式建模2014)。最近，深递归神经网络序列建模的成功(Graves和其他人)，许多端到端模型已经被提出。(Du, Wang, and)的递归神经网络Wang 2015)将人体的骨骼关节划分为五组，分层结合特征，利用融合的关节信息进行最终预测。(Zhu et al. 2016)的工作利用了关节的共现性是人类动作识别的强鉴别特征这一直觉，并通过在连接矩阵上施加组稀疏约束来学习共同发生的关节与人的动作之间的映射。为了学习时间和空间域的特征，引入了具有信任门的深度lstm (Liu et al. 2016)和时空注意模型(Liu et al. 2016)。虽然这些模型实现了开裂性能，他们通常是有限的严重依赖昂贵的标签。

拟议的框架
在本节中，我们将描述长期运动动力学的无监督学习的拟议框架。建议的框架如图1所示。它由三个子网络组成:编码器网络(Enc)、解码器网络(Dec)和鉴别网络(Dis)。我们的框架基于递归神经网络(RNN)和生成对抗网络(GAN) (Goodfellow et al. 2014)。本文首先对这两方面进行了简要的评述。

砌块网络结构
RNN,天鹤座。由于RNN是一种成功的序列信息学习模型，我们将其用于区分特征学习和时间依赖性建模(Sutskever, Vinyals, and Le 2014)。与长相比短期记忆(LSTMs) (Hochreiter and Schmidhuber 1997)、门控周期性单元(GRUs) (Cho等。更容易训练，参数更少。我们使用GRUs在我们的框架中实现了更好的性能，但它也能很好地与LSTMs或其他单元一起工作。

对抗的损失。GAN模型是培养生成模型的框架。我们将它用于条件骨架序列的内绘制。它由两个相互竞争的网络组成:生成器被训练来映射一个潜在变量。而鉴别器则被训练用来区分生成的数据和样本以及训练数据。通过学习一个最佳可能的鉴别器，我们的目的是鼓励重建序列最相似的原始序列。

解码条件骨架InpaintingDec接收学习的表示和随机损坏的输入序列。Dec的目标是填充基于学习表示的输入序列中的掩码区域。译码器GRUs将学习的表示作为第一帧数据进行初始化它的州。从第二步，读取蒙面(损坏)输入序列，其中人体的随机数部分蒙面于第二帧(人体分为五部分，即四肢和躯干)。我们观察到，最好保持第一帧不遮罩，以便为12提供初始的inpaint参考。人体遮罩部分的输入值设为零。如图1所示，我们为输入序列的每一帧屏蔽相同的body部分，即从第二帧到最后一帧的遮罩区域都是未知的。否则，当预测当前帧的掩蔽区域时，Dec可以简单地通过引用历史值和复制这些值来做inpainting。这种做法实质上增加了Dec的内绘制困难，但同时增强了在内绘制中学习的表示的重要性。同时，我们注意到，当inpaint当前帧时，最好让Dec不指向未来的帧。因此我们使用单向的GRU。

相干驱动的鉴频器
训练Dec以小的重建误差填充掩蔽区。但是，它不能保证填充区域与上下文相一致，即当前帧或相邻帧中其他未被掩蔽的人体部分。因此，内涂序列可能看起来模糊和视觉上不现实。为了鼓励你鉴于图像的嵌入效果，我们采用Dis作为二值分类器来区分真实序列和伪序列。Dis的目的是通过给予对抗性损失，将Dec指向相干序列内描。Dis与Enc共享相同的双向GRUs架构。

训练损失与对抗性正规化
我们的模型结合了编码器-解码器架构(Sutskever, Vinyals, and Le 2014)和GAN模型(Goodfellow et al. 2014)。译码器网络由两者共享，充当GAN模型的生成器。我们用一个联合目标函数训练我们的模型:

其中，ele是要素损失，adv是对抗性损失。控制对抗性损失的重量。我们使用内涂序列和原始序列之间的L2距离作为元素损失。元素上的损失可以解释为内画的内容错误。它负责捕获缺失区域的整体结构，但往往指向模型在补绘预测中对多种模式进行平均。因此，产生的序列往往看起来模糊和视觉不真实，因此，产生的序列往往看起来模糊和视觉不现实。这种对抗性的损失可以看作是inpainting的风格错误，它的作用是从多种预测模式中选择一个特定的预测模式，并鼓励Dec产生视觉上真实的序列，即拟合输入序列的分布。Dec生成inpaint序列，条件是学习的表示f。我们观察到，当Dec的inpaint也以随机变量z为条件时，效果更好，对抗性损失为:

对于掩码输入序列x, Dec(F, x)比不包括在元素wise损失中的Dec(z, x)有更低的嵌套损失。参数ruicz控制了总对抗性损失中z的权重。它的引入是为了减少Enc和Dec的耦合，提高Dec作为GAN模型产生器的泛化性和Dis的分辨能力。

培训中的重要问题
由于这三种网络的相互影响，要学习非平凡表示，优化相当困难。因此，我们在本节中提供三个实际考虑事项。训练过程的概览见图1和算法1。

•将错误信号限制在相关网络。利用方程1中的联合损失函数，我们训练an编解码器模型和GAN。这是可能的，因为我们没有更新所有网络参数wrt。共同的损失。差价仅使对抗性损失最小化，而差价则使对抗性损失最小化。

图1:(I)我们提出的方法的管道。(a)编码器(b)解码器(c)鉴别器。(二)不同的学习策略。绿色:战略(Ranzato et al. 2014;Srivastava, Mansimov, and Salakhudinov, 2015)，和蓝色:我们的战略。以前的工作处理固定长度的序列，并对短期的时间依赖进行建模。我们的模型接收整个变长输入序列，并学习长期的全局动态。

要素损失和对抗性损失。我们观察到，Enc不应该试图最小化对抗损失，否则Enc倾向于编码有用的信息，以产生视觉逼真的序列，而不是编码的运动动力学序列inpaint。因此，学习表示在分类操作中表现不佳。

加权敌对的损失。Dec使共同损失最小化。我们使用一个参数来衡量内容错误和样式错误的权重。我们发现更小的虚参比有助于Enc学习更有效的表示，实验中我们将其设置为0.1。与此同时，该系统的能力也得到了提高，Dis网络也应该是小的，否则它倾向于集中在绘制结果和原始序列之间的一些细微差别。

对随机的条件填充加权变量。参数在总对抗性损失中控制z的权重，可以看作是GAN模型的一般条件生成器的Dec的权重。在实验中，我们将其设置为0.1。否则，Dec无法与Enc合作学习序列嵌入的有效表示。较大的畸变z倾向于诱导Enc学习一种仅帮助Dec欺骗Dis的表示。

实验：

长期运动动力学学习的最终目标是对骨骼序列中的动作进行分类。我们使用无监督学习方法来学习表示。最后一个分类层添加在学习的表示的顶部，用于对操作进行分类，如图2所示。为了研究我们的无监督学习方法的有效性，我们考虑以下三种情况:

监督。修正了学习编码器和只有微调最后的分类器层与可用的标签。这组目的是验证学习表示在动作识别中的有效性。
监督+ Pretraining。用我们学到的权重初始化编码器，用可用的标签微调整个网络。我们的目的是探索学习表示是否对监督模型有用。
监督。随机初始化编码器的权重，并使用可用于监督任务的标签来学习它们。这是我们进行比较的基线模型。

图2:动作识别的详细网络架构。每个输入骨架序列被编码成一个固定的维度表示与学习编码器(权值固定)，这是一个两层双向gru。然后，训练一个分类层来推断动作。

数据集我们在以下三个数据集上进行实验:CMU数据集(CMU 2003)、HDM05数据集(Muller¨等，2007)和Berkeley MHAD数据集(Ofli等，2007)。2013)

卡耐基-梅隆的数据集。这个数据集包含2,235个序列。这些序列由144名非专业演员表演。对于每一帧，提供31个关节的三维坐标。整个数据集被分为45个类(Zhu et al. 2016)。由于序列长度的大变化和类内的多样性，数据集具有很大的挑战性。如(Zhu et al. 2016)所示，对整个数据集和664个序列的子集进行评估。对于整个数据集，测试协议是4倍交叉验证，对于子集，使用3-fo进行评估。

HDM05。这个数据集包含2337个序列，执行130个动作。这些序列由5个演员执行。每帧记录31个骨骼关节坐标。如(Cho and Chen 2014)所述，这130项行动中的一些样本应该归类为同一类别。在组合之后，动作被减少到65个类别。我们遵循(Du, Wang, and Wang 2015)中提出的实验方案，对该数据集进行10次交叉验证。

伯克利MHAD。该数据集中共有659个有效样本，由12个被试执行的11个动作组成，每个动作重复5次。对于序列中的每一帧，记录35个关节坐标。我们对该数据集遵循(Ofli et al. 2013)中提出的实验协议。

实验设置和实现细节
我们首先将所有的数据集向下采样到15帧/秒。为CMU dataset和Berkeley MHAD，为了减少大序列长度变化和计算开销的影响，对序列再次进行次采样，以确保序列长度小于36帧。对于无监督训练，我们将原始训练数据集增加了25倍。我们从每个原始序列中抽取平均25个子序列。这些子序列的长度随机从7帧到35帧。对于所有的数据集，我们将骨架关节缩放为t。

我们在Tensorflow中实现了我们的模型(Abadi等。和ADAM一起优化(Kingma and Ba 2014)。使用了Dropout正则化，并且我们只删除跨层通信的激活，就像在(Zaremba, Sutskever, and Vinyals 2014)。我们设置退学率为0.2。Enc和Dis都是双层双向gru。Dec是一个双层单向gru。Enc和Dec的每一层都有800个隐藏单元。Dis网络更小，每层有200个隐藏单元。学习表示的维数，即隐藏u的个数。

与最先进技术的比较
这组实验的目的是看非监督学习学习的表示是否对动作识别有用。我们将我们的方法与最近提出的无监督学习方法和有监督模型进行了比较。表1和总结了性能表2。这两张桌子被分成三组。第一组显示了两种不同的无监督学习方法所学习的表示的性能。第二组展示了最先进的监督模型的结果。第三组比较了用不同的非监督学习方法预训练的监督模型。

监督模型。我们的无监督模型实现了可观的性能。在CMU子集上，它达到了84.57%的准确率，甚至超过了被监督的HBRNN模型。在Berkeley MHAD中，它显示了比基于rnnn的监督基线模型的优势DBRNN，精度达到100.00%。在整个CMU数据集和CMU子集上，预训练的监督模型比无监督模型的表现好很多，分别提高了15.19%和6.62%。分别。这种性能差距表明，需要使用标记数据对整个网络进行微调，以实现进一步的改进。这是由于我们的模型只学习全局运动动力学，而忽略了身体姿势。使用标记数据微调整个网络会有所帮助。

学习更多有辨别力的身体姿势，从而提高成绩。我们的基线模型，即未经预训练的监督模型，比深度模型的性能更好LSTM，可与最先进的模型相媲美。它表明这是一个非常强的基线。在整个CMU数据集、CMU子集和HDM05数据集上，通过无监督学习的学习表示分别进一步提高了1.53%、3.36%和0.63%。与最近提出的监督模型相比，我们的预训练模型在所有数据集上都取得了最好的性能。

表1:CMU数据集的精度比较(%)。第一组报告无监督(U)方法;第二组提出最先进的监督方法;第三个是预先训练的监督方法(S+P)。我们报告了10个不同样本的训练集的平均结果。

表1:CMU数据集的精度比较(%)。
第一组报告无监督(U)方法;第二组提出最先进的监督方法;第三个是预先训练的监督方法(S+P)。我们报告了10个不同样本的训练集的平均结果。

无监督的方法。我们比较了目前最先进的无监督学习方法无监督LSTM(Srivastava, Mansimov, and Salakhudinov 2015)和相关模型的自动编码器。我们重新实现了这两种模型，并取得了更好的性能与GRUs单元。同时，由于无监督LSTM只对固定长度的输入序列有效，因此我们报告了用它启动的模型的性能，就像作者在论文中所做的那样。这两个模型与我们的模型共享相同的基线网络和参数设置。唯一的区别在于不同的学习方法。如表1和表所示
2、使用无监督LSTM学习的表示方法不一定有助于提高有监督模型的性能。对CMU数据集进行预训练后，性能甚至会下降。我们的无监督方法不断地对有监督模型进行改进。无监督的LSTM模型和Autonencoder通过重构或预测来学习一些语义特征，如身体姿势或短期运动。然而，这些特征可以很容易地获得监督模型，即使有一个小集标记数据。较好的性能验证了长期全局运动动力学学习的有效性，该方法需要获取大量的实例。

与自动编码器相比，我们的无监督学习方法的性能也要好得多。在CMU子集上，CMU数据集和HDM05数据集的性能差距分别为7.54%、4.80%和0.72%。在具有挑战性的CMU数据集上，我们的方法的优势更加明显。实际上，由于CMU数据集中存在较大的序列长度变化和类内差异，建立全局时间依赖关系对于区分混淆行为和提高性能至关重要。下一次。例如，“篮球”、“跑”和
“跳跃”经常被自动编码器错误地分类，因为它们有一些基本的短期动作，比如腿的升降。(Ranzato et al. 2014)中提出的生成模型的性能没有被报道，因为它严重依赖于将输入量化到一个大字典中，并且不能与我们的损失函数一起工作。

表2:在HDM05和Berkeley MHAD上的比较(B-MHAD)数据集的准确性(%)。第一组报告无监督(U)方法;第二组提出最先进的监督方法;第三个是预先训练的监督方法(S+P)。我们报告了平均结果10个不同的训练集样本

改变标记数据集的大小
这组实验的目的是观察非监督学习的表示法对不同大小的标记训练集的监督模型的性能的影响。结果如图3所示。我们可以看到，在训练例子很少的情况下，无监督学习可以提供实质性的改进。例如，对于CMU数据集，平均每个类别只有2个例子时，性能从45.8%提高到49.73%。在CMU子集上，从55.89%提高到60.51%。的大小。随着标记数据集大小的增长，改进逐渐减少。我们认为，这种改进的减少是由于通过无监督学习方法学习的长期运动动力学需要大量的数据来捕获。当标记数据集较小时，很难进行监督以捕获长期的运动动力学，因此由无监督学习带来的改进是更大的。随着带标记数据集规模的增大，无监督学习的优势减弱。

结论
我们提出了在变长骨骼序列中长期运动动力学的无监督学习的一般框架。通过结合编码器-解码器模型和GAN模型，我们使用inpainting错误作为监督来学习一个区别表示。我们从多个方面证明了我们的学习表示在三个成熟的动作识别数据集上的有效性，并取得了比最近提出的无监督和有监督模型更好的性能。对于未来的工作，我们的目标是探索我们的方法在更多的挑战上的表现

论文翻译：Unsupervised Representation Learning with Long-Term Dynamics for Skeleton Based Action Recognit

猜你喜欢