论文翻译:Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

       摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战。虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息。由于三维卷积神经网络(3D CNN)是一种通过获取三维信号之间的相关性,同时从空间和时间维度学习特征的强大工具,本文提出了据我们所知,这是3D CNN在基于骨架的动作识别中的第一次应用。我们的方法包括三个阶段。首先将骨骼关节映射到三维坐标空间中,然后分别对其进行时空信息编码。其次,分别采用3D CNN模型,从两个流中提取深层特征。第三,为了增强深度特征捕捉全球关系的能力,我们将每个流扩展为多时间版本。广泛的实验SmartHome数据集和大规模NTU RGB-D数据集表明,我们的方法优于大多数基于rnnn的方法,验证了空间和时间信息的互补性和对噪声的鲁棒性。

        动作识别在智能监控[1]、人机交互[2]、视频分析[3]等应用中得到了广泛的应用。3 -与2d RGB视频相比,人类动作的D表示提供了更全面和更有区别性的信息。近年来,基于骨骼的3D动作识别由于其高水平的表现以及对外观和周围干扰[4]、[5]、[6]、[7]的鲁棒性,越来越受到人们的关注最近,递归神经网络(RNN)的模型和长-短期记忆(LSTM)神经元[8]、[9]被用来建模骨架序列[10]的时间演化。这些基于rnnn的方法往往会过度强调时间信息[11]。然而,最有效的行动识别需要时空信息的结合。考虑到3D卷积神经网络通过执行3D卷积[12]作为动作识别、目标识别[13]、车辆检测[14]和人体姿态估计[15]接收三维输入的自然而合适的选择。因此,该本文提出了一种新的两流三维CNN模型,旨在同时增强空间和时间信息。首先,我们使用Liu等人[16]提出的基于序列的转换方法,消除了视图变化的影响。进一步,将每个动作序列转换后的骨架关节映射到三维坐标空间中。其次,为了便于三维CNN学习鲁棒性特征,将骨骼关节分别编码为空间体积和时间体积通过编码空间和时间信息。第三,twostream 3D CNN在较好的时间尺度上分别捕捉时空信息,增强了时空特征。最后,我们将原始骨架序列转化为多时间序列,以获取大规模的时间信息。

RNN-based方法
       最近的动作识别方法都是基于循环神经网络和某种形式的长-短期记忆。Du等[10]提出了一种端到端层次结构RNN编码骨骼关节之间的相对运动。骨骼被分割成与解剖学相关的部分,这些部分被送入每个独立的子网以提取局部特征。自通过特殊的门控方案,LSTM可以学习输入序列的长期和短期依赖关系,许多作品选择LSTM学习特性。Shahroudy等[17]提出了基于部分的内存子单元和新的门控机制的部分感知LSTM,显示LSTM优于一些手工制作的特性和RNN。Zhu等人[18]使用端到端全连接深度LSTM网络学习骨骼关节的协同当前特征。然而,基于rnnn的方法往往侧重于时间信息[11]的表示。

CNN-based方法
       3D CNN被提出用于人类动作识别[12],[19]。3D卷积层以一个体积作为输入,输出一个体积。将空间信息和时间信息逐层抽象。Tran等人[20]提出了一种简单而有效的利用三维卷积神经网络进行时空特征学习的方法,验证了三维CNN能够获得更快、更准确的性能。特别是,[20]中使用的特性具有有效视频描述符的四个属性:通用、紧凑、高效和简单。Cao等人的[21]提供了一种更有效和更健壮的关节汇集三维深卷积。

图1:所提方法的总体流程。给定一个动作序列作为输入,经过一定的预处理步骤,分别编码为空间体积和时间体积。接下来我们使用两流CNN 3D网络来学习特征。该架构由4个卷积层、4个最大池层和2个完全连接层组成。下面将给出详细的描述。最后用元素融合两流网络——明智地乘以它们各自的类成员概率。

描述符(JDD),在真实数据集上生成有希望的结果。一般来说,3D CNN可以自动捕捉三维信号之间的相关性,从而挖掘出独特的时空信息。我们的主要贡献有两个方面:(1)我们最初提出了一个双向补偿的3D CNN模型,该模型对噪声具有较强的鲁棒性。(2)一种基于[22]的改进的3D CNN,它特别能够避免过拟合,参数比C3D少 。

编码空间和时间信息由于不同的视图会影响骨骼的外观,我们采用Liu等人[16]提出的空间变换作为预处理步骤来解决视点变化的问题。设一个动作H有F个坐标系,每个骨架由M个关节组成,第F个坐标系上的第M个骨架关节为:

式中,f∈(1,…,f), m∈(1,…,M)。我们使用NTU RGB+D数据集[17]中的联合配置,其中M等于25。然后,由于动作序列的标记点较少,我们在连续的关节之间进行插值运算,以丰富关节信息。然后将动作序列中的骨骼关节映射到三维坐标空间D中,分别编码到空间和时间空间中。特别是对于3D CNN来说,它不仅可以捕捉到相关性,而且可以解决每个骨架的帧不一致的问题,

保留完整信息的顺序。设为运动区域空间体积中的空间值,表示被编码的空间信息。则,定义为:(1)考虑到很难识别两个运动区域相似但时间顺序相反的动作,如“站立”和“坐下”。因此,让

考虑到很难识别两个运动区域相似但时间顺序相反的动作,如“站立”和“坐下”。因此,让

表示时间量中的时间值,以区分它们。它的值随着帧数的增加而变化。对于这里给出的结果,我们使用一个简单的替换定义为:

其中f unction范数表示归一化为[0,1]。相比之下,

编码动n序列的时间信息。如图2所示,说明了动作的空间编码和时间编码的区别“手挥舞着”。可以看出,时间编码捕获了时间的变化。颜色越深,时间序列越向后。因此,融合空间和时间特征可以相互增强,从而获得更好的性能。

两流三维CNN模型
受[22]的启发,我们将网络用于三维卷积网络。如图1所示,空间流的结构与时间流的结构相同。对于单个流,3D CNN网络由4层3D卷积,每层最大池和2层完全连接组成。卷积层的滤波器个数分别为3、8、32、64个,全连接层的滤波器个数分别为512、256个。和[22]一样,我们使用的滤镜的内核大小为7x7x5,卷积层分别为5x5x3, 5x5x3, 3x5x3。特别是为了减少过拟合,提高分类器的泛化程度,Molchanov等[22]提出了一种有效的时空数据增强方法来解决这一问题。我们在卷积层和最大池化层之间添加dropout层[23]来消除过拟合。另外,我们在前三个卷积层之后使用填充,以确保卷积操作的输入大小与输出大小相等。实验结果验证了该方法的有效性。

改进。最重要的是,全模型有910k的参数,远远小于C3D模型[20]。所有分类输出都是softmax激活和训练交叉熵损失。此外,对于激活函数,网络中的所有层都使用整流线性单元(ReLU):

对空间流和时间流分别进行训练,只在正向传播阶段进行合并:

图2:三个正交平面作用“挥手”的空间体积(上)和时间体积(下)对比。

用于决策。为每个网络参数分别WS和WT,它产生classmembership概率(P (C | x, WS)、P (C | x, WT))类C给定动作的观察x。我们乘classmembership概率element-wisely从二束网络来计算最终的类成员概率更优雅的动作识别:

然后是c的类标签∗可以如下获得:

时段遥测结构
        我们可以使用不同尺度的卷积滤波器实现三维CNN模型,以提取更多的鉴别信息,捕获大尺度的时间信息。但是这种方法增加了3D CNN模型的复杂性。本文将原始骨架序列转换为多时间序列,然后使用两流三维CNN模型分别提取深度特征。如图3所示,三维体积表示编码时空信息的体积。然后采用两流三维CNN模型分别训练多时间三维体F帧序列,“0级”表示整个骨架序列;"第一级"表示从开始到第[F/2] - th帧的子序列;“二级”表示的子序列(F / 4)−th框架(3 F / 4)−th框架;" Level 3 "表示[F/2] - th帧到最后的子序列。从不同时间层次提取的三维体不仅可以捕获多尺度的特定局部模式,而且可以增强全局关系。

数据集
1) NTU RGB+D数据集:该数据集包含56880个序列(400万帧)的60类执行40个实验对象,由3台摄像机拍摄。这是一个非常具有挑战性的数据集,由于序列长度,反向时间序列动作对和嘈杂的骨骼关节。一些快照显示图4所示。为了保证比较的公平性,我们采用Shahroudy等人[17]提出的两个标准协议。在交叉学科评估中,我们将40名被试分为训练组:

和测试组。每组20名受试者。对于crossview评估,我们选取相机1的所有样本进行测试,选取相机2和3的样本进行训练。
2) SmartHome Dataset: SmartHome Dataset[16]是我们实验室收集的,包含“box”、“high wave”、“horizontal wave”、“curl”、“circle”、“hand up”六种动作。每个动作由9名受试者在“坐”、“站”、“抱枕头”、“拿笔记本电脑”、“和一个人”5种情况下进行6次(每只手3次),总共有1620个深度序列。
SmartHome数据集中的骨骼关节包含了大量的nois

猜你喜欢

转载自blog.csdn.net/com_fang_bean/article/details/107570968