数据集论文解读:NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis

最近的基于深度的人类活动分析方法取得了良好的效果,并证明了三维表示对动作类分类的有效性。目前可用的基于深度和RGB+Dbased的动作识别基准测试都有一些限制,包括缺乏训练样本、不同的类标签、相机视图和不同的对象。在本文中,我们介绍了一个大规模的数据集,用于RGB+D人类动作识别,有超过56000个视频样本和400万帧,从40个不同的主题。我们的数据集包含60d相互的和与健康相关的行动。此外,我们提出了一种新的递归神经网络结构来建模每个身体部位特征的长期时间相关性,并利用它们来更好地进行动作分类。实验结果表明,在我们的数据集的交叉主题和交叉视图评估标准上,应用深度学习方法比使用最先进的手工制作特性具有优势。这个大规模数据集的引入将使社区能够应用、开发和适应各种数据需求学习技术,以完成基于深度和RGB+ d的人类活动分析任务。

深度传感器的最新发展使我们能够获得场景和物体[13]的有效三维结构。这使得视觉解决方案向3D视觉迈出了重要的一步,例如3D对象识别、3D场景理解和3D动作识别与基于rgb的对手不同,3D视频分析缺乏大型基准数据集。然而,没有任何公开分享的3D视频的来源,如YouTube,以提供“野生的”样本。这限制了我们构建大型eva基准的能力评估和比较不同方法的优势,特别是最近的数据需求技术,如深度学习方法。据我们所知,目前的潮流3D动作识别基准在各个方面都有局限性首先是被试人数少,演员的年龄范围很窄,这使得表演在班级内的变化非常有限。人类活动的构成取决于主体的年龄、性别、文化甚至身体状况。因此,人类被试的变异是动作识别基准的关键。第二个因素是操作类的数量。当只有非常少的类可用时,每个action类都可以通过找到一个简单的运动模式甚至交互对象的外观来容易区分。但是当类的数量增加时,运动模式和交互对象将在类之间共享,分类任务将更加具有挑战性。

第三是高度限制的相机视图。对于大多数数据集,所有的样本都是用固定的摄像机视角从前视图捕获的。对于其他一些,视图被绑定到固定的前视图和侧视图,同时使用多个摄像头。

最后也是最重要的一点是,视频样本的数量非常有限,这使得我们无法使用最先进的数据驱动学习方法来解决这个问题。虽然已经进行了一些尝试[9,42],但由于存在过拟合问题,不得不缩小学习参数的大小;因此,他们显然需要更多的样本来推广和更好地执行测试数据为了克服这些限制,我们开发了一个新的大型基准数据集用于三维人类活动分析。建议的数据集包括56880个RGB+D视频样本,从40个不同的人类受试者,使用微软的Kinect v2。我们收集了RGB视频、深度序列、骨骼数据(人体25个主要关节的3D位置)和红外帧。样本在80个不同的摄像机视点中被捕获。在我们的数据集中对象的年龄范围是10到35岁,这带来了更多的真实。

 表1。比较NTU RGB+D数据集和一些其他公开可利用的数据集的3D动作识别。与其他可用的数据集相比,我们的数据集提供了更多的样本、动作类、人体主题和相机视图RGB tension + D行动。

变化的质量行动。尽管我们的数据集限于室内场景,由于采集传感器的操作限制,我们通过在各种背景条件下捕获提供了环境的不稳定性。主体和视图的大量变化,使得各种基于3d的动作分析方法能够进行更准确的跨主体和跨视图评估。拟议中的数据集可以帮助社区在3D人类活动分析方面向前迈进一步,并使应用深度学习技术等数据需求方法成为可能作为另一个贡献,我们受到人体运动物理特性的启发,提出了一种新的长短期记忆(LSTM)部分感知扩展模型[14]。人类的行为可以解释为身体不同部位的相互作用。这样,身体各部分的关节总是一起运动,它们的三维轨迹组合形成更复杂的运动模式。通过将LSTM的记忆单元分解成基于部分的亚细胞,递归网络就可以学习特定于身体各个部分的长期模式,单元的输出将是l我们在提出的数据集上的实验结果表明,数据驱动的学习方法明显优于最先进的手工制作的特征。本文的其余部分组织如下2探索了目前基于3d的人类动作识别方法和基准。第3节介绍了建议的数据集,它的结构,和定义的评估标准。第4节介绍我们新的部分意识的长期和短期记忆网络的行动分析在递归神经网络方式。第5节展示了在我们的基准测试中对最先进的手工制作特征的实验评估以及提出的递归学习方法,第6节总结了论文

在本节中,我们简要回顾了公开的3D活动分析基准数据集和该领域的最新方法。在这里,我们介绍一些最著名的电影。关于当前3D活动分析数据集和方法的更广泛列表,读者可以参考这些调查论文[47,1,5,12,21,45,3]。

在Microsoft Kinect[48]发布后,不同的小组收集了多个数据集来研究3D动作识别,并对该领域的不同方法进行评价。

MSR-Action3D数据集[19]是最早开启基于深度的动作分析研究的数据集之一。这个数据集的样本仅限于游戏动作的深度序列,例如前击、侧击、前踢、侧踢、网球挥杆、网球发球、高尔夫挥杆等。随后将身体关节数据添加到数据集。关节信息包括每帧20个不同身体关节的三维位置。相当数量的方法在这个基准上被评估,最近的报道接近饱和精度[22,20,32]。

这些数据集的特点是相机视图的多样性。不像大多数其他数据集,相机没有绑定的前视图或侧视图。然而,有限的视频样本(60和120)是它们的缺点。RGBD-HuDaAct[23]是最大的数据集之一。它包含12个人类日常动作的1189个视频(加上一个背景类)的RGB和depth序列,在时间长度上变化很大。这个数据集的特殊特点是同步和对齐的RGB和深度通道,这使RBGD信号能够进行本地多模态分析。

MSR-DailyActivity[38]是该领域最具挑战性的基准之一。包含16项日常活动的320个样本,班级内变异较高。该数据集的局限性在于样本数量少,摄像机的视点固定。最近报道的这个数据集的结果也达到了很高的精确度[20,15,22,31]。提出了3D动作对[25],用于提供多对动作类。每组动作都包含了非常相关但在时间轴上有差异的动作,例如拿/放下箱子,推/拉椅子,戴/脱帽子等。最先进的方法[17,32,31]在这个基准上达到了完美的精确度。

多视图3D事件[43]和西北- ucla[40]数据集同时使用多个Kincect摄像机来收集相同动作的多视图表示,并增加样本数量。
值得一提的是,有超过40个数据集专门用于3D人体动作识别[47]。虽然它们都为人类活动分析提供了重要的挑战,但在某些方面存在局限性。表1显示了当前一些数据集与我们的大规模RGB+D动作识别数据集之间的比较。

总结一下我们的数据集相对于现有数据集的优势,NTU RGB+D有:1-更多的action类,
2-每个动作类更多的样本,3-更多的内部变化(姿势,环境条件,互动对象,演员的年龄,…),4-更多的相机视图,
5-更多相机到被摄对象的距离,6-使用Kinect v。2 .它提供了更精确的深度地图和3D连接,特别是在多摄像头设置中,与之前版本的Kinect相比。

在引入了最初的几个基准之后,提出了相当多的方法并对其进行了评估。Oreifej等人[25]从深度序列中计算出四维法线(X-Y-depth-time),并将其累加到时空立方体上。

一个规则多褶龙的120个顶点的tograms。[26]的工作提出了深度云点的取向主成分直方图,以提取针对视点变化的鲁棒特征。Lu等应用[20]基于深度图的二进制距离样本特征,并实现了对噪声、缩放、相机视图和背景杂波的鲁棒表示。Yang和Tian[44]提出了超常向量作为在时空网格上的四维法线的基于字典的聚合码字。

为了获得动作的视图不变表示,可以从每一帧可用的三维人体关节位置中提取特征。Evangelidis等人[10]将人体分为基于部分的关节四联体,并用简洁的6D特征向量对每个部分的构型进行编码,称为骨骼四联体。为了聚集骨架四块,他们使用Fisher向量并通过线性支持向量机对样本进行分类。在[37]中,不同的骨架构型被表示为李群上的点。动作作为骨架构型的时间序列,编码为曲线[22]的工作利用基于群稀疏性的带几何约束的类特定字典编码提取骨架特征。Rahmani和Mian[29]引入了一个非线性知识转移模型,将人类行为的不同观点转换为规范观点。为了将基于convnet的学习方法应用于该领域,[30]将综合生成的数据用于真实的动作捕捉数据。他们的学习方法能够从新奇的姿势和观点识别动作。

在大多数三维动作识别场景中,存在多种信息模态,将它们结合起来有助于提高分类精度。Ohn-Bar和Trivedi[24]将骨架的二阶联角相似度表示与改进的时空深度图上的两步HOG特征相结合,构建每个视频样本的全局表示,并使用线性SVM对动作进行分类。Wang等人[39]将骨架信息的傅里叶时间金字塔与深度图中提取的局部占用模式特征相结合,应用了数据挖掘不能区分身体关节的组合。提出了一种基于结构稀疏性的多模态特征融合技术,用于RGB+D域的动作识别。在利用[27]随机决策森林在基于深度和骨架的特征组合上进行学习和特征剪枝。[32]的工作提出了分层混合规范,融合不同特征,在联合学习框架中选择信息最丰富的身体部位。Hu等人[15]提出动态骨架为基于样条插值骨架点及其梯度的傅立叶时态金字塔。

图1所示。配置在我们的数据集中的25个身体关节。关节的标记为:脊柱1-基部2-中部
3-neck 4-head 5-left肩部6-left肘部7-left左手手腕8 - 9肩部10肘部11-right手腕12 -右手13-left髋关节剩下14膝关节15-left脚踝16-left脚17 -右髋关节18而已膝关节19-right脚踝20个脚21-spine 22 -的左手23-left右手的拇指24-tip 25 -右拇指。

基于RNN的3D动作识别:最近研究了递归神经网络在3D人类动作识别中的应用[36,9,49]。差分RNN[36]在传统的LSTM中增加了一个新的门控机制来提取内部状态(DoS)的导数。导出的DoS被送到LSTM门学习显著的动态模式在3D骨架数据。HBRNN-L[9]提出了一个多层RNN框架,用于基于骨架的输入层次上的动作识别。在第一层,每个子网络从一个身体部分接收输入。下一层是组合[49]的工作在基于rnnn的三维动作学习网络中引入了一种用于LSTM门的内部退学机制,以增强正规化能力。为了进一步规范学习,在网络的代价函数中加入一个共现诱导范数,使学习能够发现共现和区分的节点群,从而更好地识别行动。与之不同的是,我们的Part-aware LSTM (section 4)是一个新的基于rnnn的学习框架,它具有内部的基于part的记忆亚细胞,并具有新的门控机制。

本部分介绍了NTU RGB+D动作识别数据的详细信息和评价标准。

数据模式:为了收集这个数据集,我们使用Microsoft Kinect v2传感器。我们收集了该传感器提供的四种主要数据模式:深度图、3D联合信息、RGB帧和红外序列。深度图是以毫米为单位的二维深度值序列。为了保持所有的信息,我们对每一帧应用无损压缩。每个深度帧的分辨率为512×424。联合信息由的三维位置组成5个主要的人体关节,用于在现场检测和跟踪人体。对应的像素在RGB帧RGB视频以所提供的分辨率录制1920×1080。在512×424范围内逐帧采集和存储红外序列。动作班:总共60个动作班,分为三大组:40个日常动作(饮水、进食、阅读等),9个与健康相关的动作(打喷嚏、摇晃、跌倒等),11个相互动作(拳打脚踢、拥抱等)。受试者:我们邀请了40个不同的受试者来进行数据收集。受试者的年龄在10岁到35岁之间。图4显示了受试者的年龄、性别、视图:我们使用三个相机在同一时间从同一动作捕捉三个不同的水平视图。在每一个设置中,三个摄像头都位于相同的高度,但从三个不同的水平角度:−45◦,0◦+ 45◦。每个受试者被要求执行每个动作两次,一次对着左边的摄像机,一次对着右边的摄像机。这样,我们捕获了两个正面视图,一个左侧视图,一个右侧视图,一个左侧45度视图和一个右侧45度视图。三个摄像机被分配一致的摄像机编号。摄像机1一直在观察为了进一步增加相机视图,在每次设置中,我们都改变了相机对主体的高度和距离,如表2所示。提供了每个视频样本的所有摄像机和设置数字。

猜你喜欢

转载自blog.csdn.net/com_fang_bean/article/details/107462366