GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB阅读笔记

本文是2018CVPR的一篇论文,主要讲述的是从单目RGB图像中进行3D手跟踪,主要包含三个方面,训练数据生成,关键点预测,3D骨架拟合。而主要与2017年ICCV的一篇论文进行对比,该论文是第一篇讲述单目图像手部跟踪的。摘要部分大致讲述了本文的主要内容。第一部分介绍,讲述了3D手姿估计的现状,受近期研究的启发而产生的本文的想法,以及主要工作内容。第二部分相关工作,讲述了目前的多视角研究现状、单目方法、数据集以及基于学习的方法现状。第三部分手追踪系统先后讲述了训练数据生成,手关节点回归以及运动学股价拟合。第四部分经验讲述了定性以及定量对比。第五部分是限制与讨论。第六部分是总结。补充材料给出了网络的架构与训练细节。代码,数据集都已开源。

摘要:我们解决了基于单目rgb序列的实时3D手跟踪的极具挑战性的问题。我们的跟踪方法将卷积神经网络与运动学3D手部模型相结合,这样它就可以很好地推广到未见数据,对遮挡和不同的摄像机视点具有鲁棒性,并导致解剖学上合理的以及时间上平滑的手部运动。在训练CNN时,我们提出了一种基于几何上一致的图像到图像转换网络的合成训练数据的新方法。更具体地说,我们使用神经网络将合成图像转换为“真实”图像,这样生成的图像遵循与现实世界手部图像相同的统计分布。为了训练这个翻译网络,我们结合了对抗损失、循环一致性损失和几何一致性损失,以保持翻译过程中的几何属性(如手姿势)。我们证明了我们的手部跟踪系统在挑战单目rgb方面优于当前最先进的技术。

1.介绍

估计手的3D姿态是计算机视觉的一个长期目标,有许多应用,如虚拟/增强现实(VR/AR)[17,26]和人机交互[38,18]。虽然现有的大量工作考虑了基于无标记图像的手部跟踪或姿势估计,但其中许多工作需要深度摄像机[34,47,39,44,27,7,54]或多视图设置[41,1,56]。然而,在许多应用程序中,这些要求是不利的,因为这样的硬件不太普遍,更昂贵,并且不能在所有场景中工作。

相比之下,我们解决了这些问题,并提出了一种新的实时骨骼三维手跟踪算法,该算法在物体遮挡和杂波下具有鲁棒性。最近的一些研究仅考虑rgb无标记手部跟踪[36,63,8],但存在明显的局限性。例如,Simon等[36]的方法在多视图设置中实现了3D关节位置的估计;然而,在单眼情况下,只能估计2D关节位置。同样,由GomezDonoso et al[8]的方法也仅限于2D。最近,Zimmermann和Brox[63]提出了一种基于单目RGB的3D手位估计方法,但该方法只能获得相对的3D位置,并且存在咬合问题。

受最近手部和身体跟踪工作的启发[49,20,19],我们将基于cnn的2D和3D手部关节预测与运动学拟合步骤结合起来,从单目RGB在全局3D中跟踪手部。这种(有监督的)基于学习的方法的主要问题是需要适当的标注训练数据。虽然已经证明在单视图RGB图像[14]中手动注释2D关节位置是可行的,但由于固有的深度模糊性,在3D中准确注释是不可能的。克服这一问题的一种方法是利用现有的多摄像头方法来跟踪3D手部运动[41,1,56,8]。然而,由于不可避免的跟踪误差,所得到的注释将缺乏精度。一些作品渲染合成手,其中完美的基本真相是已知的[20,63]。然而,cnn训练的是合成的部部分)图像到图像转换的场景中改善了结果,产生了具有更少纹理泄漏和更清晰轮廓的姿势保留结果。一旦这个网络得到训练,我们就可以使用它将任何合成生成的图像转换为“真实”图像,同时保留完美(且廉价)的真实注释。在本文的其余部分中,我们将图像标记为“真实的”(在引号中),或gangenerated,当我们引用经过我们的翻译网络处理后的合成图像时,它们遵循与真实图像相同的统计分布。

最后,使用GAN生成的带注释的RGB图像,我们训练了一个联合回归图像空间2D和根相对3D手部关节位置的CNN。虽然骨骼手模型与2D预测相结合足以估计手的全局平移,但相对3D位置解决了2D位置中出现的全局旋转和清晰度固有的模糊性。总而言之,我们的主要贡献是:

•第一个实时手部跟踪系统,从无约束的单目rgb图像跟踪全球3D手部姿势。

•一种新颖的几何一致GAN,在翻译期间保留姿势的同时执行图像到图像的翻译。

•基于该网络,我们能够增强合成手图像数据集,使统计分布类似于真实的手图像。

•带有注释的3D手部关节位置的新RGB数据集。我们在大小(>260k帧)、图像保真度和注释精度方面克服了现有的数据集。

2.相关工作

我们的目标是在实时帧率下从无约束的单目RGB视频流中跟踪手部姿势。这是一个具有挑战性的问题,因为大的姿态空间,由于物体的遮挡,深度模糊,由于灯光和肤色的外观变化,以及相机视点的变化。虽然基于手套的解决方案可以解决这些挑战,但它们戴起来很麻烦。因此,在接下来的讨论中,我们将讨论基于无标记相机的方法,试图解决这些挑战。

多视角方法:多个RGB摄像机的使用极大地缓解了手部运动和交互过程中的遮挡。Wang等[56]演示了用两个相机使用判别方法快速找到数据库中最接近的姿势的手跟踪。Oikonomidis等[23]在工作室设置中使用8个校准的摄像机显示了手和被操纵对象的跟踪。Ballan等[1]还使用了8个同步RGB摄像机来估计姿势,并添加了来自手指上鉴别检测点的输入。Sridhar等[41,42]使用5个RGB摄像机和一个额外的深度传感器来演示实时手部姿态估计。Panteleris和Argyros[24]提出使用短基线立体相机进行手部姿态估计,而不需要视差图。上述所有方法都利用了多个校准的摄像机,使得在不受约束的场景(例如社区视频)中很难对一般的手部运动进行设置和操作。最近,Simon等人[36]提出了一种方法,通过使用限制自然运动和外观变化的全景摄像机设置来生成大量的2D和3D手部姿势数据。他们还利用他们的数据进行2D手部姿势估计,但不能在单目RGB视频中估计3D姿势。我们的贡献解决了一般场景的数据变化和困难的3D姿态估计问题。

单目方法:3D手部姿态估计的单目方法是更可取的,因为它们可以用于许多应用而无需设置开销。廉价的消费者深度传感器的可用性导致了使用它们进行手部姿势估计的广泛研究。Hamer等[10]提出了第一个使用单目RGB-D数据进行手部跟踪的生成方法之一,即使是在部分遮挡下。由于这种方法往往存在局部最优的问题,Keskin等人[15]提出了一种基于学习的判别方法。许多后续工作已经被提出来改进生成组件[44,46,51,52]和基于学习的鉴别器[58,16,45,49,55,7,37,22,61,5,4,29]。将生成和判别方法的最佳结合起来的混合方法在基准数据集上表现出最佳性能[47,39,40,20,59]。

尽管在单目RGB-D或基于深度的手姿估计方面取得了上述进展,但需要注意的是,由于受到阳光干扰,这些设备并不是在所有场景下都能工作,例如室外,而且功耗更高。此外,在无约束RGB视频中进行3D手姿估计,可以使我们处理社区视频,如图1所示。这个问题的一些最初的方法[12,43,30]并没有产生度量准确的3D姿态,因为它们只获取对于一个给定的输入,或者假设zcoordinate是固定的。Zimmermann和Brox[63]提出了一种基于学习的方法来解决这个问题。然而,他们的三维关节预测是相对于一个标准框架,即绝对坐标是未知的,并且它对物体的遮挡不是很健壮。此外,他们的方法不能用相同的2D关节位置投影来区分3D姿势,因为他们的3D预测仅仅是基于抽象的2D热图,而没有直接考虑图像。相比之下,我们的工作通过从图像证据中联合学习2D和3D关节位置来解决这些限制,因此我们能够正确估计具有模糊2D关节位置的姿势。此外,我们的骨架拟合框架将先前的手模型与这些预测相结合,以获得全局3D坐标。

基于学习的方法训练:使用基于学习的模型进行手位估计的挑战之一是难以获得具有足够现实世界变量的注释数据。对于基于深度的手部姿态估计,已经提出了多个训练数据集,利用生成模型拟合来获得地面真相注释[49,39]或更好地对姿态空间进行采样[21]。Simon等人[36]提出了一种多视图引导方法。然而,这种由外而内的捕捉设置仍然可能由于用手操纵物体而受到遮挡。合成数据有望获得完美的地面真相,但在此数据上训练的模型应用于实际输入[20]时存在域差距。

领域自适应[6,50,25]等技术旨在通过学习对潜在差异不变的特征来弥合真实数据和合成数据之间的差距。其他技术使用实合成图像对[13,32,3]来训练可以生成包含许多真实图像特征的图像的网络。由于很难获得实数合成图像对,Shrivastava等[35]最近提出了一种只需要未配对示例的合成到实数的精细网络。然而,由于输入的像素相似度限制,细化的程度是有限的。相比之下,Zhu等人[62]的未配对图像到图像的翻译工作放宽了这些限制,以寻找两个域之间的双射。我们在[62]的基础上实现了更丰富的细化,并引入了几何一致性约束以确保有效的注释传输。在不需要相应的真实合成图像对的情况下,我们可以生成包含真实数据集中发现的许多特征的手部图像。

3.手部追踪系统

本文的主要目标是提出一种三维单目rgb手跟踪的实时系统。整个系统如图2所示。给定一个直播单目rgb视频流,我们使用CNN手部关节回归器RegNet来预测2D关节热图和3D关节位置(第3.2节)。RegNet使用由新的图像到图像转换网络GeoConGAN(第3.1节)生成的图像进行训练,该网络丰富了合成的手部图像。geocon的输出图像——生成的图像——更适合训练一个CNN,它将在真实图像上工作。在联合回归之后,我们通过最小化我们的拟合能量(第3.3节)来将运动学骨架拟合到2D和3D预测中,这对于实现鲁棒的3D手姿跟踪有几个关键优势:它加强了生物力学的合理性;我们可以检索三维的绝对位置;此外,我们能够在多个帧之间施加时间稳定性。

3.1训练数据生成

由于无法在数百张真实手部图像中标注三维关节位置,因此通常采用合成生成的图像。虽然合成图像的主要优点是已知三维关节的真实位置,但一个重要的缺点是它们通常缺乏真实感。真实图像与合成图像之间的这种差异限制了仅训练合成图像的CNN的泛化能力。为了解释这种差异,我们建议使用图像到图像的转换网络GeoConGAN,其目标是将合成图像转换为真实图像。最重要的是,为了训练这个网络,我们使用了未配对的真实和合成图像,如下所述。请注意,对于真实数据和合成数据,我们只使用前景分割的图像,其中包含白色背景上的手,这有助于训练并将网络容量集中在手区域。

真实的手图像采集:为了获取我们的真实图像数据集,我们使用绿屏设置来捕捉不同姿势的手图像和7个不同的肤色和手型的受试者。我们总共使用分辨率640 × 480的桌面网络摄像头拍摄了28,903张真实手部图像。

合成手图像生成:我们的合成手图像数据集是SynthHands数据集[20]的组合,其中包含从自我中心的角度拍摄的手图像,以及我们自己从各种第三人称视角拍摄的手图像。为了生成后者,我们在最先进的数据集中使用了标准策略[20,63],其中通过手部跟踪器或手部动画平台获得的手部运动被重新定位为运动学3D手部模型。

几何上一致的CycleGAN (GeoConGAN):虽然上述过程允许生成大量具有不同手部姿势配置的合成训练图像,但仅基于合成图像训练手部联合回归网络具有强大的缺点,即这样训练的网络对真实图像的泛化有限,正如我们将在第4.1节中演示的那样。

为了解决这个问题,我们训练一个将合成图像转换为“真实”(或GANerated)图像的网络。我们的翻译网络基于CycleGAN[62],它使用对抗鉴别器[9]同时学习周期一致的正向映射和反向映射。循环一致性意味着两个映射(在任何一个方向上)的组合都是标识映射。在我们的例子中,我们学习从合成图像到真实图像的映射(synth2real),以及从真实图像到合成图像的映射(real2synth)。与许多现有的图像到图像或风格传输网络[13,32]相比,CycleGAN的优势在于它不需要配对图像,即给定的合成图像必须不存在真实的图像对应物,这对我们的目的至关重要,因为这样的对不可用。

图3中说明了这个GeoConGAN的体系结构。该网络的输入是在白色背景上合成的(裁剪的)手的真实图像,以及它们各自的轮廓,即前景分割掩模。在其核心,GeoConGAN类似于CycleGAN[62],其鉴别器和循环一致性损失,以及两个可训练的翻译器synth2real和real2synth。然而,与CycleGAN不同的是,我们合并了一个额外的几何一致性损失(基于交叉熵),以确保real2synth和synth2real组件生成的图像在图像转换期间保持手部姿势。强制一致的手姿势是至关重要的,以确保合成图像的地面真实联合位置也适用于synth2real生成的“真实”图像。图4显示了添加这个新的损失项的好处。

为了提取由real2synth和synth2real(图3中的蓝色框)生成的图像的轮廓,我们基于一个简单的UNet[31]训练一个二进制分类网络SilNet,该网络具有三个2步卷积和三个反卷积。注意,这是一个相对简单的任务,因为图像有白色背景。我们在无阈值的基础上选择了一个可微网络,使GeoConGAN的训练表现得更好。我们的SilNet是预先在一个小的不相交的数据子集上进行训练的,并且在训练synth2real和real2synth时是固定的。详情见补充文件。

数据增强:GeoConGAN训练完成后,我们将所有合成生成的图像输入synth2real组件,并获得具有相关地面真实3D关节位置的“真实”图像集。通过使用原始合成图像的背景掩码,我们通过合成生成的图像(前景)和随机图像(背景)来进行背景增强[53,19,28]。类似地,我们还利用渲染合成序列[20]时产生的对象蒙版,对随机纹理的对象进行增强。在没有背景或对象的图像上进行训练,从而使用数据增强作为后处理,极大地减轻了GeoConGAN的任务。图5显示了一些生成的图像。

3.2手部关节回归

为了从(裁剪的)手部RGB图像中回归手部姿势,我们训练了一个CNN,即RegNet,它预测了21个手部关节的2D和3D位置。二维关节位置在图像空间中用热图表示,三维位置用相对于根关节的三维坐标表示。我们发现回归2D和3D关节是相互补充的,因为2D热图能够表示不确定性,而3D位置可以解决深度模糊性。

如图6所示,RegNet基于由10个剩余块组成的剩余网络,这些剩余块来自ResNet50架构[11],如[20]所示。此外,我们结合了一个基于投影层(ProjLayer)的(可微的)优化模块,以更好地合并2D和3D预测。ProjLayer的想法是执行(初步)中间3D预测的正字法投影,从中创建2D高斯热图(在层内)。然后,这些热图在网络的剩余部分(conv)中被利用,以获得最终的2D和3D预测。在图7a中,我们表明这导致了改进的结果。

训练基于GANerated(第3.1节)和合成图像的混合,并结合相应的3D地面真实关节位置。训练集总共包含约44万个样本,其中60%是生成的。我们从经验上发现,增加这个百分比并不能进一步提高实际测试数据上的性能。我们用相对三维关节位置来训练RegNet,我们通过归一化绝对三维地面真理关节位置来计算,使中指掌指关节(MCP)位于原点,腕关节与中MCP关节之间的距离为1。详情见补充文件。

在测试期间,即用于手跟踪,输入到RegNet的是裁剪的RGB图像,其中(正方形)包围框来自前一帧的2D检测。在第一帧中,正方形包围框位于图像的中心,大小等于输入图像的高度。此外,我们用1e滤波器[2]对RegNet的输出进行过滤,以获得时间更平滑的预测。

3.3运动学骨架拟合

在获得图像空间热图形式的二维关节预测以及相对于根关节的三维关节坐标后,我们将该数据拟合为运动学骨架模型。这确保了一个解剖学上合理的手姿势,同时允许检索绝对的手姿势,我们将在下面描述。此外,在处理一系列图像时,即执行手跟踪,我们可以额外施加时间平滑性。

运动学手模型:我们的运动学手模型如图2中的骨架拟合块所示。该模型包括一个根关节(手腕)和20个手指关节,总共有21个关节。注意,这个数字包括没有任何自由度的指尖关节。设, (为方便用欧拉角表示)为根关节的全局位置和旋转,为15个一自由度或二自由度手指关节的手关节角。我们将所有参数叠加到。通过表示所有J=21个手关节(包括根关节和指尖)的三维绝对位置,其中我们用表示第J个关节的位置。为了计算非根关节的位置,对运动树进行遍历。注意,我们将相机坐标系作为全局坐标系。为了考虑不同用户之间的骨长变化,我们执行每个用户的骨骼适应。当用户将手平行于相机图像平面时,通过在30帧以上的2D预测中平均相对骨长来获得用户特定的骨长。由于RGB数据中固有的尺度模糊性,我们可以确定全局3D结果,这对许多应用程序很重要,但之前的工作不支持[63]。此外,当提供单个骨骼的度量长度时,我们获得了度量精确的3D结果。对于模型拟合,我们将能量最小化其中各个能量项描述如下。

2D拟合项:的目的是使投影到图像平面上的手关节位置与热图最大值之间的距离最小化。由给出,其中表示第j个关节的热图最大值,ωj > 0是由热图导出的标量置信度权重,是基于摄像机本征的三维空间到二维图像平面的投影。请注意,为了检索绝对3D位置,这个2D项是必不可少的,因为3D拟合项只考虑了根相对清晰度,如下所述。

 3D拟合项:的目的是通过预测相对3D关节位置来获得良好的手部关节。此外,这个项解决了仅使用2D关节位置时出现的深度模糊。我们定义。变量是第j个关节相对于根关节的用户特定位置,该位置由RegNet的输出xj计算得出,其中p(j)是关节j的父结点,设Zroot = 0∈。使用用户特定位置的想法是为了避免手部模型和3D预测之间的骨长不一致导致的局部极小值。

关节角度限制:惩罚解剖学上不合理的手关节,强制关节不要弯曲太多。数学上,我们定义,其中为非根关节自由度的上下关节角极限,计算行最大值。

时间平滑性:在Θ中惩罚偏离恒定速度的情况。我们制定,其中姿势参数Θ的梯度是使用有限(向后)差分确定的。

优化:为了最小化(1)中的能量,我们使用梯度下降策略。对于第一帧,θ和t被初始化为代表一个平手,它位于图像的中心,距离相机平面45cm。对于剩下的帧,我们使用前一帧的转换和连接参数t和θ作为初始化。在我们的实验中,我们发现快速的全局手旋转可能会导致较差的优化结果,对应于非凸能量景观(1)中的局部最小值。为了解决这个问题,对于全局旋转R,我们不再依赖于之前的值,而是基于相对的三维关节预测来初始化它。具体来说,我们利用这样的观察,即在人手中,根关节及其非拇指手指的四个直接子关节(分别为MCP关节)(近似)是刚性的(参见图骨架贴合块)。因此,为了找到全局旋转R,我们解决了问题其中包含来自手模型的(固定)方向向量,而包含来自当前RegNet预测的相应方向向量。都有,其中是(归一化的)向量,从根关节指向各自的非拇指MCP关节j1,…, j4, n = yj1 × yj4是“palm-plane”的(近似)法向量。为了获得,我们根据世界空间中3D模型点的xj计算yj,当模型的全局旋转为单位时,这只在跟踪开始时对骨架进行一次。为了在每一帧中获得, xj被设置为RegNet预测,用于计算yj。虽然问题(7)是非凸的,但它仍然承认全局最小值的有效计算,因为它是正交Procrustes问题[33,48]的一个实例:对于的奇异值分解,(7)的全局最优值由给出。

4.经验

我们定量和定性地评估我们的方法,并将我们的结果与其他最先进的方法在各种公开数据集上进行比较。为此,我们使用正确关键点百分比(PCK)评分,这是一种评估姿态估计精度的流行标准。PCK将候选关键点定义为正确的,前提是它位于给定半径的圆(2D)或球面(3D)围绕真实数据内。

4.1定量评价

消融实验:在图7a中,我们比较了使用不同类型的训练数据训练联合回归器RegNet时的准确性。具体来说,我们比较了仅使用合成图像,合成图像加颜色增强,以及合成图像与GANerated图像相结合,其中,对于后者,我们还考虑额外使用RegNet中的ProjLayer。对于颜色增强,我们采用随机γ∈[0.25,2]均匀采样的gamma校正。虽然我们在包含12个序列的整个Stereo数据集[60]上评估了RegNet,但我们没有在数据集的任何帧上进行测试。我们表明,在纯合成数据上进行训练会导致较差的准确性(3D PCK@50mm≈0.55)。虽然合成图像上的颜色增强改善了结果,但我们的ganated图像显著优于标准增强技术,实现了3D PCK@50mm≈0.80。这个测试验证了使用gangenerated图像的参数。

与最新技术的比较:图7b评估了我们在Stereo数据集上的检测精度,并将其与现有方法进行比较[60,63]。我们遵循了与[63]中使用的相同的评估协议,即我们在10个序列上进行训练,并在其他2个序列上进行测试。此外,[63]将他们的3D预测与真实手腕对齐,我们也这样做是为了公平。我们的方法优于现有的所有方法。此外,我们在没有对Stereo数据集的任何序列进行训练的情况下测试了我们的方法,并证明我们仍然优于一些现有的工作(图7b中的绿线)。这证明了我们方法的泛化性。图7c显示了Dexter+Object[40]和EgoDexter[20]数据集上的2D PCK,单位为像素。我们明显优于Zimmerman和Brox (Z&B)[63],后者在困难的咬合条件下失败。请注意,我们不能报告3D PCK,因为[63]只输出根相对3D,并且这些数据集没有根联合注释。

4.2定性评价

我们在三个不同的视频来源上对我们的方法进行定性评估:公开可用的数据集,实时捕获和社区(或复古)视频(即YouTube)。图8给出了Z&B[63]和我们的方法在Stereo[60]、Dexter+Object[40]和EgoDexter[20]三个数据集上的定性结果。即使在严重咬合的情况下,我们也能够提供可靠的手部跟踪,并在这些情况下显著改善[63]。虽然我们在定量评估中已经优于Z&B[63](图7c),但我们强调这并不是全图,因为[40,20]的数据集由于人工标注过程,只提供了可见指尖的标注。

因此,咬合关节的误差在定量分析中完全没有体现出来。与[63]相比,由于我们的方法被明确训练来处理遮挡,我们在补充视频和图8列3-6中的定性分析突出了我们在这种情况下的优势。我们在图9和补充视频中显示实时跟踪结果。这一序列是在办公环境中使用常规桌面网络摄像头实时跟踪的。注意我们的方法如何准确地恢复手的完整3D关节姿态。在图1中,我们证明了我们的方法也与社区或老式RGB视频兼容。特别地,我们在Y ouTube视频中展示了3D手跟踪,这证明了我们方法的泛化。

5.限制与讨论

对于我们的方法来说,一个困难的场景是当背景具有与手相似的外观时,因为我们的RegNet努力获得良好的预测,因此跟踪变得不稳定。这可以通过使用显式分割器来解决,类似于Zimmermann和Brox[63]。此外,当输入图像中有多个指针接近时,检测可能不可靠。由于我们的边界盒跟踪器,我们的方法可以处理足够独立的手——跟踪相互作用的手或多人的手,这是后续工作的一个有趣方向。在纯二维图像中,手的三维跟踪是一个极具挑战性的问题。虽然我们的3D手部跟踪实时方法优于最先进的RGBD方法,但我们的结果与现有的RGB- d方法之间仍然存在精度差距(我们提出的RGB方法的平均误差≈5cm,而[40]的RGBD方法在他们的数据集Dexter+Object上的平均误差≈2cm)。尽管如此,我们相信我们的方法是迈向rgb 3D手部跟踪大众化的重要一步。

6.总结

现有的大多数研究都是基于单目RGB进行手部二维跟踪,或者采用深度图像或多视图RGB等附加输入进行手部三维运动跟踪。Zimmermann和Brox[63]的最新方法解决了RGB图像的单目3D手部跟踪问题,而我们提出的方法解决了同样的问题,但在几个维度上领先了一步:我们的方法通过运动学模型拟合获得了绝对3D手部姿态,对闭塞更稳健,由于丰富了我们的合成数据,使其更类似于真实手部图像的分布,因此具有更好的泛化性。我们的实验评估证明了这些优点,因为我们的方法明显优于[63],特别是在困难的遮挡场景中。为了进一步鼓励未来在单目3D RGB手部跟踪方面的工作,我们将我们的数据集提供给研究界。

补充材料:

在本文档中,我们提供了RegNet和GeoConGAN网络的详细信息(第1节),额外的定量评估(第2节),以及CNN RegNet输出和最终结果的详细可视化(第3节)。

1.CNN和GAN细节

1.1GeoConGAN

网络设计:GeoConGAN的架构基于CycleGAN[13],即我们分别为合成图像和真实图像训练两个条件生成器和两个鉴别器网络。最近,还提出了仅使用一个生成器和鉴别器来丰富未配对数据合成图像的方法。Shrivastava等人[9]和Liu等人[5]都在条件合成输入和生成输出之间使用了L1损失(除了公共鉴别器损失),因为缺乏图像对。这种损失迫使生成的图像在各个方面都与合成图像相似,即如果合成数据不接近,它可能会阻碍生成器产生真实的输出。相反,我们决定使用周期一致性和几何一致性损失的组合,使生成器网络远离合成数据,从而更接近真实世界数据的分布,同时保留手的姿势。我们的GeoConGAN包含ResNet生成器和最小二乘PatchGAN鉴别器网络。

训练细节:我们在Tensorflow[1]中训练GeoConGAN,进行20,000次迭代,批大小为8。我们初始化Adam优化器[4],学习率为0.0002,β1 = 0.5, β2 = 0.999。

 1.2.RegNet

投影层:最近在3D身体姿态估计方面的工作集成了投影层,以利用仅2d的注释数据来训练3D姿态预测[2]。由于我们的训练数据集提供了完美的3D地面真相,我们将投影层仅仅作为优化模块来连接2D和3D预测。我们使用正交投影来投影中间相对3D关节位置预测,其中3D预测的原点(中间MCP关节)投射到渲染热图的中心。因此,我们渲染的热图也是相对的,不一定与地面真相2D热图像素对应。因此,在将呈现的热图反馈回主网络分支之前,我们将对热图进行进一步处理。请注意,渲染的热图相对于3D预测是可微分的,这使得梯度的反向传播通过我们的ProjLayer成为可能

 训练细节:我们在Caffe[3]框架中训练RegNet 30万次迭代,批大小为32。我们使用AdaDelta[12]求解器,初始学习率为0.1,经过150,000次迭代后降低到0.01。在我们的网络和ResNet50之间共享的所有层都使用从ImageNet 预训练中获得的权重进行初始化。二维热图损失和局部三维关节位置损失均采用欧几里得损失,损失权重分别为1和100。

计算时间:在我们的实时跟踪系统中,RegNet的前向通过在GTX 1080 Ti上需要13毫秒。

2. 与RGB-D方法比较

由于单目RGB图像固有的深度模糊性,纯RGB图像中的手部三维跟踪是一个极具挑战性的问题。虽然我们的方法提高了rgb纯手跟踪方法的最先进水平,但rgb纯手跟踪方法与RGB-D方法之间仍有差距[6,8,10]。这种精度差距的定量分析如图1所示,其中我们将我们的结果(深蓝色)与Sridhar等人[11]的RGB-D方法(红色)进行了比较。

为了更好地理解错误的来源,我们执行了一个额外的实验,其中我们翻译了我们的rgb结果的全局z位置,以最好地匹配地面真相的深度。在图1中,我们将这些深度归一化结果(浅蓝色)与我们的原始结果(蓝色)进行了比较。可以看出,基于RGB的方法与基于RGB- d的方法之间的差距有很大一部分是由于对手根位置的估计不准确。导致手根位置不准确的原因包括骨骼不能完全匹配用户的手(就骨骼长度而言),以及2D预测的不准确性。

3.详细定性评价

在图2和图3中,我们定性地评估了跟踪解决方案以及最终结果的每个中间阶段。其中,图2为受试者在EgoDexter数据集[6]上抓取办公环境中不同对象的结果,图3为从Y ouTube下载的社区视频的结果。在这两个图中,我们提供了可视化的:二维关节检测的热图最大值(第一行);根相对三维关节检测(第二行);全局3D跟踪手投影到相机平面(第三排);全局3D跟踪手可视化在一个虚拟场景与原始相机截锥(第四和第五行)。完整序列请参见补充视频。

 论文链接:

https://handtracker.mpi-inf.mpg.de/projects/GANeratedHands/content/GANeratedHands_CVPR2018.pdf

论文补充链接:

https://handtracker.mpi-inf.mpg.de/projects/GANeratedHands/content/GANeratedHands_CVPR2018_Supp.pdf

数据集及其余资料链接:

GANerated Hands Dataset

猜你喜欢

转载自blog.csdn.net/qhd12/article/details/128454540