【翻译论文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image (CVPR 2018)

因为科研的需要,最近阅读了这篇文章,里边的一些术语尽量的翻译的专业一点,如有不恰当的地方欢迎个位评论指正,还有就是如有涉及到版权的问题,请及时联系本人,本人会立马删除

该工作解决了从单个彩色图像估计全身3D人体姿势和形状的问题。这是一项普遍存在基于迭代优化的解决方案的任务,而卷积网络(ConvNets)由于缺乏训练数据及其预测3D(时)的低分辨率而遭受负面影响。我们的工作旨在弥合这一差距,并提出一种基于卷积网络的高效且有效的直接预测方法。我们方法的核心部分是在我们的端到端框架中结合参数统计体形模型(SMPL)。这让我们获得了非常详细的3D网格结果,同时仅需要估计少量参数,使其对于直接网络预测是友好的(或者理解为有利于直接网络预测)。有趣的是,我们证明仅仅从2D关键点和掩模就能可靠地预测这些参数。2D关键点和掩模是通用2D人体分析卷及网络的典型输出,使我们能够降低对具有3D形状正确标注(groundtruth)的图像可用于训练的大量要求。同时,通过保持可微性,在训练时我们利用估计的参数来生成3D网格,并使用3Dper-vertex损失明确地优化表面。最后,采用可微分渲染器将3D网格投影到图像,通过优化投影与2D注释(即2D关键点或掩模)的一致性,可以进一步细化网络。所提出的方法性能优于此任务的先前基准,并且提供了用于从单个彩色图像直接预测3D形状的有吸引力的解决方案。

1.简介

从图像中估计人体的全身3D姿势和形状一直是计算机视觉的一个挑战性目标,一直追溯到Hogg的工作(1983年)[15]。该问题固有的模糊性迫使研究人员使用单目图像序列进行推理[54,3],采用多个摄像机视图[36,16],甚至探索可供选择的(替代的)传感器,如Kinect[53]IMU[52]。在这些装置中,体形重建结果非常显著。然而,从单张彩色图像估计3D姿势和形状仍然是3D人体分析的最终目标。

考虑到这种问题特别具有挑战性,文献无疑是稀缺的。大多数方法依赖于迭代优化,试图估计与2D图像观察一致的全身3D形状,如轮廓,边缘,阴影或2D关键点[41,14]。尽管解决复杂优化问题需要大量的运行时间,但由于局部最小值导致的常见故障,以及容易依赖于模糊2D线索的错误,基于优化的解决方案仍然是该问题的主要范式(范例)[22,7]。即使是深度学习的出现也没有显著改变状况。卷积网络似乎不是这个问题的可行候选者,因为它们需要大量的训练数据,并且它们因3D预测分辨率低而臭名昭著[37,44]。我们的工作目标是通过提出一种高效且有效的直接预测方法来证明卷积网络确实能够为这个问题提供一个有吸引力的解决方案,该方法具有竞争力,甚至性能优于迭代优化的方法。

为了使这一点变得切实可行,我们的方法的关键设计选择是在我们的端到端框架中结合参数统计体形模型(SMPL[25]skinnedmulti-person linear),如图1所示。这种表示的优点是我们可以以6890个顶点的形式生成高质量的3D网格,而且仅仅估计少量参数,即72个用于姿态,10个用于形状。这种低维参数化使得该模型对于直接网络预测是友好的(意思应该是对直接网络预测是有利的)。实际上,通过仅使用2D关键点和轮廓作为输入,该预测是可行并且准确的。这使我们能够放宽限制性的假设,即具有3D形状标注的自然图像可以用于训练。相比之下,我们可以利用可用的2D图像注释(例如,[19,4])来训练图像到2D推理,同时使用参数模型的实例来训练2D3D形状的推断。同时,采用该参数模型的另一个主要优点是其结构使我们在训练时生成预估的3D网格,并通过使用3Dper-vertex损失直接对表面进行优化。与初始参数回归相比,这种损失与通常用于评估的顶点到顶点3D误差具有更好的相关性并且改善了训练。最后,我们建议采用一个可微分的渲染器,用于将生成的3D网格,投影到2D图像。这通过优化标注了2D观察结果(即2D关键点和掩模)的投影的一致性,实现了网络的端到端微调。完整的框架为 从单个彩色图像中估计3D人体姿势和形状问题提供了模块化直接预测解决方案,并且优于相关基准的先前方法。

我们的贡献可以被概括为一下几点:

用于从单个彩色图像进行3D人体姿势和形状估计的端到端框架。

在卷积网络估计的2D关键点和掩模预测SMPL模型参数,以避免在合成图像示例上进行训练。

-在训练时生成3D身体网格,并基于3D形状一致性进行监督。

-使用可微分渲染器进行3D网格投影和基于二维标注一致性的监督网络细化。

与以前的3D人体姿态和形状估计方法相比,性能优越,运行时间显著加快。

2.相关工作

3D人体姿势估计:为了估计令人信服的人体3D重建,准确预测人的3D姿势是至关重要的。最近的许多工作都遵循端到端范式[48,40,42,46,55],使用图像作为输入来预测3D关节位置[23,45,34,28],回归3D热图[31],或者将图像分类为特定的姿势类[39,40]。不幸的是,一个重要的限制因素是大多数这些卷积网络需要具有3D姿势标注信息的图像进行训练,从而限制了可用的训练数据源。其他方法致力于由最先进的卷积网络提供的2D姿势估计,并专注于3D姿势重建[29,57],恢复3D姿势样本[8],或产生与2D姿势一致的多个3D姿势候选[18]。值得注意的是,Martinez等人。[27]使用简单的多层感知器演示了最先进的结果,该感知器从2D姿势输入回归(复原)3D关节位置。我们的目标与前面提到的工作有很大的不同,因为我们估计人体的整个表面几何形状,而不是一个粗略的类似火柴人的形象。

人体形状估计:与3D人体姿势的进步同时,一组不同的工作解决了人体形状估计的问题。在这种情况下,给定单个图像,大多数方法试图估计统计体形模型的参数,如SCAPE[5]SMPL[25]。输入通常是轮廓,而回归森林[9]和卷积网络[11,10]已被提出用于预测。人体形状(人体形状识别)的知识对于生物识别应用是有用的,但是我们认为对于3D感知(3D信息的获取),当共同推断姿势和形状时,潜力和挑战要大得多。

联合3D人体姿势和形状估计:尽管姿势和形状预测有个别进步,但它们的联合估计使得任务变得更加困难。这一直在促进(培养)非单一图像场景的研究,以获得更强大的(鲁棒性更好的)结果。徐等人[54]提出了一个管线(或者理解为算法流程),用于从单目视频中获取完整的性能,假设知道所观察对象的形状网格。Alldieck等人[3]依靠光流提示从单目视频共同估计姿态和形状。Rhodin等[36]和黄等人[16]使用来自多个校准相机的图像,并依靠关键点检测,轮廓和时间一致性来恢复身体的重建。Weiss等人提出了另一种装置。[53]利用Kinect传感器的深度模态来解决同样的问题。本着探索不同传感器的精神,vonMarcard等人[52]在受试者身上使用一组稀疏的IMU来共同恢复姿势和形状。

3D人体姿势和单一彩色图像的形状:在最具挑战性的情况下,仅使用单个彩色图像作为输入,Sigal等人的工作[41]是第一个通过将参数模型SCAPE[5]拟合到正确标注信息的图像轮廓来估计高质量3D形状估计的人之一。Guan等人[14]在拟合过程中使用轮廓,边和阴影作为提示,但仍需要通过用户指定的2D骨架进行初始化。Bogo等人最近提出了一种全自动方法。[7]。他们使用来自2D姿势卷积网络[33]2D关键点检测,并将参数模型SMPL[25]拟合到这些2D位置。他们的3D姿势结果非常准确,但形状仍然高度不受约束。为了改善这一点,Lassner等人。[22]使用分割卷积网络提供的轮廓扩展拟合。这些作品的共同主题是它们构成了一个优化问题,并尝试将身体模型拟合到一组2D观察结果中。但缺点是解决这个迭代优化问题非常缓慢,因为局部最小值很容易失败,并且它很大程度上依赖于容易出错的2D观测结果。

或者,直接预测方法以辨别方式估计3D姿态和形状,而不在推断期间明确地优化特定目标。与此范例相关的是Lassner等人的工作。[22],其中卷积网络检测到人体的91个地标,然后随机森林从这些检测中估计3D体和形状。然而,为了训练这些地标,他们仍然需要将身体形状与图像对齐。相比之下,我们证明只有一小部分注释对于重建是至关重要的,即2D关节和掩膜,它们可以由人体注释器提供,并且对于野外图像而言是丰富的[19,4,24],同时我们还将所有内容整合到统一的端到端框架中。同时,Tan等人[43]使用编码器-解码器卷积网络,其中训练解码器以预测对应于SMPL参数的轮廓。与他们不同的是,通过识别这些参数,我们可以分析地生成主体网格,并将其以可微的方式投射到图像上(如[47]中的面部模型),从而避免了50万额外可学习的权重。与他们相反,我们将图像中的计算和学习工作集中在框架的3D形状部分。我们的工作也与Tung等人的同时工作有关。[50]但是我们的框架可以从头开始训练,而不是依靠合成图像数据进行预训练,我们展示了基于模型的3D姿势和形状预测的最新结果。

3.人体形状模型

统计体形模型,如SCAPE[5]SMPL[25],它们是强大的工具,为端到端框架提供了重要机会。其中一个重要的优点是它们的低维参数空间,非常适合直接网络预测。使用此参数表示,与体素化(将物体的几何形式表示转换成最接近该物体的体素表示形式)或点云表示相比,我们可以保持输出预测空间较小。同时,低维预测不会牺牲输出的质量,因为我们仍然可以从估计的参数生成高质量的3D网格。此外,从学习的角度来看,我们绕过了学习人体统计学的问题,并将网络容量用于从图像证据推断模型参数。相比之下,没有模型帮助的方法给学习方带来了额外的负担,这常常导致令人尴尬的预测错误(例如,未能在遮挡下重建肢体,缺少身体细节等)。此外,大多数模型提供了方便的姿势和形状的分解(分离),这对于独立地关注影响两者中的每一个的因素是有用的。最后但同样重要的是端到端方法,从参数输入生成3D网格的功能是可区分的,使模型与当前的end-to-endpipelines兼容。

在这项工作中,我们采用了Loper等人介绍的最新的SMPL模型。[25]。我们在此提供基本符号,我们请读者参阅[25]了解更多细节。SMPL定义函数M(β,θ;Φ),其中β是形状参数,θ是姿势参数,Φ是模型的固定参数。该函数的直接输出是人体网格P∈R^(N*3)[N×3的矩阵],其中N= 6890个顶点 Pi∈R^3[3维向量]。模型的形状使用少量主体形状的线性组合,这些主体形状是从大型身体扫描数据集中学习的[38]。形状参数β是这些基础形状的线性系数。身体的姿势是通过具有23个关节的骨架钻机来定义的。姿势参数θ以轴角度来表示,并定义骨架的各部分之间的相对旋转。总共有72个参数定义了姿势(23个关节中的每个关节3个,全局旋转加3个)。给定由形状参数β检索的静止姿势形状,SMPL定义了依赖于姿势的变形并使用姿势参数θ来产生最终输出网格。方便的是,体节点J是一组稀疏的网格顶点的线性组合,使节点成为估计体网格的直接结果。

4.技术方法

我们任务的传统基于卷积网络的方法是获取大量具有3D形状标注信息的彩色图像,并使用这些输入输出对来训练网络。然而,除了小规模数据集[22]或合成的图像示例[51],这种类型的数据通常是不可用的。因此,要处理这个任务,我们需要重新考虑典型的算法流程。我们的主要目标是利用我们拥有的所有资源,并利用我们对问题的见解来构建有效的框架。作为第一步,根据先前工作的发现,我们确定可以从2D姿态估计[7,27]可靠地估计3D姿势,而形状可以从轮廓测量进行推断[11,10]。该观察方便地分解了以下问题:a)从彩色图像估计关键点和掩模,以及b)从2D证据(结果)预测3D姿态和形状。这种做法的优点是可以不需要具有3D形状标注信息的图像来训练框架。


4.1。关键点和轮廓预测

我们框架的第一步侧重于2D关键点和轮廓估计。这部分是由具有2D关节和掩模注释的大规模基准[19,4,24]的可用性推动的。考虑到这些数据的数量和可变性,我们利用它来训练用于2D姿势和轮廓预测的卷积网络,这在各种成像条件和姿势下特别可靠。

在过去,已经使用两个单独的卷积网络来提供2D关键点和掩模[16,22]。相比之下,对于更优雅的解决方案,我们训练单个卷积网络,我们将其称为Human2D,它产生两个输出,一个用于关键点,一个用于轮廓。Human2D遵循StackedHourglass(堆叠式沙漏全卷积网络设计[30],使用两层Hourglass,这被发现是准确性和运行时间之间的良好折衷。关键点输出采用热图[49,32]的形式,其中正确标注和预测的热图之间的MSE损失Lhm用于监督。轮廓输出具有两个通道(人体和背景),并使用像素二进制交叉熵损失Lsil进行监督。为了训练(或者理解为对于训练),我们将两个损失结合起来:LhgLhm+Lsil,其中λ=100.这个卷积网络属于多任务学习范式[34]。通过共享,这两项任务可能相互受益,但多任务学习也可能带来某些挑战(例如,适当的损失加权),正如Kokkinos所指出的那样[21]

4.2.3D姿势和形状预测

第二步更具挑战性,需要从2D关键点和轮廓估计全身3D姿势和形状。通过迭代优化,轮廓和/或关键点已被广泛用于3D模型拟合[6,7,22]。在这里,我们证明了这种映射也可以从数据中学习,同时可以在单个估计步骤中获得可靠的预测。对于这种映射,我们训练两个网络组件:(aPosePrior,它使用2D关键点位置作为输入以及检测的置信度(通过每个热图的最大值实现)并估计姿势系数θ,和(bShapePrior,它使用轮廓作为输入并估计形状系数β。一般来说,轮廓可以有助于3D姿势推理[6],反之亦然(3D姿势有助于轮廓的推理)[7]。然而,根据经验,我们发现这种拆解(意思应该是将3D姿势与轮廓)以提供更稳定和准确的3D预测,同时它还引导了更模块化的流水线(例如,仅更新PosePrior,而不重新训练整个网络)。关于架构,PosePrior使用两个双线性单元[27],其中输入是2D关键点位置和每个热图的最大响应,输出是72SMPL姿势参数θShapePrior使用一个简单的架构,有五个3×3卷积层,每个层后面跟着最大池化,最后一个双线性单元有10个输出,对应于SMPL形状参数β


输入的形式(2D关键点和掩膜)和输出(形状和姿势参数)的形式允许我们通过生成具有不同3D姿势和形状的SMPL模型的实例来生成大量训练数据(图2)。事实上,我们可以利用MoCap数据(例如[1,17])对3D姿势进行采样,并利用人体扫描(例如[38])对样本体形状进行采样。对于输入,我们只需要将3D模型投影到图像平面(可能来自不同的视角),并计算轮廓和2D关键点位置以生成用于训练的输入-输出对。这种数据生成是可行的,因为我们使用了中间轮廓和关键点表示。相比之下,尝试直接从彩色图像学习映射需要生成合成图像示例[51],这通常不会达到野外图像的可变性

在前面的段落中,我们故意避免讨论对Priors网络的监督。过去的工作[22,43]已经使用预测和准确标注信息参数之间典型的L2损失来检查了监督方案。这种天真的(幼稚的,不知道怎么翻译)参数回归方法的一个缺点是,不同的参数可能对最终重建具有不同尺度的影响(例如,全局身体旋转比手相对于手腕的局部旋转更重要)。为避免手动选择或调整每个参数的监督,我们的目标是提供更全面的解决方案。我们的方法需要在训练时生成全身网格,我们通过应用3Dper-vertex损失明确优化预测表面。由于函数Mβθ;Φ)是可微分的,我们可以通过它反向传播并处理这个网格生成器作为我们网络的典型层,没有(不需要)任何可学习的参数。给定预测的网格顶点Pi和相应的groundturth顶点Pi,我们可以用3Dper-vertex损失来监督网络:

它平等地考虑所有顶点,并且与通常用于评估的3Dper-vertex误差具有更好的相关性。或者,如果焦点主要是3D姿势,我们也可以仅考虑M个相关的3D关节Ji来监督网络,模型将这些顶点作为网格顶点的稀疏线性组合公开。在这种情况下,用Ji表示估计的关节,相应的损失可表示为:

根据经验,我们发现最好的训练策略是首先使用L2参数损失对网络参数进行合理的初始化,然后激活顶点损失LM(如果焦点仅在姿势上,则关节损失LJ),训练更好的模型。


4.3。可微分的渲染器

我们之前的分析放宽了这样的假设:具有3D形状正确标注的图像可用于训练并依赖于几何3D数据(MoCap和身体扫描)。但在某些情况下,即使是这种类型的数据也可能无法使用。例如,LSP[19]具有体操或跑酷姿势,这些姿势在典型的MoCap中没有表现出来。幸运的是,我们生成的3D网格有可能利用这些2D注释进行训练。为了关闭循环,我们的完整方法包括一个额外的步骤,将3D网格投影到图像并检查与2D注释的一致性。在并发工作中,使用解码器类型的网络来学习从SMPL参数到轮廓的映射[43]。然而,在这里我们确定该映射是已知的并且涉及3D网格到图像的投影,其可以以微分的方式表达,而不需要训练具有可学习权重的网络。更具体地说,对于我们的实现,我们采用近似可微分的渲染器OpenDR[26],它将网格和3D关节投影到图像空间,并实现反向传播。投影操作Π产生:(a)轮廓Π(P)=S,其表示为64×64二进制图像。(b)投影的2D关节Π(J)=W∈RM×2。在这种情况下,来自这些投影与带注释的轮廓S2D关键点W的对照的监督,可以使用L2损失:


 


这种监督的目标有两个:(a)它可以用于网络的端到端细化,仅使用具有2D关键点和/或掩模的图像进行训练。(b)在一个只有2D注释的新设置(例如,新的数据集)之前,它可以适当地调整一个通用的姿势或形状。

5.实证评估

本节重点介绍所提方法的实证评估。首先,我们提出了我们用于定量和定性评估的基准。然后,我们提供了该方法的一些基本实现细节。最后,在选定的数据集上显示定量和定性结果。

5.1。数据集

对于经验评估,我们采用了两个最近的基准,提供具有3D体形基础事实的彩色图像,UP-3D数据集[22]SURREAL数据集[51]。此外,我们使用Human3.6M[17]数据集进一步评估3D姿势精度。

UP-3D:它是最近的数据集,它收集来自2D人类姿势基准的彩色图像,如LSP[19]MPII[4],并使用扩展版本的SMPLify[7]来提供3D人体形状候选。通过人体注释器评估候选者以选择仅具有良好3D形状拟合的图像。它包括8515个图像,其中7818个用于训练,1389个用于测试。我们在此测试集上报告结果,同时我们还根据UP3D图像的原始数据集(LSP,MPII或FashionPose)考虑子集。最后,我们研究了由Tan等人选择的139个图像的简化测试集。[43]旨在限制全局旋转的范围。我们使用预测和正确标注形状之间的平均每个顶点误差来报告结果。

SURREAL:这是一个最近的数据集,它提供了具有3D形状标注信息的合成图像示例。数据集从MoCap[1,17](Motioncapture,简称Mocap在运动物体的关键部位设置跟踪器,由Motioncapture系统捕捉跟踪器位置,再经过计算机处理后得到三维空间坐标的数据。)绘制姿势,从身体扫描[38]绘制体形,为每个图像生成有效的SMPL实例。合成图像不是很真实(realistic),但准确的标注信息(groundtruth)使其成为评估的有用基准。我们报告数据集的Human3.6M部分的结果,考虑所有测试视频并保留每个视频的五帧以避免数据中的过度冗余。使用平均每顶点(per-vertex)误差报告结果。

Human3.6M:这是一个大型室内数据集,包含多个主题,执行典型的操作,如“吃”和“走”。我们遵循Bogo等人的协议。[7]使用来自'cam3'的主题S9和S11的所有视频进行评估。原始视频从50fps下采样到10fps,以消除冗余,如[22]中所做的那样。使用重建误差报告结果


5.2。实施细节

Human2D网络使用来自Lassner等人的轮廓,使用MPII[4]LSP[19]LSP扩展[20]数据进行训练。[22]。我们使用批量大小为4,学习率设置为3e-4rmsprop用于优化。使用旋转增强(±30°),缩放(0.75-1.25)和翻转(leftright)。训练持续1.2M(百万)迭代。对于Priors网络,我们训练批量大小为256,学习率设置为3e-4,并使用rmsprop进行优化。最初,使用L2参数损失训练网络进行40k次迭代,然后使用LM(或LJ,如果我们只关注姿势)使用参数损失加权,再进行60k次迭代。

具有重投影损失的端到端细化持续2k次迭代,批量大小为4,学习率设置为8e-5,并使用rmsprop进行优化。为了提高训练的鲁棒性,端到端更新与Human2DPriors网络的个别更新交替进行(如前两段所述)。这有助于各个组件保持其原始目的,同时我们还利用端到端训练的优势将它们集成在一起。

5.3。组件评估

在本节中,我们使用UP-3D数据集评估我们方法的组件。我们训练两个不同版本的系统,对于Priors,我们利用来自UP-3D(由Lassner等人[22]提供)或CMUMoCap(由Varol等人[51]提供)的数据。在两种情况下,Human2D网络保持不变。

我们的实验侧重于监督的类型。使用L2损失对θβ参数进行初步训练Priors网络[43],可以将预测误差保持在较高水平,如表1(第1行)所示。或者,我们可以使用Rodrigues的旋转公式(罗德里格斯旋转公式)[12]θ参数从轴角表示转换为旋转矩阵,并在此表示上应用L2损失(第2行)。这导致更稳定的训练和更好的性能,正如Lassner等人所观察到的那样。[22]。然而,使用我们提出的per-vertex监督(第3行)生成人体网格和进一步训练网络更为合适,并将我们的框架提升到最先进的性能(参见第5.4节)。最后,使用2D注释和重投影错误(第4行)的额外端到端微调提供了对网络的轻微改进。在UP-3D情况下,好处很小,因为Priors已经观察到具有完整3D标注信息的非常相似的示例,因此2D注释变得多余。然而,当使用CMU数据训练Priors时,从CMU姿势到UP-3D姿势的域转换是重要的,因此这些2D注释提供了明显的性能益处。这是一个有趣的实证结果,表明具有重投影损失的训练不仅可用于端到端细化,而且还可以帮助网络从2D注释中恢复新信息。使用我们最好的模型的UP-3D的一些定性结果如图3所示。
 

5.4。与最先进的比较

UP-3D:我们与Lassner等人的两种最先进的直接预测方法进行比较。[22]和Tan等人。[43]。我们不包括SMPLify方法[7],因为该算法的一个版本用于生成该数据集的标注信息,因此我们观察到许多估计的重建与标注信息的差异很小。对于[22],我们使用公开可用的代码来生成预测。完整的结果显示在表2中。我们的方法在很大程度上优于其他两个基线。值得注意的是,[43]的一个版本使用了超过100k的图像(大多数是合成的),具有标准信息的姿势和形状参数来直接监督网络(line‘Direct’),其表现优于我们无法访问此数据的方法。最后,在图4(论文中写的是3,应该是写错了)中,我们提供了与我们最接近的竞争对手的定性比较,[22]的直接预测方法。

SURREAL:我们与两种最先进的方法进行比较,一种是基于迭代优化,SMPLify[7],一种是基于直接预测[22]。我们使用两种方法的公开可用代码来生成预测。对于我们的方法,我们使用CMU数据训练PosePrior,我们发现这些数据比UP-3D更通用。此外,我们分别为女性和男性受试者训练两个ShapePriors,因为此数据集已知性别。我们强调测试是在数据集的Human3.6M部分进行的,以避免与不同方法(图像或先验方面)的训练有任何重叠。完整的结果如表3所示。由于Lassner等人仅提供非性别特定的形状模型,我们还报告仅考虑姿势估计的结果,并假设已知的形状参数。我们的方法优于其他两个基线。对于这个数据集,我们观察到由于具有挑战性的彩色图像(低照度,脱离环境背景等),2D检测比通常更嘈杂,为迭代优化方法提供了一些困难故障[7]。相比之下,我们的方法更能抵抗这些在大多数情况下恢复连贯3D形状的嘈杂情况。

Human3.6M:最后,对于Human3.6M,我们仅评估估计的3D姿势,因为没有可用的体形标注信息。我们的网络与以前相同(Prior在CMU上训练),但是,我们使用3D关节误差进行监督(等式2),因为焦点在于姿势。其中,我们与SMPLify方法[7]和Lassner等人的直接预测方法进行了比较。[22]。与我们比较的其他方法类似,我们不会使用此数据集中的任何数据进行培训。详细结果如表4所示。我们的方法再次优于其他基线。有些工作(指其他人的算法)报道了Human3.6M的更好的结果(例如,[27,31]),但他们只是通过利用该数据集的训练数据进行训练。

5.5。提升SMPLify

在上一节中,我们验证了我们的直接预测方法可以通过单个预测步骤实现最高水准的结果。但是,我们希望通过与迭代优化解决方案互补,使我们的方法具有更大的适用性。实际上,在这里我们证明了我们的直接预测可以是一个有用的初始化,并为SMPLify方法提供可靠的锚点[7]。

为了简单起见,我们只对SMPLify优化进行了少量修改。首先,我们使用我们预测的姿势作为初始化,而不是典型的均值姿势。此外,我们避免了分层四步优化,并且我们只需一步即可限制整个过程。多阶段优化的原因是探索姿势空间并获得大致正确的姿势估计。但是,使用我们预测的姿势作为初始化会使这种搜索变得不必要,因此我们只需要先前复杂优化方案的最后一步。最后,我们在优化中增加了一个数据项:

以避免偏离我们预测的锚点姿态。与[7]类似,我们使用Geman-McClure损失函数ρ[13]进行优化。这种锚定通常不会影响输出的质量,但它可以加速收敛。我们也可以使用形状参数作为锚点,但我们观察到姿势对优化的影响大于形状对优化的影响。

对于我们的评估,我们使用SMPLify的公共实现,并在LSP测试集上运行原始代码以及我们的锚定版本。锚定版本的平均速度比平常SMPLify快三倍。更重要的是,这种加速也带来了定量的性能优势。在表5中,我们通过在图像上投影3D形状估计来呈现不同SMPLify版本的分割准确度。为了证明我们的锚定版本的性能优势是不平凡的,我们报告了在具有标注信息的2D关节和轮廓上运行SMPLify的结果。图5显示了锚定版本的改进拟合。这些结果验证了我们的直接预测方法的额外好处,因为它还可以增强依赖迭代优化的当前管线。

5.6。运行时间

我们的方法需要来自ConvNet的单个前向传递来估计全身3D人体姿势和形状。这在TitanX GPU(显卡)上仅转换为50毫秒。相比之下,SMPLify[7]报告大约1分钟的优化,而公开可用(未优化)的代码平均每个图像运行3分钟。当地标数量增加到91时,Lassner等人[22]报告说SMPLify优化可以慢两倍。这使我们的直接预测方法比最先进的迭代优化方法快三个数量级。关于其他直接预测方法,Lassner等人。[22]报告的运行时间为378毫秒,但我们的端到端框架表现出了明显更好的性能。

6.总结

本文的目的是提出一种可行的基于ConvNet的方法,从单一彩色图像预测3D人体姿势和形状。我们解决方案的核心部分是在端到端框架中结合人体形状模型SMPL。通过这种包含,我们实现了:a)从2D关键点和轮廓来预测参数,b)在训练时使用per-vertex损失监视表面生成全身3D网格,以及c)整合可微分渲染器,用于使用2D注释进行进一步的端到端细化。我们的方法在相关基准测试中获得了最先进的结果,优于以前的直接预测和基于优化的3D姿态和形状预测解决方案。最后,考虑到我们的方法的效率,我们展示了它加速和改进典型的优化管道的潜力。

1.我们框架的示意图。(a)最初的ConvNetHuman2D,使用2D姿势数据[19,4]进行训练,从单个彩色图像预测2D热图和掩模。(b)两个网络使用参数模型的实例进行训练,估计统计模型SMPL[25]的参数。PosePrior估计来自关键点的参数(θ),并且ShapePrior估计来自轮廓的形状参数(β)。(c)通过将全身3D网格投影到图像并优化投影与2D注释(关键点和掩模)的一致性,可以对框架进行端到端微调,而不需要具有3D形状标注信息的图像。蓝色部分(网格生成器和渲染器)表示没有可学习参数的组件。

2.我们的目标是学习从轮廓和关键点到模型参数的映射,因此我们可以合成人体模型实例并将它们投影到图像平面以模拟网络输入。我们只需要一个源来对姿势参数进行采样,需要一个源来对体形状参数进行采样。来自不同视角的预测也可用于数据增加。

1.UP-3D的消融研究,比较同一架构上的不同监督形式。数字是平均变形误差(mm)。使用两个版本的Priors网络,分别使用来自UP-3D[22]CMU[51]的数据进行训练。所有网络都经过相同迭代次数的训练。

3.我们针对UP-3D挑战性示例的方法的成功3D姿态和形状预测。

2.UP-3D的详细结果[22]。数字是每个顶点误差的平均值(mm),除了“缩减”列中有91个地标[22]导致错误。我们的方法优于表中的其他基线

4.来自UP-3D的示例,其中我们的方法(蓝色形状)的性能明显优于Lassner等人的直接预测方法。[22](粉红色的形状)。

3.SURREALHuman3.6M部分的详细结果[51]。数字是每个顶点误差的平均值(mm)。“GT形状”表示形状系数是已知的。

4.Human3.6M的详细结果[17]。数字是重建误差(mm)。这些数字来自各自的论文,除了(*),这些是从[7]获得的。

5.针对不同版本的SMPLifyLSP测试集的前景-背景和六部分分段的准确度和f1分数。使用我们的直接预测作为锚点可以改善vanillaSMPLify,同时还可以实现3倍的加速。第一行和第三行的数字取自[22]

5.当我们的直接预测用作迭代优化的初始化和锚点时,具有改进的SMPLify拟合的LSP示例(每个图像的右侧)。

猜你喜欢

转载自blog.csdn.net/Kansas_Jason/article/details/81021886