开源人工智能使用卷积网格自动编码器生成3D面部

开源人工智能使用卷积网格自动编码器生成3D面部摘要:人脸的学习3D表示对于计算机视觉问题是有用的,例如3D面部跟踪和从图像重建,以及诸如角色生成和动画的图形应用。传统模型使用线性子空间或高阶张量概括来学习面部的潜在表示。由于这种线性,它们无法捕获极端变形和非线性表达式。为了解决这个问题,我们引入了一个多功能模型,该模型使用网格表面上的光谱卷积来学习面部的非线性表示。我们引入了网格采样操作,这种操作能够实现分层网格表示,捕获模型中多个尺度的形状和表达的非线性变化。在变分设置中,我们的模型从多元高斯分布中采样不同的逼真3D面。我们的训练数据包括在12个不同科目中捕获的20,466个极端表情网格。尽管训练数据有限,但我们训练有素的模型优于最先进的面部模型,重建误差降低50%,而参数减少75%。我们还表明,用我们的自动编码器替换现有最先进的人脸模型的表达空间,可以实现较低的重建误差。我们的数据,模型和代码可在关键词coma上找到。

开源人工智能使用卷积网格自动编码器生成3D面部介绍:人脸在形状上变化很大,因为它受到诸如年龄,性别,种族等许多因素的影响,并且随着表情而显着变形。现有技术的3D人脸表示主要使用线性变换[40,28,41]或更高阶张量概括[45,12,14]。这些3D人脸模型有多种应用,包括人脸识别[39],生成和动画人脸[28]以及从图像中估计3D人脸[43]。然而,由于这些模型是线性的,它们不会捕获由于极端面部表情引起的非线性变形。这些表达对于捕捉3D脸部的真实感至关重要。
与此同时,卷积神经网络(CNNs)已成为生成图像[22,34],音频[33]等的丰富模式。其成功的原因之一归因于CNN的多尺度层次结构。允许他们学习平移不变的局部特征。最近的工作已经探索了用于3D表示的体积卷积[8]。但是,体积操作需要大量内存,并且仅限于低分辨率3D卷。对3D网格进行建模卷积可以实现内存效率,并允许处理高分辨率3D结构。然而,CNN大多数在欧几里得域中已经成功地使用基于网格的结构化数据,并且CNN到网格的泛化并非无足轻重。将CNN扩展到图形结构和网格最近才引起了人们的极大关注[11,17,10]。 CNN中的层级操作(例如最大池化和上采样)尚未适应网格。此外,由于当前3D数据集的大小有限,在3D面部数据上训练CNN是具有挑战性的。现有的大规模数据集[14,16,49,48,37]不包含高分辨率的极端面部表情。
贡献:为了解决这些问题,我们引入了具有新颖网格采样操作的卷积网格自动编码器(CoMA),其保留了神经网络中不同尺度的网格特征的拓扑结构。我们遵循Defferrard等人的工作。 [17]关于使用快速切比雪夫滤波器在图上推广卷积,并使用它们的公式在我们的面部网格上进行卷积。我们执行网格的光谱分解并直接在频率空间中应用轮廓。这使得卷积存储器有效且可行地处理高分辨率网格。我们将卷积和采样操作结合起来,以卷积网格自动编码器的形式构建我们的模型。我们表明,CoMA在捕获具有较少模型参数的高度非线性极端面部表情时,比最先进的面部模型表现更好。在我们的模型中具有较少的参数使其更紧凑,更容易训练。参数的减少归因于可以在网格表面上共享的局部不变卷积滤波器。
我们通过在多相机有源立体声系统中捕获具有极端面部表情的20,466个高分辨率网格来解决数据限制问题。我们的数据集涵盖12个主题,执行12种不同的表达。表达式选择复杂且不对称,面部组织发生明显变形。
总之,我们的工作引入了一种表示,该表示使用分层多尺度方法对网格表面上的变化进行建模,并且可以推广到其他3D网格处理应用程序。我们的主要贡献是:
1.我们介绍了一种卷积网格自动编码器,它由网格下采样和网格上采样层组成,在网格表面定义了快速局部卷积滤波器。
我们表明我们的模型准确地表示了低维的3D面部潜在空间的性能比用于最先进面部模型的PCA模型好50%,如[40,28,1,7,46]。
3.我们的自动编码器使用的参数比线性PCA模型少75%,而在重建误差方面更准确。
4.我们表明,通过CoMA替换现有技术面部模型的表达空间FLAME [28]可以提高其重建精度。
5.我们证明我们的模型可以用于变分设置来采样a来自已知高斯分布的面部网格的多样性。
6.我们提供来自12个不同科目的20,466帧复杂3D头部网格,以及一系列极端的面部表情以及我们的代码和训练模型用于研究目的。

开源人工智能使用卷积网格自动编码器生成3D面部相关工作:面部表征。 Blanz和Vetter [2]介绍了可变形模型;基于主成分分析(PCA)的3D面部的第一个通用表示,用于描述面部形状和纹理变化。我们还将读者推荐给Brunton等人。 [13]全面概述了3D人脸表现。迄今为止,巴塞尔人脸模型(BFM)[35],即可变形模型的公开可用变体,是中性表达中最广泛使用的3D脸部形状的表示。 Booth等人。 [3]最近提出了另一种线性中性表情3D人脸模型,该模型是从近千种不同科目的面部扫描中学到的。
用线性空间或其更高阶通用表示面部表情仍然是最先进的。线性表达基础矢量可以使用PCA [1,7,28,40,46]计算,或者使用线性混合形状手动定义(例如[41,27,6])。杨等人。 [46]使用多个PCA模型,每个表达一个,Amberg等。 [1]将中性形状PCA模型与PCA模型结合起来,对中性形状的表达残差进行了研究。在Face2Face框架中使用了具有额外反照率模型的类似模型[42]。最近发布的FLAME模型[28]还模拟了头部旋转和偏航运动以及线性混合涂层,并实现了最先进的结果。 Vlasic等。 [45]引入多线性模型,即PCA的高阶概括以模拟表达3D面部。最近,Fern'andez等人。 [18]提出了一种自动编码器,其具有基于CNN的编码器和多线性模型作为解码器。与我们的网格自动编码器相反,它们的编码器在深度图像上运行,而不是直接在网格上运行。对于所有这些方法,模型参数全局影响形状;即每个参数影响面部网格的所有顶点。然而,我们的卷积网格自动编码器模拟了局部变化,这是由于卷积的分级多尺度特性与下采样和上采样相结合。
为了捕捉局部的面部细节,Neumann等人。 [32]和法拉利等人。 [19]使用稀疏线性模型。布伦顿等人。 [12]通过在小波系数上计算局部多线性模型,使用分层多尺度方法。而Brunton等人。 [12]也使用了分层多尺度表示,他们的方法不使用整个域中的共享参数。请注意,由于面部特征的局部性,在局部低维空间[12]中采样是困难的;局部面部特征的组合不太可能形成合理的全局面部形状。我们工作的一个目标是通过对潜在空间进行采样来生成新的面网格,因此我们将自动编码器设计为使用单个低维潜在空间。
杰克逊等人。 [25]在其基于CNN的框架中使用体积面部表示。与现有的面部表示方法相比,我们的网格自动化toencoder使用卷积层来表示具有明显更少参数的面。由于它完全在网格空间上定义,因此我们没有内存约束来影响用于表示3D模型的体积卷积方法。
卷积网络。布朗斯坦等人。 [10]全面概述了非欧几里得域上CNN的推广,包括网格和图。 Masci等人。 [30]定义第一个网格卷积,通过使用测地极坐标对每个点周围的表面进行局部参数化,并在得到的角度仓上定义卷积。在后续工作中,Boscaini等人。
[5]使用各向异性热核参数化每个点周围的局部固有斑块。 Monti等人。 [31]引入了d维伪坐标,它用权重函数定义了每个点周围的局部系统。对于权重函数的特定选择,该方法类似于[30]和[5]的内在网格卷积。相比之下,Monti等人[31]使用具有可训练均值向量和协方差矩阵的高斯核作为权函数。
Verma等人。 [44]对图形进行动态过滤,其中滤波器权重取决于输入数据。但是,这项工作并不专注于减少图形或网格的维数。 Yi等人。 [47]也提供了用于标记节点的光谱CNN,但不涉及网格的任何维数减少。 Sinha等。 [38]和Maron等人。 [29]将网格表面嵌入平面图像中以应用传统的CNN。 Sinha等。使用强大的球面参数化将表面投影到八面体上,然后将其切割和展开以形成正方形图像。马龙等人。 [29]引入了从网格表面到平坦圆环的共形映射。
尽管上述方法提出了网格上的卷积的概括,但是它们不使用结构来将网格减少到低维空间。所提出的网格自动编码器通过将网格卷积与有效网格缩减相结合来有效地处理这些问题pling and mesh-upampling operators.Bruna et al。 [11]通过利用拉普拉斯图和傅里叶图的连接,提出了图上CNN的第一次推广(更多细节参见第3节)。这导致光谱过滤器概括了图形的概念。 Boscaini等。 [4]使用窗口傅立叶变换对频率空间进行局部化。 Henaff等人。 [24]以Bruna等人的工作为基础。通过添加一个程序来估计图的结构。为了降低谱图卷积的计算复杂度,Defferrard等人。 [17]通过截断的Chebyshev多项式逼近光谱滤波器,避免明确计算拉普拉斯算子特征向量,并为图形引入有效的汇集算子。 Kipf和Welling [26]仅使用一阶Chebyshev多项式简化了这一点。但是,这些图形CNN不直接应用于3D网格。 CoMA使用截断的切比雪夫多项式[17]作为网格卷积。此外,我们定义网格下采样和上采样层,以获得完整的网格自动编码器结构,以表示高度复杂的3D面,获得3D人脸建模的最新结果。

开源人工智能使用卷积网格自动编码器生成3D面部Mesh自动编码器:4.1网络架构,我们的自动编码器由编码器和解码器组成。编码器的结构如表1所示。编码器由4个切比雪夫卷积滤波器和K = 6切比雪夫多项式组成。每个卷积之后都有一个有偏见的ReLU [21]。下采样层在卷积层之间交错。每个下采样层将网格顶点的数量减少大约4倍。编码器使用末端的完全连接层将面网格从Rn×3变换为8维潜在向量。
解码器的结构如表2所示。解码器类似地由完全连接的层组成,该层将从R8到R20×32的潜在矢量变换,可以进一步上采样以重建网格。在解码器的完全连接层之后,具有交错上采样层的4个卷积层生成R5023×3中的3D网格。每个卷积之后是类似于编码器网络的偏置ReLU。每个上采样层将顶点数量增加大约4倍。图2显示了网格自动编码器的完整结构。

开源人工智能使用卷积网格自动编码器生成3D面部结论:我们引入了CoMA,这是一种不同形状和表达的3D面孔的新表示。我们将CoMA设计为分层的,多尺度的表示,以捕获多尺度的全局和局部形状和表达变化。为此,我们引入了新颖的采样操作,并将这些操作与自动编码器网络中的快速图形卷积相结合。在网格表面共享的局部不变滤波器显着减少了网络中滤波器参数的数量,非线性激活函数捕获了极端的面部表情。我们在极端3D面部表情的数据集上评估了CoMA,我们将公开提供用于研究目的的训练模型。我们发现CoMA在3D面部重建应用中的性能明显优于最先进的模型,同时使用的模型参数减少了75%。在插值实验中,CoMA优于线性PCA模型50%,并且在完全看不见的面部表情上更好地概括。我们进一步证明了变分环境中的CoMA允许我们通过对潜在空间进行采样来合成新的表现面。

猜你喜欢

转载自blog.csdn.net/c2a2o2/article/details/81272448
今日推荐