论文阅读Learning Face Age Progression: A Pyramid Architecture of GANs

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_31390999/article/details/84929276

这篇论文主要是为了解决在人脸预测的时候同时保留年龄特征和身份特征,使用GAN网络,以及金字塔模型。与以前的方法相比,还提到了前额和头发在年老时候的影响,同时可以在化妆以及不同姿态下进行预测。

Abstract

面部年龄进展的两个基本要求,即老化准确性和身份持久性,在文献中没有得到很好的研究。在本文中,我们提出了一种新的基于生成对抗网络的方法。它分别模拟内在受试者特征和年龄特定面部变化相对于经过时间的约束,确保生成的面部呈现所需的老化效果,同时保持个性化的特性稳定。此外,为了生成更逼真的面部细节,由合成面部传达的高级年龄特征由多个尺度的金字塔形对抗性鉴别器估计,其以更精细的方式模拟老化效应。所提出的方法适用于在姿势,表情,化妆等变化的情况下的各种面部样本,并且实现了非常生动的老化效果。视觉效果和定量评估都表明该方法推进了最先进的技术。

Introduction

年龄进展是美学渲染给定面部图像以呈现衰老效果的过程。 它经常用于娱乐业和法医学,例如,预测幼儿长大后的面部表情或为失踪的个人生成当代照片。

深层生成网络在图像生成方面表现出了非凡的能力[8] [9] [11] [30],并且还对年龄进展进行了研究[33] [37] [18] [19]。与先前的传统解决方案相比,这些方法使面部具有更吸引人的老化效果和更少的重影伪像。但是,问题基本上没有得到解决。具体而言,这些方法更侧重于两个年龄组之间的面部转换建模,其中年龄因素起主导作用,而身份信息起着次要作用,结果是老化准确性和身份永久性几乎不能同时实现,特别是长期年龄增长[18] [19]。此外,他们在训练阶段主要需要同一个体的不同年龄的多个面部图像,涉及另一个难以处理的问题,即个体内部面序列收集[33] [15]。上述事实均表明目前的深度生成老化方法仍有改进的余地。在这项研究中,我们提出了一种面向年龄进展的新方法,该方法将生成性对抗网络(GAN)的优势与视觉上合理的图像与人类衰老中的先前领域知识相结合。与文献中的现有方法相比,它更能够处理年龄进展中的两个关键要求,即身份持久性和老化准确性。具体而言,所提出的方法使用基于卷积神经网络(CNN)的发生器来学习年龄变换,并且它根据它们随时间的变化分别模拟不同的面部属性。因此,训练评论家在图像空间中包含平方欧几里德损失,鼓励生成的面部与年龄方面的训练集中的老年人a无法区分的 GAN损失,以及最小化输入 - 输出距离的身份损失。高级功能演示嵌入个性化特征。它确保所产生的面部呈现出所需的老化效果,同时身份属性保持稳定。通过估计每个单独目标年龄聚类的数据密度,我们的方法不要求跨越两个年龄域的同一人的面部对匹配,就像大多数对应方法那样。此外,与先前主要针对裁剪的面部区域(通常不包括前额)进行操作的技术相比,我们强调整个面部的合成是重要的,因为前额和头发的部分也显着影响感知的年龄。为了实现这一目标并进一步增强老化细节,我们的方法利用了深层网络的内在层次结构,金字塔结构的鉴别器被设计用于以细粒度的方式估计与年龄相关的高级线索。我们的方法克服了单一年龄特定呈现的局限性,并在本地和全球范围内处理年龄变化。结果,产生了更多真实感的图像(参见图1,用于说明老化结果)。

(1)我们提出了一种新的基于GAN的年龄进展方法,该方法结合了面部验证和年龄估计技术,从而以耦合方式解决老化效应产生和身份线索保存问题; (2)我们强调面部前额和头发成分与感知年龄密切相关的重要性,但在其他研究中忽略不计; 它确实增强了合成的准确性;(3)除了现有的实验外,我们还进行了新的验证,包括基于商业面部分析工具的评估和对表达,姿势和化妆变化的不敏感性评估。 我们的方法不仅显示有效,而且对年龄进展也很有效。

RelatedWork

我们的研究还利用了GAN的图像生成能力,并提出了一种不同但有效的方法,其中年龄相关的GAN损失用于年龄转换,个体依赖的评论家用于保持身份的稳定性,并且 路径识别器应用于重新生成细节。

Method

分为三部分的损失函数

其中G的损失也就是D的损失,因为它们要交替进行训练,其中G的损失很简单,没有过多提及。先Encode再Decode的U型结构,三层卷积,图层残差,三层转置卷积,每一层都要接一个BN和Relu,特点是整个网络没有Pooling层,而是用大小为3,步长为2的卷积层下采样。

GAN的部分并没有采取常规的log形式,而是用Least Square的形式

在D中,是一个多类的LOSS,其中只有真实的老年照片是正类,真实的年轻照片和生成的老年照片都是负类,

 是年龄相关的特征

金字塔结构:考虑到低维和高维的特征信息,先训练vgg,然后从2,4,7,10四层提取feature map,并分别经过不同的卷积拼接起来得到12*3的结果作为输入喂给D。

第二部分是identity 损失,使用的是  deep face descriptor

第三部分 pixel loss

最后我们交替训练G和D直到最优,最后G学习所需的年龄变换,D成为可靠的估计。

接下来做了很多实验,其中将三个年龄组单独进行训练,得到结果。在实际的训练中,考虑到 了很多情况比如戴眼镜....

猜你喜欢

转载自blog.csdn.net/qq_31390999/article/details/84929276