FSRGFCH论文阅读笔记

题目:Face Super-resolution Guided byFacial Component Heatmaps

中文:脸部组件热图指导的脸部超分辨率

在这里插入图片描述

摘要

  • 最新的人脸超分辨率方法利用深度卷积神经网络通过探索局部外观信息来学习低分辨率(LR)面部模式与其对应的高分辨率(HR)对手之间的映射。但是,大多数这些方法都不能解决面部结构,【缺点】并且由于姿势变化大和对齐不当而遭受失真。在本文中,我们提出了一种使用多任务卷积神经网络(CNN)将人脸的结构信息显式地纳入人脸超分辨率过程的方法。我们的CNN有两个分支:一个分支用于超分辨人脸图像另一个分支用于预测人脸共面部分量热图的显着区域。这些热图鼓励上采样流生成具有更高质量细节的超分辨率人脸。我们的方法不仅使用低级信息(即强度相似度),还使用中级信息(即面部结构)从LR输入图像中进一步探索面部分量的空间约束。因此,我们能够在保留人脸结构的同时,以8倍的大比例缩放超高分辨率的未对齐人脸图像(16×16像素)。广泛的实验表明我们的网络实现了出色的面部幻觉效果,并且性能优于最新技术。关键词:面部,超分辨率,幻觉,面部分量定位,多任务神经网络。

背景:大多数方法不能考虑面部结构,而且无法处理姿势变较大的人脸图像。
方法:使用多任务卷积神经网络(CNN)将人脸的结构信息显式地纳入人脸超分辨率过程的方法。一个分支用于超分辨人脸图像另一个分支用于预测人脸共面部分量热图的显着区域
结论:实验表明我们的网络实现了出色的面部幻觉效果,并且性能优于最新技术。

引言

引出人脸超分辨,提出问题:无法处理姿势变化大的人脸

  • 面部图像为人类观察和计算机分析提供了重要线索[1,2]。但是,大多数现有的面部分析技术的性能,例如面部对齐[3,4]和识别[5],在面部分辨率较低时会急剧下降。人脸超分辨率(FSR)[8]也称为人幻觉,提供了一种从低分辨率(LR)对应物中恢复高分辨率(HR)人脸图像的可行方法,并且引起了越来越多的关注近年。现代人的幻觉方法采用深度学习[9,10,7,11,6,12,13,14,15,16]并达到最先进的性能。这些方法从大角度探索LR和HRfaces之间的图像强度对应比例面部数据集。由于近额面孔在流行中占主导地位大规模面部数据集[17,18],基于深度学习的FSR方法可能无法在较大的姿态变化下超分辨LR面部,如图6的示例所示。 1.实际上,在这些示例中,脸部结构已变形,而最新的超分辨率方法无法完全恢复面部细节。

传统的解决方法1:使用大的姿势变化来增加训练数据。但是效果不好

  • 解决此问题的幼稚想法是使用大的姿势变化来增加训练数据(即[19]),然后重新训练神经网络。如图1(f)所示,该策略仍然导致次优结果,其中由于LR面部模式的错误定位而导致面部细节丢失或失真。这种限制在基于强度的FSR方法中很常见,该方法仅以超分辨率利用局部强度信息,而不考虑面部结构或姿势。我们假设显式利用有关LR面部中面部组件位置信息的方法具有改善超分辨率性能的能力。

传统解决方法2:无法正确定位面部组件并产生严重扭曲的HR面部

  • 超分辨LR脸部图像的另一种方法是提前定位脸部组件,然后逐步对其进行升采样[20,6]。但是,在非常LR的图像中,尤其是在较大的姿势变化下,以高精度定位这些面部组件通常是一项艰巨的任务。如图1(e)所示,Zhuet等人的方法[6]。无法正确定位面部组件并产生严重扭曲的HR面部。因此,直接检测LR面部中的面部成分或界标不是最佳选择,并可能导致最终结果出现重影伪影。

我们 提出方法:不去定位准确的脸部界标,而是去定位大致的面部成分。

  • 与以前的方法相比,我们提出了一种以协作方式预测脸部结构的同时超级分辨LR脸部图像的方法。我们的直觉是,尽管很难在LR脸部图像中准确检测到脸部界标,但是可以定位脸部成分(不是界标)并识别超分辨脸部或中间上采样特征。获取面部组件的位置反过来可以促进面部超分辨率。

  • 受此想法的驱使,我们提出了一种多任务深度神经网络来对LR图像进行升采样。与最新的FSR方法[7,6,12,13]相比,我们的网络不仅可以超分辨LR图像,而且可以估计其面部成分的空间位置。然后将面部分量的估计位置视为指导图,该指导图以超分辨率提供面部结构。在这里,人脸结构是指面部组件的位置和可见性以及它们之间的关系,我们使用热图来表示每个组件出现的可能性。由于输入脸部的分辨率很小(即16×16像素),因此对脸部组件进行定位也非常具有挑战性。与其检测LR图像中的面部成分,不如将面部成分定位在超分辨特征图上

  • 具体而言,我们首先对输入LR图像进行超分辨特征,然后使用空间变换器网络[21]来对齐特征图。上采样特征图用于估计面部组件的热图。由于特征图是对齐的,因此相同的面部成分可能会紧密出现在相应的位置。这也为组件定位提供了初始估计。此外,当输入的人脸或特征图预先对齐时,我们还可以大大减少用于定位人脸成分的训练示例。例如,我们仅使用30KLR / HR人脸图像对来训练我们的网络,而最新的人脸对齐方法[4]则需要约230Kimages来训练地标定位网络.

  • 在获得估计的面部成分热图后,我们将其与上采样特征图连接起来,以将面部成分的空间和可见性信息注入到超分辨率程序中。以这种方式,探索了除像素级强度相似度之外的更高级别的信息,并将其用作FSR中的其他先验信息。如图1(g)所示,我们提出的网络能够以较大的姿势对LR脸部进行升采样,同时保留经升采样的脸部图像的空间结构。

  • 主要贡献:

  • 总的来说,我们的工作可以总结为:

    • 我们提出了一种新颖的多任务框架,可以以8倍的放大倍数对16×16像素大小的LR面部图像进行超分辨,不仅可以利用图像强度相似度,而且可以探索人脸超分辨率探索人脸结构。
    • –我们不仅对LR面孔进行了上采样,而且还估计了框架中的面孔结构。我们估计的面部成分热图不仅提供了面部成分的局部信息,还提供了它们的可见性信息,而这些信息不能从像素级信息中推导出来。
    • –我们证明了建议的两个分支,即上采样和面部成分估计分支,彼此协作以超分辨率实现更好的幻觉性能。
    • –由于我们的网络架构设计,我们能够从上采样的特征图中估计面部分量热图,从而提供了足够的分辨率和估计细节。

结论

  • 我们提出了一种新颖的多任务上采样网络,以超分辨非常小的LR人脸图像。我们不仅采用图像外观相似度,而且还利用从LR输入图像自身估计的面部结构信息以超分辨率进行拍摄。借助面部分量热图估计分支,我们的方法可以超级分辨不同姿势的面孔,而不会因LR输入中错误的面部分量定位而导致失真。

猜你喜欢

转载自blog.csdn.net/mzj15101229871/article/details/113694545