GLN论文阅读笔记

题目:Global-Local Face Upsampling Network

在这里插入图片描述

摘要

  • 面部幻觉是从低分辨率输入图像生成高分辨率面部图像的任务,是一个经过充分研究的问题,可在广泛的应用领域中使用。【缺点】当输入的面部分辨率非常低(例如10×12像素)和/或以不受控制的姿势和较大的姿势和照明变化捕获图像时,面部幻觉特别具有挑战性。在本文中,我们将重新探究[1]中引入的算法,并对这种框架进行了深入的解释,该框架在如此具有挑战性的场景下实现了最先进的技术。在我们的深度网络体系结构中,可以有效地建模和定义定义人脸的全局和局部约束,并使用培训数据来端到端地学习它们。从概念上讲,我们的网络设计可以划分为两个子网:第一个根据全局约束实施整体人脸重建第二个增强特定于人脸的细节并执行本地补丁统计。我们使用新的损失函数优化深层网络的超分辨率,该函数在对抗设置中将重建误差与学习到的面部质量度量相结合,从而产生更好的视觉效果。我们在受控和非受控设置中进行了广泛的实验,表明我们的算法在数字和视觉上都改善了现有技术。

背景:面部分辨率非常低(例如10×12像素)和/或以不受控制的姿势和较大的姿势和照明变化捕获图像时,面部幻觉特别具有挑战性。
对象:超低分辨,姿势变化大,照明变化大的人脸图像
方法:结合全局方法和局部方法。第一个根据全局约束实施整体人脸重建,第二个增强特定于人脸的细节并执行本地补丁统计
结论:我们的算法在数字和视觉上都改善了现有技术
在这里插入图片描述
GLN的结构图
在这里插入图片描述
图 2.(a)图像上采样(b)全局细节GN生成x8示例输出。 (c)LN之后的最终升采样结果
在这里插入图片描述
图 3,FRGC(前3行)和LFW-a(下3行)数据集的4倍上采样结果的定性比较。当在低分辨率输入中无法检测到人脸地标时,YLY不会产生结果。 KK和SRCNN产生了大致相似的结果,因此省略了用KK获得的结果。

引言

  • 人脸已经成为图像增强任务的主要目标之一。特别是,将低分辨率的人脸图像上采样到高分辨率的人脸图像已成为一个重要的问题,用其自己的名字“幻觉”来称呼[2]。问题表达如下。给定低分辨率NL = n×m人脸图像IL,我们的目标是获得照片般逼真的高分辨率NH =(dn)×(dm)人脸图像IH,其下采样版本等于IL,其中上采样因子为。关系可以写成
    在这里插入图片描述
  • 其中xL和xH是堆叠到列向量中的低分辨率和高分辨率图像,而K是实现低通滤波和下采样的NL×NH稀疏矩阵。为了反转这个很大的(d2次)欠定线性系统并恢复高分辨率图像,需要附加的约束。
  • 我们使用一个深度神经网络对这个线性逆问题的解决方案进行近似,在该网络中,使用训练数据对面部约束进行了显式建模和学习。拟议的面部向上采样网络的考虑因素。
  • 受到刘等人的面部幻觉工作启发。 [1]。与[1]类似,我们利用以下三个约束对未确定的问题进行正则化。
    • (1)整体约束:重建的高分辨率面部图像应满足整体约束,例如形状,姿势和对称性,并且应包括诸如眼睛和鼻子等详细的特征面部特征。
    • (2)局部约束:重建的局部图像区域的统计数据应与高分辨率的面部图像块(例如,具有清晰边界的平滑区域)的统计数据相匹配,并应包含特定于面部的细节
    • (3)数据约束:重建应与观察到的低分辨率图像一致并满足公式(1)。
  • 刘等。 [1]根据这些约束采用了两步法。首先,使用特征脸模型(一种线性投影操作)来获取全局面孔重构。在第二步骤中,通过从训练集中进行非参数斑块转移来增强重建脸部的细节,其中通过马尔可夫随机场来实现相邻斑块之间的一致性。当面部图像接近正面,对齐良好并且可以控制照明条件时,此方法可以产生高质量的结果。但是,当违反这些假设时,简单的线性特征面模型无法产生令人满意的全局重构。此外,由于最近邻(NN)搜索,补丁传输在大数据集上无法很好地扩展。本文中,我们提出了一种类似于Liu et al。框架[1]的深层网络架构,但解决了上述问题。准确而有效的幻觉。我们的网络由两个子网组成:**第一个根据全局约束实施整体人脸重建,第二个增强特定于人脸的细节并执行局部补丁统计。**但是,它们是使用大量训练数据共同学习的,从而提供了用于上采样的优化结构。而且,前馈运算在测试时间内提供了计算效率。在使用在受控和非受控设置下捕获的两个基准数据集的广泛实验中,我们证明了我们的算法优于最新算法。

1、1 贡献

  • 我们的主要贡献可以归纳如下:(1)我们对全局局部人脸幻觉框架进行了深入的解释[1]。 (2)我们设计了一种深度网络架构,以端到端的学习和前馈操作代替了原来的两步法,从而提高了准确性和速度。 (3)我们通过在对抗性环境中最大限度地减少重构误差和学习到的面部质量损失的组合来学习深度网络,从而生成具有改进视觉质量的高分辨率图像。 (4)我们与最先进的算法进行了广泛的比较,并证明了我们的算法在质量和数量上均优于它们。

相关工作

  • 人脸幻觉是特定于人脸图像的单图像超分辨率(SR)问题。为通用图像共享开发的单图像SR算法(1)中的公式相同。为了反转欠定系统,基于图像统计[3,4,5]和示例补丁[6,7,8],先验约束被强制为先验。通用约束通常对于通用SR问题不可用,这限制了可能的上采样因子。 Yang等人的最新研究[9]显示,4倍上采样会导致人类感知得分的下限。
  • 刘等。 [1]基于特征脸[10]使用了全局约束来进行幻觉,并提出了一种两步方法,其中初始全局重构通过局部非参数斑块转移得到改善[6]。如上所述,当数据集包含较大的姿态和光照变化时,简单的特征脸模型存在困难,并且由于NN补丁搜索,其局部细化过程在计算上昂贵。 Ma等。 [11]假设训练图像和测试图像精确对齐,并且仅在训练图像中的特定像素位置搜索了测试图像中目标像素的NN补丁。只要图像对齐良好,使用特定于位置的补丁会隐式提供全局约束。杨等。 [12]基于面部界标检测,将面部图像分为三组面部成分,轮廓和平滑区域。他们对带有训练图像的每个面部组件使用NN搜索,而对于轮廓和平滑区域则使用基于边缘的统计信息和NN补丁搜索。通过整合来自三组的梯度图并将其施加在高分辨率图像上来生成结果。他们的方法依赖于面部界标检测,因此对于界标定位通常不准确的低分辨率输入图像,结果会下降。
  • 在过去的几年中,深度学习方法的成功使计算机视觉领域发生了变化,从图像分类[14,15]和物体检测[16]到人脸识别[17],分割[18]和视频事件去检测[19]。这些方法还已经在低级视觉任务(例如图像降噪[20,21,22],图像增强[23,24]和SR [25,26,27])中取代了高度优化的手工设计算法。董等。 [25]提出了通用SR的超分辨率卷积神经网络(SRCNN)。他们将其解释为传统稀疏编码方法的深层网络版本[8]。SRCNN提供了通用SR的最新性能,但没有像我们在实验中进行比较的特定面部SR。最近,Wang等。 [26]提出了一种改进的通用SR深度模型,该模型也考虑了自身的相似性。周等。 [27]提出了针对人脸特定SR的双通道卷积神经网络(BCCNN)。他们使用了卷积神经网络体系结构,该体系结构的输出与加权三次的三次三次上采样图像混合在一起,该加权因子也可以从网络中预测出来。该网络的最后一层线性地组合了高分辨率基础图像,这对应于全局人脸重建并平滑了特定于人的细节。
  • 我们算法的基本构建块是众所周知的神经网络体系结构,例如编码器[28,29,30],卷积[31]和反卷积[32,33]神经网络。我们的建筑设计可以有效地学习全球和本地约束,这些约束对于使用这些众所周知的构建块进行面对面采样的任务很重要。
  • 最近,生成对抗网络(GAN)[34]被提出作为学习深度生成模型的替代方法。在GAN框架中,一个生成网络学习从给定的数据分布中生成样本,同时,一个判别网络学习标识从该网络中生成的样本。从那时起,GAN已成功用于图像[34,35],场景[36]和序列合成[37]任务。在本文中,我们使用GAN框架来学习一个用于评估人脸质量的判别网络,同时根据学习到的质量度量来优化人脸超分辨率网络。

方法

  • 图1显示了我们的全球本地人脸向上采样网络(GLN)的概述,我们的网络由两个子网组成,分别称为全球向上采样网络(GN)和本地增强网络(LN),它们分别对全球和本地进行建模幻觉的限制。这两个子网执行的操作在概念上类似于Liu等人的全局重建,然后进行局部增强[1]。然而,通过使用深层架构联合建模和学习全局和局部约束,我们的方法由于前馈处理(如下所述)在提供更高的准确性的同时又在测试时间内更有效。是并行运行的两流神经网络。第一个流使用反卷积网络对低分辨率面部进行基于插值的简单上采样,从而生成没有细节的平滑图像。**第二个流使用完全连接的神经网络生成高频特征的面部细节,例如眼睛和鼻子。**该编码器网络的隐藏层[28,29]建立了高分辨率人脸的全局表示。可以从低分辨率输入中推断出的图像。与[1]的线性本征人脸模型相比,我们在框架中使用的多层非线性嵌入和重建功能,除了对齐方式,面部姿势和光照等变化之外,还可以更有效地编码特征人脸特征。我们将由LN处理的GN。使用完全卷积的神经网络在LN中对局部约束进行建模,该网络实现了位移不变的非线性滤波器。该网络通过融合GN产生的平滑细节层来增强特定于脸部的局部细节。即使卷积滤波器相对较小(5×5或7×7),通过堆叠许多滤波器,网络的接收场也会变得非常大(8层网络中为43个像素)。大的接收场能够解决歧义性(例如,眼部区域与嘴部区域),并且深层架构具有足够的能力,可将必需的滤波操作应用于给定区域。与[1]的非参数细节传递相比,我们的结构非常有效,并且可以提高质量。尽管我们没有通过使用大量训练数据训练网络来明确建模网络中的数据约束,但是网络学习根据等式产生与低分辨率图像一致的高分辨率面部图像。 (1)。可以通过在后处理步骤中使用反投影(BP)算法来强制执行数据约束[38],这是许多上采样方案中常用的方法。然而,在我们的实验中,我们发现直接从网络中获得的结果和在BP后处理之后获得的结果在质量和数量上都无法区分。因此,我们没有使用这样的后处理。

3、全局上采样网络

  • 本节介绍用于深度采样低分辨率人脸图像的深度网络体系结构的详细信息。我们的网络结构设计用于分辨率非常低的输入人脸图像。我们考虑两个上采样因子:(1)4×上采样,其中32×32的输入人脸图像映射为128×128的分辨率; (2)8×向上采样,其中16×16的输入面部图像映射到128×128的分辨率。对于4×和8×情况,我们有两种不同的网络配置。我们假设低分辨率的人脸图像大致对齐。全局详细信息生成流被实现为具有3个隐藏层的完全连接的编码器网络。我们使用整流线性单位(ReLU)在每个线性图之后,最后一层除外,后者生成128×128维的向上采样的全局细节。在我们的编码器网络中,代码层是256维的,适用于4x和8x上采样网络。这主要是由有限数量的训练数据指示的,其中用于全局细节的较大的潜在空间往往会过拟合。最后,我们将图像上采样流和全局细节生成流的输出连接起来,形成2×128×128张量以供LN处理。

  • 图2显示了8×GN的典型输出。即使我们允许在训练过程中更改图像上采样流的权重,但权重往往不会发生太大变化,并且网络实现了平滑的上采样(图2(a))。全局详细信息生成流的输出(图2(b)对高频细节进行编码,并且更难以解释。该图案在诸如眼睛,鼻子和嘴等特征性面部特征周围更明显。

3.2 Local Refinement Network (LN)

  • LN的结构总结在表2中。这些结构对于4倍和8倍上采样任务是相同的。我们分析了三种具有不同层数(LN4,LN6和LN8)的全卷积神经网络体系结构。在每次卷积操作之前,将图像填充一半的滤波器大小上限,以使输出图像的尺寸与输入维数相同。在每个卷积层之后,我们应用ReLU,除了最后一层

3.1 Global Upsampling Network (GN)

  • 表1总结了GN的结构。GN是并行运行的两个流网络。图像上采样流使用线性插值将输入的面部图像映射到高分辨率的面部图像。在我们的网络中,我们使用去卷积层实现了图像上采样流[32,33]。我们使用双线性矩阵初始化插值权重,但允许权重在训练过程中改变。构造最终的高采样图像。我们不执行合并和步幅为1的操作,因此该网络学习了一个非常大的位移不变非线性滤波器。如图2(c)所示,LN通过融合GN产生的平滑细节层(参见眼睛和鼻子)来增强面部特定的局部细节。此外,重建图像的本地统计信息与高分辨率人脸图像斑块统计信息相匹配(例如,光滑的脸颊区域和清晰的人脸边界)

结论

  • 我们提出了一种面部幻觉算法,即使输入的面部分辨率非常低并且在不受控制的设置下捕获图像,该算法也可以生成高质量的图像。我们算法的关键要素是深度学习体系结构,可共同学习高分辨率面孔的全局和局部约束。我们与最先进的算法进行了广泛的比较,并显示出改进的性能。

失败

  • 我们的方法没有主要的故障模式,因为它不依赖于非常精确的对齐方式。当姿势和面部表情和/或遮挡存在较大差异时,该算法产生的满意度较低。图中显示了我们算法的一些令人不满意的结果

猜你喜欢

转载自blog.csdn.net/mzj15101229871/article/details/113251931