MTDN论文阅读笔记

题目：Hallucinating Unaligned Face Images by MultiscaleTransformative Discriminative Networks

中文：利用多尺度变换判别网络对未对准的人脸图像进行幻觉

在这里插入图片描述

摘要

-【常规方法依赖于对齐】 常规的面部幻觉方法主要依赖于低分辨率（LR）面部的精确对齐，然后再对其进行上采样。对齐错误通常会导致结果不足，并且对于较大的放大系数会产生不自然的伪影。然而，由于姿势范围的不同和面部表情的不同，对齐LRinput图像（尤其是在其很小时）非常困难。另外，当LR输入图像的分辨率变化时，以前的基于深度神经网络的面部超分辨方法要求输入面部图像的眼距与训练数据集中的相似。对LR输入面部进行下采样至所需分辨率将丢失原始输入图像的高频信息。对于最新的面部幻觉网络，这不是最好的超分辨率性能。为了克服这些挑战，我们提出了一种端对端多尺度可转换判别神经网络（MTDN），该网络旨在解决分辨率从16×16到32×32像素像素的不对齐和非常小的人脸图像。统一的框架。我们提出的网络嵌入了空间转换层，以允许局部接收场在类似的空间支持下排列，从而在LR和HR面部图案之间获得更好的映射。此外，我们加入了特定类别的损失，旨在通过一个连续的判别网络对目标中的直立现实面孔进行分类，以改善对齐方式和升采样性能。带有语义信息。在大型人脸数据集上的大量实验表明，该方法明显优于最新技术。

背景：常规方法依赖于对齐，未对齐会导致伪影。丢失高频信息
目的：解决分辨率从16×16到32×32像素像素的不对齐和非常小的人脸图像
方法：端对端多尺度可转换判别神经网络（MTDN），提出的网络嵌入了空间转换层，加入了特定类别的损失。

图1：我们的方法与基于CNN的超分辨率的比较（a）输入的24×24 LR图像。（b）原始的128×128 HR图像。（c）（a）的对齐的LR图像。由于STN0仅对所有图像输出固定的分辨率，因此对齐的LR图像的分辨率为16×16像素。（d）训练集中（c）的最近邻居（NN）的对应HR版本。（e）（c）的双三次插值。（f）由基于CNN的通用超分辨率（即VDSR）生成的图像（Kim等，2016a）。我们使用面部图像对VDSR进行重新训练，以更好地捕获超分辨率的LR面部图像。（g）通过基于GAN的通用超分辨率方法即SRGAN上采样的图像（Ledig et al，2016）。在此，SR-GAN也可以在人脸图像上进行微调。（h）通过最先进的幻觉方法即CBN超分辨的图像（Zhu等，2016a）。（i）（a）的低频分量。（j）（a）的高频成分。（k）通过我们之前的方法（Yu and Porikli，2017b）进行过采样的人脸，该方法仅使用图像（i）作为输入。（l）我们的MTDN的结果

图 2：我们的MTDN由两部分组成：上采样网络（红框）和判别网络（蓝框）。

图：3关于LR输入图像不同分辨率的结果插图。（a）（d）真实的HR人脸图像。（b）（e）未对准的LR脸部图像。从左到右，图像的分辨率为16×16、24×24和32×32。（c）我们的结果（b）。从左到右，相应的PSNR为22.79 dB，23.59 dB和24.63 dB。（f）我们的（e）结果。从左到右，相应的PSNR为17.80 dB，19.96 dB和21.94 dB

图 4：超分辨率的不同损耗的插图。（a）输入的16×16 LR图像。（b）原始的128×128 HR图像。（c）对齐的LR图像。（d）SRGAN对人脸进行过采样（Ledig et al，2016）。此处，SRGAN应用于对齐的LR面。由于SRGAN是针对通用图像补丁进行训练的，因此我们对全脸图像重新训练SRGAN。（e）通过我们以前的方法超分辨的人脸图像（Yu and Porikli，2017b）。（f）Lpix的超分辨面孔。（g）Lpix + Lfeat的超分辨面孔。（h）通过Lpix + Lfeat + LU获得的超分辨脸。在这里，为简单起见，我们忽略了权衡权重。

在这里插入图片描述

图5：与16×16像素大小的输入图像的最新技术比较。在首先对齐LR面然后对其进行超分辨的情况下获得了结果。（a）未对齐的LR输入。（b）对齐的LR面。（c）三次三次插值。（d）Kimet等人的方法（Kim等人，2016a）（VDSR）。（e）Lediget等人的方法（Ledig等人，2016年）（SRGAN）。（f）Maet al。的方法（Ma et al，2010）。（g）Zhuet等人的方法（Zhu等人，2016a）（CBN）。（h）Chenet等人的方法（Chen等人，2018）（FSRNet）。（i）Yu和Porikli的方法（Yu and Porikli，2016）（URDGN）。（j）Yu和Porikli的方法（Yu和Porikli，2017a）（TDN）。（k）Yu和Porikli的方法（Yu和Porikli，2017b）（TDAE）。（l）Yuet等人的方法（Yu等人，2018b）。（m）Yuet等人的方法（Yu等人，2018a）。（n）我们的方法（MTDN）。（o）原始HR图像

结论

我们提出了一种新颖且功能强大的多尺度变换判别网络，以超分辨非常小的LR人脸图像。通过设计两分支输入神经网络，我们的网络可以对LR图像的各种分辨率进行升采样，而不会丢弃调整后尺寸的输入图像的残差。以这种方式，我们的方法能够利用输入中的所有信息进行人脸超分辨率。此外，我们的算法可以显着增加输入LR图像的大小，例如8倍，并重建更丰富的面部细节。由于我们的方法不需要LR脸部的任何对齐并且可以学习LR和HR脸部图像之间的端到端映射，因此它可以很好地保留脸部的全局结构，因此更加实用。

题目：Hallucinating Unaligned Face Images by MultiscaleTransformative Discriminative Networks

中文：利用多尺度变换判别网络对未对准的人脸图像进行幻觉

摘要

结论

猜你喜欢