论文|Free-Form Image Inpainting with Gated Convolution

论文|Free-Form Image Inpainting with Gated Convolution

Abstract

本文使用 free-form mask (自由随意的mask,可以理解为一种新的mask,拥有任意的形状,既包括regular mask ,也包括irregular mask) 为引导,提出了一个图像修复系统。 gated convolutions(门控卷积),它解决了普通卷积将所有输入pixels都作为有效pixels的问题, 为所以layers每个channel 每个spatial location提供一个可学习的动态特征选择机制。SN-PatchGAN(基于patch的GAN损失),可使训练快速,稳定。

Introduction

简单介绍了image inpainting任务,目前的image inpainting概括为两种(非深度学习的方法和深度学习方法):一种是用 low-level的image features进行patch匹配,另一种是深度卷积网络的前馈生成模型。第一种方法会合成固定纹理,但在非平稳情况下会失败。第二种方法受限于Vanilla convolutions(普通卷积)将所有输入pixels都作为有效pixels,不适用于image inpainting任务。
为了解决普通卷积的问题,NVIDIA提出了Partial convolution (部分卷积),公式如下,但它将含有1个有效值像素的区域与含有9个有效值像素的区域同等对待,这也不合理(后面具体说)。在这里插入图片描述
为此我们提出了gated convolutions(门控卷积)。

Related Work

  • Automatic Image Inpainting
  • Guided Image Inpainting and Synthesis
  • Feature-wise Gating

Approach

Gated Convolution

Vanilla convolutions不适合图像修复任务很好理解,对于Partial convolution也存在以下局限。

  • 启发式地将所有spatial locations分类为有效或无效。 无论上一层filter范围覆盖多少pixels,下一层的mask都将设置为1。
  • 它与其他用户的输入不兼容。 我们针对的是user-guided(作者反复强调)的图像修复系统,在该系统中,用户可以随意在mask内部提供稀疏草图作为条件。 在这种情况下,应将这些pixel位置视为有效还是无效? 如何正确更新下一层的mask?
  • Partial convolution中,无效pixel将在深层中逐渐消失,从而将所有mask值逐渐转换为1。 但是,我们的研究表明,如果我们允许网络自动学习最佳mask,即使在较深的层中,网络也会为每个空间位置分配soft mask值。
  • 每层中的所有channels共享相同的mask,这限制了灵活性。本质上,Partial convolution可以看作是难以学习的单通道特征hard-gating。

gated convolutions ,公式如下,
在这里插入图片描述
ϕ \phi 是激活函数,如ReLU, ELU 和 LeakyReLU
σ \sigma 是sigmoid函数,输出介于0-1之间
显而易见,gated convolutions通过conv和sigmoid来学习一种动态特征选择机制。下图中,左边是Partial convolution,右边是gated convolutions。部分卷积的输入是两个,input image和mask。而门卷积是一个,它将input image和mask concat一起,分两路经过conv卷积,一个经过sigmoid,一个经过激活层,后将两个输出相乘。
在这里插入图片描述

Spectral-Normalized Markovian Discriminator (SN-PatchGAN)

由于本文针对free-form的情况(在任何位置可能有多个具有任何形状的holes),借鉴了global and local GANs 、MarkovianGANs、perceptual loss、spectral-normalized GANs,提出了一个有效的GAN loss,SN-PatchGAN(PatchGAN和SN-GANs的结合)。判别器结构如下图所示。
在这里插入图片描述
其中,6个卷积层(卷积核大小为5,步幅为2)来获得局部图像块 Patches特征的统计信息。同时使用谱归一化来进一步稳定GAN的训练(可以看下SN-GANs这篇论文)。
文章是一个coarse to fine的网络结构。

发布了13 篇原创文章 · 获赞 1 · 访问量 585

猜你喜欢

转载自blog.csdn.net/qq_34929889/article/details/105519629