Image Restoration by Estimating Frequency Distribution of Local Patches

通过估计局部面片的频率分布进行图像恢复

Abstract

在本文中,我们提出了一种解决图像恢复问题的方法,该方法尝试恢复受损图像的细节,尤其是由于JPEG压缩造成的损失。我们在频域中处理图像,以明确恢复图像压缩过程中丢失的频率分量。在此过程中,使用交叉熵损失来学习频域中的分布。与最近的方法不同,我们在不使用对抗训练方案的情况下重建了图像的细节。相反,图像恢复问题被视为分类问题,以确定图像面片中每个频带的频率系数。在本文中,我们证明了该方法有效地恢复了具有更详细高频分量的JPEG压缩图像,使恢复的图像更生动。

1. Introduction

随着多媒体和互联网在我们的日常生活中变得不可或缺,低质量的压缩图像被越来越多地使用,因为图像质量和数据资源的消耗高度相关。在这种环境下,诸如从有损压缩图像中去除伪影的压缩伪影以及高质量图像的恢复等任务最近已成为计算机视觉的重要领域。在各种图像格式中,JPEG是最常用的有损图像压缩格式。像这样的有损压缩通过永久删除一些信息来减少数据量。因此,图像恢复的反向过程基本上是生成输入图像不具有的信息的问题,因此是不适定问题。在大多数情况下,有几个可能的输出图像对应于给定的输入图像,该问题可以视为选择所有可能输出中最合适的一个。也就是说,图像恢复问题可以表述为估计以输入图像为条件的分布的问题。由于卷积神经网络(CNN)在计算机视觉领域得到了积极的应用,人们已经尝试使用CNN来恢复由于压缩而丢失的图像信息。这些方法主要是以有监督的方式使用CNN来近似从输入图像到输出图像的映射函数。大多数情况下,输出和目标图像之间的均方误差(MSE)或平均绝对误差(MAE)最小。这些方法通常在PSNR(峰值信噪比)和SSIM(结构相似性)[25]等常用指标中取得了良好的性能,但人眼的输出图像模糊,缺乏高频细节,如图1的第二幅图像所示。原因可以归因于这样一个事实,即学习方法试图最小化损失函数,如MSE和MAE,其基于输出和目标之间的像素距离,迫使模型收敛到所有可能解的均值或中值[2,24,26,1]。

图一:从上到下,第一幅图像是质量因子为10的JPEG压缩图像,第二幅是通过我们的基线方法恢复的结果,该方法使用了典型的编码器-解码器模型,其损失函数为像素级均方误差。第三个是我们方法的恢复结果,该方法利用分类器网络,训练以预测可能输出的频率分布。我们的结果比基线结果更详细。

近年来,许多研究表明,将生成对抗网络(GAN)[7]应用于有损压缩伪影消除问题[9,5]取得了良好的结果。然而,由于训练GAN实际上需要在生成器和鉴别器之间找到Nash equilibrium,因此学习不稳定且困难,因此仍然很难再现原始文献[6]中报告的良好结果。

在这项工作中,我们将图像恢复问题视为一项分类任务,而不是使用生成模型。使用交叉熵损失函数从输入图像直接估计目标图像的频率分布。通过将这些信息与现有的编码器-解码器神经网络模型一起使用,可以使输出图像更接近自然图像。如图1第三行所示,我们的方法可以生成具有真实细节的更清晰的输出图像。本文的贡献有三个方面:

1、将图像恢复问题重新表述为恢复原始频率分量的任务,从而将图像的视点从像素域更改为频域,以明确地恢复丢失的高频信息。

2、与以往通过解决回归问题或使用生成模型来解决图像恢复问题的工作不同,我们将此任务视为频域分类问题来估计图像丢失信息的分布。

3、特别是,将该方法应用于JPEG压缩伪影去除任务,结果表明,我们的工作能够很好地恢复高频分量,并产生令人满意的视觉输出。

2. Related works

由于深度神经网络(DNN)引起了研究人员的兴趣,人们进行了许多研究,用DNN去除有损压缩伪影,其中大多数研究侧重于提高JPEG图像的质量。许多人试图通过将有损压缩图像转发到DNN以直接从输出中获得恢复图像来解决此问题。[2]中的工作是将DNN应用于伪影去除的早期研究,其中相对较轻的神经网络用于有损压缩图像和相应的无损图像对。[24]中通过使用Sobel滤波器添加强调边缘的损失函数,获得了更好的结果。

人们尝试使用离散余弦变换(DCT)去除有损压缩中的伪影,该变换在JPEG和MJPEG等图像压缩算法中得到了高度利用。在有损压缩中,它利用频率成分被频带很好地分离的事实来去除能量较低的高频成分。在[14,8,26]的情况下,使用神经网络从像素域和DCT域处理压缩伪影消除问题。

这一研究领域的大多数工作将图像恢复问题置于回归框架中,并试图最小化定义为像素域中距离的损失函数,其缺点是,由于神经网络采用像素平均值,因此生成的图像模糊[12,23]。一些研究试图通过直接或间接使用分类框架来解决这个问题。张等人[28]通过直接从灰度像素中分类彩色像素,在着色方面表现出了良好的性能。Iizuka等人[10]还处理了着色问题,并通过将分类中学习的高级特征与先验知识混合,缓解了最小化距离损失的缺点。

GAN[7]是解决伪影消除和图像质量增强问题的另一种方法。工作[9]应用GAN去除有损压缩伪影,结合感知损失[11]和JPEG相关损失,使用GAN损失获得了更好的结果。Galteri等人[5]还解决了使用GAN去除伪影的问题。Ledig等人[12]提出了SRGAN,这是一种使用GAN创建超分辨率图像的方法,并表明与传统方法相比,GAN可以生成更逼真的图像。然而,训练一个GAN是非常困难和不稳定的。Mescheder等人[17]指出了用最新的训练算法实现GAN收敛的困难,并提出了一种新方法。

与以往将GAN应用于解决图像恢复作为像素域中的回归问题所引起的问题的研究不同,我们不仅利用空间表示,而且还利用频率表示。更具体地说,分类方法用于估计频率分布,该方法在回归框架中进一步使用,回归框架的损失函数基于像素距离。此外,我们提出了一种新的架构和训练方案来有效地实现这一点。

 该网络由编码器(E)、解码器(D)和分类器(C)组成。E输出被认为具有低频信息的特征图(蓝色),而C输出每个图像面片的估计频率分量(橙色)。将两者的串联作为输入,D输出重构图像。实线表示正向路径,虚线表示损耗计算路径。

3. Estimating Frequency Distribution for Image Restoration

3.1. Problem formulation

解决现有伪影消除问题的神经网络方法主要尝试在对于输入的压缩JPEG图像I^{J}来说,使得真实值I^{G}与输出恢复的值I^{R}间像素距离MSE[2,24]或MAE[13]的最小化。使用这种基于距离的损耗获得的输出图像在基于MSE的度量(如峰值信噪比和SSIM)的意义上是好的,但它们对于人眼来说是模糊的,因为它们是通过取I^{G}的各种可能解的平均值来学习的。

这种方法可以是一种有效的方法,前提是:无损图像的真实分布p\left ( I^{​{G}}|I^{J} \right )对应于有损压缩图像I^{J}

是单峰的。然而,p\left ( I^{​{G}}|I^{J} \right )是模糊的,因为从I^{J}I^{R}的映射是一对多函数,涉及每个信道中的量化。

我们的目标是创建不模糊的I^{R}图像,它具有锐利的边缘和生动的细节。该网络将频域中的问题处理为估计I^{G}的DCT系数q的问题。此外,不是使用传统的MSE损耗直接估计DCT系数空间中的单点q,而是训练网络通过最小化KL发散来估计q的分布p\left ( q|I^{J} \right )

 \hat{p_{\theta }}是网络对输入I^{J}与参数向量\theta的分布估计。

与使用MSE相比,使用KL散度的图像恢复问题公式具有以下优点: 考虑到两个图像I_{1}^{G}I_{2}^{G}将导致相同的JPEG图像I^{J},如果训练网络以使用两个训练样本\left (I ^{J},I_{1}^{G} \right )​,\left ( I^{J},I_{2}^{G} \right )直接估计目标​​​​​​,网络从不学习,因为网络只输出单点I^{R}。在这种情况下,I^{R}将不同于目标I_{1}^{G}I_{2}^{G},另一方面,如果使用相同的样本训练分布,则网络可以学习在I_{1}^{G}I_{2}^{G}处具有两个峰值的双峰分布。如果我们取分布的最大点,将选择其中一个峰值,并且可能实现完美恢复。

 在下文中,我们将p\left ( q|I^{J} \right )视为每个信道中DCT系数类的地面真值离散分布,并使用估计分布ˆp\hat{p}\left ( q|I^{J}\right )上的信息作为传统编码器-解码器神经网络结构的输入来恢复图像。

3.2. Overview of the proposed method

......

猜你喜欢

转载自blog.csdn.net/mytzs123/article/details/126002770