《Flexible Image Denoising with Multi-layer Conditional Feature Modulation》阅读笔记

摘要:为了实现灵活的非盲图像降噪,现有的深层网络通常将嘈杂的图像和噪声级别图作为输入,以使用一个模型来处理各种噪声级别。 然而,在这种解决方案中,噪声方差(即,噪声水​​平)仅被部署为利用通道方向的移位来调制卷积特征的第一层,这在平衡噪声去除和细节保持上受到限制。 在本文中,我们通过为UNet骨干配备多层条件特征调制(CFM)模块,提出了一种新颖的灵活图像去噪网络(CFMNet)。 与仅在第一层进行逐通道移位相比,CFMNet可以通过部署多层CFM更好地利用噪声级别信息。 此外,每个CFM模块都将来自噪点图像和噪声水平图的卷积特征作为输入,以便在噪声消除和细节保留之间更好地权衡。 实验结果表明,我们的CFMNet可以有效地利用噪声水平信息进行灵活的非盲降噪,并且在定量指标和视觉质量方面均优于现有的深层图像降噪方法。

1.介绍

        为了从嘈杂的观测中恢复潜在的干净图像,图像降噪是低视力领域中一个经典而活跃的话题[1],[2]。 在网络架构和学习算法的进步的推动下,卷积神经网络(CNN)[3]在图像去噪方面获得了很多新的研究兴趣。 如今,已经提出了几种具有代表性的深度去噪网络,例如DnCNN [3],FFDNet [4],MemNet [5]和MWCNN [6],并取得了优于传统的基于模型的方法(如BM3D [7]和 WNNM [8]。
       考虑到各种现实世界中的嘈杂图像可能对应于不同的噪声水平,灵活的图像降噪也是实际应用中的关键问题。 然而,大多数深度降噪网络在处理具有各种噪声水平甚至空间变异噪声的加性高斯白噪声(AWGN)时仍然缺乏灵活性。 例如,非盲DnCNN [3]通常为每种噪声水平学习一个特定的模型。 为了处理具有大范围噪声水平(例如[0; 50])的AWGN,通常需要事先训练和存储大量(例如[3]中的25,25个),从而限制了它们的实用性 适用于各种去噪任务。得益于CNN强大的建模能力,训练单个深盲降噪模型(例如DnCNN-B [3])来处理一系列噪声水平的AWGN也是可行的[5],[9]。 但是,所学习的模型在处理现实世界中的非高斯噪声方面非常受限制,甚至无法很好地推广到超出预设噪声级别范围的AWGN。
         近来,已经提出了几种CNN去噪器来解决非盲图像去噪的灵活性问题。 张等。 文献[4]提出了一种快速灵活的去噪卷积网络(即FFDNet)。 在给定具有特定噪声水平的噪声图像的情况下,FFDNet只需将噪声图像和噪声水平图都作为输入,因此仅使用一个网络就可以删除具有不同噪声水平的AWGN。 输入噪声水平还起着控制降噪与细节保留之间折衷的作用,使FFDNet在某些真实的噪点图像上实用得很好[4]。 对于突发降噪,Mildenhall等人。 文献[10]表明,将噪声水平作为输入有益于不在预设噪声水平范围内的噪声。 此外,CBDNet [11]结合了噪声水平估计和非盲降噪功能,以处理现实中的噪声摄影,而后者则将噪声水平图和噪声图像作为噪声模型之外的泛化输入。 然而,这些方法仅将输入层中的噪声级图和噪声图像串联在一起,这在建模它们复杂的相互作用时是不够的,并且在平衡噪声消除和细节保留方面执行受限。

        图1(a)显示了通过添加噪声标准偏差为60的AWGN产生的噪声图像。图1(b)(c)提供了FFDNet在输入噪声水平为55和60的情况下的去噪结果。 输入噪声水平60可以有效地消除噪声,但可以消除一些小范围的细节(见图1(c))。 相比之下,输入噪声水平为55的FFDNet即FFDNet(σin= 55)可以保留更多细节,但结果中仍会保留一些噪声(见图1(b))。 综上所述,FFDNet仍然不足以利用噪声水平信息来区分信号和噪声,为更好地建模噪声水平图和噪声图像之间的相互作用还留有余地。
       在本文中,我们提出了一种新颖的灵活图像去噪网络(即CFMNet),用于将噪声级别信息适当地纳入去噪过程中。 首先,我们从特征调制的角度重新审视噪声级图和噪声观测[4],[11]的输入级联,并将它们视为在第一卷积层中受噪声级约束的信道方式的移动调制。 从这个角度来看,输入级联的局限性可以归因于简单的单层特征调制。

       为了克服输入级联的局限性,我们考虑了两个方面,提出了一种新颖的柔性非盲图像去噪网络。 首先,U-Net骨干网配备了多层条件特征调制(CFM)模块,从而形成了我们的CFMNet。 代替像FFDNet那样仅在第一层进行逐通道移位调制,我们采用基于残差移位的条件特征调制(RSCFM)并将其部署在多层上。 特别地,RSCFM可以被视为一种条件调制,其中引入了外部条件信息来调制卷积激活。 现有的条件调制方法涉及条件归一化[12],[13]和无归一化调制[14],[15],并已广泛应用于样式转换[16],图像到图像翻译[17],视觉 问题解答(VQA)[18]和单图像超分辨率(SISR)[15]。 与大多数条件调制方法中采用的仿射变换不同,我们发现基于残差移位的CFM可以很好地用于灵活的图像降噪。 与[4],[10],[11]中的输入级联相反,我们部署了多层RS-CFM以更好地利用噪声级别信息来增强去噪性能。

        此外,为了在噪声消除和细节保留之间更好地权衡,我们的RS-CFM将来自噪点图像和噪声水平图的卷积激活作为输入,以生成空间变化的位移图。 从图1(b)可以看出,具有较小噪声水平的FFDNet在细节保留上是有效的,但在显着和平滑区域可能会保留一些噪声。 虽然具有较高噪声水平的FFDNet可能会因消除小规模细节的潜在成本而消除噪声(图1(c))。 因此,一种可行的解决方案是增加平滑区域的输入噪声水平,而对于具有详细纹理的区域降低输入噪声水平。 为此,我们将来自噪声水平图和噪声图像的卷积激活作为每个RS-CFM的输入,并提高了去噪性能。 来自嘈杂图像的卷积激活提供了图像内容的信息,该信息可以与噪声级别图协作以实现噪声消除和细节保留之间的更好权衡。

        进行了广泛的实验,以评估提出的用于高斯降噪的CFMNet。 结果表明,多层RS-CFM有利于定量和定性地降低噪声性能。 通过将来自噪点图像和噪声水平图的卷积激活作为CFM的输入,可以保留更多小规模的细节。 就定量指标和视觉质量而言,我们的CFMNet相对于最先进的传统方法(例如BM3D)和深度图像去噪方法(例如DnCNN [3],MemNet [5],FFDNet [  4],NLRN [19]和MWCNN [6])。 综上所述,性能和灵活性的优点使我们的CFMNet在图像去噪方面非常有竞争力。

这项工作的贡献概括如下:

•通过结合多层CFM模块和U-Net主干网,提出了一种新颖的灵活的非盲图像降噪网络,即CFMNet。 与输入级联相比[4],我们的CFM采用基于残差移位的调制,并部署在多层上以增强降噪性能。

 •在每个CFM中,将来自有噪图像和噪声水平图的卷积激活作为输入以生成适当的偏移图,并且通过我们的CFMNet可以在噪声去除和细节保留之间实现更好的折衷。

扫描二维码关注公众号,回复: 11926931 查看本文章

•实验结果证明了我们CFMNet的去噪性能和灵活性。 在定量指标和视觉质量方面,我们的CFMNet相对于最先进的方法表现出色,使其在图像降噪方面极具吸引力。

在本文的其余部分安排如下。 第二节简要介绍了深度图像去噪和条件特征调制。 第三部分介绍了用于灵活图像去噪的CFMNet。 随后,第四节报告了实验结果,第五节总结了这项工作。

2. 相关工作

        在本节中,首先将对深度降噪网络的最新进展进行简要调查。 自然地,可以将灵活的非盲降噪视为由噪声级图有条件调制的普通图像降噪问题。 因此,我们还简要回顾了带有条件信息的相关特征调制方法。

 A.深度图像去噪网络

        近年来,深度CNN在图像去噪方面取得了空前的成功。 早期的深度图像去噪模型通常采用堆叠式去噪自动编码器[20]和CNN [21],但无法与BM3D [7]等高效的传统方法竞争。 汉堡等。  [22]采用普通多层感知(MLP)来学习图像斑上的去噪映射,并且与BM3D相比取得了可喜的性能。 最近,通过合并残差学习和批处理规范化(BN),Zhang等人。  [3]开发了一种深度去噪网络DnCNN,该网络以较大的幅度优于基准BM3D。 毛等。  [9]通过向完全卷积的网络对称地添加跳过连接,提出了一个深红色网络。 随后,通过引入递归单元[5],多尺度存储系统[23],U-Net [9],二维小波变换[6]和功能关注[24],不断提高了深度降噪网络的性能。  ,紧密连接的层次学习[25]和自上而下的自我指导[26]。

图像中的非局部自相似性已在最有前途的传统基于模型的去噪方法中得到广泛使用[7],[8],[27],并且还可以与神经网络协作。  Yang和Sun [28]建议学习BM3D的域转换和激活功能。非本地模块也被用作几个级联学习模型中的预处理步骤[29],[30]。 但是,这些方法中的非局部匹配是手工制作的并且是非差分的,并且是在固定特征空间中进行的。  Wang等。  [31]提出了一种用于图像和视频分类的端到端可训练非局部神经网络。 至于图像去噪,刘等。  [19]将非本地模块集成到递归网络(NLRN)中,以建模每个位置与其有限邻域之间的特征相关性。 除了加权平均以外,Plotz和Roth [32]提出了神经最近邻块,以放松k近邻(KNN)选择以进行图像降噪。

        在实现有希望的性能的同时,上述方法在处理各种噪声水平或空间变化噪声时通常会缺乏灵活性。 一种可能的解决方案是针对一定范围的噪声水平[3],[5],[9]学习盲式降噪模型,但是学习的模型通常会缺乏对现实噪声的泛化能力,甚至缺乏AWGN。 预设范围。 最近,已经表明,通过输入级联可以很好地解决灵活性和泛化问题,即,将噪声图像和噪声水平图都作为网络输入[4],[10],[11]。 然而,输入级联可以被视为第一卷积层中基于特定移位的调制,这仍然不足以在去除噪声去除的同时保留精细的细节。 代替输入级联,本文提出了一种多层RS-CFM调制模块,用于捕获嘈杂图像和噪声水平之间的复杂相互作用,并利用空间变化移位图来平衡噪声消除和细节保留。
   B.带条件信息的特征调制

        CNN隐藏层中的特征图可以看作是输入图像的一种通用表示形式。然后可以利用特征调制来加强CNN训练或针对特定条件信息定制模型。

        常规特征归一化模块,例如批归一化(BN)[12]和实例归一化(IN)[13],通常不依赖条件信息,并且已在现代深度网络中得到广泛采用。 但是,对于一些视觉任务,例如图像到图像的翻译[17]和视觉问题的回答[18],可以引入外部条件信息以生成所需的或更好的解决方案。 为了合并条件信息,特征规范化已扩展到条件规范化,例如条件BN [18]和自适应实例规范化(AdaIN)[33]。 在每个条件归一化层中,首先将卷积激活归一化为正态分布,然后利用条件信息来学习仿射变换(缩放和移位)以调制激活。 此外,还提出了无归一化调制,例如,特征线性调制(FiLM)[14]和空间特征变换(SFT)[15],用于视觉问题解答和语义图引导的SISR。 在大多数条件归一化和无归一化调制模块中通常采用空间不变仿射变换。  SFT [15]和空间自适应归一化(SPADE)[34]建议学习空间变异的仿射变换,以提高视觉质量。

        在这项工作中,我们还采用空间变体变换进行条件特征调制。 与发现涉及缩放和移位的仿射变换不同,我们发现我们的残余移位在经验上可以很好地完成我们的任务。与现有方法相比,我们考虑了来自噪声图像和噪声级别图的卷积激活以生成空间变异变换,以便在噪声去除和细节保留之间更好地权衡。

3. 相关工作

         假设y是具有AWGN的噪声图像,σ2是噪声方差,x是相应的干净图像。 然后,将灵活的非盲图像降噪定义为在给定有噪图像y和噪声方差σ2的情况下恢复干净图像x的方法。 注意,σ是标量,而y是一个H×W×C图像(对于灰度图像,C = 1,对于彩色图像,C = 3)。 为了补偿σ和y之间的空间尺寸不匹配,将σ扩展为每个元素σ的H×W噪声级图M。 因此,噪声电平图不仅提供用于调制带噪图像的卷积激活的条件信息,而且还提供了一种通过简单地将M(i; j)设置为位置(i;  j)。

         通常,可以将柔性非盲图像降噪模型写为:x = F(y; M;Θ);  (1)其中Θ表示网络参数。 在[4],[10],[11]中,网络将y和M的串联作为输入来处理灵活的去噪。 然而,以上输入级联忽略了噪声水平图和噪声图像的异质性。 如本节所述,输入级联可以在第一卷积层中视为按通道移动的调制,因此在捕获y和M之间复杂的相互作用时受到限制。

在本节中,我们首先分析输入串联的局限性。 然后,通过考虑特定层中y和M的卷积激活,我们引入了基于残差移位的条件特征调制(RS-CFM)。 最后,通过将多层CFM与U-Net主干网结合在一起,可以得出我们的CFMNet。

A.重新将FFDNet作为通道方式的移位调制

在FFDNet中,网络输入是尺寸为H×W×(C +1)的串联(y, M)。 然后可以将第一层中的特征图的第k个通道(即l = 1)计算为

其中*表示卷积运算,表示第一层的通道数。  是第c个输入图和第k个输出特征图的卷积核,表示第k个偏差。

对于空间不变的AWGN,M中的所有元素都具有相同的噪声水平σ。 因此,中的所有元素在空间上也是不变的,具有相同的值。 然后,等式 (2)可以等效地改写为:

其中表示取决于噪声水平σ的通道偏置。 从Eqn。  (3),在FFDNet中采用的输入级联可以被视为以噪声水平为条件的无归一化的信道级移动调制。 但是,此类调制仅在第一层中进行,然后降低了后续层的噪声水平,从而使输入级联不足以捕获y和M之间的复杂关系。此外,在FFDNet中仅考虑了移位调制 。 因此,研究特征调制形式的效果并设计合适的形式是很有趣的。 最后,如图1(b)(c)所示,噪声水平的影响可能因不同的图像内容(例如,平滑区域和详细纹理)而异,这对于平衡噪声消除和噪声消除也是一个有趣的问题。 保留细节。

B.基于残差移位的条件特征调制

在本小节中,我们建议基于分层残差移位的条件特征调制(RS-CFM)来克服输入级联的限制。 与涉及缩放和平移的仿射变换不同,我们从经验上发现,基于分层残差平移的调制效果很好,可以视为输入级联的多层扩展[4]。 此外,在输入级联中,偏移偏移仅取决于噪声电平,而在RS-CFM中,偏移图由噪声图像和噪声电平图确定,因此即使在空间上不变的AWGN情况下也可以在空间上变化。 不失一般性,我们在第l层中使用卷积激活来解释我们的RS-CFM。 由分别表示从嘈杂图像和噪声水平图中的第l层卷积激活。 如图2所示,被串联为三个卷积层的输入以产生。 然后,利用卷积层生成以为输入的条件平移图。 此外,我们进一步在上使用两个卷积层来生成。 对于,我们引入第一个残差移位操作为,

其中是剩余移位操作的输出。 类似地,以残差学习方式更新条件特征

可以很容易地看出,上面的等式是对等式中输入连接的概括。  (3)中间层。 我们进一步介绍了另一个残差移位块,用于调制以为条件的。 类似于第一个残差移位块,我们在上使用两个卷积层来生成。 卷积层也部署在上以生成偏移图。 在用两个卷积层更新了的卷积特征之后,可以通过以下方法获得后续层的卷积激活:

        值得注意的是,每个RS-CFM模块都涉及两个残余移位操作。 显然,利用更多的剩余移位操作是可行的,但是我们凭经验发现,两个剩余移位操作通常可以很好地平衡性能和效率。 而且,在大多数现有的条件调制方法中,仿射变换(包括缩放和移位)已被广泛采用[14],[15]。 当f〜l≈0时,剩余位移也可以作为仿射变换的特殊情况和在FFDNet的第一层中采用的按通道位移调制的扩展。 相反,直接学习也是可行的。但是我们从经验上发现,与传统的移位调制相比,RS-CFM对训练稳定性和降噪性能有好处。 对于现有的柔性降噪网络,例如FFDNet [4],噪声电平图仅用于第一层的特征调制,然后其作用在随后的层中减弱。相比之下,我们的RS-CFM可以与现有的降噪网络合并,并可以多层部署,以更好地利用噪声水平图。

         此外,噪声水平的影响还取决于图像内容。 例如,当输入噪声电平大于地面噪声电平时,去噪结果对于平滑区域是鲁棒的。 因此,可以利用较大的输入噪声电平来抑制平滑区域中的去噪结果。 相反,当输入噪声水平等于或大于地面真实噪声水平时,对于小规模纹理区域的去噪结果可能会过于平滑。但是,通过采用稍小的输入噪声电平可以保留更多的细节。 综上所述,建议将输入噪声水平调整为适合图像内容,这说明我们的RS-CFM会从噪声图像和噪声水平图中同时进行卷积激活以生成偏移图。因此,我们的RS-CFM提供的条件移位图在空间上是变化的。 同样,我们可以根据训练数据和模型目标来端到端学习残差平移图,而不是根据本地图像内容对噪声水平图进行手工调整。

        需要注意的是,空间变量条件调制也已在SPADE [34]和SFT [15]中采用。 尽管SPADE [34]是条件归一化方法,但SFT [15]和我们的RS-CFM是无归一化条件调制。  SPADE [34]和SFT [15]利用语义标记作为图像合成和SISR的条件信息,并采用仿射变换进行特征调制。 相比之下,我们将噪声水平图用作条件信息,并建议基于残差移位的调制用于灵活的非盲图像降噪。 最后,[15],[34]中条件调制的空间变化来自语义标记的空间布局,并且与要调制的特征无关。 相反,我们的RS-CFM考虑了来自噪点图像和噪声水平图的卷积激活来生成条件移位图。 也就是说,即使对于空间不变的噪声水平图,我们的RS-CFM仍可以生成空间变化的移位图,以便在噪声去除和细节保留之间更好地权衡。

C. CFMNet结构

        在本小节中,我们通过将主干U-Net [36]与多层RS-CFM结合起来,介绍CFMNet的网络结构。 选择U-Net架构的原因是,它在降噪性能方面很有前途,并已在几种最新的深度降噪模型中采用[6],[9],[11],[36]。 典型的U-Net通常包含编码器和解码器子网。 特别是,在编码器和解码器中分别引入了池化和上卷积,可以扩大接收场,并有望对降噪性能有所帮助[36]。 此外,编码器层的特征与对应层的解码器特征以对称方式串联在一起,这也有助于简化网络训练[36]。

        图2说明了我们的CFMNet的网络结构,它由一个图像分支和一个噪声水平图分支组成。 每个分支均采用U-Net架构,该架构具有两个2×2的最大池化层用于下采样,以及两个2×2的转置卷积层用于上采样。 不同比例的要素地图的数量分别设置为64、128和256。 在每个下采样之前或每个上采样运算符之后,添加了两个RS-CFM模块。  RS-CFM中所有卷积核的大小为3×3。 除了最后一层和部署生成移位图的Conv层以外,所有卷积(Conv)层均采用ReLU非线性。为了更快地收敛,采用了批处理规范化(BN),但是在网络训练结束时将其合并到先前的Conv层中。 每个分支的编码器功能都与相应的解码器功能串联在一起。 代替直接学习去噪结果,我们利用残差学习公式[3]通过预测去噪结果。

D.模型目标与学习

         我们的CFMNet将噪声水平图M和噪声图像y两者​​作为输入,并采用残差学习来预测地面真实图像和噪声图像之间的残差。 由表示训练集,其中yi,Mi和xi分别代表第i个噪点图像,噪声水平图和地面真实的清洁图像。 然后可以通过最小化均方误差(MSE)损失来学习我们的CFMNet。  (8)其中Θ表示要学习的网络参数。

        具有默认设置的ADAM优化器[37]用于学习我们的CFMNet。 我们采用初始化方法[38]。 学习速率从1e-4开始,然后在75个时代以指数方式下降到1e-6。 然后,我们将批量归一化的参数合并到上一个Conv层中的参数中。 最后,学习速率从10e衰减到1e-6到1e-7,以微调我们的CFMNet。

4. 实验

        进行了大量实验以评估我们的CFMNet的灰度和彩色图像降噪效果。 特别是,我们测试了残留移位的影响,图像特征在调制中的作用,RS-CFM中残留移位的操作次数,并将我们的CFMNet与最新的灰度和彩色图像去噪方法进行了比较。 所有源代码,经过预训练的模型将在https://github.com/dujiazhi/CFMNet上公开提供。

A. 实验设置

        在本小节中,我们介绍实验中使用的训练和测试集,并描述训练CFMNet模型的实现细节。 继[4]之后,我们的训练集由来自伯克利细分数据集(BSD)数据集[39]的400张图像,来自ImageNet验证集[40]的400张图像和来自滑铁卢勘探数据库[41]的4,744张图像组成。 训练集中的灰度图像和彩色图像分别用于训练灰度图像和彩色图像去噪模型。 为了评估灰度图像降噪模型,我们采用了三个测试数据集,其中包括(i)由12个广泛使用的测试图像组成的Set12数据集[3],(ii)包含来自BSD测试集的68个图像的BSD68数据集[42],以及 (iii)Urban100数据集,其中包含100张具有丰富真实世界结构的高质量图像[43]。 此外,使用三个色彩测试数据集来评估彩色图像降噪模型,即CBSD68数据集[42]作为BSD68的彩色版本,Kodak24数据集包含24个来自柯达PhotoCD的中心裁剪的500×500图像[44],以及 McMaster数据集包含18张裁剪后的500×500图像[45]。

        CFMNet的训练需要一组三元组。 为此,我们随机裁剪N = 64×4; 从每个时期的训练集中的图像中提取038个尺寸为64×64的补丁。 对于每个补丁,我们随机采样噪声标准偏差σi2 [0;  75]来合成嘈杂的补丁。 然后,将噪声标准偏差σi扩展为64×64噪声水平图Mi。 我们注意到,我们建议使用CFMNet来处理各种噪声水平甚至空间变异高斯噪声的AWGN,因此,在训练过程中应采用空间变异Mi。 幸运的是,我们的CFMNet是经过图像补丁训练的全卷积网络(FCN)。 即,在空间位置处的去噪结果仅由其局部噪声输入和局部噪声水平确定。 因此,尽管我们使用具有各种噪声水平的空间不变Mi训练CFMNet,但是学习的模型可以直接应用于处理空间变化高斯噪声。 因此,训练我们的CFMNet时仅考虑空间不变的Mi。 在训练过程中使用标准数据增强方法,例如随机翻转,旋转和缩放。 所有实验都是在PyTorch环境中,在装有3.40GHzIntel®Xeon®E3-1231 v3 CPU和GeForce GTX 2080Ti GPU的PC上进行的。通过上述实验设置,我们需要大约两天的时间来训练CFMNet模型。

B. 灰度图像去噪实验

我们将CFMNet与一种传统的去噪方法BM3D [35],六种基于CNN的方法进行比较,即DnCNN [3],FFDNet [4],MemNet [5],FOCNet [23],DHDN [25]和 MWCNN [6]和两个非本地网络,即N3Net [32]和NLRN [19]。 在灰度图像去噪中,我们考虑噪声标准偏差为15、25、50和75的空间不变AWGN。由于FOCNet的源代码不可用,我们仅采用原始论文的结果[23]。表I列出了Set12,BSD68和Urban100这三个数据集上不同方法对灰度图像去噪的平均PSNR和SSIM结果。 从表I中可以看出,我们的CFMNet在所有噪声方差和所有测试数据集上均取得了最佳的PSNR结果。 以σ= 50和Set12为例,CFMNet大大优于传统的基于模型的方法BM3D [35],即〜1.1dB。 与DnCNN [3],FFDNet [4]和MemNet [5]相比,我们的CFMNet可以提高约0.5dB。  CFMNet不需要耗时的非本地操作,并且比基于非本地的降噪网络N3Net [32]和NLRN [19]的性能高出0.2dB以上。 与MWCNN [6],FOCNet [23]和DHDN [25]等最新的CNN去噪器相比,CFMNet仍可实现0.1dB的PSNR增益。 在PSNR和SSIM方面,CFMNet在所有测试集上均优于竞争方法,并且噪声方差优于MWCNN [6](0.7556)的SSIM结果略高于CFMNet(0.7527)(对于Set12上的σ= 75)。 结果表明,CFMNet可以有效地实现灵活的非盲图像降噪,并且相对于最新方法具有良好的性能。

进一步提供了去噪结果的视觉比较,以评估去噪方法。 以σ= 50的AWGN为例, 图3、4和5在Set12和BSD68的三幅图像上显示了通过不同方法进行的去噪结果。 视觉比较中考虑了除FOCNet [23]以外的所有竞争方法,因为FOCNet的源代码和预先训练的模型是公开不可用的。 可以看到,我们的CFMNet在恢复精细纹理和细节方面更为有效,例如,图3中的图像胡椒茎的形状,图4中的图像海星的纹理区域,图4中的图像test004的眼球。 图5.与其他竞争方法相比,我们的CFMNet在平衡噪声去除和细节保留方面很有希望,这可以归因于(i)在特征调制中同时考虑噪声图像和噪声水平图,以及(ii)在多个位置部署CFM 层。

C.彩色图像去噪

对于彩色图像降噪,我们在四个测试数据集(即CBSD68,Kodak24,McMaster和Urban100)上比较了CFMNet和CBM3D [35],CDnCNN [3],FFDNet [4],DHDN [25]和CMWCNN [6]。 未采用MemNet [5],FOCNet [23],N3Net [32]和NLRN [19],因为它们没有测试彩色图像去噪的模型。 表II列出了去除σ= 15的AWGN时的PSNR和SSIM结果;  25;  50;  75.在PSNR和SSIM方面,我们的CFMNet优于四个数据集上所有竞争方法。 在McMaster数据集上,对于具有任何噪声水平的AWGN,我们的CFMNet的PSNR值均比第二好的方法(即CMWCNN [6])高0.3dB以上。 定量结果进一步证明了我们的CFMNet在彩色图像去噪方面的有效性和灵活性。

 

图6和7显示了在噪声标准偏差σ= 50的CBSD68和Kodak24的两个彩色图像上通过不同方法进行的去噪结果。在图6中,我们的CFMNet可以在眼睛或红鹦鹉上恢复更精细的细节。 在图7中,我们的CFMNet将更多的干净细节保留在右男孩的脸部区域中。 定性结果表明,我们的CFMNet在去除噪声和恢复精细图像细节方面均有效。

D. 空间多种高斯噪声移除

在竞争方法中,只有我们的带有FFDNet的CFMNet [4]可以灵活地处理空间变异的AWGN。首先,我们采用以下函数来定义空间变化的噪声水平图,其中,变量。 给定图像尺寸H×W,则位置f(i; j)的噪声水平确定。 对于噪声标准偏差σ= 50,可以通过以下公式获得最终噪声级别图(见图 8(a))。 为了合成空间变异AWGN,我们首先生成均值和单位标准偏差为零的AWGN噪声图像n0,并且空间变异AWGN可以为由得出。此处,◦表示元素级乘积。 然后,通过x + n获得噪声图像,图8(b)显示了通过添加空间变量AWGN的图像。

表III列出了FFDNet和CFMNet的平均PSNR和SSIM结果,用于处理四个数据集(即CBSD68,Kodak24,McMaster和Urban100)的噪声标准偏差为15、25、50和75的空间变异AWGN。在PSNR和SSIM方面,我们的CFMNet在所有四个数据集上始终以明显的优势(即PSNR为0.3dB〜1dB)优于FFDNet。 图8(c)(d)分别显示了FFDNet和我们的CFMNet对图8(b)的去噪结果。 由于其固有的灵活性,FFDNet和CFMNet都能够应对空间变异降噪。 尽管如此,可以看出我们的CFMNet在抑制噪声的同时恢复细微的细节方面比FFDNet更有希望,进一步表明了我们的CFMNet在去除空间变异AWGN方面的有效性。

E.模型尺寸和运行时间

除了对降噪结果进行定量和定性评估外,我们还通过模型大小和计算效率进一步将CFMNet与几种具有代表性的深度降噪器进行了比较。 我们考虑了六个深的CNN去噪器,即DnCNN [3],FFDNet [4],N3Net [32],DHDN [25],MWCNN [6]和我们的CFMNet。 在模型大小方面,表IV列出了每种方法的参数数量(即M中的#Params)。 关于计算效率,表IV报告了Set12中尺寸为256×256和512×512的两幅图像和Urban100中尺寸为1024×1024的一幅图像的平均运行时间(以秒为单位)。请注意,平均运行时间是指 到GPU的运行时间,并被平均计算10倍。

由于引入了特征调制分支,我们的CFMNet具有比大多数竞争方法更大的模型大小,但比DHDN小得多[25]。 根据运行时间,CFMNet可与DnCNN和MWCNN媲美,并且比N3Net和DHDN效率更高。

F. 消融实验

使用σ= 50的Kodak24和AWGN,进行消融研究以评估CFMNet中主要成分的作用。 首先,为了说明多层CFM模块的作用,我们通过删除特征调制分支并将噪声图像和噪声水平图作为去噪的输入,来实现CFMNet的一种变体,即CFMNet(无CFM)。 科。 此外,为了证明残留学习方式在我们的RS-CFM中的效果,通过删除每个RSCFM中采用的短跳过连接来实现CFMNet的一种变体,即CFMNet(不包含Res)。 最后,CFMNet的另一种变体,即CFMNet(不带ImMod),也仅通过利用噪声水平图中的卷积激活来生成移位图来实现。表V列出了CFMNet及其三个变体的运行时间和去噪结果。 与CFMNet(不带CFM)相比,CFMNet可以实现0.14dB的PSNR增益,这清楚地证明了多层CFM模块优于输入串联的优势。 比较CFMNet和CFMNet(w / o Res),短跳连接的烧蚀导致0.08dB的性能下降,显示了残留学习方式在RS-CFM中的影响。  CFMNet还将PFM方面的CFMNet(不带ImMod)提高了0.1dB,这表明来自噪声级图和噪声图像的卷积激活对特征调制和降噪性能均有利。 在效率方面,CFMNet低于CFMNet(不包括CFM),但可与CFMNet(不包括Res)和CFMNet(不包括ImMod)相提并论。

其次,CFMNet使用基于条件移位的特征调制来处理具有各种噪声方差甚至空间变异AWGN的AWGN。 我们还比较了其他特征调制方法,例如缩放和仿射变换(包括平移和缩放)。 表VI通过使用缩放(即CFMNet(缩放))和仿射变换(即CFMNet(仿射))进行特征调制来比较CFMNet及其两个变体。  CFMNet的性能比CFMNet(缩放)好一点,并且与CFMNet(仿射)相当。考虑到(i)去噪结果与效率之间的权衡以及(ii)输入级联[4],[10]的一致性,我们的CFMNet中采用了基于位移的特征调制。

最后,CFMNet的每个RS-CFM模块都涉及两个残余移位操作。 显然,可以调整剩余移位操作的次数,以更好地平衡降噪性能和效率。 表VII列出了三种具有不同剩余移位操作次数的CFMNet变体的结果。 正如预期的那样,运行时间随着换档次数的增加而增加。 相反,当将残余移位运算的次数从一增加到二时,PSNR值可以提高0.05dB,然后当它大于二时就达到饱和。 因此,在我们的CFMNet实施中,我们在每个RS-CFM中采用两个残差移位块。

5.总结

在本文中,我们通过为UNet骨干配备多层基于残差移位的特征调制(RS-CFM)模块来提供CFMNet,以实现灵活的非盲图像降噪。  CFMNet通过部署多层CFM扩展了输入串联,以便更好地利用噪声级图来提高去噪性能。 此外,每个RS-CFM模块都将来自噪点图像和噪声水平图的卷积激活作为输入来生成偏移图,从而在噪声去除和细节保留之间实现更好的折衷。 大量实验表明,我们的CFMNet相对于最新的灰度和彩色图像降噪方法表现出色,并且可以有效地处理具有各种噪声方差和空间变异AWGN的AWGN。

猜你喜欢

转载自blog.csdn.net/LiuJiuXiaoShiTou/article/details/109098561