超分算法HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

在这里插入图片描述
这篇文章HIPA提出了一种使用不同patch大小,分层级的提取融合特征的SR方法。提出了一种新的基于通道注意力的位置编码Transformer模块APE-ViT:就是在位置编码的时候加入了注意力。第二个模块是多感受野的注意力模块MRFAM:在不同感受野下进行特征提取,使用了三个并列分支的的卷积组合来获得不同的感受野,该模块中还提出了一种新的通道注意力机制。在位置编码中加入注意力这种想法应该是本文中第一次提出。

这篇文章暂时没放源码,也没发补充材料。

原文链接:HIPA: Hierarchical Patch Transformer for Single Image Super Resolution

Abstract

近来,基于Transformer的架构被引入单图像超分辨率(SISR)中,并取得了良好的性能。大多数现有的视觉Transformer将图像分割成相同数量的固定大小的patch,这对于恢复纹理丰富程度不同的块可能不是最佳选择。

本文介绍了一种新的Transformer结构HIPA,它使用分层分片逐步恢复高分辨率图像。具体来说,建立了一个级联模型分多个阶段处理输入图像,从小块的token开始,逐步合并到完整分辨率。这种分层patch机制不仅明确地支持多分辨率下的特征聚合,而且还自适应地学习不同图像区域的patch感知特征。

  1. 提出了一种新的基于注意的Transformer位置编码方案,通过给不同的token分配不同的权重,让网络关注重要的token。这种方法是在本文中第一次提出
  2. 还提出了一个新的多感受野的注意力模块,以扩大不同分支的卷积感受野。

在几个公共数据集上的实验结果表明,所提出的HIPA方法在定量和定性上都优于以前的方法。

1 Introduction

深度卷积神经网络(CNN)在SISR方面取得了显著的成功,目前已经提出了各种结构,然而,CNN中的卷积使用滑动窗口提取特征,仅捕获局部模式,缺乏建模全局上下文的能力。

Transformers在自然语言处理领域取得的巨大成功及其在全局建模方面的优势的启发,视觉Transformers也被引入了SISR领域。由于多头自注意机制能够建模长距离依赖关系,因此获得了比许多基于CNN的SOTA方法更好的结果。

最近,结合CNN和Transformer的混合架构出现,增强其在特征提取方面的优势。尽管这些现有的基于Transformer的SISR模型取得了优异的结果,但几乎所有模型都将输入图像分割为固定大小的patch,并使用相同数量的patch处理所有样本,考虑到不同的图像区域有其自身的特征,这这方法可能不是最优的。

本文提出了一种分层patch Transformer,将输入图像划分为不同大小的patch层次。

  1. 通过交替堆叠CNN和Transformer,开发了一种多级体系结构,以充分利用CNN在提取局部特征方面的优势和Transformer在建立长期依赖关系方面的优势。
  2. 为了实现Transformer的不同大小的patch输入,并让Transformer从不同数量的token建立全局依赖关系,首先将LR图像划分为子块的层次结构,这些子块作为Transformer的输入,从小尺寸块开始,然后在下一阶段逐渐合并它们。
  3. 此外,设计了一种新的基于注意力的Transformer位置编码方案,该方案基于通道注意力,以连续的动态模型对位置信息进行建模。
  4. 此外,提出了一种基于不同放大因子的扩展卷积的多感受野注意模块,以扩大不同分支的卷积感受野。

如图1所示,与其他最先进的SISR方法相比,HIPA获得了更好的视觉质量。
在这里插入图片描述

简而言之,与现有方法的主要贡献和显著区别在于:

  1. 渐进模型形成了子块的层次结构,允许为Transformer实现不同大小的patch,这比使用相同数量的固定大小patch处理所有样本更有效,
  2. 为Transformer提出了一种新的基于注意的位置编码方案,该方案对重要的token给予更多的权重,该方法是在本文第一次提出。

2 Method

首先介绍整个网络的结构,再具体介绍其中的基于注意力的位置编码视觉Transformer :attention-based position encoding vision Transformer(APE-ViT)模块和多感受野注意力:multi-reception field attention module(MRFAM)模块,多个MRFAM串联为一个MRFAG(实验中设置为5)。

2.1 Overview

提出的HIPA包括三个阶段:前两个阶段都是基于提出的多感受野注意力模块(MRFAM)和基于注意力的位置编码ViT(APE ViT)构建的。最后一个阶段仅基于MRFAM构建,而不使用APE ViT,因为最后一级的输入是整个图像,这将大大增加计算时间和对更多内存的需求。

此外,为了实现Transformer不同大小的输入patch,在输入LR图像上采用了多patch层次结构。

  1. 首先将LR图像分割为不同阶段的不同非重叠面片:第一阶段四个,第二阶段两个,最后阶段整个LR图像
  2. 然后在下一阶段逐步将其合并。在第二阶段,利用子块的垂直整合(13和24),而不是水平整合整合(12和34)。(当然也可以横向整合,但经过实验并没有显著差异)。

图中标注的 C o n v ( 3 × 3 , 64 × 64 ) Conv(3×3,64×64) Conv(3×364×64),3×3是卷积核大小,64×64是(输入通道数×输出通道数)

在这里插入图片描述

I L R I_{LR} ILR I H R I_{HR} IHR表示HIPA的原始LR输入和最终HR输出, I L R i , j I^{i,j}_{LR} ILRi,j表示第 i i i阶段的第 j j j个patch,例如, I L R 1 , 2 I^{1,2}_{LR} ILR1,2表示第1阶段的第2个patch,即图2所示的第1阶段输入的右上角patch。

stage1: 以下每一步都是在各自的patch内进行的。(1234四块patch)
根据EDSR和RCAN中的网络设置,作者也使用一层卷积层来提取浅层(SF)特征 F 0 1 , j F^{1,j}_0 F01,j,公式如下:
在这里插入图片描述

然后将提取的浅层特征输入到提出的多感受野注意力模块(MRFAG)中,进一步提取深层特征 F M R F A G 1 , j F^{1,j}_{MRFAG} FMRFAG1,j
在这里插入图片描述

将深层特征输入到基于注意力的位置编码ViT(APEViT)中,以获得全局依赖性 F A P E − V i T 1 , j F^{1,j}_{APE−ViT} FAPEViT1,j
在这里插入图片描述
接下来融合 F A P E − V i T 1 , j F^{1,j}_{APE−ViT} FAPEViT1,j1和3,2和4的特征,和浅层特征 F 0 F_0 F0残差相加 F 0 F_0 F0也是1和3、2和4融合),就可以拼接到第二阶段浅层特征提取后的特征上了。
在这里插入图片描述

另一方面,融合后得到的两个特征再继续融合,得到完整的图像特征,进行图像上采样重建,获得第一阶段恢复的HR图像 I H R 1 I^1_{HR} IHR1:
在这里插入图片描述

stage2: 只有左右两个patch了

第一阶段的特征和第二阶段浅层提取后的特征在维度上拼接,再经过一层卷积减小通道维度,输入多感受野注意力模块(MRFAG)中进一步提取深层特征,再APEViT进行注意力计算,获取长期依赖关系。左右两块融合成完整的一块,和第二阶段的融合后的浅层特征残差相加。一边传给第三阶段拼接,另一边直接上采样重建出高分辨率图像 I H R 2 I^2_{HR} IHR2

stage3: 完整LR图像输入,不使用APE-ViT

完整的LR图像经过一层卷积提取浅层特征后和第二阶段融合后的特征在维度上拼接,经过一层卷积减小通道维度,输入MRFAM1,并使用残差连接,再输入MRFAM2残差相加,一共经过G个MRFAM(实验中设置为20);经过一层卷积,增加非线性度,卷积前后残差相加;再和第三阶段浅层特征提取后的特征残差相加,终于可以上采样重建出第三阶段的高分辨率图像 I H R I_{HR} IHR

三个阶段的具体情况就如上述,每个阶段的特征都在逐步提升。阶段2的预测是阶段1的细化,阶段3又在阶段2的基础上继续细化。通过多级细化改进,逐步恢复空间分辨率较高的图像区域。

LOSS:
最终的损失函数是三个阶段重建图像分别与真实图像做loss的和,当然在训练时三个阶段的权重是一样的,为了平等对待三个阶段。使用L1 loss(为了和以往的方法公平的比较)。公式如下:
在这里插入图片描述

2.2 Attention-based Position Encoding Vision Transformer (APE-ViT)

与ViT类似,APE-ViT也主要由三部分组成:patch嵌入、基于注意力的位置编码(APE)和Transformer-encoder块。与ViT的显著区别在于位置嵌入。ViT的原始位置嵌入是预定义的,与输入标记无关。当输入一幅新尺寸的LR图像时,patch的数目会变得不同,学习到的位置嵌入维数将不匹配。为了解决这个问题,必须首先对新尺寸的输入图像进行插值,这不仅降低了ViT的整体性能,而且严重限制了其应用。
↓↓
为了解决上述问题,Chu等人提出了一种条件位置编码(CPE),通过引入二维卷积来嵌入位置编码,当输入LR图像具有新的输入大小时,可以很容易地将其推广到输入序列。然而,CPE平等地对待所有输入token,这会忽略它们之间的相互依赖性。
↓↓
为了解决这个问题,作者提出了基于注意力的位置编码(APE),将注意力引入位置嵌入,让Transformer更加关注重要的token。
在这里插入图片描述
注意力位置编码 APE

该位置编码的注意力其实是通道注意力。

  1. 首先输入特征图像 F M R F A G i , j ∈ R H i × W i × C i F^{i,j}_{MRFAG}∈ R^{H_i×W_i×C_i} FMRFAGi,jRHi×Wi×Ci进行patch嵌入,将输入划分为不重叠的 P i × P i P_i×P_i Pi×Pi的patch,重塑为若干平坦的2Dpatch x p ∈ R H i × W i P 2 × P 2 × C i x_p∈R^{\frac{Hi×Wi} {P 2}×P 2×C_i} xpRP2Hi×Wi×P2×Ci。(同Swin-T一样)
  2. 如图3所示,将展平的特征标记重塑为2D图像空间(转回去,其实就是patch嵌入前)。在2D图像空间中,应用卷积和通道注意力来产生最终位置编码。(此处和Squeeze-and-excitation networks这篇文章,或者和RCAN中使用的CA模块是一样的)。
  3. 将位置编码与每个2D图像空间每个通道相乘,得到最终的位置编码。
    在这里插入图片描述

将得到的位置编码加到Patch Emb上,就可以输入到Transformer Emcoder中计算注意力,获得长期依赖关系了。

(APE)ViT:

在这里插入图片描述
提出的Transformer编码器由T个堆叠的编码器组成。每个编码器都是标准的编码器结构:由两个LN层、一个多头注意(MHA)、一个多层感知器(MLP)和两个个残差连接组成。MLP中包含两个全连接层,中间有GELU激活层。MLP作为对注意力计算的补充,在每个token上起到了放大维度和增加非线性度的作用。每个编码器的输出定义为:(每个编码器MHA模块设置为4头,且T设置是4)
在这里插入图片描述

2.3 Multi-Reception Field Attention Group (MRFAG)

每个MRFAG由G个MRFAMs(module)和残差结构组成,在尾部还有一个卷积层。(第一和第二阶段中G=5,第三阶段G=20)
在这里插入图片描述

简单地堆叠多个MRFAM无法获得更好的结果。所以引入LFS连接以确保网络训练的稳定性,并绕过低质量图像中包含的丰富特征。MRFAG的最终输出如下:
在这里插入图片描述
w L F S w_{LFS} wLFS表示MRFAG尾部卷积层的权重。 F M R F A G F_{MRFAG} FMRFAG F M R A F M G F_{MRAFM_G} FMRAFMG分别表示MRFAG的输出和第G个(最后一个)MRFAM的输出,第g个MRFAM的输出表示为:
在这里插入图片描述

MRFAM:
在这里插入图片描述
每个MRFAM由三个并行连接的基于扩展卷积的通道注意、一个融合模块和一个局部特征跳跃连接(LFS)组成,如上图4所示。虽然增加CNN的深度滤波器大小可以分别扩大感受野,提取更多低质量图像中的信息,但会引入更多参数,还增加了计算复杂度。因此,作者提出了基于扩展卷积的通道注意力(作者说详细解释见补充材料,没找到补充材料)来扩大网络的感受野,这不会增加计算复杂性,并且与Squeeze-and-excitation networks(SE)有显著的区别(就是前面的通道注意力,RCAN中那种)。

三个并行分支,分别有不同卷积核(1×1,3×3,5×5),产生不同的感受野。

  1. 先经过Conv-ReLU-Conv,主要目的是在三个分支上获得不同的感受野
  2. 通道注意力(不同于SE):先经过最大值池化,不改变通道数,再经过三个分支不同放大因子的扩张卷积(不知道这个扩张卷积具体是啥样,作者的补充材料没公布),扩张卷积层改变了特征的通道数,缩小为4,这一步为了减小通道数可以减少参数量。再经过ReLU选通(门控机制),再一个对应放大因子的扩张卷积恢复通道数。在这接一个全局平均池化,求得每个通道的平均值作为通道的权重参数,使用sigmoid激活,使权重映射到(0,1),得到最终的通道注意力权重,与feature map对应通道相乘
  3. 融合三个分支:把三个分支按注意力权重分配后的所有通道concat在一起,经过一个卷积减小通道数。再用M个残差块加深非线性度,学习更深层次的特征。(M=5)
  4. 一个局部特征跳跃连接,将该MRFAM的输入和输出残差相加。

MRFAM中的通道注意力和SE主要的区别在于多了一层最大值池化和全局池化的位置不同。最大值池化减小了网络的参数量,使用不同方法因子的扩张卷积,能够获得不同感受野下的通道注意力。

3 Experiments

Settings:

训练:DIV2K作为训练数据集。其中包含800个训练图像、100个验证图像和100个测试图像。
测试:标准公共数据集:Set5、Set14、B100、Urban100和Manga109作为测试数据集。
评价指标:PSNR和SSIM,基于YCbCr空间的亮度通道计算。

三个阶段的MRFAG中,分别设置MRFAM的数量为G=5、5、20,ResBlock设置为M=5
除了扩展卷积,所有卷积层的通道数C=64
除了扩展卷积,所有卷积核的大小设置为3×3
上采样使用 亚像素卷积层
训练阶段图像增强:水平翻转或随机旋转90°、180°、270°
patch :48 × 48
optimizer:ADAM
使用 4 张Nvidia Tesla V100 GPUs.

3.1 Comparisons with State-of-the-arts

定量比较:

  1. HIPA在所有标度因子的多个基准上都取得了最好的结果,并且在峰值信噪比和SSIM方面超过了最先进的方法,尤其是在标度因子越大的情况下。
  2. HIPA在所有数据集的所有尺度上都优于类似Transformer模型:SwinIR。特别是在Urban100数据集上,与SwinIR相比,比例因子×4的峰值信噪比提高了0.18 dB。主要原因可能在于:①所设计的多级递进模型不仅可以利用Transformer不同大小patch的特征,而且可以从粗到细逐步恢复HR图像;②所提出的MRFAG可以让网络基于不同放大因子的扩张卷积,从不同的感受野彻底挖掘原始LR图像中包含的局部特征。
    在这里插入图片描述

定性比较:
在图5中,直观地展示了在Urban100数据集4×放大因子的比较结果。

  1. HIPA总能获得更清晰的结果,并恢复更多的高频纹理和清晰的细节,而大多数竞争对手的SISR模型无法恢复建筑物的晶格和道路的砖块,并且存在一些令人不快的模糊瑕疵,无法恢复纹理和细节。
    在这里插入图片描述

模型尺寸和运行时间比较:
表2显示了参数数量和平均运行时间:

  1. 与EDSR、RDN和RCAN相比,参数差不太多,但获得了更好的峰值信噪比。
  2. 与IPT相比,参数小和运行时间都小很多,并且效果好很多。
  3. 与SwinIR比,参数量大一些,但是运行时间和PSNR要略胜一筹。
    在这里插入图片描述

3.2 Ablation Study

①证明可变patch size的有效性:

在表3中,对比了具有固定patch大小和不同patch大小的APE-ViT之间的定量结果,在Set14和Urban100数据集上进行。

  1. 将使用不同大小patch的APE-ViT比使用固定大小patch的PSNR大,性能好。主要原因是子块的层次结构使网络能够从不同大小的LR图像中学习一幅图像,从而提高最终结果的总体性能。这也进一步验证了所提出的分层多级结构的有效性
    在这里插入图片描述

②APE-ViT尺寸的影响:

表4显示了APE ViT尺寸对模型性能的影响。

  1. PSNR结果比与APE-ViT大小呈正相关。虽然性能不断提高,但参数总量也在增长。为了平衡性能和模型大小,在实验中选择APE-ViT(PatS=4,HeadNr=4,LayerN=4)。

在这里插入图片描述

③APE的有效性:

表5所示,为了验证注意位置编码(APE)的有效性,在Set14和Urban100数据集上,对使用先前位置嵌入(PE)、条件位置编码(CPE)和本文提出的APE三种方法的APE-ViT模块进行了放大倍数为×2、×3和×4的对比实验。

  1. 在两个数据集的所有尺度上,使用APE的APE ViT比使用之前的PE和CPE获得了更好的性能,这验证了所提出的APE的有效性。
    在这里插入图片描述

④MRFAG的有效性:

表6显示,提供了三个基于平行扩展卷积的通道注意分支的几种组合

  1. 第1-6列,随着分支数的增加,性能不断提高,并且使用所有分支能获得最佳效果。
  2. 第6789列,展示了残差块(RB)数M、MRFAM数量G和通道数C对Set14数据集上scale×4模型性能的影响。结果表明,PSNR与这三个参数呈正相关。但是参数量也随着三个参数的增加而增加。为了在性能和模型尺寸之间进行权衡,在其余实验中设置M=5、G=20和C=64。
    在这里插入图片描述

4 Conclusion

在本文中,提出了用于使用不同尺寸patch的层级结构的Transformer(HIPA),通过将输入分割成三个层次的patch来逐步恢复高分辨率图像。

  1. 采用多级渐进模型,早期阶段使用较小的patch作为token,最后阶段以完整分辨率进行。
  2. 是一个混合结构,由一系列CNN和Transformer级联而成,用于跨多个阶段进行功能聚合。
  3. 提出了一种新的基于注意力的位置编码方案,在位置编码中加入通道注意力(SE),使Transformer专注于重要的token。
  4. 提出多感受野的注意模块使用不同的分支放大卷积感受野,在不同感受野下使用新的通道注意力方法,提取深层特征。
  5. 在不同基准数据集下的定量和定性实验表明,在所提出的HIPA在PSNR、SSIM和视觉质量方面优于大多数最先进的方法。

最后祝各位科研顺利,身体健康,万事胜意~

猜你喜欢

转载自blog.csdn.net/qq_45122568/article/details/124709620