一、摘要

多阶段策略经常用于图像恢复任务。虽然基于Transformer的方法在单图像超分辨率任务中表现出高效率，但在立体超分辨率任务中尚未显示出明显优于基于CNN的方法的优势。
这可以归结为两个关键因素：
第一，目前的单图像超分辨率变压器在此过程中无法利用互补立体信息；
第二，变压器的性能通常依赖于足够的数据，这在普通的立体图像超分辨率算法中是不存在的。
为了解决这些问题，文章提出了一种混合Transformer和CNN注意力网络(HTCAN)，它利用基于变压器的网络进行单图像增强，利用基于CNN的网络进行立体信息融合。

二、简单介绍

2.1 立体超分辨率和单图像超分辨率的区别

2.1.1 立体超分辨率和单图像超分辨率的区别一

立体图像超分辨率：旨在从给定的低分辨率左右视图图像重建高分辨率图像。
单图像超分辨率：旨在从给定的低分辨率主视图图像重建高分辨率图像。

2.1.2 立体超分辨率和单图像超分辨率的区别二

立体图像超分辨率：立体图像超分辨率可以利用重叠面积较大的两个视图的信息。
单图像超分辨率：单幅图像的超分辨率只能利用单幅视图的信息。

在一个视图中丢失的信息可能仍然存在于另一个视图中，并且利用来自另一个视图的额外信息可以在很大程度上有利于重建过程。因此，立体图像超分辨率算法的最终性能在很大程度上取决于每个视图的特征提取能力和立体信息交换能力。

2.1.3 混合Transformer和CNN注意力网络

混合Transformer和CNN注意力网络中，使用变压器作为第一阶段，以确保保留单视图低分辨率图像的大部分重要特征，以供进一步处理，并在第二阶段使用基于cnn的方法进行有效的立体信息交换。

2.1.4 本文具体贡献

①一种混合立体图像超分辨率网络：提出了一种统一的立体图像超分辨率算法，该算法集成了变压器和CNN架构，其中变压器用于提取单视图图像的特征，CNN模块用于交换两个视图的信息并生成最终的超分辨率图像。
②全面的数据增强：对多补丁训练策略等技术进行了全面的研究，并将其应用于立体图像的超分辨率。
③最先进的性能：提出的方法实现了新的最先进的性能，并在立体图像超分辨率挑战赛中获得了第一名。

三、具体方法

所提出的 Hybrid Transformer and CNN Attention Network(HTCAN)是一个多级恢复网络，如图1所示。在阶段一，给定低分辨率立体图像 $L^{lr}$ 和 $R^{lr}$ ，首先使用基于Transformer的单图像超分辨率网络将它们超分辨为 $L^{s1}$ 和 $R^{s1}$ 。在阶段二，采用基于CNN的网络对 $L^{s1}$ 和 $R^{s1}$ 进行立体增强，得到增强后的图像 $L^{sr}$ 和 $R^{sr}$ 。在第三阶段，我们使用与第二阶段相同的基于cnn的网络进行进一步的立体增强和模型集成。

3.1 阶段1:基于Transformer的单图像超分辨率

3.1.1 网络体系结构

基于Transformer的单图像超分辨率(SISR)网络的输入为1个低分辨率图像patch及其周围的8个patch，如图1(a)所示。周围的八个补丁从中心补丁的上、下、左和右裁剪。因此，周围的八个小块可能会超出图像的边缘。在这种情况下，使用反射填充扩展图像，并从填充图像中提取低分辨率补丁及其周围的八个补丁。给定9个输入的低分辨率补丁，首先将它们送入一个3 × 3的卷积层中提取浅层特征 $F_{L}^{1}$ ， $F_{R}^{1}\in R^{H\times W\times C}$ ，其中C为特征通道数，通道数设为180。浅层特征提供了对输入的初步感知，然后将其输入到连续的K1级联残余混合注意组(RHAG)中进行自我注意和聚合信息，K1设置为12。此外，将窗口大小增加到24 × 24，以便更好地在窗口内聚集信息。最后，经过级联RHAG的高效信息聚合后，通过卷积层和像素shuffle层生成超分辨率图像。网络输出为中心补丁对应的高分辨率补丁。

3.1.2 整体策略

通过旋转和水平/垂直翻转输入的低分辨率图像来实现自集成。此外，将HAT-L模型中的GeLU激活函数替换为SiLU激活函数。通过实验发现，引入的傅里叶上采样技术并没有显著提高模型性能。但是，发现将其作为附加的集成模型引入可以进一步提高性能。

3.2 第二阶段:基于CNN的立体增强

3.2.1 网络体系结构

第二阶段的目的是进行立体信息交换。为此，采用了最先进的立体超分辨率模型NAFSSR-L作为主干。NAFSSR-L也是一个4倍超分辨率模型，在这个阶段不需要进行升级。将阶段1的输入图像像素重组4次，以匹配第二阶段的输入输出尺寸要求。第一卷积层的输入通道也相应改变。这样可以减少记忆占用，扩大NAFSSR-L的感受野。我们称这个模型为UnshuffleNAFSSR-L。将来自阶段一的超分辨率图像 $L^{s1}$ 和 $R^{s1}$ 输入到UnshuffleNAFSSR-L中，如图1(b)所示。给定未像素重组的左右视图图像，将它们分别输入到一个3 × 3的卷积层中，以提取浅特征 $F_{L}^{2}$ ， $F_{R}^{2}\in R^{H\times W\times C}$ ，其中C为特征通道数，C设为128。然后，将浅层特征馈送到连续的K2级联非线性激活自由(NAF)块和立体交叉注意模块(SCAM)中进行交叉视图信息聚合。为了保证高效率，NAFBlocks用乘法代替了传统的非线性激活函数，K2设置为128。在每两个NAF块之间插入一个SCAM模块，以实现跨视图信息聚合。SCAM模块基于Scaled DotProduct Attention对左右特征进行交叉注意，计算查询中所有键的点积，并应用softmax函数获得值的权重。在立体图像超分辨率任务中，左右图像之间对应的像素在同一水平线上。因此，SCAM模块将左右视图中相同水平线上的所有标记点积起来，从而以一种有效的方式捕获跨视图信息。通过级联的NAFblock和SCAMs进行高效的交叉视图信息聚合后，得到的立体增强图像 $L^{sr}$ 和 $R^{sr}$ 由卷积层和像素shuffle层生成，如图1(b)所示。

3.2.2 整体策略

通过水平和垂直翻转输入图像以及反转左视图和右视图来整合自集成。为了构造最终的集成结果，选择了两个模型并对它们的输出进行平均。重要的是要注意，将输出保持为浮点格式，以防止任何潜在的舍入错误。

3.3 第三阶段:基于CNN的立体效果

我们注意到，由于第二阶段训练的模型缺乏多样性，第二阶段的集成输出不够令人满意。因此，我们引入第三阶段。阶段3与阶段2完全相同，除了将输入改为阶段2的自集成输出，而不是阶段1的对应输出。虽然模型的性能在阶段3达到饱和，与阶段2相比没有明显的提高，但它作为一个很好的集成模型，进一步提高了阶段2训练的模型的性能。各个阶段的总体性能变化如表2所示。由于时间限制，只训练了一个阶段3模型。

Hybrid Transformer and CNN Attention Network forStereo Image Super-resolution