【多尺度双域引导网络：Pan-sharpening】

Multi-Scale Dual-Domain Guidance Network for Pan-sharpening

（用于泛锐化的多尺度双域引导网络）
全色锐化的目标是在纹理丰富的全色图像的指导下，通过超分辨低空间分辨率多光谱图像（LRMS）的对应物产生高空间分辨率多光谱图像。现有的研究主要集中在利用空间信息生成HRMS图像，而忽视了频域的研究，这严重制约了性能的提高。在这项工作中，我们提出了一种新的泛锐化方法，命名为多尺度双域指导网络（MSDDN），通过充分探索和利用在空间和频率域的区别信息。具体而言，该网络天生具有多尺度U型，由两个核心部分组成：融合局部空间信息的空间引导子网络和融合全局频域信息并鼓励双域互补学习的频率引导子网络。通过这种方式，该模型可以捕获多尺度双域信息，以帮助其生成高质量的全色锐化结果。在不同的数据集上使用所提出的模型，定量和定性的结果表明，我们的方法优于其他国家的最先进的方法。

INTRODUCTION

随着遥感技术的进步，遥感图像已被广泛应用于农业、环境监测和制图应用。由于卫星传感器的局限性，高分辨率多光谱图像难以使用单个传感器获得。因此，卫星通常带来两种不同类型的传感器来分别获得全色（PAN）和低空间分辨率多光谱（LRMS）图像。为了生成HRMS图像，提出了一种基于全色锐化的方法来整合PAN和LRMS图像。这一领域引起了人们的广泛关注，并提出了许多工作。
经典算法和基于CNN的算法是两类泛锐化技术。早期的研究集中在经典算法上，包括分量替换（CS）算法、基于多分辨率分析（MRA）的方法和变分优化（VO）。分量替换算法变换上采样的LRMS图像，并用PAN图像的一些分量替换它。基于多分辨率分析的方法是从PAN图像中收集高频空间信息并将其添加到LRMS图像中。变分优化方法将此任务视为优化问题，并通过设计数学模型来迭代求解。然而，大多数这些算法是基于特定的先验知识和手工制作的功能，这限制了模型的表达能力和泛化能力。
近年来，由于深度学习在图像处理中的广泛使用，基于卷积神经网络的泛锐化技术已经激增。与各种数据集和评估指标的传统方法相比，基于CNN的泛锐化方法表现出上级的性能。PNN首先在泛锐化领域引入了卷积神经网络。将上采样的LRMS和PAN图像拼接到输入中，并通过三层网络获得输出，这比经典方法有了很大的进步。从那时起，更多的方法被引入该领域，包括更复杂的卷积神经网络和生成模型。尽管一些技术已经产生了显著的结果，但是现有的模型仍然遭受一些限制：1)他们专注于空间域，而忽略了频域中的处理方法的探索。频域中信息利用的缺乏限制了模型的进一步改进，以及2）由于卷积算子的限制，这些基于CNN的方法通常不能捕获长程依赖性，并且3）这些方法的大多数特征融合模块重用来自先前层的相同尺度的特征。这些导致模型无法完全捕获整个图像中的信息。
如图1所示，LRMS图像本质上是HRMS图像的降级版本，因为在该过程中丢失了大量高频信息。全色锐化是使用PAN图像作为引导来增强LRMS的分辨率的过程，可以被认为是引导超分辨率过程。根据研究[21]，超分辨率中像素的生成取决于周围的像素，通常，较大的感受野可以产生更好的图像质量。在这里插入图片描述
谱卷积定理指出，在频域中可以实现更大的感受野，这可以改善全色锐化的结果。以前的研究还发现，频域中的卷积可以更有效地学习图像的高频特征。因此，考虑将频域信息引入到引导超分辨率的过程中是合理的，以实现更宽的图像感受野，学习更丰富的纹理信息，并最终导致模型性能的提升。尺度是处理遥感图像时要考虑的另一个关键方面，因为不同地形的外观在不同的空间尺度上可能会有很大的不同。在全色锐化过程中，有必要考虑比例对地形形状的影响。
考虑到以前的观察，我们提出了一个多尺度双域制导网络，称为MSDDN。我们的网络由两个子网络组成，1）空间引导子网络，用于在空间域中融合局部多尺度特征，2）频率引导子网络，用于在频域中融合全局多尺度特征。与现有方法相比，我们的模型表现出更强大的性能，这进一步证明了引入多尺度特征和频域信息的优势。另外，在真实的场景中的实验表明，该模型具有较好的泛化能力。
我们的贡献概述如下：
1）我们引入了一个新的角度，制定泛锐化作为一个指导的超分辨率问题，这是通过同时利用来自频域和空间域的信息来解决的。
2）提出了一种新的用于全色锐化的多尺度双域制导网络。它包括两个子网：空间引导子网和频率引导子网。这种设计允许从空间域和频域的多尺度信息的融合，这提高了模型的能力。
3）各种数据集上的严格评估表明，我们的方法的定量和定性的优于现有的国家的最先进的算法。

RELATED WORK

Pan-sharpening

现在在图中的两种主要的泛锐化方法是传统的和基于CNN的。通常，传统的泛锐化方法包括三类，即分量替换（CS）、多分辨率分析（MRA）和变分优化（VO）。
为了产生HRMS图像，CS方法首先通过变换将LRMS和PAN图像映射到另一个空间，然后分离LRMS和PAN图像的光谱和空间分量。之后，他们将LRMS图像的空间分量交换为PAN图像的空间分量，然后执行逆变换以回到原始空间。CS中的代表性算法包括IHS、Brovey、PCA和GS算法。这些方法只考虑了空间细节而忽略了光谱信息，导致生成结果中的光谱失真。MRA方法使用多分辨率分解技术将从PAN图像中提取的复杂特征集成到上采样的LRMS图像中，用于组合两个图像之间的互补信息。典型的多分辨率分析算法包括高通滤波器融合（HPF），抽取小波变换（DWT），拉普拉斯金字塔（LP）和atrous小波变换（ATWT）。这些方法的性能非常依赖于多尺度变换技术。在这些方法中，选择PAN图像的高频信息进行集成，而忽略结构信息。虽然光谱信息被很好地保存了，但它会引起结构失真。VO方法将泛锐化建模为优化问题，并通过优化损失函数并迭代求解来生成HRMS图像。变分方法、贝叶斯方法和压缩感知方法是VO方法的典型代表。这些方法的性能与CS和MRA相当。最近，已经提出了新的VO方法，例如BAGDC，其采用频带自适应梯度和细节校正方法，以及LRTCPAN，其采用基于低秩张量完成的框架并研究用于泛锐化的低管秩特征。然而，传统的技术由于不充分的表示而具有有限的性能。
由于卷积神经网络强大的非线性映射能力，近年来基于CNN的方法在泛锐化领域占据了主流。将卷积神经网络引入该领域的第一项工作是PNN，它展示了深度学习的强大功能，并优于传统方法。受概率神经网络的影响，越来越多的基于深度学习的方法被提出。在PanNet中，引入了ResBlock来改进PNN的工作。MSDCNN使用多尺度卷积来提取更丰富的纹理特征。SRPPNN 通过设计渐进式全色锐化网络并注入高频细节来解决全色锐化问题。DCFNet通过利用多个并行分支和动态交叉特征传输来提高全色锐化性能。同时，也提出了模型驱动的方法，如GPPNN。在LPPN [48]中还考虑了传感器的调制传递函数，并且基于传递函数为多尺度建模定制高斯核。这些工作取得了很好的效果，但忽略了开发和利用频域的信息，这阻碍了模型的改进。

Fourier Transform in Deep learning

最近的一些研究利用频域信息图，通过傅里叶变换得到相位和幅度分量。例如，[23]证明了傅立叶特征可以学习较低维度的高频特征。为了增加模型的感受域，[49]建议在频域中使用快速傅立叶卷积。这种方法被称为快速傅立叶卷积（FFC），也已应用于图像修复任务，其中丢失了大量的颜色块。此外，已经提出了一种通用的频域上采样方法，该方法已被证明在应用时可以提高各种任务的性能。傅立叶方法也被引入图像超分辨率域，利用傅立叶空间损失使模型能够获得更详细的纹理信息。然而，还需要进一步的研究，以充分挖掘频域信息在泛锐化领域的潜力。

Multi-scale feature fusion

多尺度特征的提取和融合已经适应于不同种类的视觉任务，由于它们的潜力，以改善结果相结合的互补信息，在不同尺度上提取的特征。例如，在U-Net架构中，通过具有下采样的编码器和具有上采样的解码器融合多尺度特征。在全卷积网络（FCN）的情况下，多尺度特征图被拼接以实现更详细的图像分割。特征金字塔网络（FPN）利用多尺度特征金字塔来增强模型对不同大小对象的对象检测的有效性。当涉及到泛锐化，多尺度方法也被用于生成更详细的纹理和鲁棒的结果在遥感图像，其中地形的尺度变化显着。至于泛锐化任务，MSDCNN模型使用不同形状的卷积矩阵来捕获多尺度的特征信息，而LPNN 采用一种新型的金字塔网络，通过基于MTF设计高斯核来考虑图像中的多尺度信息和传感器的调制传递函数。我们提出的方法不同于他们的方式，我们采用多尺度频域信息，除了多尺度空间信息。

PROPOSED METHOD

本节首先介绍傅立叶变换的相关属性，然后描述MSDDN的整体架构。它有两个子网。空间引导子网络在向下采样过程中集成PAN和LRMS图像的局部空间特征。通过在上采样过程期间组合频率和空间信息，频率引导子网络鼓励互补学习。

Fourier Transformation of Images

在介绍我们的工作之前，简要回顾一下图像的傅里叶变换的含义，以更好地理解我们的工作是有帮助的。在我们的工作背景下，图像通过使用傅立叶变换从空间域到频域，允许我们从不同的角度检查图像。对于图像X，其傅立叶变换公式为：在这里插入图片描述
图像的高度和宽度分别由H和W的值表示。FFT算法可用于实现两种变换。傅立叶变换之后的图像的幅度和频率分量可以被定义为：

其中图像的傅里叶变换的真实的部和虚部由R（x）和I（x）给出，并且A（x）和P（x）分别代表图像x的幅度和相位的分量。
在我们的工作中，由于图像包括多个通道，傅立叶变换被独立地应用到每个图像通道。众所周知，图像的相位保留高级语义信息，而图像的频谱保留低级语义信息。全色锐化可以被描述为在PAN图像引导下的超分辨率过程，其中LRMS图像丢失的高频信息被重建。PAN图像中丰富、详细的信息可以注入到LRMS图像的频谱中，帮助LRMS图像的重建过程。如图1所示，可以观察到LRMS图像正在丢失更多的高频信息，并且超分辨率的目的是重建该高频信息，其可以从PAN图像中引入以辅助恢复。此外，因为频域是呈现图像的全局图案的地方，而空间域呈现逐像素的局部信息，所以可以通过在频域中处理图像来获得全局感受野。在这里插入图片描述

Network Structure

在这里插入图片描述
图2描绘了网络的一般结构。它将上采样的LRMS和PAN图像两者作为输入。然后，该网络利用PAN图像的空间和频域信息来指导LRMS图像的超分辨率处理，从而产生高质量的HRMS图像。为了促进多尺度特征学习，我们的网络采用U-Net架构，由两个子网组成。给定输入PAN和上采样LRMS图像，我们使用3x 3卷积将它们投影到特征空间。在逐步下采样过程中，我们使用空间引导块来联合来自两个图像的局部信息。SFB由可逆神经网络（INN）组成，用于执行有效的信息融合。SFB集成了来自PAN图像的局部信息，以促进空间域中的局部特征的学习。经过两次下采样和三次特征融合后，子网络获得分辨率降低四倍的特征图。PAN图像的多尺度特征也被保留用于频域中的多尺度信息融合。然后将所得的空间特征输入到频率引导网络，其中PAN和LRMS图像的多尺度特征被发送到FFB用于频域特征融合。经过两次上采样和三次频域信息融合，我们得到重建的HRMS图像。在这里插入图片描述

Spatial Guidance Sub-Network.:在空间引导子网络中，我们首先将LRMS和PAN图像映射到特征空间。这是有利的，采用多尺度特征融合由于卫星捕获的地貌的大小有显着变化。为了利用多尺度特征的优势，在空间引导子网络中通过两次下采样获得不同尺度的特征，并设计SFB融合PAN和LRMS图像在同一尺度上的特征。SFB的结构如图3所示。与使用1x1卷积进行特征融合的其他网络不同，SFB是基于INN模块设计的，用于信息融合。INN具有执行无损融合的能力，并且比其他卷积神经网络更有效。我们方法中的卷积模块使用半实例归一化（HIN）模块实现。HIN模块可以通过对输入特征通道的一半执行归一化同时通过另一半保持上下文信息来更好地提取特征信息。假设输入为F_in，则半实例归一化的过程定义如下。
开始，输入特征图通过具有3x3内核的卷积层以获得中间特征图Fmid。然后，ChannelSplit操作将F_mid复制为两个部分：F_mid1和F_mid2，其中第一部分使用实例规范化（IN）进行规范化，第二部分不进行规范化。为了产生输出特征图R_out，沿着通道维度合并这两个部分。然后，输出特征图通过具有3x3内核的另一个卷积层，以获得中间特征图Fres。最后，通过将输入特征图Fin和中间特征图Rout相加来获得输出特征图Fout。这样，半实例归一化（HIN）模块在一半通道上执行IN处理，同时通过另一半保持上下文信息，这允许更好的特征信息提取。
在空间融合子网络中，我们采用SFB和下采样操作来无缝地合并LRMS和PAN图像在空间域中的局部化的多尺度特征。利用PAN图像的空间局部信息作为指导，我们能够指导LRMS图像的特征提取过程。频率引导子网络然后接收该融合过程的输出以用于附加处理。
Frequency Guidance Sub-Network.:与原始U-Net架构不同，我们不通过跳过链接将空间特征直接传输到频率引导子网络。在空间融合子网络中，我们使用SFB和下采样操作来整合两个输入图像的空间局部多尺度特征。然后将获得的融合特征输入到FFB模块，其中通过傅立叶变换对特征进行变换，生成其对应的幅度和相位分量。
如图4所示，然后使用1x1卷积分别融合这些分量。然后利用傅里叶逆变换生成最终的融合特征图。该融合的特征图，由频域信息引导，然后用于通过将其与LRMS图像特征图融合来促进空间和频率域的互补学习。在数学术语中，如果对应于LRMS和PAN的特征图分别由F_ms和F_pan表示，则该过程可以表示为：
开始，通过傅立叶变换生成相位和振幅分量。P表示相位，而A表示幅度。然后使用1x1卷积融合这些分量，将它们的信息组合成单个表示。
在使用1x1卷积层融合相位和幅度分量之后，应用逆傅立叶变换以将融合的表示恢复到空间域。该转换使得能够利用与原始信号相同的空间坐标和单位以更直观的方式分析或操纵融合表示。

在频域中检查图像揭示了大部分退化发生在振幅谱中。与HRMS图像相比，LRMS图像中的主要信息损失在于振幅谱。在LRMS图像的重建过程中，利用PAN图像的幅度谱和相位分量作为指导，可以将PAN图像中丰富的细节信息注入LRMS图像中，最终得到更高质量的图像。
为了鼓励两个域的交互和互补学习，首先获得频域融合特征图，然后利用它作为指导细化LRMS图像的特征图。
我们采用不同尺度的多个频率融合块的组合来捕获来自各种频率范围的特征。这种方法使我们能够收集关于功能的全局视角和详细信息。通过在频域中工作，模型变得更简单以捕获更好的高频信息。该模型的最终有效性大大提高，包括从频域和空间域的信息，并整合局部和全局的功能。

Loss Function

令G表示地面实况，并且令Y表示模型的输出图像。为了充分利用双域信息，我们设计了一个损失函数，其中空间损失和频率损失作为其两个子分量。对于空间损失，我们使用L1损失函数，其定义如下：在这里插入图片描述
当涉及到频域损耗时，我们首先使用傅里叶变换将模型的输出和地面实况改变到频域。这允许我们获得每个信号的幅度和相位。频域损耗于是由幅度损耗和相位损耗组成，并且它们的总和被定义为频域损耗。振幅损失计算如下：在这里插入图片描述
并且相位损耗为：
最后，整个损失函数被描述为空间损失和频域损失的加权之和，并且其权重是标量超参数λ，其基于经验具有0.1的值。