GAN-FM: Infrared and Visible Image Fusion Using GAN With Full-Scale Skip Connection and Dual Markovi

1.摘要

红外和可见光图像融合的好结果不仅应该保持显著的对比度来区分目标和背景,还应该含有丰富的场景纹理以迎合人类视觉感知。然而,以往的融合方法通常没有充分利用信息,从而牺牲了红外热目标的显著性或纹理的清晰度。为了解决这个挑战,我们提出了一种新颖的全尺度跳跃连接和双Markovian鉴别器的生成对抗网络(GAN-FM),以完全保留红外和可见光图像中的有效信息。首先,设计了一个全尺度跳跃连接的生成器来提取和融合不同尺度的深层特征,这可以促进浅层高对比度特征直接传输到深层次,从语义层面上保留红外热辐射目标。因此,融合图像可以保持显著的对比度。其次,我们提出了两个Markovian判别器与生成器建立对抗性游戏,以同时估计红外和可见光模态的概率分布。与传统的全局判别器不同,Markovian判别器试图区分每个输入图像的块,因此网络的关注点被限制在局部区域,融合结果被强制包含更多的细节。此外,我们还提出了一种有效的联合梯度损失,以确保对比度和纹理的和谐共存,防止高对比度目标区域边缘扩散所导致的背景纹理污染。广泛的定性和量化实验表明,我们的GAN-FM在保留显著对比度和丰富纹理方面优于最先进的方法。此外,我们还将我们方法生成的融合图像应用于目标检测和图像分割,这可以有效提高性能。

2.引言

传统的融合方法包括多尺度变换方法、稀疏表示方法、显著性方法、混合方法、和其他方法。不幸的是,传统方法通常由于两个原因而具有有限的融合性能。首先,通过采用固定的数学变换所提取的特征的表达能力较弱,没有充分考虑源图像之间的模态差异。其次,传统的融合策略过于粗略,无法有效地保留有用的信息。

虽然当前的基于深度学习的方法在大多数情况下效果很好,但仍存在一些缺点。一方面,这些方法的网络不包含下采样算子,不能充分利用全尺度的信息。因此,得到的融合结果更像是在原始尺度上达成妥协,其中高对比度不能从语义层面上得到保留。另一方面,现有的基于GAN的方法通常将全局判别器应用于整张图片来建立对抗性游戏,这很容易导致融合结果的整体平滑

为了解决上述挑战,我们提出了一种新的GAN-FM,其中包含全尺度跳跃连接和双Markovian鉴别器。我们的模型由一个生成器和两个鉴别器组成。首先,生成器专门用于融合红外和可见光图像,以生成融合结果。为了充分利用融合过程中的多级和多尺度信息,生成器被设计为基于U形的全尺度连接架构。多级信息有助于有效将浅层对比度特征传输到深层,而多尺度信息促进了从语义层面上保留高对比度目标。其次,鉴别器专门用于区分融合图像和源图像。为了加强对细粒度纹理的关注,我们采用Markovian鉴别器区分融合图像和源图像。与传统的全局鉴别器不同,Markovian鉴别器试图将每个图像块分类为真实或伪造,并平均所有响应以获取最终决策。
在这里插入图片描述
为了展示所提出的GAN-FM的优势,图2提供了一个典型的例子,选取了代表性的基于CNN的方法PMGI 、基于AE的方法DenseFuse 和基于GAN的方法FusionGAN进行比较。显然,PMGI、DenseFuse和FusionGAN都降低了热辐射目标的对比度并丢失了一些纹理细节。在PMGI和FusionGAN的结果中,由于边缘扩散,导致热目标区域模糊不清。相比之下,我们的GAN-FM可以最好地保持高对比度目标、保留最丰富的背景纹理,并避免热目标区域的边缘扩散。

本文的主要贡献总结如下:

  • 我们设计了一个全尺度跳跃连接的生成器,可以充分利用融合过程中的多级和多尺度信息,从而促进在融合过程中保留热辐射目标的高对比度。
  • 提出了一种使用Markovian鉴别器的双对抗机制,用于在融合图像和源图像之间进行差异判别,从而增强对高频信息的关注,从而保留更多的纹理细节。
  • 我们开发了一种联合梯度损失,以确保高对比度区域和纹理细节的和谐共存,可以有效地防止由高对比度目标区域的边缘扩散导致的背景纹理污染。
  • 提出的GAN-FM应用于目标检测和图像分割任务中,有效提高了性能。

3.方法

A. Overall Framework

在这里插入图片描述
GAN-FM的总体框架如图3所示,包括一个生成器和两个判别器。给定一对配准的红外图像 I i r I_{ir} Iir 和可见图像$ I_{vi}$,生成器旨在从两个源图像中提取和组合有意义的信息,从而生成一个真实的融合图像 I f I_f If,以欺骗判别器。与此相反,两个判别器 $D_{vi} $和 D i r D_{ir} Dir 试图准确区分融合图像和源图像。通过生成器和判别器之间的对抗游戏,强制融合图像包含源图像中独特和关键的特征,例如$ I_{ir}$ 中的热信息和 I v i I_{vi} Ivi 中的场景纹理。为了进一步加强这两种信息的保留,我们专门设计了生成器和判别器。

首先,我们采用全尺度连接的思想设计了一个基于U形的生成器,它可以提取和利用多尺度和分层特征。一方面,跳跃连接可以直接将浅层高对比度的特征传输到深层,避免抽象特征导致的热辐射强度丢失。另一方面,多尺度网络促进了从语义层面保留显著特征。因此,具有多尺度结构和跳跃连接的生成器可以很好地保留源图像的显著特征,尤其是红外图像中的热辐射目标。

其次,本文提出的框架中使用了两个马尔可夫判别器(即 D v i 和 D i r D_{vi}和D_{ir} DviDir),而不是现有方法中采用的常规全局判别器。与全局判别器不同,马尔可夫判别器尝试对输入图像的每个小块进行真假分类,从而增强判别器对局部结构的关注。因此,采用马尔可夫判别器的对抗学习将迫使更多的高频纹理信息在融合结果中得以保留。全尺度连接的生成器和马尔可夫判别器的组合使得融合图像能够同时保留丰富的背景纹理和高对比度目标。但是,如何确保背景纹理和高对比度区域的和谐共存仍是一个挑战。

在许多当前方法的结果中,高对比度区域的边缘扩散会导致背景纹理的污染。为了解决这个问题,我们提出了一个联合梯度损失函数来加强显著区域的边缘。具体来说,我们基于最大选择原则从源图像的梯度图构造一个强的联合梯度图。在联合梯度损失的指导下,融合图像的梯度接近于每个空间像素位置处的联合梯度,从而增强了优化过程中纹理边缘的保留。因此,高对比度区域的边缘受到了限制,同时不会因扩散而污染背景纹理。

B. Network Architecture

在这里插入图片描述
生成器结构:我们设计了一个基于编码-解码框架的新生成器来融合红外和可见图像,其结构如图4所示,在ENB和DEB之间利用全尺度跳跃连接来加强显著特征的提取和保留。在图4中,“ENB”表示编码器块,它包含两个卷积层。“DEB”表示解码器块,它包含一个卷积层。向下的红色箭头表示最大池化运算符,所有连接编码器块和解码器块之间的虚线表示全尺度跳跃连接。跳跃连接的具体操作包括三种,分别是大尺度(向下虚线)、相同尺度(水平虚线)和小尺度(向上虚线)。
在这里插入图片描述
图5展示了如何使用全尺度跳跃连接构建“DEB1”。具体而言,在更大尺度的特征图中,我们使用一个最大池化层和一个卷积层;在相同尺度的特征图中,我们直接使用一个卷积层;在小尺度的特征图中,我们使用一个双线性上采样层和一个卷积层。在整个过程中,红外图像$I_{ir} 和可见图像 和可见图像 和可见图像 I_{vi} $在通道维度上连接为输入,送入编码器网络提取多尺度深度特征。然后,全尺度跳跃连接将特征图处理为相同的通道数(在我们的GAN-FM中为32),将它们连接到下一个解码器。最后,融合图像 I f I_f If由解码器网络生成。
在这里插入图片描述
鉴别器结构:在所提出的方法中, D v i 和 D i r D_{vi} 和D_{ir} DviDir是两个独立的马尔可夫判别器,具有相同的结构。鉴别器的结构如图6所示,由五个卷积层组成。前四层采用ReLU激活函数,而最后一层使用tanh激活函数。值得注意的是,在前四个卷积层中使用批归一化。鉴别器的输出是一个矩阵,每个神经元可以代表输入图像中的一个局部块,即感受野。在我们的模型中,感受野的大小为63×63像素。最终确定的概率是通过平均所有块的概率得到的。这种形式可以迫使生成器在对抗学习过程中更加关注纹理细节的保留。

C. Loss Function

我们的模型由一个生成器、一个红外判别器和一个可见判别器组成。因此,损失函数也可以分为三个部分,即生成器的损失函数$ L_G$ ,红外判别器的损失函数 L D i r L_{D_{ir}} LDir 和可见判别器的损失函数 L D v i L_{D_{vi}} LDvi

1)生成器的损失函数:GAN训练过程中的不稳定性已经被广泛认知。因此,我们提出了一个内容损失函数 L c o n L_{con} Lcon,对生成器进行额外的限制。因此,生成器的损失函数由对抗损失$ L_{adv}$ 和内容损失 L c o n L_{con} Lcon 组成,定义为:

L G = L a d v + λ L c o n , ( 1 ) L_G = L_{adv} + λL_{con}, \quad (1) LG=Ladv+λLcon,(1)

  • 其中λ是控制权衡的参数。

对抗性损失用于引导生成器产生真实的融合结果以欺骗两个鉴别器,其可以被定义为:

L a d v = E ( l o g ( 1 − D v i ( I f ) ) ) + E ( l o g ( 1 − D i r ( I f ) ) ) , ( 2 ) L_{adv} = E(log (1 −D_{vi} (I_f))) +E(log (1 −D_{ir} (I_f))),\quad (2) Ladv=E(log(1Dvi(If)))+E(log(1Dir(If))),(2)

  • 其中, D v i D_{vi} Dvi D i r D_{ir} Dir表示两个判别器, I f I_f If表示融合图像。E表示数学期望,即我们对判别器和批次的输出进行平均,因此最终输出代表一个特定的概率。换句话说,生成器期望判别器认为生成的融合图像既是可见光图像也是红外图像。

使用内容损失 L c o n L_{con} Lcon来约束融合图像以保留源图像中的有意义信息,这也有助于对抗学习的稳定性。在我们的模型中,我们将有意义的信息分为两项,即,表征热辐射的强度信息和表示纹理细节的梯度信息。因此,含量损失 L c o n L_{con} Lcon包含两部分:

L c o n = L g r a d + β L i n , ( 3 ) L_{con} = L_{grad} + βL_{in},\quad(3) Lcon=Lgrad+βLin,(3)

  • 其中 L i n L_{in} Lin表示强度损失, L g r a d L_{grad} Lgrad表示梯度损失。β是控制权衡的参数。

强度损失约束融合图像以保持与源图像相似的强度分布,从而保留显著的对比度信息。强度损失定义为:

L i n = ξ ∣ ∣ I f − I i r ∣ ∣ F 2 + ( 1 − ξ ) ∣ ∣ I f − I v i ∣ ∣ F 2 , ( 4 ) L_{in} = ξ||I_f −I_{ir}||^2_F +(1−ξ)||I_f−I_{vi}||^2_F,(4) Lin=ξ∣∣IfIirF2+(1ξ)∣∣IfIviF2,(4)

  • 其中, ∣ ∣ ⋅ ∣ ∣ F 2 ||·||_F^2 ∣∣F2表示Frobenius范数,ξ是正参数,控制这两个项之间的权衡
    在这里插入图片描述
    梯度损失度量纹理保留的程度。为了保持更强和更精细的纹理,我们提倡使用联合梯度损失而不是传统的梯度损失。联合梯度损失定义为:

L grad  = ∣ max ⁡ ( ∣ ∇ 2 I v i ∣ , ∣ ∇ 2 I i r ∣ ) − ∣ ∇ 2 I f ∥ 1 \mathcal{L}_{\text {grad }}=\left|\max \left(\left|\nabla^{2} I_{v i}\right|,\left|\nabla^{2} I_{i r}\right|\right)-\right| \nabla^{2} I_{f} \|_{1} Lgrad = max( 2Ivi , 2Iir ) 2If1

  • 其中,|·|表示绝对值函数, ∣ ∣ ⋅ ∣ ∣ 1 ||·||_1 ∣∣1表示1范数,max(·)表示最大函数, ∇ 2 ∇^2 2为Laplacian梯度操作符。换句话说,我们根据最大选择原则构造了一个联合梯度函数 m a x ( ∣ ∇ 2 I v i ∣ , ∣ ∇ 2 I i r ∣ ) max(|∇^2I_{vi}|, |∇^2I_{ir}|) max(2Ivi,2Iir)作为融合梯度的优化目标,如图7所示。这种更强的联合梯度函数不仅可以增强纹理细节的保留,还可以有效地防止高对比度区域的边缘扩散。

2)判别器的损失函数:在所提出的GAN-FM中,我们使用两个独立的判别器(即 D i r , D v i D_{ir},D_{vi} DirDvi)来分别约束生成器捕捉更多的对比度和纹理信息。相应的损失函数是 L D i r L_{D_{ir}} LDir L D v i L_{D_{vi}} LDvi,并分别定义为:

L D i r = E ( − l o g D i r ( I i r ) ) ) + E ( − l o g ( 1 − D i r ( I f ) ) ) , ( 6 ) L_{D_{ir}} = E(-log D_{ir} (I_{ir}))) +E(-log (1-D_{ir} (I_{f}))),\quad (6) LDir=E(logDir(Iir)))+E(log(1Dir(If))),(6)

L D v i = E ( − l o g D v i ( I v i ) ) ) + E ( − l o g ( 1 − D v i ( I f ) ) ) , ( 7 ) L_{D_{vi}} = E(-log D_{vi} (I_{vi}))) +E(-log (1-D_{vi} (I_{f}))),\quad (7) LDvi=E(logDvi(Ivi)))+E(log(1Dvi(If))),(7)

每个损失函数都是交叉熵损失函数。红外判别器专门用于精确区分红外图像和融合图像,而可见判别器旨在精确区分可见图像和融合图像。然后,这两个判别器与生成器处于敌对关系,迫使生成器提高造假能力,捕捉红外和可见模态的关键特征。

4.实验

A. Experimental Configurations

  1. 数据集:实验使用了两个公共数据集:TNO1和RoadScene, TNO数据集主要与军事场景有关。 TNO数据集的图像事先通过不同的多波段摄像机系统进行配准。 RoadScene数据集主要描述了交通场景,包括车辆,行人,交通标志等。RoadScene数据集中的图像也经过预先配准。在测试中使用的TNO和RoadScene数据集的图像数量分别为20和40。对于训练,我们将其余的图像剪裁成256×256的图像块,并具有重叠部分,以获取更多的训练数据。最后,用于训练的整个图像块的数量为6,838。

  2. 对照方法:我们选择了九个主流方法与我们的方法进行比较,包括GTF ,FusionGAN ,DDcGAN ,GANMcC,IFCNN ,DenseFuse ,NestFuse ,PMGI 和U2Fusion 。在这些方法中,GTF是一种典型的传统方法,其他方法都是基于深度学习的。FusionGAN、DDcGAN和GANMcC是基于GAN的。IFCNN、DenseFuse和NestFuse是基于编码器-解码器网络的。PMGI和U2Fusion是两种基于CNN的统一融合模型。请注意,所有竞争方法都有公开可用的代码,并且我们通过参考原始论文来设置它们的参数。

  1. 训练细节: 在我们的方法中,生成器和两个鉴别器是迭代训练的,其中鉴别器和生成器的训练次数分别为p和q。批量大小为b,遍历整个训练数据集需要m步。训练阶段的总时期为M。在实践中,我们经验性地设置p = 4、q = 2、b = 16、M = 20,并将m设置为图像块的总数与批量大小之间的比率。GAN-FM的完整训练阶段总结在算法1中。此外,初始学习率设置为2e4,衰减率设置为0.7。我们分别采用Adam和RMSProp作为优化器来训练鉴别器和生成器。此外,在等式(4)中,ξ设置为0.7,在等式(3)中,β设置为5。在等式(1)中,λ用于引导生成器和鉴别器实现有效的对抗。在工作中,λ设置为100。

  2. 度量指标: 在我们的实验中,评估从定性和定量两个方面进行。定性评估依赖于人类视觉感知。对于红外和可见光图像融合,良好的融合结果应该能够很好地保留显著的对比度和丰富的纹理细节。高对比度区域的边缘应该非常锐利,不会污染背景纹理。对于定量评估,选择了六个度量指标,包括熵(EN)、空间频率(SF)、互信息(MI)、视觉信息保真度(VIF)、平均梯度(AG)和标准差(SD)。

EN度量融合图像中包含的信息量,MI度量从源图像到融合结果传输的信息量。EN和MI越大,融合结果包含的信息越多。SD反映了融合图像的分布和对比度,较大的SD意味着融合图像达到了良好的视觉效果。SF和AG都是基于梯度的图像质量度量指标,较大的SF和AG表示融合图像包含更多的细节和纹理。VIF是基于人类视觉系统的信息保真度度量指标。较大的VIF表示源图像与融合图像之间的失真较小,融合结果对人眼感知更加舒适。

B. Results on TNO Datasets

在这里插入图片描述
在这里插入图片描述
定性比较:图8-10提供了TNO数据集中三个典型图像的融合结果,展示了GAN-FM的独特特点。在每个图中,从左上到右下依次是可见图像、红外图像、GTF、FusionGAN、DDcGAN、GANMcC、IFCNN、DenseFuse、NestFuse、PMGI、U2Fusion和我们的GAN-FM的融合结果。为了更清楚地显示差异,我们选择每个图像中的一个小区域(红框)来显示热目标,选择另一个小区域(绿框)来显示背景纹理。然后将它们放大并显示在图像的角落。从感觉的视觉角度评估这些结果,GAN-FM显示出明显的优势。具体来说,在Kaptein_1123图像中,主要的热信息由明亮的人体表示,并且丰富的纹理通过灌木、地砖和墙壁反映。在所有这些方法中,FusionGAN、GANMcC、DenseFuse、PMGI、IFCNN和U2Fusion不能有效保留重要目标“kaptein”的亮度。此外,虽然DDcGAN、GTF和NestFuse保持高对比度,但在细节保留方面(即绿框中的地砖)表现并不好。相比之下,所提出的GAN-FM不仅能区分目标和背景,而且还保留了清晰的局部纹理。
在这里插入图片描述
图9和图10中显示的另外两种情况也展示了GAN-FM的出色性能。在图10中的场景中,红外图像的黑色天空往往会污染可见图像中的树纹理,并且可见图像中靠近热目标的纹理也会影响结果中目标的亮度。因此,倾向于红外图像的方法(如GTF和FusionGAN)会恢复混乱的伪影的天空区域,而倾向于可见图像的方法(如PMGI、DenseFuse和U2Fusion)则会恢复具有较低对比度和模糊边缘的热目标区域。相反,GAN-FM保留了更尖锐的纹理和更高的对比度。类似地,在Bunker图像中,GAN-FM有效地保留了“碉堡”的亮度,同时不失去周围树木的层次结构,而其他方法要么降低对比度,要么使背景中的树木看起来像是在平坦的表面上。

总体而言,GAN-FM的主观表现更像是纹理增强的DDcGAN的结果。图像的整体亮度分布朝向红外图像,但纹理更像是红外和可见光纹理的和谐共生体。在结果中,GAN-FM首先区分目标和背景,然后使高对比度区域的边缘锐利,并有效地保留可见光图像的空间纹理。因此,与其他方法相比,GAN-FM实现了最佳性能,具有更清晰的细节和更明亮的目标。

C.Results on RoadScene Datasets

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在RoadScene数据集上进行了进一步的定性比较,结果如图12-14所示。同样,使用了九种最先进的方法进行比较,在每张图中,从左上到右下分别为红外图像、可见图像、GTF、FusionGAN、DDcGAN、GANMcC、IFCNN、DenseFuse、NestFuse、PMGI、U2Fusion和我们的GAN-FM的融合结果。红框显示热辐射信息,绿框显示纹理细节。FLIR_08835是一对显示十字路口的图像,其中行人和骑车人在红外图像中具有强烈的强度,是热目标,而房屋、墙壁和显示板则是可见图像中的纹理细节。对于FLIR_08835的红框,可以看到只有IFCNN和我们的GAN-FM能够很好地保持自行车手的强度信息,而其他方法表现不佳。在重建纹理区域方面,我们的GAN-FM也表现最佳,例如FLIR_06307中的汽车和FLIR_06832中的信号杆。总之,GAN-FM的融合结果比其他方法更优秀,能够以更少的伪影增强局部纹理,同时保持辐射目标的亮度。
在这里插入图片描述
定量比较:如图15所示,从RoadScene数据集中选择了40对典型图像来评估EN、MI、SF、SD、AG和VIF的客观表现。我们可以观察到,在EN、MI、SF、SD和VIF方面,GAN-FM都取得了最大值,这表明我们的GAN-FM在保留空间纹理和利用交互信息方面具有卓越性。此外,GAN-FM在AG方面排名第二,仅次于U2Fusion,这意味着GAN-FM包含丰富的梯度信息。根据这些统计数据,我们可以得出结论,GAN-FM在RoadScene数据集上也实现了最佳的客观评估表现。

D. Complexity Evaluation

我们计算了网络参数的数量,这在某种程度上反映了空间复杂性。我们还计算了每种方法在两个数据集上的运行时间,以评估时间计算成本。首先,在训练阶段,生成器和判别器在交叉迭代中进行训练。整个网络的参数为15.07百万。在测试阶段,只保留生成器来产生融合结果,网络的参数为10.21百万。其次,平均运行时间成本如表I所示。GTF在CPU上运行,其他基于深度学习的方法在GPU上实现。结果表明,GAN-FM与其他方法具有可比的操作效率。

E. Ablation Experiment

1.Analysis ofMarkovianDiscriminators

GAN-FM框架包含两个马尔可夫判别器 D v i 和 D i r D_{vi}和D_{ir} DviDir。为了说明每个判别器的作用以及应用马尔可夫判别器的优越性,我们进行了五组比较实验,如图16所示:
在这里插入图片描述

(c)只使用生成器G进行训练,并移除所有判别器;

(d)将 D v i D_{vi} Dvi剔除,敌对游戏仅在G和 D i r D_{ir} Dir之间建立;

(e)剔除 D i r D_{ir} Dir,敌对游戏仅在G和 D v i D_{vi} Dvi之间建立;

(f)嵌入 D i r 和 D v i D_{ir}和D_{vi} DirDvi,这是我们提出的GAN-FM的设置;

(g)将马尔可夫判别器 D i r 和 D v i D_{ir}和D_{vi} DirDvi更改为传统的全局判别器 D g i r 和 D g v i D_{gir}和D_{gvi} DgirDgvi

除了上述变化外,所有实验参数和环境都相同。

对于方法(c),由于没有判别器的存在,网络的目标是最小化内容损失。该模型本质上表现为内容损失函数的优化模型,类似于传统的GTF方法。但是,由于内容损失的限制,即使该方法在边缘保留方面表现良好,仍无法平衡小物体的亮度,从而模糊了树木纹理。引入Dir后,单一的敌对游戏使得融合图像的分布更接近红外图像的分布。结果,在图16(d)中增强了热目标掩体和背景之间的对比度。缺点是绿框中的树木纹理更加模糊。当应用单个Dvi时,背景纹理的模糊效果得到缓解。图16(e)具有更显著的可见特征和丰富的细节。但是,与方法(d)类似,这导致热辐射目标和背景颜色的收敛。上述比较实验表明,引入单个判别器Dir或Dvi会导致融合结果产生较大的偏差。图16(f)显示了当我们嵌入Dir或Dvi时的融合结果,它保持了高对比度并保留了丰富的纹理细节。此外,方法(g)用传统的全局判别器替换马尔可夫判别器并重新训练网络。它表现良好,保留了目标的显著性和丰富的纹理。但是,与GAN-FM相比,缺乏局部约束使整个结果变得平滑,在图16(g)中的纹理表现和细节定义略逊于图16(f)。上述结果证明,我们模型中的两个马尔可夫判别器对于融合性能非常重要,并且优于传统的全局判别器。

2.Ablation of Down-Sampling

在GAN-FM中,我们设计了一个生成器,可以提取和融合不同尺度的深度特征。为了证明多尺度结构的有效性,我们进行了下采样算子的削减实验。在实验中,我们保持生成器每层的连接关系不变,但消除了所有的下采样操作,使其看起来类似于密集连接的网络。所有其他的环境和参数设置均保持不变,并在图17中呈现结果。可以看到,在删除下采样之后,融合结果的对比度降低了,特别是在显著目标的附近。这表明多尺度特征在我们的GAN-FM中是有效的。
在这里插入图片描述

3.Ablation of Joint Gradient

在这里插入图片描述
在内容损失中,引入联合梯度以建立纹理约束。如第(3)式所述,强调共同梯度不仅增强了纹理细节的保护,还有效地防止了高对比度区域边缘扩散。为了证明其在处理空间纹理方面的有效性,我们设计了相应的消融实验。首先,我们从损失函数中删除梯度内容损失并重新训练网络。结果示于第18张图的第三列。然后,在第二组对比试验中,我们用常用的平均梯度代替联合梯度。重建内容损失并训练后,融合结果显示在第18张图的第四列。 可以看到,当梯度约束被移除时,热辐射目标的边缘变模糊,纹理细节产生阶梯效应。当引入用平均梯度建立的约束时,辐射目标边缘和空间纹理的清晰度得到改善。然而,仍存在一些污染,例如绿色框中的围栏纹理无法有效地与背景区分开来。相反,联合梯度的引入加强了纹理,因此目标的边缘更加清晰,纹理细节更加清晰。

4.Ablation of the Number of Scales

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X3daVt0x-1685762570839)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230603110644165.png)]

在所提出的生成器中,多尺度的架构促进了多尺度信息的有效利用。然而,大量的尺度意味着大量的网络参数。为了选择合适的尺度数量,我们实现了相应的消融研究。特别地,我们将尺度数设置为2、3、4和5,分别在图19中显示结果。可以看出,随着尺度数量的增加,融合图像中热目标和背景纹理的质量逐渐提高。值得注意的是,当尺度数为4和5时,结果非常相似,这意味着当尺度数量达到4时,融合性能的提高趋于饱和。然而,显然,尺度越小,融合效率越高,这可以从图19中报告的平均运行时间中看出。因此,我们在模型中将尺度数设置为4,以确保更高的操作效率,同时确保融合性能。

5.Analysis of Hyperparameters

在我们的模型中,有三个超参数,即λ、ξ和β。其中,λ用于控制内容损失和对抗损失之间的平衡;ξ用于控制红外强度损失和可见光强度损失之间的平衡;β用于控制梯度损失和强度损失之间的平衡。值得注意的是,在对抗机制中,模型对λ不敏感,只要λ能够确保生成器和辨别器之间达到有效的对抗即可。因此,我们只对ξ和β实现敏感度分析。首先,我们固定β值,使用不同的ξ来训练提出的网络,结果如图20第二行所示。可以看出,当ξ从0变化到1时,融合结果的强度分布从可见光模态变为红外。当ξ = 0.7时,融合在红外和可见光模态之间达到了良好的平衡。此时,融合结果可以同时保留红外和可见光图像中的重要信息。其次,我们固定ξ值,使用不同的β来训练提出的网络,结果如图20第三行所示。可以看出,随着β的增加,热目标被保留得越来越好,但纹理细节逐渐被平滑。当β = 5时,热目标和纹理细节的保留达到了良好的平衡。因此,为了在实验中获得良好的融合性能,我们将ξ和β分别设置为0.7和5。

5.总结

本文提出了一种新颖的全尺度跳跃连接和双马尔科夫辨别器(GAN-FM)来实现图像融合。首先,我们设计了一个全尺度跳跃连接的生成器来提取和融合不同尺度的深度特征,这可以促进浅层高对比度特征的直接传输到深层。其次,我们在模型中引入了两个马尔科夫辨别器,这限制了网络对局部区域的注意力,使融合结果不失合理性。此外,我们提出了一种有效的联合梯度损失,以确保对比度和纹理的和谐共存。因此,结果可以防止高对比度目标区域的边缘扩散引起的背景纹理污染。广泛的定性和定量实验表明,我们的GAN-FM在保留显著的对比度和丰富的纹理方面胜过现有的方法。此外,针对目标检测和图像分割的附加应用实验证明,我们的GAN-FM有效地帮助提高高级计算机视觉任务的性能。

猜你喜欢

转载自blog.csdn.net/m0_47005029/article/details/131019178
GAN