Different Input Resolutions and Arbitrary Output Resolution: A Meta Learning-Based Deep Framework fo

摘要

红外和可见光图像的融合技术广泛的应用,但是现有的融合方法在输入源图像和输出融合图像的空间分辨率方面都存在一定的局限性,很大程度上限制了实际应用。所以在本文中提出一个基于元学习的深度框架,用于红外和可见光图像的融合。与大多数现有的方法不同,该框架可以接受不同分辨率的源图像,并生成任意分辨率的融合图像,并且只需一个单一的学习模型。

在所提出的框架中,每一个源图像的特征被第一个卷积网络所提取,同时根据实际需求被一个有任意适当因子的元放大模块进行放大。然后一个基于双注意力机制的特征融合模块被用来结合不同源图像的特征,最后一个残差补偿模块被设计去提高细节提取能力。

此外,通过同时融合和超分辨率,以多任务学习的方式构造损失函数,以提高特征学习的效果。并且,提出了一个新的对比度损失函数,灵感来自感知对比度增强方法,进一步提高融合图像的对比度。

引言

近年来,虽然红外与可见光图像融合领域取得了很大的进展,各种融合方法相继出现,但目前的研究仍存在一些局限性。首先,几乎所有现有的融合方法都要求输入源图像具有相同的空间分辨率。然而,在现实世界的场景中,由不同类别的成像传感器获得的图像通常具有不同的空间分辨率。其次,由于成本和功耗等因素的限制,红外或可见光传感器捕获的源图像有时可能会受到低空间分辨率的影响,而大多数情况下都期望融合图像具有高分辨率。

在上述两种情况下,可以应用图像超分辨率技术来帮助融合问题。常规的方法是在融合前进行超分辨,但这种两相分离的方式有明显的缺点。为了解决这个问题,已经提出了一些使用集成模型同时进行融合和超分辨率的方法。但是,在这些方法中,不同源图像的空间分辨率仍然需要相同,即,第一个问题没有解决。此外,这些方法只能将融合图像的分辨率提高几个整数比例因子(例如,×2,×3,×4)以及不同尺度因子的超分辨率模型需要分别学习(即,针对每个比例因子训练特定模型),这大大降低了它们在实际应用中的有用性,因此,还存在两个有待解决的问题:

  • 源图像需要具有相同的空间分辨率
    • 超分辨率只能提高几个整数比例分子

为了解决上述问题,这篇论文提出一种基于元学习的红外和可见光图像深度融合框架,该方法最大的特点就是可以同时处理不同分辨率的源图像(原图像被假设为空间对齐),并仅用单个学习模型生成任意分辨率的融合图像,这主要是采用一个元放大模块实现,其可以通过将比例因子作为输入来动态地预测放大滤波器的权重。此外,该方法可以同时获得两个源图像的超分辨率结果作为副产品。

下图展示了所提出的基于元学习的红外和可见光图像融合框架:
在这里插入图片描述

  • 该方法主要由两个特征提取模块(FEM)组成,分别用于从源图像中提取特征,一个融合模块(FM)用于融合显著特征,一系列残差补偿模块(RCM)用于弥补细节的丢失。
  • 在FEM中,每个源图像的特征首先由卷积网络提取,然后由具有适当因子(值可以是任意的)的元放大模块(MUM)放大,该因子根据特定融合问题的要求设置。放大的特征由FM经由双重注意机制合并以生成融合特征。
  • 然后,RCM进一步提取和补偿在特征图的上采样过程中的损失信息,并且它可以在我们的融合框架中多次迭代使用。
  • 从图中可以看出,该框架可以以多任务学习方式同时实现融合和超分辨率(即,一个融合分支和两个超分辨率分支),使得特征学习能力更强,有助于提高融合结果的质量。

本文的主要贡献可概括为以下四个方面:

  • 提出了一个基于元学习的红外和可见光图像融合的深度框架。与现有的大多数图像融合方法不同,该框架可以接受不同分辨率的源图像,仅用一个学习模型就可以生成任意分辨率的融合图像
  • 我们开发了一个基于双注意机制的特征融合模块,在该模块中,位置注意和通道注意被同时考虑到融合来自不同源图像的特征。
  • 我们提出了一个残差补偿模块,可以迭代地在所提出的融合框架中使用,以提高我们的方法对细节提取的能力。
  • 通过同时融合和超分辨率,以多任务学习的方式构造损失函数,有助于学习更多有效特征,提高最终融合结果的质量。此外,在这项工作中提出了一种新的基于感知颜色校正理论的对比度损失

方法

特征提取模块

特征提取模块(FEM)由特征提取网络和元放大模块组成。特征提取网络用于从每个源图像中提取特征,并且元放大模块用于将所获得的特征图放大到融合图像的目标分辨率。

(1)特征提取网络

在这里插入图片描述

  • 我们的特征提取网络包含一个3×3卷积层,一系列特征提取块(FEBs)如图2(b)和一个1×1卷积层。每个FEB由三个分支组成,这些分支是基于有着不同感受域的感受野单元(RFU)设计的,如图2(c)
  • 其中 R F U d RFU_d RFUd (d = 1,3,5) 包含了一个的d × d和一个3 × 3的扩张卷积,扩张率为d,第一分支和第三分支中的d的值分别为1和5。
  • 第二分支由四个 R F U 3 RFU3 RFU3组成,采用密集跳跃连接方式,进一步提高特征提取能力
  • 将这三个分支的输出连接起来,最后使用1 × 1卷积作为瓶颈层
  • 为了避免由池化和跨步卷积引起的信息丢失,FEB中没有采用下采样层(例如池化,跨步卷积),使得输出特征图的空间大小保持与输入相同。
  • 在我们的特征提取网络中,第一个3 × 3卷积层和最后一个1 × 1卷积层分别包含64个和8个滤波器。每个FEB中的最后一个1×1卷积层包含64个滤波器。其余的每个卷积层包含32个滤波器
  • 此外,为了避免零梯度,每个卷积层之后是具有0.2的负范围的LeakyReLU层,因为它不引入需要学习的额外参数,而每个扩张的卷积层之后是用于更专门的激活的PReLU层

(2)Meta-Upscale

为了实现该方法能够接受不同分辨率的源图像,并仅用一个模型就能生成任意分辨率的融合图像,采用元学习超分辨率工作中提出的元放大模块(MUM)作为上采样层。具体地说,MUM模型包括位置对应、权重预测和特征映射三个步骤。图3(a)显示了低分辨率图像和其对应的具有比例因子r的高分辨率版本之间的像素的位置对应关系。
在这里插入图片描述

  • 给定一个分辨率为h × w大小的LR图像 I d w I^{dw} Idw ,我们使用MUM来获得其对应的分辨率 ⌊ r h × r w ⌋ \lfloor rh × rw \rfloor rh×rw的HR版本 I u p I^{up} Iup,(rh = H, rw = W)。
  • I u p I^{up} Iup中的位置(i,j),对应于 I d w I^{dw} Idw中的 ( ⌊ i r ⌋ , ⌊ j r ⌋ ) (\lfloor \frac{i}{r}\rfloor,\lfloor \frac{j}{r}\rfloor) (⌊ri,rj⌋).批次大小和通道数分别表示为N和C
  • 在这里插入图片描述
  • 如图3(b)所示,这个位置矩阵 V u p V^{up} Vup由位置坐标 v i , j = ( i r − ⌊ i r ⌋ , j r − ⌊ j r ⌋ , 1 r ) v_{i,j} =(\frac{i}{r}-\lfloor \frac{i}{r}\rfloor,\frac{j}{r}-\lfloor \frac{j}{r}\rfloor , \frac{1}{r}) vi,j=(riri,rjrjr1) 被馈送到一个简单的全连接网络去预测这个放大滤波器的权重。当比例因子改变时,可以独立于先前提取的特征相应地调整权重。因此,MUM可以任意增加特征图的分辨率,而无需重复训练整个模型。

(3)融合模块

1.双重注意力机制

在基于深度学习的图像融合方法中,特征映射的融合对于提高融合图像的质量起着重要的作用,传统的特征融合规则主要包括最大值选择,加权平均和特征连接。然而,在大多数方法中,这些规则通常是在原始特征上执行的,而没有考虑不同位置和不同通道处的特征之间的相关性和差异性。

在本篇论文中,一个双注意机制(DAM)被用来解决上述问题,如图4所示,它包含了两个成分:位置注意力机制(PAM)和通道注意力机制(CAM)
在这里插入图片描述

  • 位置注意力机制(PAM)
    • 对于所提取的特征图,如果更多地关注与显著对象或轮廓相对应的系数,则将有利于显著源信息的保留,为此,我们开发了一个类似PAM架构的U-Net 来预测不同空间位置的特征权重,PAM架构主要包含两个阶段:编码和解码。
    • 在编码阶段,给定放大的特征图 F l ∈ R C × H × W F_l ∈ R^{C×H×W} FlRC×H×W,使用全局平均池化(GAP)来聚合它们并生成 F ~ l ∈ R H × W \tilde{F}_ l ∈ R^{H×W} F~lRH×W
      • 在第一个下采样层中,我们使用最大池化操作来保留一个邻域中的最重要信息,同时将 F ~ l \tilde{F}_ l F~l的分辨率降低到1 × 1/2 H × 1/2 W。然后使用卷积层来进一步提取特征。上述过程可以公式化为: F ^ l = C o n v ( M P ( G A P ( F l ) ) , k = 3 ) \hat{F}_ l=Conv(MP(GAP(F_l)),k=3) F^l=Conv(MP(GAP(Fl)),k=3) , F ^ l \hat{F}_ l F^l的分辨率为8 × 1 /2 H × 1 /2 W。
      • 在第二下采样层中,我们使用平均池化操作来对特征图 F ^ l \hat{F}_ l F^l进行下采样,然后将产生的结果馈送到另一个卷积层以获得尺寸为16 × 1/4H × 1/4W的特征图 F l e F_l^e Fle
    • 在解码阶段,一个sub-pixel 去下采样这个特征图 F l e F_l^e Fle到4× 1/2 H × 1/2W,所获的结果和 F ^ l \hat{F}_ l F^l进行拼接,然后送入到1×1卷积层,最终一个sub-pixel卷积层被采用去生成源图像l的位置权重图 F l d ∈ R 1 × H × W F^d_l∈ R^{1× H×W} FldR1×H×W
      • 上述过程可以公式化为 F l d = S P C ( C o n v ( [ F l e , S P C ( F l e ) ] ) , k = 1 ) F_l^d =SPC(Conv([F_l^e,SPC(F^e_l)]),k=1) Fld=SPC(Conv([Fle,SPC(Fle)]),k=1) ,其中SPC表示sub-pixel卷积算子。
      • 对于 F l , i p ( m , n ) = F l , i ( m , n ) 1 + e x p ( − F l d ( m , n ) ) F_{l,i}^p(m,n)=\frac{F_{l,i}(m,n)}{1+exp(-F_l^d(m,n))} Fl,ip(m,n)=1+exp(Fld(m,n))Fl,i(m,n), 其中(m,n)表示特征图中的系数的位置,i ∈{1,2,…,C}表示通道索引
  • 通道注意力机制(CAM)
    • 在红外和可见光图像融合中,每个特征图(即,通道)可以被视为源图像中的重要目标的反应,对于一个目标,它在不同通道中的响应总是不同的,应该相互关联,为了强调目标,最好为具有较强响应的特征图分配较大的权重。基于这一考虑,我们开发了一种新的通道注意力机制(CAM),通过利用不同的通道之间的相互依赖性来生成每个通道的权重。
    • F l ∈ R C × H × W F_l ∈ R^{C×H×W} FlRC×H×W为输入特征图,首先将 F l F_l Fl整形到 F r , l ∈ R C × M F_{r,l}∈ R^{C×M} Fr,lRC×M ,然后,在不同的通道上执行矩阵乘法运算,以对特征图的相互依赖性进行建模。
      • 具体的, F l F_l Fl的通道相关向量被获得由 s l = F r , l F r , l T 1 , s_l=F_{r,l}F^T_{r,l}1, sl=Fr,lFr,lT1, 其中T表示矩阵转置, 1 ∈ R C × 1 1 ∈ R^{C×1} 1RC×1是全一向量。 最后,第i个通道的聚合权重被计算为逐像素softmax函数: ω l , i = e x p ( s l ( i , 1 ) ) ∑ i = 1 C e x p ( s l ( i , 1 ) ) \omega _{l,i}=\frac{exp(s_l(i,1))}{\sum^C_{i=1}exp(s_l(i,1))} ωl,i=i=1Cexp(sl(i,1))exp(sl(i,1)) 因此,聚合特征图 F l c F^c_l Flc可以被公式化为: F l c = [ ω l , 1 F l , 1 , ω l , 2 F l , 2 , . . . , ω l , C F l , C ] F_l^c=[\omega_{l,1}F_{l,1},\omega_{l,2}F_{l,2},...,\omega_{l,C}F_{l,C}] Flc=[ωl,1Fl,1,ωl,2Fl,2,...,ωl,CFl,C]

2.融合策略

图5显示了我们的融合模块(FM)的结构,其中 F I R F_{IR} FIR F V I S F_{VIS} FVIS表示放大的红外和可见光特征图,对于每个源图像,其特征图 F l F_l Fl(l ∈{IR,VIS})由PAM和CAM处理以获得位置加权特征图 F l p F^p_l Flp和通道权重特征图 F l c F_l^c Flc ,然后,将 F l 、 F l c 和 F l p F_l、F^c_l和F^p_l FlFlcFlp级联并馈送到1×1卷积层以获得基于DAM的特征 F c o n , l = C o n v ( [ F l , F l c , F l p ] , k = 1 ) F_{con,l}=Conv([F_l,F^c_l,F^p_l],k=1) Fcon,l=Conv([Fl,Flc,Flp],k=1)

在这里插入图片描述
接下来,通过最大选择规则去融合之前所获得的特征 F c o n , I R 和 F c o n , V I S F_{con_,IR}和F_{con,{VIS}} Fcon,IRFcon,VIS

在这里插入图片描述

3.残差补偿模块

在我们的融合和超分辨率框架中,我们需要通过MUM将每个特征图的大小增加到目标大小,然而,该过程可能导致源图像中的精细细节的损失,受反投影网络的启发,我们开发了一种简单而有效的残差补偿机制来弥补丢失的细节。为此,我们通过模仿MUM来创建元缩减模块(MDM),如图所示3(c)
在这里插入图片描述
就像MUM一样,MDM也通过将比例因子作为输入来动态预测降尺度滤波器的权重,因此它可以任意减小特征图的大小而无需重复训练。MUM和MDM联合应用于残差补偿模块的设计。具体地,令 F l d w ( l ∈ I R , V I S ) F^{dw}_l(l ∈{IR,VIS}) FldwlIRVIS是由特征提取网络提取的原始低分辨率特征图,并且 F l F_l Fl是其元放大版本。 F l d w F^{dw}_l Fldw F l F_l Fl的元缩减结果之间的残差被计算为 R l d w = F l d w − M D M ( F l ) R_l^{dw}=F_l^{dw}-MDM(F_l) Rldw=FldwMDM(Fl)

残差 R d w R_{dw} Rdw的高分辨率通过MUM获得为 R l u p = M U M ( R l d w ) R_l^{up}=MUM(R_l^{dw}) Rlup=MUM(Rldw) ,残差图 R I R u p ( R V I S u p ) R_{IR}^{up}(R_{VIS}^{up}) RIRup(RVISup) 由MUM和MDM生成的细密纹理特征和失真信息组成,在SR中,平滑区域和部分显著结构可以容易地由SR算法恢复。因此,前几层上的残差主要是尚未恢复的高频分量。在这种情况下,在每个位置处具有较大绝对值的残差系数通常表示在上采样中被丢失或失真的更多图像细节信息。因此,为了更好地补偿融合图像的这种信息,使用最大选择规则合并 R I R u p R^{up}_{ IR} RIRup R V I S u p R^{up}_{VIS} RVISup
在这里插入图片描述

4.损失函数

本研究将损失函数设计成多任务学习的方式,通过同时融合和超分辨率来追求更好的特征学习能力。采用Wald协议,即原始红外和可见光图像用作地面实况,而其低分辨率版本用作模型训练的输入。由于图像融合缺乏ground truth,因此,超分辨率任务可能有助于通过监督学习来提高融合任务的性能。具体地,损失函数由像素损失 L p i x e l L_{ pixel} Lpixel和对比度损失 L c o n t r a s t L_{contrast} Lcontrast组成。

  • Pixel loss:像素损失旨在限制ground truth与模型预测之间的强度差异,令 I I R u p I_{IR}^{up} IIRup I V I S u p I_{VIS}^{up} IVISup 分别表示红外和可见光的ground truth。令 I I R s r , I V I S s r a n d I f s r I_{IR}^{sr} , I_{VIS}^{sr} \quad and \quad I_f^{sr} IIRsr,IVISsrandIfsr 分别表示预测的高分辨率红外,可见光和融合图像,像素损失被定义为 L p i x e l = ∣ ∣ I I R u p − I I R s r ∣ ∣ 1 + ∣ ∣ I V I S u p − I V I S s r ∣ ∣ 1 + ∣ ∣ I I R u p − I f s r ∣ ∣ 1 + ∣ ∣ I V I S u p − I f s r ∣ ∣ 1 L_{pixel} = ||I_{IR}^{up}-I_{IR}^{sr}||_1+||I_{VIS}^{up}-I_{VIS}^{sr}||_1+||I_{IR}^{up}-I_{f}^{sr}||_1+||I_{VIS}^{up}-I_{f}^{sr}||_1 Lpixel=∣∣IIRupIIRsr1+∣∣IVISupIVISsr1+∣∣IIRupIfsr1+∣∣IVISupIfsr1
    • 其中 ∣ ∣ ∗ ∣ ∣ 1 ||*||_1 ∣∣1表示l1范数。 L p i x e l L_{pixel} Lpixel像素用l1范数而不是l2范数定义,以实现更好的保留源图像中的显著信息的能力。
  • Contrast Loss:受感知对比度增强方法的启发,我们引入对比度损失 L c o n t r a s t L_{contrast} Lcontrast以进一步加强显著特征并增强融合图像的对比度。 L c o n t r a s t L_{contrast} Lcontrast定义为 L c o n s t r a s t = D ( I f s r ) − C ( I f s r ) L_{constrast}=D(I_f^{sr})-C(I_f^{sr}) Lconstrast=D(Ifsr)C(Ifsr)
    • 其中第一项 D ( I f s r ) D(I_f^{sr}) D(Ifsr) 用于防止融合图像与两个源图像的平均值之间的较大偏差 ,而第二项 C ( I f s r ) C(I_f^{sr}) C(Ifsr)用于提高融合图像的对比度,具体地, D ( I f s r ) D(I_f^{sr}) D(Ifsr)被定义为: D ( I f s r ) = ∣ ∣ I f s r − I ˉ u p ∣ ∣ F 2 D(I_f^{sr})=||I_f^{sr}-\bar{I}^{up}||_F^2 D(Ifsr)=∣∣IfsrIˉupF2
    • 其中 I ˉ u p \bar{I}^{up} Iˉup I I R s r I_{IR}^{sr} IIRsr I V I S u p I_{VIS}^{up} IVISup的平均值, C ( I f s r ) C(I_f^{sr}) C(Ifsr) 说明像素亮度的变化, 从理论上讲,这种变化对对比度的影响应该与两个像素之间的距离成反比, 此外,融合图像的对比度应该与源图像的对比度具有正相关性。基于以上两个考虑, C ( I f s r ) C(I_f^sr) C(Ifsr)被定义为
    • 在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/m0_47005029/article/details/130644421