Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion

摘要

图像融合集成了从不同传感器获取的一系列图像,例如,红外线和可见光,输出比任何一种都具有更丰富信息的图像。在这篇文章中,我们提出了一种用于红外和可见光图像融合的深度网络,它将特征学习模块与融合学习机制级联在一起。首先,我们应用一个从粗到细的深度架构来学习多模态图像的多尺度特征,这使得能够为后续的融合操作发现突出的共同结构。所提出的特征学习模块不需要对齐良好的图像对进行训练。与现有的基于学习的方法相比,所提出的特征学习模块可以集成大量的例子从各自的模态进行训练,增加了特征表示的能力。其次,在多尺度特征上设计了一种边缘引导的注意机制,以引导融合聚焦在常见结构上,从而在衰减噪声的同时恢复细节。此外,我们提供了一个新的对齐的红外和可见光图像融合数据集,RealStreet,在各种实际情况下收集的综合评估。两个基准,TNO和RealStreet。

注:"registered image pairs"是指经过一定处理后(比如图像配准),将不同角度或位置的拍摄的图像对齐在一起的图像对。这种处理可以消除图像之间的差异,使得它们可以更容易地进行比较或合并。例如,在医学成像中,医生可能需要比较同一患者在不同时间或使用不同成像设备得到的图像,这时就需要将这些图像配准在一起以便于比较。在某些情况下,已知的已注册的图像对可能会被用于训练模型或评估算法的性能,因为它们提供了精确的对应关系,从而可以更容易地进行比较和量化。简单来说,"registeredimage pairs"就是经过处理后被对齐在一起的图像对。

引言

传统方法利用多尺度变换(MST),稀疏表示,子空间分解,混合工具,数学优化,和其他来提取有效特征。

其中,基于MST的方法由于其灵活性和在视觉效果上的优势而引起了极大的关注。这些方法通过特定的变换工具提取不同尺度的代表性特征。例如非子采样曲波,小波和边缘保持滤波器。因此,随后的融合过程可以完全包含各种尺度上的特征信息,并使用简单的最大或平均算子将它们融合。然而,这种类型的方法通常遭受晕轮和模糊的边缘所造成的重叠在多个尺度上的不对称的特征信息。

最近,研究人员采用深度学习(DL)来实现红外和可见光图像的鲁棒和高效融合。这些基于DL的方法实现了最先进的性能,但仍然具有局限性。首先,DL技术通常用于从源图像中提取显著特征,然后生成用于融合的加权图。这些深度显著特征在一个单一尺度下给出,忽略了跨尺度的局部/全局信息,从而在一定程度上降低了融合质量。第二,这些方法采用简单的融合规则,比如加法和级联,使得最终结果中可能出现不期望的伪影或模糊边缘。最后,深度网络的训练需要大量对齐的可见光/红外图像,这在实践中很难收集。

本文提出了一种用于红外和可见光图像融合的新型深度学习架构,以克服上述局限性。受以前的多尺度特征集成方法的启发,我们设计了一个密集的上下文扩张模块,以扩大感受野,从而在多个尺度上提取深度显著特征。该特征提取器在不改变源图像大小的情况下,加强了各尺度特征图之间的连接,同时通过充分整合密集连接,更有效地利用了多尺度特征。值得注意的是,值得注意的是,我们的训练阶段没有获得配准的多模态图像对,这扩大了从任一模态收集更多训练示例的可能性。

除了特征学习模块,我们还开发了一个边缘引导的注意力融合规则,以便同时保留突出的图像结构并抑制不期望的伪影。

贡献:

  • 我们提出了一种新的红外和可见光图像融合的深度架构,以学习多个尺度的显著特征以及融合规则。我们的方法不需要在训练阶段获取配准图像对,这消除了对特定训练数据集的依赖。
  • 为了从输入图像中获得更全面的特征,我们精心建立了一个特征提取器,该特征提取器以密集的上下文扩张网络为骨干,分层集成来自多个尺度的由粗到细的特征。新设计的特征提取器有效地利用了中间特征,而不需要对源图像进行上采样或下采样。
  • 我们制定了一个跨域边缘引导的注意机制,以实现融合图像的数据一致性,并具有良好的细节特征,保留详细的信息,同时衰减噪声或不希望的伪影。这种基于学习的融合机制突破了人工融合规则的局限性,显著提高了融合性能。
  • 我们构建了一个新的对齐的红外和可见光图像融合数据集,名为RealStreet,具有广泛的挑战性条件,包括恶劣的照明和户外性能评估。

方法

本节给出了所提出的方法的细节,包括由粗到细的特征提取器、边缘引导的注意力特征融合、特征补偿重构以及损失函数。开始,输入的红外和可见光图像被分别馈送到特征提取器中以获取一系列中间特征。随后,边缘注意力模块生成注意力图,该注意力图与中间特征相结合用于特征融合。最后,我们利用特征提取器的两个跳跃连接对融合后的特征进行卷积重建最终图像,以进一步补偿缺失的细节。

Coarse-to-Fine Feature Extractor

红外与可见光图像融合的一个重要问题是提取丰富的特征来表示输入图像。通常,特征提取对融合结果有巨大影响。先前的深度方法设计了全连接层作为特征提取器,而没有考虑上下文化信息。这可能导致融合结果中出现不期望的伪像。因此,我们提出了一个上下文的扩张特征提取模块,以通过以下两种方式获得粗到细的特征

  • 我们通过一个多尺度上下文聚合结构聚合了三个卷积路径在多个尺度上的表示,这些尺度具有不同的感受野
  • 我们在每个卷积路径中集成密集块以提供更丰富的特征供后续使用。
    在这里插入图片描述
  • 上图中这个网络将红外和可见光图像通过第一个卷积转换到特征空间,然后,来自具有不同扩展因子的三个卷积路径的中间结果被聚合以获取多个尺度的整体信息。
  • 膨胀卷积使用放大因子的步长来衡量像素,从而在不改变分辨率的情况下增加其感受野。每个膨胀路径由三个卷积组成,使用相同的核大小3 × 3。这三条路径分别使用它们典型的感受野5×5、9×9和13×13,以提供更精确的互补信息。
  • f i n f_{in} fin表示提取模块的输入特征图,然后计算输出特征图 f o u t e f_{out}^e foute ,其中 f o u t e = m a x ( 0 , ∑ t p = 1 3 ( W t p ∗ f i n , t p + b t p ) ) f_{out}^e =max(0,\sum_{t_p=1}^3(W_{t_p}*f_{in,t_p}+b_{t_p})) foute=max(0,tp=13(Wtpfin,tp+btp))
    • 其中 * 表示卷积算子, t p t_p tp表示扩张卷积路径的序列号。W和b分别表示卷积层的滤波器参数和偏置
  • 除了在多个尺度上聚合显著特征之外,我们还在每个膨胀路径中添加密集连接,以尽可能多地保留深度特征。每一层的输出级联为下一层的输入
  • 我们表示由特征提取模块给出的红外和可见光图像的输出特征分别为 f i r e f_{ir}^e fire f v i s e f_{vis}^e fvise

Edge-Guided Attention Feature Fusion

  • 融合的主要目标是找到每种模态的适当特征。为了这个目的,并由以前的工作,我们利用粗糙的中间特征来获得增强边缘图像的注意力图。通过这种设计的基于边缘的注意机制,我们的融合结果可以同时保留更多的纹理细节和衰减不希望的伪像。
  • 具体地,在两个步骤中获得边缘图。我们将输入的大小为m×n的灰度图像表示为u,并将其梯度图∇u定义为: ∇ u = ∑ i = 1 m n ( ∇ i h u ) 2 + ( ∇ i v u ) 2 ∇u = \sum_{i=1}^{mn} \sqrt{(∇_i^h u)^2+(∇_i^vu)^2} u=i=1mn(ihu)2+(ivu)2
    • 其中 ∇ i h u = u i − u a ( i ) ∇_i^hu = u_i-u_{a(i)} ihu=uiua(i) and ∇ i v u = u i − u b ( i ) ∇_i^vu = u_i-u_{b(i)} ivu=uiub(i)是分别计算水平和垂直一阶差分的线性算子。
    • 标签 u a ( i ) u_{a(i)} ua(i) u b ( i ) u_{b(i)} ub(i)分别表示位于源像素i的右侧和下方的最近邻像素。我们还设计了一个边缘增强算子S,使梯度信息更加显著: S ( ∇ u ) = m a x j ∈ J ( m a x i ∈ I ∇ u ( i + 1 , j + 1 ) , ∇ u ( i , j ) ) S(∇u)=\underset{j\in J}{max}(\underset{i \in I}{max}∇u(i+1,j+1),∇u(i,j)) S(u)=jJmax(iImaxu(i+1,j+1),u(i,j))
      • 其中I ={1,…,m-1}且J ={1,…,n-1}。索引i和j分别表示梯度图像的水平方向和垂直方向。
  • 随后,我们将红外和可见光图像的增强边缘图馈送到注意力机制中以生成特征权重图 W i r W_{ir} Wir W v i s W_{vis} Wvis,并计算由边缘引导注意力加权的融合特征 f o u t a f_{out}^a fouta ,其中 f o u t a = s o f t m a x ( ∑ i = 1 k ( f i r e W i r + f v i s e W v i s ) ) f_{out}^a=softmax(\sum_{i=1}^k(f_{ir}^eW_{ir}+f_{vis}^eW_{vis})) fouta=softmax(i=1k(fireWir+fviseWvis)) ,来自提取模块的由注意力图 W i r W_{ir} Wir W v i s W_{vis} Wvis加权的双模态特征 f i r e 和 f^e_{ir}和 fire f v i s e f_{vis}^e fvise的总和生成融合特征,如图3所示,最终的融合图像由训练的解码器从融合特征 f o u t a f^a_{out} fouta重构

在这里插入图片描述

扫描二维码关注公众号,回复: 15416404 查看本文章

Feature Compensation Reconstruction

图像重建旨在通过卷积层将特征图从特征空间转换为图像空间。简单地利用卷积操作可能会导致恢复图像过程中的重要信息丢失。我们引入了两个跳跃连接,以减轻多次卷积后特征图的信息丢失。具体来说,我们将特征提取器模块中的三个不同的扩张特征相加,以补偿红外和可见特征,然后使用choose-max策略以元素方式选择红外或可见特征。最后,我们在特征重建模块中沿着通道将这些补偿的特征连接到基于注意的融合特征。结果,从特征重建模块中恢复融合图像。我们的方法的流程图如图2所示。
在这里插入图片描述

Loss Function and Training Details

对于多模态图像融合,没有用于网络执行监督/无监督学习的ground truth。此外,在真实世界场景中难以获得足够的配准图像对。为此,我们通过馈送红外线或可见光来训练我们的网络,除了边缘注意机制之外,我们可以通过编码器-解码器部分重建输入图像。我们的方法在训练阶段的详细框架在图2的左侧示出

为了更精确地重建输入图像,我们最小化总损失函数 L t o t a l L_{total} Ltotal ( L S S I M L_{SSIM} LSSIM L M S E L_{MSE} LMSE与 超参数 γ 的组合) 来训练我们的网络。SSIM是两个不同图像之间结构相似性的有效度量,它结合了三个分量,即亮度,结构和对比度。同时,MSE目标是测量输入和输出图像之间的像素强度。这两个损失函数共同约束了重建的结构和像素误差。总损失函数表示为: L t o t a l = L M S E + γ L S S I M L_{total} =L_{MSE}+γ L_{SSIM} Ltotal=LMSE+γLSSIM

LMSE计算输入和输出图像之间的欧几里得距离: L M S E = 1 M N ∑ x ∈ M , y ∈ N ( o u t ( x , y ) − i n ( x , y ) ) 2 L_{MSE}=\sqrt{\frac{1}{MN}\sum_{x \in M,y \in N}(out(x,y)-in(x,y))^2} LMSE=MN1xM,yN(out(x,y)in(x,y))2 ,其中out和in分别表示重构数据和输入训练数据。M和N给出图像的大小,(x,y) 是像素位置。 L S S I M L_{SSIM} LSSIM的计算公式为: L S S I M = 1 − S S I M ( o u t , i n ) L_{SSIM}=1-SSIM(out,in) LSSIM=1SSIM(out,in)符号SSIM(·) 表示结构相似性操作。

此外,受生成对抗网络 (GANs) 的启发,我们假设上述网络作为生成器,并在网络末端添加一个判别器,以引导生成器产生更自然的图像。添加的 L A d v L_{Adv} LAdv可以写成: m i n G m a x D L A d v ( G , D ) = E [ l o g D ( o u t ) ] + E [ l o g ( 1 − D ( D ( i n ) ) ) ] \underset{G}{min}\underset{D}{max}L_{Adv}(G,D)=E[logD(out)]+E[log(1-D(D(in)))] GminDmaxLAdv(G,D)=E[logD(out)]+E[log(1D(D(in)))]

生成器和鉴别器是替代迭代,可提供更强大,更可靠的网络。
训练结束时,我们会在网络中提供两个配对的图像。训练过的coarse-to-fine模型用于从输入的两模态图像中提取深度显著特征。随后,利用联合边缘引导的权重图来乘以相应的特征,从而生成融合的特征。最后,融合的特征通过两个添加的跳跃连接反馈到解码器模块中,以重建最终融合的图像。

猜你喜欢

转载自blog.csdn.net/m0_47005029/article/details/130594165