1.摘要

图像融合作为一种替代解决方案，不仅可以从多个图像中生成一张高质量的图像，还可以从单个退化图像中进行图像恢复。图像融合的本质是整合源图像中的互补信息或最佳部分。目前的融合方法通常需要大量的配对样本或复杂的损失函数和融合规则来训练监督或无监督模型。本文提出了一种强大的图像分解模型，用于融合任务，通过自监督表示学习，命名为DeFusion。DeFusion可以将源图像分解为特征嵌入空间，其中可以分离出共有特征和独特特征，而无需任何配对数据或复杂的损失函数。因此，在分解阶段通过共同训练的重建（投影）头，甚至无需任何微调，即可在嵌入空间内实现图像融合。得益于自监督学习的发展，我们可以通过一种简单但粗暴的预文本任务训练模型学习图像分解能力。预训练模型允许学习非常有效的特征，具有良好的泛化能力：DeFusion是一个统一的通用框架，使用与图像融合无关的数据集进行训练，并可以直接应用于各种图像融合任务。广泛的实验证明，所提出的DeFusion在不同的图像融合任务中可以达到与最先进方法（无论是监督还是无监督方法）相当甚至更好的性能。

2.引言

场景感知是机器视觉的一个长期目标，其中场景由多个硬件传感器进行数字化。由于硬件限制，每个传感器一次只能捕捉到场景的部分信息。为了准确有效地表示场景，图像融合被推动前进，以整合同一场景中多个源视图的互补特征，从而生成高质量的图像用于下游的高级任务或人类感知。例如，多曝光融合（MEF）利用多个低动态范围（LDR）图像获得单个高动态范围（HDR）图像；多焦点融合（MFF）将具有不同焦点区域的多个图像合并为单个全焦图像。图像融合方法中的一个关键步骤是有效地表示源图像。在早期，一些经典的特征表示和分解方法被引入到图像融合中，例如小波、金字塔、保边滤波、稀疏编码和字典学习等。从信号处理的角度出发，这些手动设计的特征表示方法对图像的语义知识理解不足，限制了这些模型的通用性。

近年来，深度学习被引入以解决图像融合的限制，并推动图像融合研究的前沿。在早期的工作中，研究人员将神经网络简单地视为一个优化器，用于建模源图像与目标融合结果之间的关系，我们将这种框架称为“通过监督学习直接融合”，如图1a所示。显然，这些模型存在一个主要缺陷：在某些情况下（如红外-可见光图像融合），获取成对的源图像和地面真实融合图像将会很困难，甚至不可能。

另一种解决方案是放弃监督信息，设计一些辅助损失（如一致性损失）来保持融合图像与源图像之间的一致性；
或者利用经过预训练网络（如AutoEncoder ）的语义瓶颈层来执行融合，如图1b所示。尽管这些进展扩展了适用的场景，但它们仍然存在一个严重的缺陷：它们的性能严重依赖于人类对辅助损失和融合规则的设计。

为了解决上述问题，我们提出了一种自监督学习的图像融合框架，称为DeFusion，无需复杂的损失函数或融合规则，如图1c所示。我们可以从图像融合的定义中得出，图像融合的本质是将多个源图像的互补信息集成起来。因此，如果我们能够将源图像分解为独特的组成部分和所有图像共享的公共组成部分，只需将这些组成部分进行简单的组合，就可以生成目标融合图像。

剩下的问题是：如何在没有任何监督的情况下分解源图像以获取独特和公共的组成部分？

给定源图像，我们很难获得监督信息来指导独特和公共组成部分的预测。在本文中，我们设计了一个名为“共同和独特分解（CUD）”的预训练任务，在自我监督学习框架下进行图像分解。我们致力于将多个源图像分解为独特和公共的特征表示，以完成无监督的图像融合（即基于分解的融合）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o3tVJtYd-1688107078666)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230629193806921.png)]

如图2所示，我们设计了一个特定的图像增强策略，将原始场景x的一些补丁替换为噪声，生成两个“源图像” $x^1和x^2$ 。然后，它们被输入到分解网络DeNet中，得到共同特征 $f_c$ ，以及对应于 $x^1$ 和 $x^2$ 的独特特征 $f^1_u$ 和 $f^2_u$ 。获得嵌入特征后，我们使用共同投影头 $P_c$ 和独特投影头 $P_u$ 生成源图像 $x_1$ 和 $x_2$ 的共同和独特图像（部分）。在特定的图像增强策略下，我们可以轻松生成投影的共同和独特图像的监督信息。此外，组合特征 $f_c、f^1_u和f^2_u$ 还被输入到重构投影头 $P_r$ 中，以重构原始场景x。在推理阶段，我们可以将源图像分解为共同和独特的语义表示，并从组合特征中重构融合图像，如图3所示。通过这种方式，分解的共同和独特特征的组合为融合图像提供了可解释的信息，并且避开了开发复杂的损失函数或融合规则的困难。

总之，我们的贡献可以总结如下：

扫描二维码关注公众号，回复： 15559924 查看本文章

(i) 我们提出了一种基于自我监督学习框架的新型图像融合方法DeFusion，通过对源图像进行分解实现。
(ii) 我们设计了一种名为CUD的预训练任务，用于图像融合，它不依赖于现有的监督图像融合数据集、复杂的损失函数和融合规则。
(iii) 提出的DeFusion仅使用COCO数据集进行训练，并且可以作为统一而通用的框架应用于各种图像融合任务，无需进一步的微调或引入额外的融合规则。它在各种类型的融合任务中取得了与最具竞争力的图像融合方法（包括监督方法）相当或甚至更好的性能。

3.方法

3.1 Self-supervised Learning for Image Fusion

自监督学习流程。假设我们有一个未标记的图像数据集 D。对于数据集中的每个图像 $x ∈ R^{H×W×3}$ ，我们通过一组图像变换 T 对 x 应用随机数据增强，生成扭曲的视图 $x^i$ 。扭曲的视图将被输入到卷积网络中，以获得相应的嵌入表示。为了生成强大的嵌入表示，卷积网络需要在解决预训练任务时进行训练，例如预测图像旋转、图像上色和拼图。通过预训练的预训练任务后，嵌入表示可以用于下游任务。

嵌入表示（embedding representation）是指将输入数据（例如图像、文本或其他类型的数据）映射到一个低维特征空间的表示形式。在深度学习中，嵌入表示通常由一个神经网络模型生成，该模型通过学习从原始数据到嵌入空间的映射关系。嵌入表示的目标是在保留原始数据的重要信息的同时，减少数据的维度，并且使得相似的数据在嵌入空间中更加接近，不相似的数据则更加远离。

通过自监督学习进行图像融合。根据获取源图像的传感器类型，我们可以进一步将图像融合分为单模态融合和多模态融合。对于单模态融合，观察图像是由相同类型的传感器生成的，但具有不同的设置。对于多模态融合，源图像来自具有不同成像机制的不同类型传感器，例如红外-可见光融合。无论是单模态还是多模态情况下，虽然源图像存在明显差异，但它们都是从同一场景转换而来，代表着场景的不同（互补）部分。此外，图像融合的目标是保留多个输入的生动信息以生成融合图像。原始场景 ↠ 源图像 ⇒ 融合图像的过程类似于自监督学习中的嵌入表示流程。因此，类似于自监督学习流程，我们将源图像指定为表示扭曲视图的输入，这些输入将通过 $ϕ_θ(·)$ 提取嵌入表示，然后使用投影头生成最终的融合图像。接下来，我们将介绍如何实践原始场景 ↠ 源图像 ⇒ 融合图像的自监督学习方法。

3.2 Details of CUD Pretext Task

在典型的自监督学习范式中，通过在一些预训练任务上训练，学到的嵌入表示具有强大的表征能力，并可以通过有限的监督进行微调，用于下游任务。然而，对于图像融合任务来说，在某些情况下并不总是有可用的监督信息。因此，我们希望在预训练之后就能获得融合结果，而无需额外的监督信息进行微调。

受到这些观察的启发，我们精心设计了一个特定的预训练任务，即常见和独特分解（CUD），用于图像分解和图像融合。CUD任务遵循了数据融合的普遍认可定义，以模拟融合过程，其中图像融合的目标是将不同源图像的互补信息合并成一个合成图像。对于每个源图像，它与其他源图像共享一部分场景信息，同时保留一些独特信息。因此，CUD预训练任务将强制每个源图像被分解为两个部分：独特特征和共同特征。在预训练之后，获得的共同和独特嵌入可以直接用于图像融合任务。

如第3.1节所讨论的那样，未标记的图像 $x$ 对应于图像融合中的原始场景。需要注意的是，我们推测图像融合中的场景包含了最全面的信息，而每个观察到的降质图像 $x_i$ 只能反映原始场景的一部分。在CUD中，我们使用随机遮罩 $M_i$ 和高斯噪声n来模拟降质变换T： ${x}^i = M_i(\boldsymbol {x}) + \bar{M_i}(n), \quad(1)$
- 其中 $\bar{M_i}$ 是遮罩 $M_i$ 的逻辑取反操作符。为简化符号表示，我们只关注源图像数量为2的情况：
  
  ${x}^1 = M_1(\boldsymbol {x}) + \bar {M_1}(n), \quad {x}^2 = M_2(\boldsymbol {x}) + \bar {M_2}(n), \\ s.t. \quad M_1 + M_2 \succ 0.$
  该约束用于确保原始场景中的所有信息都包含在增强图像中。与传统的修复型预训练任务（如修复残缺区域）不同，这里我们用随机噪声填充剩余区域，这将确保一个图像的独特信息与另一个图像的对应部分是相互独立的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0KocR2mz-1688107078667)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230630131445328.png)]

我们在图2中展示了变换后图像的一个简单示例。模拟的图像 $x^1、x^2$ 被输入到DeNet. $ϕ_θ(·)$ 中生成嵌入表示： $f_c, f_u^1, f_u^2 = \phi _\theta (\boldsymbol {x}^1, \boldsymbol {x}^2), \quad(2)$
- 其中 $f_c$ 表示源图像的共同嵌入， $f^1_u和f^2_u$ 分别表示 $x^1和x^2$ 的独特嵌入。
- 类似于自监督学习的流程，我们引入了一些投影头将嵌入表示投影到图像空间中。
  - 对于共同嵌入 $f_c$ ，投影 $\hat{x}_c = P_c(f_c)$ 在图像空间中应接近源图像的交集区域 $x_c = M_1(x) ∩ M_2(x)$ 。类似地， $x^1_u = M_1(x) ∩\bar{M}_2(x)$ 和 $x^2_u =\bar{M}_1(x) ∩ M_2(x)$ 是与嵌入表示 $P_u(f^1_u)和P_u(f^2_u)$ 对应的真实值。由于嵌入表示已经编码了整个语义信息，嵌入表示的投影 $P_r(f_c, f^1_u, f^2_u)$ 应与原始场景x相对应。因此，我们的损失函数计算了四个投影结果与相应原始图像或遮罩区域在像素空间中的平均绝对误差（MAE）。

3.3 Implementation Details

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rI1bUBJP-1688107078667)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230630133539364.png)]

网络的细节。整体网络 $ϕ_θ(·)$ 类似于瓶颈结构，可以防止学习到普通的恒等映射。 $ϕ_θ(·)$ 可以分为三个部分：编码器 $E_θ(·)$ 、集合器 $E^c_θ(·)$ 和解码器 $D^θ(·) = \lbrace{D^u_θ(·), D^c_θ(·)}\rbrace$ 。如图2所示，编码器 $E_θ(·)$ 包括三个最大池化层和残差层，以获得压缩表示，其特征图的大小为H/8×W/8×k。

随后，表示 $E_θ(x^1)和E_θ(x^2)$ 被联合输入到集合器 $E^c_θ(·)$ 中，提取抽象的共享表示，其中集合器 $E^c_θ(·)$ 仅由一个残差层组成。然后，解码器 $D_θ(·)$ 由多个上采样层和残差层组成，用于根据 $E_θ(·)和E^c_θ(·)$ 的不同输出生成相应的嵌入表示。

例如:

嵌入表示 $f^1_u$ 由 $D^u_θ[E_θ(x^1); E^c_θ[E_θ(x^1); E_θ(x^2)$ ]，其中[;]表示连接操作
同样地 $f^2_u = D^u_θ[E_θ(x^2); E^c_θ[E_θ(x^1); E_θ(x^2)]]$ ；
对于嵌入表示 $f_c$ ，它仅以 $E^c_θ[E_θ(x^1); E_θ(x^2)]$ 作为输入。

除了卷积网络 $ϕ_θ(·)$ 之外，投影头 $P_c(·)、P_u(·)和P_r(·)$ 也包括上采样层和具有学习参数的ResNest层。更多细节请参考补充材料。

训练细节。我们在大规模数据集（例如COCO数据集）上使用CUD预训练任务来训练卷积网络 $ϕ_θ(·)$ 和投影头。我们从中选择了5万张图像来构建训练数据集。在训练阶段，我们使用Adam优化器进行训练，共进行50个epochs，批大小为8，初始学习率设置为1e-3，并在每10个epochs后减半。对于数据增强，我们随机调整和裁剪图像大小为256×256。为了更好地模拟退化过程，方程式1中的M被设计为两个具有不同分辨率的随机蒙版的组合。

4.实验

在本节中，我们对DeFusion在多个任务上进行评估，包括多曝光图像融合、多焦点图像融合和可见光红外图像融合。定性和定量的实验结果表明，与最先进方法相比，DeFusion实现了可比甚至更好的性能。在下一小节中，我们只展示了每个融合任务的几个示例，更多定量的融合结果可以在补充材料中找到。

4.1 Comparisons on Different Fusion Tasks

多曝光图像融合。我们将DeFusion与六种最先进的方法进行比较，包括统一融合方法，如CU-Net、U2Fusion、IFCNN 、PMGI ，以及特定任务的融合方法，如DeepFuse、MEFNet 。为了公正和全面地比较，我们在最全面的MEFB基准数据集和最大的SICE数据集上评估比较方法。需要注意的是，MEFB基准数据集包含从多个公共数据集收集的100个图像对。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qwh8wYy4-1688107078667)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230630135759158.png)]

在MEFB基准数据集上的定性结果如图4所示，我们在每个示例中突出显示了两个区域。可以看到，CU-Net存在随机的阴影伪影，而IFCNN在第一个示例中整个图像都显示出颜色失真。MEFNet在融合语义信息方面表现不佳，导致背景不一致的问题。

此外，DeepFuse、PMGI和U2Fusion将RGB图像转换为YCbCr色彩空间，并仅专注于融合Y通道，可能会导致颜色偏移的问题。例如，在第二个样本的突出区域中，这些方法生成的花朵被涂成了橙色，而原始花朵的颜色是黄色的。DeFusion生成的结果在视觉上非常令人愉悦，融合后的物体呈现出一致且均匀的外观，避免了伪影和失真。例如，如第二个样本所示，DeFusion将曝光不足的图像细节引入融合图像中，同时保持过曝光图像的亮度，而不是过曝光图像本身。这表明DeFusion可以通过使用嵌入表示在语义特征级别上融合源图像。

在MEFB和SICE数据集上进行定量比较，结果如表1所示。我们引入了六个常用的度量指标，包括交叉熵（CE）、QCV、SSIM、MEF-SSIM、IS和LPIPS，用于衡量融合图像的质量。由于缺乏真实的标签，所有指标都是通过与两个源图像进行比较计算得出的，与许多先前的工作类似。可以看出，在所有数据集上，DeFusion在CE和SSIM方面排名第一，并在QCV、LPIPS和MEF-SSIM方面取得可比较的结果。

多焦点图像融合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ezt81TgV-1688107078667)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230630141437769.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jEWfb5gZ-1688107078667)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230630141508957.png)]
Real-MFF数据集上的定性结果如图5所示。在数据集和Real-MFF 上的定量比较结果如表2所示。从这些报告的结果中，我们可以得知DeFusion的性能超越了其他无监督方法，并且在性能上达到了通过监督学习训练的IFCNN的可比较水平。

红外可见图像融合。我们将DeFusion与四种先进方法进行比较：IFCNN、FusionGAN、PMGI和U2Fusion。对于红外可见图像融合，TNO 是一个广泛使用的数据集，而RoadScene 是一个具有丰富热纹理的挑战性数据集。我们使用它们来探索比较方法的性能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8HCbv4ub-1688107078667)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230630141704291.png)]

图6显示了RoadScene数据集的一些定性结果。由于物理上的差异，由两个不同相机捕获的源图像差异很大，这可能导致融合方法无法区分目标与背景。例如，FusionGAN将可见图像的目标和红外图像的背景混合在一起，导致融合结果中的目标消失，如第一个示例中的突出区域所示。在图6的第二个示例中，IFCNN、FusionGAN和PMGI仅保留了条纹的边缘，并且在融合结果中缺失了关键的填充色信息。在第三个示例中也出现了类似的现象，FusionGAN和IFCNN无法很好地保留文本信息。此外，对于融合任务来说，将有用的信息保留到融合结果中非常重要。然而，U2fusion倾向于保留过多的红外信息，这可能会导致融合图像中保留一些红外图像的噪声，如第四个示例所示。相比之下，我们的方法可以很好地平衡这些效果并保留更多的语义信息。

定量比较结果如表3所示，我们使用四个指标，即CE、QCV、SSIM和CC来评估所有比较方法。在RoadScene数据集上，DeFusion在CE、SSIM和CC方面排名第一，这表明生成的融合结果与源图像更相似。在QCV方面，DeFusion也取得了可比较的结果。此外，TNO数据集的结果显示与RoadScene数据集的性能类似。

4.2 Visualizing Feature Embeddings

在本节中，我们将通过一些玩具和真实示例来展示我们方法的独特和共同的表示能力。我们从Set5 数据集中选择一些图像作为原始场景，并对它们应用了几种图像增强策略。原则上，这些策略可以分为玩具示例（即第1至第3行）和真实示例（即第4至第5行）。

玩具实验。如图7所示，对于第一个示例，图像增强类似于公式1中定义的方式。在这个样本中，经过预训练网络准确地从两个源图像中分解出了共同和独特的成分。为了进一步验证所提出模型的泛化能力，我们还展示了使用其他与公式1中不同的图像增强方法的结果。在第二个示例中，我们将掩膜形状改变为任意形状，并忽略公式3.2中的约束条件，允许噪声区域重叠。虽然更加困难，但分解和融合结果并没有丢失太多信息。此外，在第三个示例中，我们用零替换噪声以生成源图像。可以看到，预训练网络还可以提取适当的语义特征并将其投影到图像空间中。请注意，最终融合结果显示了掩膜周围的边缘信息，这是由于卷积引起的信息扩散。从这些玩具示例中，我们可以得知通过CUD先验预训练的网络在一定程度上学习了提取语义信息的能力。

一些真实结果。我们不是使用特定的掩膜进行合成，而是将加性白噪声添加到原始图像中两次，可以看作是原始场景的两个增强源图像，以观察我们的模型是否可以获取共同成分（即去噪图像）和独特成分。在第四个示例中，我们向“蝴蝶”图像添加了两个不同的噪声（σ = 10）以生成两个源图像。可以看到，只有共同成分被投影到图像中，而独特成分被禁用。值得注意的是，融合图像和共同图像都是去噪图像。

在最后一个示例中，我们将两个相同的带有σ = 10的噪声图像输入到我们的网络中，融合图像和共同图像的噪声也被移除。这表明我们的网络避免了输入和输出之间的平凡映射，并能够自适应地保留场景的语义信息。

我们还可视化了真实图像融合任务中的中间嵌入表示，如图8所示。以第一个多曝光样本为例，过曝光图像显示了房间内丰富的细节和窗户上无意义的亮度，而低曝光图像展示了窗户外的景色和房间中具有较低清晰度能量的家具。经过DeFusion嵌入多曝光图像对后，我们发现过曝光的独特嵌入中窗户区域没有被激活，但低曝光的独特嵌入中被激活。这表明独特的嵌入能够自适应地区分有效的独特信息和无意义的图像内容。此外，在这种情况下，共同嵌入在窗户和灯的边缘处略微激活，表明这些边缘在两个图像中都很显著。

特别是对于多焦点融合任务，我们可以直观地推断出唯一有用的信息应该与图像的焦点区域相关。然而，很难确定哪些区域应该与源图像的共同信息相关。有趣的是，特征表示的统计信息与我们的猜测一致。为了生动地描述这些统计信息，我们在图8的第二行展示了一个代表性示例。在这种情况下，源图像的独特表示具有比相应的共同表示更高的激活值。此外，焦点区域总是对应于激活的区域。请注意，图8(e)所示的多焦点示例的共同区域完全是黑色的，这可能表明两个图像中没有具有相同程度的虚焦的区域。

5. Discussion and Broader Impact

讨论与局限性：我们设计了一个图像分解模型，遵循图像融合的本质，即整合多个源图像的互补信息并将它们融合起来。由于图像融合中没有自然的图像分解成分，我们设计了一个简单但粗暴的预训练任务，使用带有高斯噪声的遮罩来生成共同或独特的监督信息。需要注意的是，我们不要求训练源图像与图像融合任务的多个输入图像严格对齐，因为我们的目标是训练网络学习将源图像分解为共同和独特成分的能力。我们相信获得的分解特征嵌入可以简化图像融合过程，使得融合图像可以通过一个称为投影器的简单卷积层生成，类似于通常自监督学习中用于分类的最后一个线性层。与自监督学习中各种分类的预训练任务相比，我们提出的图像融合预训练任务简单而远离完美。然而，这个新的想法为联合学习多源图像特征提供了一种新的范式，可能为多源预训练提供新的方向和考虑因素。我们希望这种新的范式能够激发图像融合领域的更多研究工作。

广泛影响：最近，基于图像修复的预训练、基于遮罩的自编码网络预训练在自然语言处理和计算机视觉领域取得了巨大成功。我们的DeFusion方法从这些先前的工作中得到了启发。它可以被视为对这些先前的单视图遮罩自编码方法的扩展，用于多视图遮罩自编码。因此，它提供了一种联合学习多视图图像特征的范式，可能为多视图预训练提供新的方向和考虑因素。

6.Conclusion

    总之，我们提出了一种统一且多功能的图像融合框架，称为融合分解（Fusion from Decomposition）。我们的方法利用了共同和独特分解（CUD）的预训练任务，以获得源图像的有效表示。CUD任务可以以自监督的方式进行训练，并且非常适用于图像融合任务。

通过广泛的实验证明，我们的方法在图像融合方面取得了与先前的无监督和有监督方法相媲美甚至更好的性能。我们还验证了特征嵌入的有效性和模型的泛化能力。

总的来说，我们的融合分解框架为各种图像融合任务提供了一个强大而灵活的解决方案，并且可以以自监督的方式进行训练。我们的方法在性能和泛化能力方面优于先前的方法，并展现出良好的结果。

Fusion from Decomposition: A Self-Supervised Decomposition Approach for Image Fusion