持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第29天，点击查看活动详情

【引用格式】：J. Li et al., "DRPL: Deep Regression Pair Learning for Multi-Focus Image Fusion," in IEEE Transactions on Image Processing, vol. 29, pp. 4816-4831, 2020, doi: 10.1109/TIP.2020.2976190.
【开源代码】：github.com/sasky1/DPRL

一、瓶颈问题

1、基于Patch策略获得源图像聚焦区域的方法的局限性

与空域融合方法类似，这些基于深度学习的方法首先将整个图像分割成大小和步长固定的重叠块，然后在这些块的基础上进行后续操作。这种基于patch的策略的一个局限性是很难对同时包含部分聚焦和部分散焦像素的边界区域进行分类。此外，这也相当耗时，因为源图像会生成大量的patch，与我们的实时要求相去甚远。

2、基于全卷积网络的方法的局限性

[16]和[17]中的作者通过利用完全卷积网络避免了基于patch的策略。然而，它们仍然无法提取有价值的补充信息和多样化的训练集等，对融合图像的质量影响较差。

二、本文贡献

1、An end-to-end architecture to convert each pixel into a binary code

提出了一种端到端的结构，将每个像素转换为二值编码，以确定它是聚焦还是散焦。避免了patch分解，并大大加快了推理速度。

2、A pair learning strategy

引入了一种以互补源图像为输入并估计其对应的二值映射的配对学习策略，显著提高了融合图像的质量。

3、An edge-preserved technique and a structure similarity measurement

为了进一步提高融合图像的质量，在模型中嵌入了边缘保持技术和结构相似性度量。

4、A synthetic multi-focus image dataset

使用各种具有挑战性的模板生成合成多聚焦图像数据集。它由数千幅成对的图像以及相应的遮罩组成，使我们能够更实际地训练网络。

5、Experimental results

在合成数据集和真实数据集上的实验结果表明，与现有的多聚焦图像融合方法[6]、[9]、[14]、[18]-[21]相比，该方法是有效和优越的。

概括

本文提出了一种新的端到端方法，该方法包括数据生成、像素到像素回归、配对学习、结构相似性度量和边缘保持，能够输入整个图像，预测每个像素的隶属度，并达到最先进的性能。

三、解决方案

在这里插入图片描述

1、Objective Function

1）Regression Pair Learning

一般方法：

在这里插入图片描述

$f(I_i)$ 是分类器的输出值， $M_i$ 是 ground-truth masks，目标是最小化输出与标签的 $l_1$ 距离损失

然而，它忽略了每对图像之间的关系。为了解决这个问题，引入配对学习

配对学习：充分利用每对图像之间的互补相关性

在这里插入图片描述

前两项来投影位于相同位置上不同模糊级别的的像素为0或1，即使得输出 $f(I_i)$ 趋近于0或1

第三项强制使成对的输出彼此具有约束，确保它们彼此互补，并防止位于两个源图像的相同位置上的像素被估计为相同的值。即使得两张图同一位置的像素能够分为不同类别

2） SSIM Measurement

为了进一步保持生成图像和源图像之间的对应位置的结构相似性，通常应用结构相似性指数(SSIM)：

在这里插入图片描述

$SSIM\in[0，1]$ 越大，这两个图像之间的相似度就越高。

本文使用SSIM来度量fused image与其ground truth reference之间的相似度

融合图像：
图a的二值图像：
图b的二值图像：
融合图像与Ground Truth图像SSIM损失：

3） Edge Preservation

聚焦的部分包含清晰的边缘，而模糊的部分没有这一属性。

如图2所示，我们可以看到，纹理细节确实存在于聚焦部分的边缘，但如果将该部分转换为平滑部分，则会丢失纹理细节。

在这里插入图片描述

因此，保留融合图像 $I_f$ 的边缘信息是合理的，该边缘信息也存在于Ground Truth Reference $I_g$ 中。

梯度损失计算如下：

在这里插入图片描述

增加梯度损失，有助于防止深度卷积网络产生模糊图像
公式6可以通过pytorch的autograd strategy反向传播计算得到

4）总的损失

在这里插入图片描述

2、 Training Data Generation

以往方法直接使用全聚焦、全失焦图像训练分类器，这种操作与实际的场景相差甚远

在这里插入图片描述

图像来源： ImageNet Large Scale Visual Recognition Challenge 2012 (ILSVRC2012)
图像筛选：从ImageNet手动选择1,040张全焦图像
图像裁剪：按照步长64将 256 × 256的源图像裁剪成9张大小为128×128的子图，总共9,360 张图
模糊方法： Gaussian filter （standard deviation of 1.5 and cut off of 7 × 7）
模糊级别：三个不同的模糊级别（模糊操作依次叠加）
构建掩码模板：手动绘制二进制掩码（如图3所示）
构建图像对：随机选择一个mask模板，生成多聚焦图像对

在这里插入图片描述

合成数据集：9,360 × 3=28,080对（训练集： 20,000 pairs）

3、 Implementation

1）模型架构

左侧为模型结构，右侧对应左侧三种Block的详细结构。（此图为论文图像向左旋转90°后的图像）

在这里插入图片描述

2） Training Details

略

4、 Discussion：与 CNN, MLFCNN, MFNet, FCN, and MLCNN方法对比

像素分类问题：
- CNN and MLFCNN：源图像划分成patch输入到分类器进行分类
- MFNet：通过相似性度量直接得到patch的值
- 问题：难以对包含部分聚焦像素和部分散焦像素两者的边界区域进行分类
- DRPL：通过逐个像素的方式直接对源图像进行回归
生成决策图质量问题：
- FCN：两张图像单独预测
- 问题：无法有效利用图像对的互补信息，生成的决策图质量较差，需要后处理，人工调参
- DRPL：配对学习策略（pair learning strategy）
生成融合图像策略：
- MLCNN：端到端生成融合图像、训练集仅包含全聚焦和全散焦图像
- 问题：训练集不符合实际情况，输出的融合图像可能存在亮度和颜色失真的问题
- DRPL：使用预测的决策图生成融合图像，训练集包含聚焦区域和散焦区域的多聚焦图像

四、实验

1、实验设置

测试图像：合成数据集和真实数据集
对比方法：
- 合成图像的定性和定量结果：CNN [14], MFNet [18], CVT [20], DWT [19], ASR [6], CSR [21], and FPDE [9]
- 真实图像： CNN and MFNet （CNN-based方法仅有这两个方法有开源代码）
评估指标（真实图像）：
- $Mutual Information (MI)$ ：度量从源图像到融合图像的信息量
- $Q^{AB/F}$ ：度量从源图像传输到融合图像的边缘信息量
- $Average Gradient (AG)$ ：计算融合图像的梯度信息（细节和纹理）
- $Visual Information Fidelity (VIF)$ ：根据人类的视觉系统来计算两个随机变量之间的失真
- $Edge Intensity (EI)$ ：测量图像的边缘强度信息

2、 Experiments on Synthetic Images

1） Comparison With Conventional Fusion Methods

对比方法：CSR、FPDE、ASR、CVT、DWT和DRPL
对比结果：DRPL在细节保留上优于传统方法

在这里插入图片描述

2） Comparison With CNN Based Fusion Methods

对比方法：CNN、MFNet和 DRPL
定性评估结果：
- （第1、2行）当模糊部分在大范围内连续时，CNN、MFNet和DRPL取得了令人满意的结果。
- （第3行）当模糊部分较窄时，CNN和MFNet无法估计准确的掩模。随着掩模复杂度的不断增加，本文的DRPL方法得到的图像比CNN和MFNet方法得到的图像要好得多。【原因分析：CNN和MFNet将图像分割成多个小块，直观地将只有一小部分模糊像素的块分配到聚焦类别，导致性能下降。】
- （第4、5行）masks包含一些相当窄的线，这些线在每个贴片中只占很小的比例。因此，很容易遗漏--将它们全部归入一个类别。相比之下，DRPL专注于估计每个像素的模糊程度，可以有效地克服上述局限性，无论模糊部分或聚焦部分只占很小的比例，都能获得满意的结果。

定量评估结果：下表列出了峰值信噪比(PSNR)和SSIM及其标准差值。显然，CNN和MFNet明显不如本文提出的方法

在这里插入图片描述

3、 Experiments on Real-World Images

测试数据集： Lytro

1） Comparison With Conventional Fusion Methods

对比方法：CSR、FPDE、ASR、CVT、DWT和DRPL
定性评估结果：
- CSR和FPDE：融合图像相当模糊
- ASR虽然能够获得比CSR和FPDE更清晰的图像，但它会导致颜色失真。
- 与CVT相比，我们提出的**DRPL方法在获取细节方面具有更高的质量**。
- 与DWT相比，DRPL得到的融合图像在边界上更加自然，符合人类的视觉感受，而DWT得到的融合图像受到伪影的影响。

在这里插入图片描述

定量评估结果：
- DRPL在所有指标上都获得最佳性能
- 从各个指标对比可以看出DRPL方法的性能远超传统方法和现有的CNN-based方法

在这里插入图片描述

2） Comparison With CNN Based Fusion Methods

对比方法：CNN、MFNet和DRPL
定性评估结果：
- 图8显示了由CNN、MFNet和DRPL获得的多个源图像对及其融合图像，并且在这些示例中还提取了放大区域。
  - DRPL能够合并纹理更清晰的图像，而CNN和MFNet在放大区域中非常模糊。【分析：在这种情况下，源图像中的聚焦或散焦部分非常离散和狭窄，这增加了聚焦/散焦估计的难度。对于CNN和MFNet，它们经常在图像块中包含部分网格，这很难做出准确的估计。然而，DRPL不是基于面片的分类，而是直接将每个像素转换为其相应的遮罩元素，以防止受到焦点和散焦位置的影响。】
  - 此外，图8中的其余示例也显示了**DRPL的优越性，尤其是在聚焦和散焦区域之间的边界周围**。
- 图9还示出了对应于图8中的融合图像的掩码。对于这四个项中的每一个，它们分别表示由CNN获得的未经后处理的掩码、由CNN经后处理获得的掩码、由MFNet经后处理获得的掩码和由DRPL获得的掩码。
  - 在红色块中，可以看到CNN未能对一些像素进行分类。虽然后处理可以处理一些错误的小区域，但它也**会错误地将一些准确分类的区域转换为错误的区域**，如第一个红色块所示。
  - 从绿色块可以很容易地观察到，本文提出的方法**DRPL也能够比CNN更精确地估计边界**。
  - MFNet不仅对一些类似于CNN的小区域进行了错误分类，而且聚焦区域和散焦区域之间的边界也很粗糙。

在这里插入图片描述

定量评估结果：
对与图8对应的融合图像的定量评价列于表III
- 与其他基于CNN的策略相比，DRPL在大多数情况下在 $AG$ 、 $VIF$ 和 $EI$ 上实现了更好的性能。
- 对于 $MI$ 和 $Q^{AB/F}$ ，本文方法得到的结果也与CNN和MFNet得到的结果具有竞争性。

在这里插入图片描述

表IV进一步评估了Lytro数据集上各种方法获得的五个指标的平均值。
- 与传统的融合方法包括CSR、FPDE、ASR、CVT和DWT相比，所有指标都有显著提升。
- 对于基于深度学习的CNN和MFNet方法，尽管DRPL在MI上略逊于它们，但在其余指标上取得了最好的性能，证明了其有效性。

在这里插入图片描述

本文还对另外两个真实数据集进行了进一步的实验：Saeedi和Faez[52]]以及Savíc和Z.Babíc[53]。图10显示了几个示例以及Lytro数据集中的另外两对示例。
- 可以看到DRPL与CNN和MFNet相比取得了更好的性能。特别是，边界区域周围有显著的改进，这证明了本文提出的方法的鲁棒性和优越性。

在这里插入图片描述

实验总结

与真实图像相比，DRPL在合成图像上取得了更显著的改善。主要原因是训练数据的分布与合成测试图像的分布几乎完全相似，因为它们都是通过跟随数据生成而生成的。事实上，与其他现有的基于深度学习的图像融合方法类似，采用合成图像作为训练集是一种普遍的策略，因为很难获得真实世界中的多聚焦图像的地面真实。然后将对合成图像训练的模型应用于融合真实世界的图像。
虽然本文提出的数据生成方法旨在使生成的数据多样化，但实际数据和合成数据之间仍然存在差异。这就是为什么**真实世界图像的改善没有合成图像那么显著**的原因。
与现有的CNN、MFNet、CVT、DWT、ASR、CSR和FPDE等方法相比，本文提出的方法DRPL在融合图像的定性和定量评价指标上仍然保持了优势。

4、Model Analysis

1） Objective Function Analysis

目的：证明配对学习、SSIM度量和边缘保持对获得高质量的DRPL融合图像做出了贡献
实验结果：

在这里插入图片描述

实验分析：
- 当配对学习策略从我们的框架中移除时，所提出的方法会出现很大的性能下降，这表明了该策略的重要性。
- 从case3和case4可以看出**SSIM和边缘保持策略都有利于我们的多聚焦图像融合任务**

2） Parameter Analysis

在这里插入图片描述

目的：为了进一步证明λ1、λ2和λ3的影响
从Tab.V看看到 L1起着关键作用，而L2和L3对性能改进的贡献相似，但很小。
为了减少参数调整工作量并且不损失通用性，设置设置λ2=λ3，以使SSIM损失的重要性等于梯度损失的重要性。
为了测试三个超参数的最优值，分别固定λ2/λ3为0.1并从{0.001、0.01、0.1、0.4、0.8、1.2、1.6、2}中选择λ1。类似地，固定λ1为0.8，λ2/λ3从{0，0.001，0.01，0.1，0.5，1，1.5，2}中选择。
实验结果表明：当λ1和λ2/λ3在[0.8，2]和[0.01，2]中时，DRPL可以获得鲁棒性能。因此，本文实验根据经验将λ1、λ2和λ3分别设置为0.8、0.1和0.1

在这里插入图片描述

3） Loss Function Analysis

实验方法：将 $l_1$ 替换为 $CE$ （交叉熵损失）

在这里插入图片描述

实验结果： $L_1$ 略优于 $CE$ ，表明本文提出的方法是相当稳健的不同类型的损失函数

在这里插入图片描述

4） Network Analysis

目的：分析 residual blocks数量的合理性、模型第一层采用9×9卷积的重要性
实验结果：
- 网络收缩（减少residual blocks）时，会导致性能下降。随着剩余块数的增加，DRPL满足鲁棒性能，为了在时间复杂度和性能之间取得平衡，本文将esidual blocks的数量设为12
- 将其替换为3 × 3，可以看到DRPL在PSNR上有显著的下降，这说明了9 × 9大小的kernel在第一层的重要性。

在这里插入图片描述

5） Time Cost Analysis

背景；与CNN和MFNet将整个图像分割成大量面片，从而在测试阶段给出一对源图像时增加时间成本不同，DRPL直接将整个图像输入到全卷积网络中，进行像素到像素的回归，大大降低了计算复杂度。
实验结果：表IX列出了“Lytro”数据集的平均时间成本，可以看到DRPL的时间成本大约是CNN和MFNet的1/3倍。

在这里插入图片描述

6） Data Generation Strategy Analysis

背景：不同于现有的基于深度学习的多聚焦图像融合方法只使用全焦或全模糊的斑块作为输入，本文提出的方法生成的合成图像既有聚焦部分又有散焦部分，更具实用性和挑战性。
实验方法：将输入图像(混合有聚焦和散焦部分)替换为全焦或全离焦图像
实验结果：
- 移除混合多聚焦图像，性能会下降，这证明了我们的合成数据生成策略的有效性。【DRPL-only较差的原因是训练图像太简单，无法强制网络学习模糊部分和聚焦部分之间的差异。】
- 实验中发现DRPL-only很容易**过拟合**，这相对证实了我们的数据生成方法的重要性。

在这里插入图片描述

7） Post-Processing Analysis

背景：CNN和MFNet通过进行小区域删除和引导过滤操作来进行后处理。他们首先利用一致性验证从初始掩码中移除小区域，在初始掩码中可以根据预定义的阈值手动调整比率。尽管此步骤提高了聚焦或散焦区域的一致性，但因为在一些正确的小区域填充了不期望的值，因此**会导致一些错误分类，如图9中的masks所示。此外，由于阈值是手动调整的，而现实世界的图像具有很大的多样性，因此很难选择最佳阈值，增加了实际应用的难度。此外，在去除小区域之后，后处理将应用引导滤波器来平滑边界，这可能模糊融合图像中的边界部分**，这可以在图8中验证。
实验结果：对使用和未使用后处理的DRPL方法的结果进行对比。（实验中非常仔细地调整了引导滤波器中的参数，以实现聚焦/散焦一致性和边界模糊之间的平衡）
- 图12给出了合成图像和真实图像的两个典型示例。虽然DRPL估计的掩模会遇到一些误分类的部分，但大多数都在平滑的背景中，颜色和纹理变化很小，对融合图像的影响很小。
- 在后处理之后，在边界周围的像素会变得模糊。表XI列出了这两个示例的定量评估。这相对地反映出，对于DRPL来说，后处理对我们的融合任务没有贡献。

在这里插入图片描述

五、其他

1、总结

本文提出了一种新的用于多聚焦图像融合的深层结构。该方法不需要将图像分割成大量的面片并根据分类估计这些patches的模糊程度，而是通过像素到像素的回归，将整个图像直接映射到一个掩模上，这有利于在边界区域获得更高的质量并加快前进的步伐。

本文的网络利用pair learning来有效地学习每对源图像之间的互补信息。
此外，我们还引入了SSIM measure和edge preservation，不仅使生成的图像在结构上与ground-truth参考相似，而且保留了更多的纹理细节。
在合成数据集和真实数据集上进行的实验结果证明了该方法的有效性，以及pair learning、SSIM measure和edge preservation的重要性。

论文笔记：DRPL: Deep Regression Pair Learning for Multi-Focus Image Fusion（2020 TIP）

一、瓶颈问题

1、基于Patch策略获得源图像聚焦区域的方法的局限性

2、基于全卷积网络的方法的局限性

二、 本文贡献

1、An end-to-end architecture to convert each pixel into a binary code

2、A pair learning strategy

3、An edge-preserved technique and a structure similarity measurement

4、A synthetic multi-focus image dataset

5、Experimental results

概括

三、 解决方案

1、Objective Function

1）Regression Pair Learning

2） SSIM Measurement

3） Edge Preservation

4）总的损失

2、 Training Data Generation

3、 Implementation

1）模型架构

2） Training Details

4、 Discussion：与 CNN, MLFCNN, MFNet, FCN, and MLCNN方法对比

四、 实验

1、实验设置

2、 Experiments on Synthetic Images

1） Comparison With Conventional Fusion Methods

2） Comparison With CNN Based Fusion Methods

3、 Experiments on Real-World Images

1） Comparison With Conventional Fusion Methods

2） Comparison With CNN Based Fusion Methods

实验总结

4、Model Analysis

1） Objective Function Analysis

2） Parameter Analysis

3） Loss Function Analysis

4） Network Analysis

5） Time Cost Analysis

6） Data Generation Strategy Analysis

7） Post-Processing Analysis

五、其他

1、总结

猜你喜欢

二、本文贡献

三、解决方案

四、实验