持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第26天，点击查看活动详情

code：hli1221/Imagefusion_deepfuse: Image fusion based on deepfuse network - Tensorflow (based on ICCV2017: deepfuse), Unofficial (github.com)
年份：2017
会议：ICCV
实验室：视频分析实验室，计算和数据科学系，印度科学研究所，班加罗尔，印度
博主记：
- 本文为基于深度学习的多曝光图像融合算法（可以说是半监督学习在多曝光图像融合的开篇之作）
- 以下为对原文内容进行翻译与整理，希望对领域的初学者有所帮助！！！

Abstract

文章要点： 提出了一种新的用于融合静态多曝光图像的深度学习体系结构

背景：

目前的多曝光融合(MEF)方法使用手工制作的特征来融合输入序列。

然而，弱手工制作的表示对变化的输入条件并不鲁棒。而且，它们在极端曝光的图像对上表现不佳。

因此，非常希望有一种方法能够适应不同的输入条件，并且能够处理极端的曝光而不产生伪影。

扫描二维码关注公众号，回复： 14324676 查看本文章
深层特征被认为对各种输入条件具有鲁棒性，并在有监督的设置中显示出惊人的表现。

然而，在MEF中使用深度学习的障碍是缺乏足够的训练数据和提供ground truth用于监督。

解决方法：

收集了大量的multi-exposure image stacks的数据集用于训练
为了避免ground truth images的需要，我们提出了一个无监督的MEF深度学习框架，使用无参考度量作为损失函数。

实验设置：

**CNN模型：**融合了从每幅图像中提取的一组常见的低级特征，从而产生了无伪影的、令人愉悦的视觉效果。
**实验评估：**进行了广泛的定量和定性评估，结果表明，对于各种自然图像，所提出的方法优于现有的最先进的方法。

Introduction

HDRI：

高动态范围成像（HDRI） 是一种摄影技术，有助于在不同光线条件下 拍摄更好看的照片。它有助于存储人眼可感知的所有范围的光（或亮度），而不是使用相机获得的有限范围。

MEF：

目前流行的HDR图像生成方法称为多曝光融合(Multiple Exposure Fusion, MEF)，它将一组具有不同曝光量的静态LDR图像(进一步称为曝光堆栈)融合成单个HDR图像。
长曝光图像（用高曝光时间拍摄的图像）在黑暗区域具有更好的颜色和结构信息，而短曝光图像（用较少曝光时间拍摄的图像）在明亮区域具有更好的颜色和结构信息。

现有方法的不足：

需要比较多的LDR图像进行融合，以捕获场景的整个动态范围。当曝光堆栈中每个LDR图像之间的曝光偏差最小时，大多数MEF算法才工作得更好。这会导致更多的存储需求、处理时间和功耗。
现有方法无法在图像上保持均匀的亮度。

本文方法： 一种数据驱动的学习方法融合曝光括号静态图像对

第一个使用深度CNN架构进行曝光融合的作品。
模型架构： 初始层由一组滤波器组成，用于从每个输入图像对中提取常见的低级特征。融合输入图像对的这些低阶特征（low-level features）来重建最终的结果。
模型训练： 整个网络使用无参考图像质量损失函数（no-reference image quality loss function） 进行端到端训练。

实验设置与评估：

使用大量不同设置（室内/室外、日间/夜间、侧光/背光等）拍摄的曝光堆栈来训练和测试模型。
模型不需要针对不同的输入条件进行参数微调。
通过广泛的实验评估，证明了所提出的体系结构在广泛的输入场景中比最先进的方法表现得更好。

文章贡献：

一种基于CNN的无监督图像融合算法，用于融合曝光叠加静态图像对。
一个新的基准数据集，可用于比较各种MEF方法。
针对各种自然图像的7种最先进算法进行了广泛的实验评估和比较研究。

Related Works

基于权重图的融合方法
边缘伪影问题以及一些提出的解决方法
依赖于手工制作特征进行图像融合的方法的鲁棒性不强
CNN的优点与广泛应用

Proposed Method

一种基于CNN的图像融合框架

数学定义：

input exposure sequence: $I$
fusion operator: $O(I)$
feed-forward process: $F_W(I)$
loss function: $MEF\;SSIM$

MEF SSIM基于结构相似性指数度量（SSIM）框架[27]。它利用输入图像序列中单个像素周围的补丁统计信息与结果进行比较。它测量结构完整性的损失以及多尺度下的亮度一致性。

流程图：

在这里插入图片描述

输入曝光堆栈转换为YCbCr颜色通道数据。
CNN用于融合输入图像的亮度变化。

图像结构细节存在于亮度通道中，并且亮度通道中的亮度变化比色度通道中的亮度变化更显著。
获得的亮度通道与使用加权融合方法生成的色度（Cb和Cr）通道相结合

1、网络架构（DeepFuse CNN）

three components: 特征提取层、融合层、重建层
input images: the under-exposed and the over-exposed images ( $Y_1$ and $Y_2$ )
**share same weights: **C11 and C12 (C21 and C22)
网络设计（共享权值）的优点：
- 强制网络从图像对学习到相同的特征。→ 融合层可以简单地组合各自的特征图。
- 需要学习的滤波器数量减半
- 网络的参数数量较少，因此收敛速度很快

2、MEF SSIM loss function

$\{y_k\}=\{k=1,2\}$ : image patches extracted at a pixel location $p$ from input image pairs
$y_f$ : the patch extracted from CNN output fused image at same location $p$
目标：计算一个score，用于表示 $y_k$ 到 $y_f$ 的融合性能
SSIM framework: any patch can be modelled using three components: structure (s), luminance (l) and contrast (c).
- The given patch is decomposed into these three components:
- Desired contrast value（对比度越高，图像质量越好）
- The structure of the desired result：
- Desired result patch:
  
  由于局部patch中的亮度差异不重要，因此从上述等式中丢弃亮度分量
- The final image quality score for pixel $p$ is calculated using SSIM framework:
- The total loss:

3、模型训练

收集了25个公开的曝光堆栈HDR database-可能需要翻墙
还策划了50个具有不同场景特征的曝光堆栈。这些图像是用标准的相机设置和三脚架拍摄的。
2 LDR images (±2 EV)
大小：1200×800
室内和室外场景
30000 patches of size 64×64 were cropped for training
learning rate: $10^{-4}$
100 epochs

4、测试

模型测试：standard cross-validation
融合策略：
- 亮度通道（Y）：trained CNN
- 色度通道（ $Cb_{fused}$ and $Cr_{fused}$ ）：weighted sum ( $\tau$ =128)
偏差计算：
- 亮度通道：MEF SSIM损失公式用于计算两个灰度（Y）图像之间的分数
获得融合图像：converting { $Y_{fused}, Cb_{fused}, Cr_{fused}$ } channels into RGB image

Experiments and Results

**数据集：**选择标准图像序列以覆盖不同的图像特征，包括室内和室外、白天和夜间、自然和人工照明、线性和非线性曝光

**对比的MEF算法（7种）：**Mertens09、Li13、Li12、Ma15、Raman11、Shen11、Guo17

**评估指标：**MEF SSIM

1、DeepFuse - Baseline

实验方法：

DF-Baseline：使用其他MEF方法生成的融合图像作为ground truth，训练CNN，损失函数分别在 $l_1,l_2,SSIM$ 上进行测试
- 当CNN使用 $l_2$ 损失函数进行训练时，融合图像出现模糊。
- $l_1$ 损失的结果比 $l_2$ 损失的结果更清晰，但边缘有光晕效应
- $SSIM$ 损失函数的结果不仅清晰而且无伪影【最佳选择】
DF-UnSupervised：本文提出方法

实验结果：

DeepFuse无监督基线法的优越性能
DF-Baseline方法由于使用其他方法的融合图像作为ground truth，性能受到这些融合图像的限制，因此表现一般

2、Comparison with State-of-the-art

Mertens：

一种简单有效的基于加权的多分辨率图像融合技术
不足：
- 无法在整个图像中保持一致的亮度
  - 不能保留曝光不足图像的完整图像细节

Li:

出现非均匀亮度伪影

Shen:

对比度损失和非均匀亮度失真

云区存在亮度变化。与其他区域相比，气球之间的云区域显得更暗。

Ma:

一种基于patch的融合算法，该算法根据patch强度从输入图像中融合面片。使用每个patch上的幂加权函数计算贴片强度。
不足：这种加权方法会沿边缘引入光晕效应

**Raman: **

颜色畸变和对比度损失

本文方法：

能够忠实地重现输入对中的所有特征
融合结果没有伪像，例如较暗的区域和不匹配的颜色
保留更精细的图像细节以及更高的对比度和鲜艳的颜色
执行速度比Mertens的方法快3-4×

DeepFuse可以通过在合并层之前添加其他流来轻松扩展到更多输入图像。

对于3和4个图像的序列：

sequences DF Mertens et al.

3 0.987 0.979

4 0.972 0.978

sequences	DF	Mertens et al.
3	0.987	0.979
4	0.972	0.978

3、 Application to Multi-Focus Fusion

CNN具有一定的通用性，可以拓展到其他图像融合任务上，如：多焦点图像融合

Conclusion and Future work

本文提出了一种有效的融合多种曝光水平图像对的方法，能够输出无伪影以及感知良好的融合结果
DeepFuse是第一个无监督的深度学习方法应用到静态MEF
方法从每张输入图像中提取普通的低水平特征，然后融合层对这些特征进行融合生成一张融合特征图，最后融合特征经过重建层得到最终的融合图像。
本文在一个具有多种设置的庞大的多曝光堆栈进行模型训练和测试
本文的模型对于各种输入设置无效调整参数
在定量和定性评估中相比最先进的MEF算法取得更好的效果

论文笔记：DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exp