基于CNN的HDR重建(一多帧的)

这篇文章简要叙述2017-2018 几篇HDR相关的论文，尤其基于CNN的HDR。

对于动态场景来说，从一组不同曝光的图像中生成高动态范围(HDR)图像是一个具有挑战性的过程。

这个问题可以分为两个阶段:1)对齐输入的LDR图像，2)合并对齐的图像到HDR图像。

方法主要分为两类：一种直接基于LDR对齐融合，一种是先通过相机响应函数线性化这些输入图像（一般就是一个单调的非线性函数），将LDR图像转为HDR域，然后在HDR域进行融合得到HDR图像。另外一种是直接基于LDR（低动态图像，一般8bit）图像合成伪高动态图像HDR（也是8bit，只是效果看起来像高动态范围图像，即过曝光以及欠曝区域减弱）。

CNN多帧：

1 Deep High Dynamic Range Imaging of Dynamic Scenes 2017SIGGRAPH

2 Deep High Dynamic Range Imaging with Large Foreground Motions 2018ECCV

3 Learnable Exposure Fusion for Dynamic Scenes 2018

4 DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 2017

CNN单帧：

ExpandNet: A Deep Convolutional Neural Network for High Dynamic Range Expansion from Low Dynamic Range Content 2018 EUROGRAPHICS

Image Correction via Deep Reciprocating HDR Transformation 2018 CVPR

Deep Reverse Tone Mapping 2017

传统：

PHOTOMONTAGE FOR ROBUST HDR IMAGING WITH HAND-HELD CAMERAS 2018 ICIP

Multi-Exposure Image Fusion by Optimizing A Structural Similarity Index 2018

1 Deep High Dynamic Range Imaging of Dynamic Scenes

现有HDR技术首先将输入图像对齐到参考图像，然后将对齐的图像合并得到HDR图像。然而，在最终的HDR图像中，对齐的artifact通常以重影和撕裂的形式出现。而该论文发现，在合并期间，对齐的artifact可以显著减少，它需要检测带有artifact的区域，并将它们从最终结果中排除。因此该论文也主攻融合这一块，靠融合解决artifact，作者采用CNN进行融合, 论文强调基于学习的系统能够通过检测这些区域并将它们从最终结果中排除，从而生成高质量的HDR图像。

本文三大贡献：

1提出了第一种基于机器学习的方法，用于从一组曝光包围的动态场景下的LDR图像重建HDR图像动态场景的HDR图像（创意在于采用了CNN），流程见上图。

2 展示三种不同的系统架构并对它们进行广泛的比较，充分地探讨本文提出的融合方法。

3 介绍了第一个适合于HDR重建学习的数据集，可以为今后该领域的学习研究提供便利。（制作过程值得其他图像任务借鉴）

一．整个HDR重建流程和主要思想

1 ）预处理：输入的LDR图像可以是动态的场景，它们之间有相当大的运动（其实主要是前景运动场景），作者先通过伽玛校正把图像映射到一个更接近我们眼睛感知的区域（场强域），注意，这个过程将原始CRF替换为伽马曲线，伽马曲线用于将图像从LDR映射到HDR域，反之亦然。

2）对齐：对齐的方法很多，去不一致性，基于特征匹配等，这里作者采用光流法进行对齐。

3）融合：提出并比较三种不同的系统架构来建模HDR合并过程，其中作者提到，通常，我们需要在LDR和HDR域中对齐图像来测量它们的质量，LDR域内的图像是检测噪声区域或饱和区域所必需的。例如，一个简单的规则是考虑所有较小的像素（小于0.1）以及较大的像素（大于0.9）分别代表噪声和饱和区域。此外，HDR域内的图像可以通过测量与参考图像的偏差量等方法来帮助检测对齐问题。因此输入既需要LDR还需要HDR域图像。

二：数据集

我们通过提出一种创建一组具有运动的LDR图像及其对应的地面真值图像的方法来解决这个问题，具体地说，我们使用从静态场景中捕获的三张带括号的曝光图像生成ground truth HDR图像。然后，我们捕捉另一组三个包围的曝光图像的同一场景的运动。最后，我们用静态图像代替动态图像中的中等曝光图像。我们用这种方法创建了一个包含74个训练场景的数据集，并通过数据扩充对其进行了扩展。

其样本制作过程值得低级图像处理任务借鉴。我们要求受试者保持静止，在三脚架上捕捉三个曝光包围图像，然后将它们组合起来生成地面真值图像。我们还要求受试者移动并捕捉另一组曝光包围图像。我们通过从这个动态集合中获取高曝光和低曝光的图像，以及从静态集合中获取中曝光的图像来构建我们的输入集合。采用这种数据集可以学习融合具有前景运动的场景图像。

我们以原始格式捕获了所有的图像，使用佳能EOS-5D Mark III相机进行获取，分辨率为5760×3840。减少在静态设置中可能的偏差,我们downsampled图像(包括动态集)的分辨率为1500×1500。为了保证训练集的多样性，我们拍摄了由两个或者三个停顿的包围曝光图像。在采集数据的过程中，我们仍然不得不放弃其中四分之一的场景，主要是因为它们包含了令人无法接受的动作（树叶或者人物）。真值融合方法：Debevec and Malik [1997]。

2 Deep High Dynamic Range Imaging with Large Foreground Motions

该论文利用Deep High Dynamic Range Imaging of Dynamic Scenes提供的数据集设计了一个端到端的HDR重建网络，该论文认为网络也可以具有对齐功能，因此只是简单地采用单映射将输入图像进行背景对齐。然后直接输入三张LDR图像，输出HDR图像。

对齐问题涉及到前景运动和背景运动，即全局运动和局部运动，而且这些运动也是不可避免的，而全局运动的问题通过一些变换可以解决，局部运动则不好解决。因此解决这个问题的许多现有解决方案都倾向于在最终的HDR映像中引入工件或重影，或仅将未对齐区域中的像素作为离群值剔除，未能合并未对齐的HDR内容。

该论文将HDR成像问题表述为图像转换问题。框架本质上是一个对称的编码器-解码器架构，有两个变体，Unet和ResNet。

整个操作流程：

1 预处理，LDR+HDR:作者根据上一篇论文，通过辐射校准获得HDR域图像，这里作者采用伽马校正来近似。这样输入包含3张LDR图像和3张HDR域图像，并且为了使HDR域图像的强度相同，作者将转换得到的HDR域图像除以相应的系数，这里系数由曝光值得到，曝光值采用相对值（0，2，4）或者（0，3，6），这样使得HDR域图像尽量强度接近。对齐：作者会简单的将背景对齐一下，单应性可能不会产生完美对齐的一个特殊情况是饱和区域存在视差效应。最终的HDR输出可能比较模糊。

2 网络结构：U-Net等一般图像转换采用的网络结构，或者残差网络。

3 LOSS：作者采用了简单的tonemapping函数对HDR图像进行范围压缩，计算tonemapping后的图像之间的L2 loss。

PS：

原模型的反卷积不行，存在马赛克问题，数据集制作：SIGGRAPH17_HDR_Deep High Dynamic Range Imaging of Dynamic Scenes。可以考虑采用亚像素进行上采样。

该网络结构可以扩充到更多输入图像情况。

论文最后提到：虽然该论文的优势很明显，但这还不是一个完美的解决方案。他们也观察到用最小输入LDR恢复大量饱和区域的挑战。今后，我他们努力结合高级知识来促进这种恢复，并设计一种更强大的解决方案。

3 Learnable Exposure Fusion for Dynamic Scenes

Huawei German Research Center,该文章主要解决因为场景运动或者相机运动产生的匹配问题。 1 该论文针对HDR数据集缺少的问题，文章提出采用立体匹配的数据。1另外作者认为细节增强和移除运动伪影的虚影工件的任务可以合并到一个框架中，并提出了一个框架。这偏论文的HDR属于曝光融合，产生的结果是伪HDR图像。

作者首先基于FlowNet网络训练了一个模型，但是结果出现马赛克等问题，作者认为问题原因是：这些伪影的原因是网络的细化阶段无法重构压缩部分下采样丢失的图像细节。此外，训练后的模型在学习改进参考图像各区域细节的表示和学习抑制由于运动/场景差异导致的输入图像之间的不一致性之间存在冲突。另外本身ground-truth的质量问题限制了获得高动态图像的效果。因此作者针对这些问题进行几点改进：

通过改善网络的收缩和细化部分之间的连接，减少输出图像中的方形工件：

前后特征添加长连接

为动态场景的可学习曝光融合任务提出了一种替代方案，将其分解为几个更容易建模的子问题：

分解为三个主要的子问题，色彩映射，曝光合并和引导去伪影，这些子网络连接在一起，从而在LDR图像的输入对和参考视图的输出图像之间形成所需的端到端映射，见下图，其中引导去伪影想法不错。

确保训练集中的ground-truth exposure fusion图像具有高质量的图像质量。这里的目标是增加groundtruth图像中描述的细节的级别，以适应所有可能的场景，包括在运动和颜色差异方面具有挑战性的情况：

其实就是增加输入图像，值得借鉴，训练时输入为3张，ground-truth合成可以用5张。

集成可用的先验，如直接从输入LDR图像创建的曝光融合图像。尽管这些图像包含幽灵伪影工件，但它们为我们的模型提供了有价值的先验。在下面的文章中，我们将这些图像称为伪影融合图像

4 A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

提出了一种新的融合静态多曝光图像的深度学习体系结构。主要观点就是人工特征不如深度学习的特征。同时提到MEF领域没有相应的训练样本。因此作者通过提出一种无监督的深学习方法来避免需要真值图像。即无参考质量度量作为损失函数，该模型融合了从每幅图像中提取的一组常见的低层特征，从而产生无人工的、令人愉悦的结果。同时作者设计了一个新的基准数据集，可用于比较各种MEF方法。

作者采用CNN融合Y通道，这是因为图像的结构细节存在于亮度通道中，亮度通道的亮度变化比色度通道更明显。关于特征的融合操作，作者采用加法(均值，max等操作供选)。

SSIM: 结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计，标准差作为对比度的估计，协方差作为结构相似程度的度量。而在实际应用中，一般采用高斯函数计算图像的均值、方差以及协方差，而不是采用遍历像素点的方式，以换来更高的效率。需要参考图；MEF-SSIM基于结构相似度指标度量(SSIM)框架设计的，不需要参考图，直接基于输入图与融合图之间。

数据集：没有真值，Empa HDR Image Database,另外作者自己设计了50组图像，

作者测试了一种基于CNN的有监督的方法，真值来自Image fusion with guided filtering和Exposure fusion。并对比了损失函数的选择L1 L2 SSIM。“1损失”的结果比“2损失”的结果更清晰，但它在边缘有晕轮效应。与“1”和“2”不同的是，经过SSIM函数训练的CNN的结果既清晰又无人工痕迹。Application to MultiFocus Fusion

Code: https://github.com/exceptionLi/Imagefusion_deepfuse 不完全一致