All-in-focus based on Multi-focus Image Fusion 相关文献阅读理解

2018 Unsupervised Deep Multi-focus Image Fusion Xiang Yan

2016 Multi-focus image fusion with a deep convolutional neural network Yu Liu

2014 Multi-scale weighted gradient-based fusion for multi-focus images

大部分成像系统，例如数码单反相机，有一个有限的景深，使场景内容在有限的距离成像平面保持焦点。具体来说，离焦点更近或更远的物体在图像中表现为模糊(失焦)对焦有的会导致全图失焦。多聚焦图像融合(MFIF)旨在从同一场景的两个或多个部分聚焦的图像中重建一个完全聚焦的图像。

平时我们拍照一般都是局部聚焦，也就是我们拍照时点击某一处，该处会聚焦，那么其他部分则会失焦，那么有时我们想全图都聚焦，这时可以通过多个部分聚焦的图像进行合成，形成全聚焦图像all-in-focus.

2018 Unsupervised Deep Multi-focus Image Fusion Xiang Yan

我们难以自己合成失焦模糊的图像，同理也就难以得到标签图像（全聚焦的图像）。

本文提出了一个无监督的基于深度学习的多聚焦图像融合方法,重点还是无监督的，解决了我们可以获得大量真实部分失焦的图像却无法获得真实的全聚焦图像问题。能够实现无监督，主要作者利用图像结构相似度(SSIM)来计算损失。

本文提出的网络见下图，主要包含特征提取网络子网络和一个特征重建子网络。

1 输入为一对图像，两个部分失焦图像（理想时失焦部位不要相同，不然一样清晰了，目的让CNN学习选择清晰的区域作为最终合成的部位）；

2 将两个紫色特征提取网络提取的两个图像特征进行融合+conv+relu；

3 橘色特征网络的输入则是这对图像的均值图像；

4 最后紫色特征提取网络提取的特征与step2合成的特征进行相加作为特征重建的输入。

5 特征重建网络的目标是生成最终的融合图像，输出融合图像由最后一个具有Sigmoid形非线性的卷积层给出。

6 SSIM（结构相似性）指标经常用来作为图像融合算法的性能，他主要基于图像的方差，协方差等性质计算。一般用来计算两幅图像中不同滑动窗口对应位置的结构相似性。例如输入的成对图像x1，x2, SSIM范围为[-1，1]，当其为1时表示x1和x2相同。

7 STD（标准偏差）则代表图像的清晰度，当STD(x1) 大于 STD(x2)，则表示x1更清晰。因此当x1比x2清晰时，我们希望目标生成的合成图像与x1的结构相似性要尽量相同。

8 目标损失函数：目标函数就是最大化融合图像和输入图像之间的结构一致性。输入图像则是多个属于图像的由各个清晰局部块组成的。

9 文章使用了来自基准测试的60对多焦点图像Lytro多焦点图像数据集，且基于patch训练。

主要怼的论文：

Y. Liu, X. Chen, H. Peng, and Z. Wang, “Multi-focus image fusion with a deep convolutional neural network,” Information Fusion, vol. 36, pp. 191–207, 2017.

H. Tang, B. Xiao, W. Li, and G. Wang, “Pixel convolutional neural network for multi-focus image fusion,” Information Sciences, Vol 433-434, pp 125 – 141, 2017.

2016 Multi-focus image fusion with a deep convolutional neural network Yu Liu

这篇文章的主要共享就是将深度学习应用到多聚焦图像融合。通过深度学习直接输入多个失焦模糊图像，生成一个失焦概率图，然后基于概率图对输入的图像组进行融合。

0 多聚焦图像融合的难点在于聚焦程度的测量以及融合的策略，因此本文通过深度学习将这两个问题联合学习，直接输出一个融合的概率图。

1 文章的启发点则是将融合问题转为一个二分类问题（失焦或者聚焦），例如输入图像p1和p2,当p1比p2清晰则对应的标签为1，反之为0作为负样本。

2 在使用网络进行预测时，如何采用分块预测的话，特征提取重复过多，影响效率，因此采用另外一种方法，直接将整个图像作为输入，先进行尺度归一化，类似图像分割输出为一个概率图；

3 为了比较patch相似度，文章分析三种类型的CNN模型: siamese, pseudo-siamese and 2-channel，选择siamese one作为本文的网络模型，

4 训练时则采用patch进行训练，那么选择多大的pactch，作者也进行了分析。

当patch取32*32 准确率确实高，因为patch足够大包含的图像内容也就多了。但是最大池化层的个数不容易确定，例如，当一个分支中有两个甚至更多的最大池化层时，这意味着补丁的步长至少为4个像素，融合结果往往会受到类似马赛克的artifacts. 另一方面，当分支中只有一个最大池化层时，由于完全连接层中的权重显著增加，CNN模型的大小通常非常大。进一步问题是,当multi-focus图像融合,32×32的设置通常不是很准确,因为32×32块更可能同时包含聚焦和散焦地区,这将导致在边界地区融合图像有不良的结果。当然8*8太小了，因此作者根据测试的效果选择了16*16.

2014 Multi-scale weighted gradient-based fusion for multi-focus images

这是一个传统方法，基于梯度融合多个失焦模糊的图像（效果一般）

0 文章首先指出多聚焦图像往往因为相机的抖动导致图像出现各向异性模糊，同时图像间出现错位（不对齐问题）。各向异性模糊会导致聚焦的局部块因为模糊，导致计算出的聚焦测度比非聚焦的图像小，导致最终融合的是非聚焦部位。不对齐问题则会导致图A某失焦部分对应到图B的平滑区域，这样图A的整个失焦区域计算的聚焦测度较大，最终合成到融合图像中。因此作者认为单一尺度无法有效的对图像进行聚焦测度。而目前大多聚焦测度方法没有考虑到这两个问题。

针对上面两个问题，作者提出了一个图像结构显著性，以及基于该图像结构显著性的基于加权梯度融合的图像融合方法。最后作者定义了一个基于多尺度图像结构的聚焦测度方法，作者认为大尺度测度下，不匹配和各向异性模糊带来的问题会减弱，而小尺度的测度，可以大致确定边缘附近的聚焦区域。
作者首先描述了大家之前的结合结构张量（局部图像的方差，协方差等计算得到）的梯度融合方法，这个方法使得各个图像融合时，其各个梯度的权重一样，这样会导致artifcats.因此本文提出了结合结构显著性的加权梯度融合方法，基于图像局部的特征值S1,S2（2个，x,y方向），如果两个值都小，则表示为平滑区域，如果一个值大，为边缘，两个都大，则为角点。
基于提出的结合结构显著性的加权梯度融合方法，对其值乘一个不同方差的高斯核，形成多尺度的聚焦测度方法，大尺度的可以较弱不匹配和模糊带来的问题，小尺度可以基本定位边缘的聚焦性。

All-in-focus based on Multi-focus Image Fusion 相关文献阅读理解

猜你喜欢