【论文笔记】—低照度图像增强—Semi-Supervised—DRBN—2020-CVPR

【论文介绍】

首次将半监督学习方法用于低光图像增强。

【题目】:From Fidelity to Perceptual Quality: A Semi-Supervised Approach for Low-Light Image Enhancement

【DOI】:10.1109/CVPR42600.2020.00313

【会议】:2020-CVPR
【作者】:Wenhan Yang(香港城市大学), Shiqi Wang(香港城市大学), Yuming Fang(江西财经大学), Yue Wang(字节), Jiaying Liu(北京大学)

【论文链接】:https://ieeexplore.ieee.org/document/9156559
【代码链接】:https://github.com/flyywh/CVPR-2020-Semi-Low-Light
【视频链接】:https://www.youtube.com/watch?v=J5ogMvSDdF4

【动机】

缩小信号保真度和感知质量之间的差距。

【方法】 

提出了一种深度递归频带网络DRBN(Deep Recursive Band Network ),在DRBN中,首先执行频带表示学习。在成对数据集的指导下,对每个频带信号进行学习恢复,该阶段确保信号保真度和细节恢复。然后,在非配对数据集的感知指导下,执行频带重组以增强图像的视觉质量,其中高质量图像充当人类视觉感知的先验。

【创新点】

  1. 首次提出用于低光图像增强的半监督学习框架。
  2. 所提出的框架被很好地设计来提取一系列由粗到细的频带表示。通过以递归方式进行端到端训练,这些频带表示的估计是互惠互利的,能够去除噪声并校正细节。
  3. 通过感知质量引导的对抗学习,对深度频带表示进行重组。鉴别器的“真实图像”是基于平均意见得分(MOS)感知选择的非配对图像。(类似EnlightenGAN)

【DRBN网络结构】

提出的深度递归频带网络 (DRBN) 的框架包括两个阶段: 递归频带学习和频带重构。

在DRBN中,首先执行频带表示学习。在成对数据集的指导下,对每个频带信号进行学习恢复,该阶段确保信号保真度和细节恢复。然后,在非配对数据集的感知指导下,执行频带重组以增强图像的视觉质量,其中高质量图像充当人类视觉感知的先验。

第一阶段:递归频带学习 Recursive Band Learning. (递归配对监督学习)

目的:确保信号保真度和细节恢复。(保真)

  1. 在每次递归中,学习一系列从粗到细(s1到s3)的频带表示,在递归过程中共同推断不同的频带信号,再将其合并到增强结果中。
  2. 在特征域和图像域都采用了残差学习。
  3. 递归学习增强了建模能力。前一次递归的增强结果用作下一次递归的引导,也就是说,后面的递归仅在先前的递归估计指导下恢复残差信号。因此,后面的递归更能够建模结构细节和抑制噪声。
  4. 从上一次递归推断出的高阶Xs3带将影响本次递归中低阶Xs1频带的推断。即前一次递归的输出,被用作下一次递归的引导输入,其在联合估计中将所有频带估计连接在一起。因此,低阶和高阶带之间的连接是双向的,高阶带也为恢复低阶带提供了有用的指导。
  5. 递归估计使不同的频带能够学习基于所有频带的先前估计来校正它们的估计。

构建了一系列类似U-Net的深度网络,称为带学习网络 BLN(band learning networks)。每个BLN将输入Y和最后一次递归的增强结果的连接,投影到特征空间中,然后通过几个卷积层变换特征。在中间层中,首先对特征的空间分辨率进行下采样,然后通过步幅卷积和反卷积进行上采样。存在跳跃连接(用红色表示),将具有相同空间分辨率的特征从浅层连接到深层,这有助于浅层生成的特征中包含的局部信息到达输出。每个BLN分别在尺度S1=1/4、S2=1/2和S3=1处产生三个特征。

举例说明递归学习的第一次循环:

其中,分别是从 y 中提取的相应尺度的特征; 为相关过程;   是将特征投影回相应尺度的图像域的过程;是上采样过程。 图像首先以最粗糙的尺度 s1 重建。 然后,在精细尺度上,残差信号被预测为整个结果的一部分。 

之后,在第 t 次重复时,仅在先前(第 t-1 次)估计结果的指导下学习残差特征和图像。 y 和先前估计结果的串联被视为输入:

该公式将所有频带特征紧密连接起来,形成了所有频带的联合优化。在最终的递归 T(本文工作中设置为 4),第一阶段的重建损失: 

其中是下采样过程,给定缩放因子si;就是把ground truth x下采样到和s1,s2一样大小。 Φ (·) 计算输入图像的SSIM值; λ1和 λ2是加权参数。 

第二阶段:频带重组 Band  Recomposition. (非配对数据的GAN)

目的:通过感知质量引导的对抗学习,重组频带表示,以提高增强的弱光图像的感知质量。(感知质量)

生成器:来自上一阶段的频带表示被前馈到类似U-Net的网络(生成器)中, 被用来对重构过程 F_{RC}(\cdot )进行建模,以生成重构频带信号的系数 {w1,w2,w3},该变换系数线性地操纵和融合这些频带得到增强图像。如下所示:

判别器 D:

  1. 测量人类视觉优选的概率。
  2. 基于MOS(Mean Opinion Score)值选择的高质量图像AVA数据集 [21]充当人类视觉感知的先验。

第二阶段的损失函数: 

F_{P}(\cdot )是从预训练的VGG网络中提取深层特征的过程。

【数据集】

1、配对低光数据集LOL:第一阶段把图片切为256*256用于训练,第二阶段把图片切为320*320用于训练。

2、非配对高质量图像数据集AVA[21] :Band  Recomposition 阶段利用了一个对抗性学习(类似EnlightenGAN)Global-Local的一种机制,学习了AVA这个数据集,大约有25万张照片(每张都很美),然后在最后做损失函数的计算。

低照度图像数据集_chaikeya的博客-CSDN博客_低光数据集

【实验结果】

表1:定量结果。本文方法PSNR和SSIM以及SSIM-GC值都是最好的。(基于 Gamma 校正结果计算的 SSIM,称为 SSIM-GC)

图3:定性结果。左:原始结果。右:通过伽玛变换校正的结果,以获得更好的可见性。本文的方法视觉上效果最好。

猜你喜欢

转载自blog.csdn.net/qq_39751352/article/details/126358043
今日推荐