Benchmarking Single Image Dehazing and Beyond

摘要

我们对现有的单图像去雾算法进行了全面的研究和评估,使用了一个新的大尺度基准,包括合成和真实世界的模糊图像,称为REalistic Single Image Dehazing(RESIDE)。

RESIDE突出显示了各种数据源和图像内容,并分为五个子集,每个子集用于不同的训练或评估目的。 我们进一步提供了各种各样的去雾算法评估标准,从完整参考度量,无参考度量,到主观评估和新颖的任务驱动评估。 在RESIDE上的实验揭示了最先进的除雾算法的比较和局限性,并提出了有希望的未来方向。
索引术语 - 去雾,检测,数据集,评估

1 介绍

单图去雾

由于存在雾霾,在室外场景中捕获的图像经常遭受差的可见性,对比度降低,表面晕染和颜色偏移。由灰尘,雾气和烟雾等气溶胶引起的雾霾的存在给图像增加了复杂的,非线性的和数据相关的噪声,使得雾霾去除(例如去雾)成为极具挑战性的图像恢复和增强问题。此外,许多计算机视觉算法只能很好地适应无雾的场景辐射。然而,可靠的视觉系统必须考虑来自无约束环境的整个降级范围。以自动驾驶为例,朦胧有雾的天气会掩盖车载摄像头的视野,造成令人困惑的反射和眩光,使最先进的自动驾驶汽车陷入困境[1]。因此,Dehazing成为计算摄影和计算机视觉任务中越来越受欢迎的技术,其进步将立即使许多盛行的应用领域受益,例如视频监控和自动/辅助驾驶.

虽然一些早期的作品考虑来自同一场景的多个图像可用于除雾[3],[4],[5],[6],但单个图像除雾在实践中被证明是更现实的设置,因此获得了 占主导地位。 大气散射模型一直是模糊图像生成的经典描述[7],[8],[9]:

I (x) = J (x) t (x) + A(1 - t (x)) ;
传输矩阵定义为:
在这里插入图片描述
其中是beta大气的散射系数,d(x)是物体和相机之间的距离。
为了求原图:
在这里插入图片描述

大多数最先进的单图像去雾方法利用物理模型(1),并以物理接地或数据驱动的方式估计关键参数A和t(x)。方法表现不断提高 [10],[11],[12],[13],[14],[15],[16],[17],特别是在最新模型深入学习之后[18]],[19],[20]。

现有方法:概述

给定大气散射模型,大多数去雾方法遵循类似的三步方法:
(1)从模糊图像I(x)估计传输矩阵t(x);
(2)使用其他一些(通常是经验的)方法估计A;
(3)通过计算(3)估计原图像J(x)。
通常,大部分注意力都集中在第一步,它可以依赖于物理真值的先验或完全数据驱动的方法。

一个值得注意的去雾方法利用了自然图像先验和深度统计。 [21]强加了反照率值的局部恒定约束以及局部区域中传输的去相关,然后使用反照率估计和原始图像估计深度值。它没有约束场景深度结构,因此经常导致颜色或深度的不准确估计。 [22],[23]发现暗通道先验(DCP)更可靠地计算传输矩阵,其次是许多后继者。然而,当场景物体与大气光相似时,发现先验不可靠[19]。 [12]强制执行边界约束和上下文正则化以实现更清晰的修复。 [14]先前开发了颜色衰减,并为模糊图像创建了场景深度的线性模型,然后以监督的方式学习了模型参数。 [24]联合估计场景深度并从模糊的视频序列中恢复清晰的潜像。 [15]基于假设清晰图像中的每个颜色簇成为RGB空间中的雾度线,提出了非局部先验。

鉴于==卷积神经网络(CNN)==在计算机视觉任务中的普遍成功,几种去雾算法依靠各种CNN直接从数据中学习t(x),以避免通常不准确估计物理参数。 单个图像。 DehazeNet [18]提出了一种可训练的模型,用于从模糊图像中估计传输矩阵。 [19]提出了一个多尺度CNN(MSCNN),它首先产生了一个粗尺度的传输矩阵并逐渐完善它。 尽管取得了令人鼓舞的结果,但训练数据的固有局限性正成为这一蓬勃发展趋势的一个越来越严重的障碍:更多讨论见第II-1节。

此外,除了单独估计参数的次优程序之外,已做出一些努力,当将它们组合在一起以计算(3)时,这将导致累积或甚至放大的误差。 相反,他们提倡同步和统一的参数估计。 早期的作品[25],[26]用一个阶乘马尔可夫随机场模拟了模糊图像,其中t(x)和A是两个统计独立的潜在层。 此外,一些研究人员还研究了更具挑战性的夜间除雾问题[27],[28],这超出了本文的重点。

另一系列研究[29],[30]试图利用Retinex理论通过反射光的比率来近似物体表面的光谱特性。 最近,[20]提出了重新制定(2)以将t(x)和A整合为一个新变量。 因此他们的CNN除雾模型是完全端到端的:J(x)直接从I(x)生成,没有任何中间参数估计步骤。 这个想法后来被扩展到[31]中的视频去雾。

尽管单图像去雾算法繁荣,但该领域的进一步发展仍存在一些障碍。 在大规模公共数据集上缺乏对最先进算法的基准测试工作。 此外,用于评估和比较图像去雾算法的当前度量标准大多只是PSNR和SSIM,其结果不足以表征人类感知质量或机器视觉效果。

提出三项贡献:

  • 我们引入了一种新的单图像去雾基准,称为真实单图像去雾(RESIDE)数据集。 它具有大规模的综合训练集,以及分别为客观和主观质量评估设计的两套不同的数据集。 我们进一步介绍RESIDE-beta集,这是RESIDE基准测试的一个探索和补充部分,包括关于当前训练数据内容(室内和室外图像)和评估标准(从人类视觉或机器视觉角度)的障碍的两个创新讨论。 特别是在后一部分,我们使用对象边界框来注释一个由任务驱动的4,322个真实世界模糊图像的评估集,这是它的第一个贡献。
  • 我们根据新的RESIDE和RESIDE-beta数据集引入一套创新的评估策略。 在RESIDE中,除了广泛采用的PSNR和SSIM之外,我们进一步采用无参考度量和人类主观评分来评估去雾效果,特别是对于没有清晰GT的真实世界模糊图像。 在RESIDE-中,我们认识到实际中的图像去雾通常用作中级和高级视觉任务的预处理步骤。 因此,我们建议利用感知损失[32]作为“全参考”任务驱动的度量,捕获更高级别的语义,并将去噪图像上的对象检测性能作为“无参考”任务特定的评估标准,用于去雾现实图像[20]。
  • 我们进行了广泛而系统的实验,以定量比较九种最先进的单一图像去雾算法,使用新的RESIDE和RESIDE-beta数据集以及建议的各种评估标准。 我们的评估和分析展示了最先进算法的性能和局限性,并带来了丰富的见解。 这些实验的结果不仅证实了人们普遍认为的,而且还提出了单一图像去雾的新研究方向。

RESIDE的概述可以在表I中找到。

我们注意到本文中使用的一些策略已经在文献中被更多或更小程度地使用,例如去雾中的无参考指标[33],主观评价 [34],并将去雾与高级任务联系起来[20] (AODNET)。 然而,RESIDE是迄今为止第一个也是唯一一个系统评估,其中包括许多去雾算法,这些算法在一个共同的大规模基准测试中具有多个标准,这在文献中很早就缺失了。

2 数据集和评估:现状

1)训练数据:许多图像恢复和增强任务受益于持续努力的标准化基准,以便在相同条件下比较不同的提议方法,如[35],[36]。 相比之下,由于收集或创建具有干净的地面实况参考的真实模糊图像的重大挑战,一直存在一个常见的大规模基准测试用于去雾。 通常不可能在有雾和没有雾的情况下捕获相同的视觉场景,而所有其他环境条件保持相同。 因此,最近的去雾模型[37],[34]通常通过从干净的图像创建合成的模糊图像来生成他们的训练集:他们首先通过利用深度图像数据集的可用深度图或者估计干净图像来获得干净图像的深度图或者评估深度[38]; 然后通过计算(1)生成模糊图像。 然后可以训练数据驱动的去雾模型以从朦胧的图像中回归干净的图像。

Fattal的数据集[37]提供了12个合成图像。 FRIDA [39]制作了420套合成图像,用于评估各种朦胧环境中自动驾驶系统的性能。 它们都太小而无法训练有效的去雾模型。 为了形成大规模的训练集,[19],[20]使用来自室内NYU2深度数据库[40]和米德尔伯里立体数据库[41]的深度元数据的地面真实图像。 最近,[34]使用不完整的深度信息,使用来自Cityscapes数据集的25,000张图像,使用不完整的深度信息.Dataset [42]生成了来自Cityscapes数据集的25,000张图像的Foggy Cityscapes数据集[42]。

2)测试数据评估标准:使用的测试集主要是具有已知基本事实的合成模糊图像,尽管一些算法也在真实模糊图像上进行了视觉评估[19],[18],[20]。

有了多种去雾算法,找到适当的评估标准来比较它们的去雾效果变得至关重要。大多数去雾算法假设合成测试集也具有已知的清洁GT,依赖于完全参考PSNR和SSIM度量。如上所述,由于合成和真实模糊图像之间的大量内容差异,即使实现了有希望的测试性能,它们的实际适用性也可能处于危险之中。为了在没有参考的情况下客观地评估真实模糊图像上的去雾算法,无参考图像质量评估(IQA)模型[43],[44],[45]是可能的候选者。 [33]在一组自我收集的25个模糊图像(没有清晰的基础事实)的几个去雾方法中测试了一些无参考目标IQA模型,但没有比较任何最新的基于CNN的去雾模型。最近的一项工作[46]收集了14个真实室外场景和相应深度图的无雾图像,提供了一个小的真实测试集。

PSNR / SSIM以及其他客观指标通常与人类感知的视觉质量很差[33]。 许多论文在视觉上显示了除雾结果,但最先进的除雾算法之间的结果差异往往太微妙,人们无法可靠地判断。 这表明进行主观研究的必要性,到目前为止尚未做出太多努力[47],[33]。

在表II中比较了所有上述模糊图像数据集以及RESIDE。 如图所示,大多数现有数据集规模太小,或缺乏足够的真实世界图像(或注释)用于不同的评估。
在这里插入图片描述

RESIDE

我们提出了REalistic单图像去雾(RESIDE)数据集,这是一个新的大规模数据集,用于公平地评估和比较单图像去雾算法。 RESIDE的一个显着特征在于其评估标准的多样性,从传统的完整参考指标到更实用的无参考指标,以及所需的人类主观评级。 一组新的任务驱动的评估选项将在本文后面讨论。

总览

REISDE训练集包含13,990个合成模糊图像,使用来自现有室内深度数据集NYU2 [40]和Middlebury立体声[41]的1,399个清晰图像生成。 我们为每个清晰图像合成10个模糊图像。 提供了13,000个用于训练和990个用于验证。 我们设置每个通道大气光A在[0.7,1.0]之间,均匀地随机选择beta在[0.6,1.8]。 因此,它包含成对的干净和模糊的图像,其中干净的地面实况图像可以导致多个对,其朦胧图像是在不同的参数A和beta下生成的。

REISDE测试集由综合目标测试集(SOTS)和混合主观测试集(HSTS)组成,旨在表现出多种评估观点。 SOTS从NYU2 [40]中选择500个室内图像(与训练图像不重叠),并按照与训练数据相同的过程来合成模糊图像。 我们专门为测试创建具有挑战性的去雾情况,例如,添加了浓雾的白色场景。 HSTS采用与SOTS相同的方式生成10个合成的户外朦胧图像,以及10个真实世界的朦胧图像,收集现实世界的室外场景[48] ,结合进行人体主观评审。

评估策略

1)从完全参考到无参考:
尽管用于评估去雾算法的全参考PSNR / SSIM指标的普及,但由于在实践中不能获得干净的地面实况图像以它们本身就受到限制与人类感知质量难以保持一致[33]。 因此,我们参考两个无参考IQA模型:基于空间谱熵的质量(SSEQ)[45],以及使用DCT统计的盲图像完整性标记(BLIINDS-II)[44],以补充PSNR / SSIM的短缺。 请注意,[45]和[44]中使用的SSEQ和BLIINDS2的分数范围从0(最佳)到100(最差),我们反转分数以使相关性与完整参考度量一致。

我们将PSNR,SSIM,SSEQ和BLIINDS-II应用于SOTS的去噪结果,并检查它们产生的除雾算法排名的一致性。 我们还将在HSTS上应用四个指标(仅在10个合成图像上计算PSNR和SSIM),并进一步将这些客观测量与主观评级进行比较。

2)从客观到主观:[33]研究了全参考和无参考IQA模型的各种选择,并发现它们在预测去噪图像的质量方面受到限制。 然后,我们对不同算法产生的去雾结果的质量进行主观的用户研究,从中我们获得了更多有用的观察结果。 当真实图像可用作参考时,它们也包括在内。

在之前的[33],[49]中,参与者使用1到10的整数对每个除雾结果图像进行评分,以最好地反映其感知质量。 我们采用不同的方法:(1)要求参与者进行成对比较而不是个人评级,前者通常被认为在主观调查中更加稳健和一致,[50],[34]也采用了这种方式。 (2)将感知质量分解为两个维度:去雾清晰度和真实性,前者定义为雾度被彻底消除的程度,后者定义为去雾图像的真实程度。 根据我们的最佳知识,在类似的文献中尚未探索过这样两个解开的维度。 他们的动机是我们的观察结果,一些算法会产生看起来很自然的结果,但却无法完全消除雾霾,而另一些算法却以不切实际的视觉伪像的代价消除了雾霾。

在研究期间,每个参与者被显示出对于相同的模糊图像使用两种不同算法获得的一组去雾结果对。 对于每一对,参与者需要在清晰度方面独立决定哪一个比另一对更好,然后哪一个更适合真实性。 图像对是从所有竞争方法中随机抽取的,赢得成对比较的图像将在下一轮[51]中再次进行比较,直到选出最佳的图像。 我们拟合Bradley-Terry [52]模型来估计每个去雾算法的主观得分,以便对它们进行排序。

对于同行基准[53],[54]而言,主观调查并非“自动”扩展到新结果。 然而,研究人类感知与客观指标之间的相关性非常重要,这有助于分析后者的有效性。 我们正准备推出一个排行榜,我们将接受选择性结果提交,并定期进行新的主观评审。

4 算法基准

基于RESIDE提供的丰富资源,我们评估了9种具有代表性的最先进算法:暗通道先验(DCP)[10],快速可见性恢复(FVR)[11],边界约束上下文正则化(BCCR) [12],通过梯度残差最小化(GRM)[13],色彩衰减先验(CAP)[14],非局部图像去雾(NLD)[15],DehazeNet [18],多尺度CNN(MSCNN )[19]和All-in-One Dehazing Network(AOD-Net)[20]。 最后三个属于最新的基于CNN的去雾算法。 对于所有数据驱动算法,它们都在相同的RESIDE训练集上进行训练。

SOTS主观比较

我们首先使用两个完整参考(PSNR,SSIM)和两个无参考度量(SSEQ,BLIINDS-II)比较SOTS上的去噪结果。 表III显示了每个度量的每个算法的详细分数。

一般而言,因为基于学习的方法[18],[14],[19],[20]通过直接最小化输出和GT之间的均方误差(MSE)损失或最大化大规模数据的概率。 就PSNR和SSIM而言,在大多数情况下,它们明显优于基于自然或统计先验的早期算法[10],[12],[11],[13],[15]。 特别是,DehazeNet [18]获得了最高的PSNR值,AOD-Net [20]和CAP [14]获得了次优和第三次PSNR评分。 尽管GRM [13]获得了最高的SSIM分数,但AOD-Net [20]和DehazeNet [18]仍然获得了类似的SSIM值。

但是,当涉及无参考指标时,结果变得不那么一致。 由于端到端像素校正,AOD-Net [20]仍然通过获得室内图像的最佳BLIINDS-II结果来保持竞争性能。 另一方面,一些先前的方法,如FVR [11]和NLD [15]也显示出竞争力:FVR [11]在SSEQ方面排名第一,NLD [15]达到次优的SSEQ和BLIINDS-II。 我们目测观察结果,发现DCP [10],BCCR [12]和NLD [15]倾向于产生锋利的边缘和高度对比的颜色,这解释了为什么BLIINDS-II和SSEQ首选它们。 全参考和非参考评估之间的这种不一致以及在现有的客观IQA模型中的论证[33],表明了对去雾图像的有效预测方面能力很差。

我们进一步使用具有不同雾度浓度水平(即值)的标准评估度量进行实验,以详细说明每种方法对于每种不同雾度密度的适合性。 如表IV所示,我们根据范围将SOTS数据集分成三组。 它清楚地表明,DehazeNet始终是轻度和中度雾度的最佳选择,而GRM实现了最高的PSNR和SSIM,适用于浓雾。
在这里插入图片描述

HSTS的主观比较

我们使用HSTS招募100名来自不同教育背景的参与者,其中包含10个合成户外和10个真实世界的模糊图像(共20个)。 我们拟合Bradley-Terry [52]模型来估计每种方法的主观评分,以便对它们进行排名。 在Bradley-Terry模型中,假设物体X优于Y的概率是:
在这里插入图片描述
其中sX和sY是X和Y的主观分数。所有对象的得分s 可以通过最大化对数似然来联合估计.
在这里插入图片描述
其中wij是获胜矩阵W中的第(i; j)个元素,表示方法i优于方法j的次数。 我们使用Newton-Raphson方法来求解方程。(5)。 请注意,对于合成图像,我们有10x10个获胜矩阵W,包括基础事实和9个去雾方法结果。 对于真实世界的图像,由于缺乏基本事实,其获胜矩阵W为9 9。 对于合成图像,我们将地面实况方法的得分设置为归一化分数1。

图3和4分别显示了合成图像和真实世界图像上的去雾结果的定性示例。
在这里插入图片描述

在这里插入图片描述
定量结果可以在表V中找到,
在这里插入图片描述
趋势在图2中可视化。
在这里插入图片描述
我们还计算合成图像的全参考和无参考指标,以检查它们与主观评分的一致性。

猜你喜欢

转载自blog.csdn.net/qq_35608277/article/details/85107363