论文解读:Improving Nighttime Driving-Scene Segmentation via Dual Image-adaptive Learnable Filters

论文地址:https://arxiv.org/abs/2207.01331
发表时间:[Submitted on 4 Jul 2022 (v1), last revised 20 Mar 2023 (this version, v2)]
项目地址:https://github.com/wenyyu/IA-Seg#arxiv

在驾驶场景图像上的语义分割对自动驾驶至关重要。虽然日间图像已经取得了令人鼓舞的性能,但由于曝光不足和缺乏标记数据,夜间图像的性能不太令人满意。为了解决这些问题,我们提出了一个称为双图像自适应可学习滤波器(DIAL-Filters)的附加模块,以改进夜间驾驶条件下的语义分割,旨在利用不同光照下驾驶场景图像的内在特征。DIAL-Filters由两部分组成,包括一个图像自适应处理模块(IAPM)和一个可学习的引导滤波器(LGF)。利用DIAL-Filters,设计了夜间驾驶场景分割的无监督和有监督框架,可以以端到端方式进行训练。

具体来说,IAPM模块由一个小的卷积神经网络组成,具有一组可微图像滤波器,其中每个图像可以自适应地增强,以便对不同的光照进行更好的分割。利用LGF对分割网络的输出进行增强,得到最终的分割结果。圆盘滤光器重量轻,效率高,它们可以很容易地应用于白天和夜间的图像。我们的实验表明,DIAL-Filters可以显著提高ACDC夜间和NightCity数据集的监督分割性能,同时在黑暗上展示了在 Dark Zurich 和 Nighttime Driving testbeds的无监督夜间语义分割的最新分割性能。

关键总结

1、将早期研究的IA-YOLO的CNN-PP+DIP模块包装成IAPM模块,移除了以往了一些滤波器,将使用场景从恶劣天气转移到夜间环境;
2、使用了可训练的引导滤波(LGF)来优化语义分割结果,整个方案在监督学习和非监督场景下都取得良好效果;
2、其所使用的IAPM模块优化了图像边缘的质量,故而提升了LGF模块的效果;

实施效果

本文所提出的CNN-PP+DIF+LGF只增加了280k个参数,在特斯拉V100 GPU上将推理时间延迟了4ms,但可以实现0.2%~2.6%的涨点效果

本文的无监督训练框架

1、同时输入3个图像,其中 I s I_s Is为有标签的cityscapes, I t d I_{td} Itd为有伪标签的Dark Zurich日间图像, I t n I_{tn} Itn为与 I t d I_{td} Itd同场景的夜间图像;
2、使用真实标签 celoss 训练 I s I_s Is,使用对应 I t d I_{td} Itdnew 伪标签中的静态类天空、建筑、路灯等不可移动类训练缩小 I t d I_{td} Itd I t n I_{tn} Itn的差异
3、使用两个鉴别器来区分分割预测是来自源域还是来自目标域

1、INTRODUCTION

语义分割的目的是将一幅图像划分为具有相同对象类别的多个区域。语义分割作为计算机视觉中的一项基本任务,在自动驾驶[1]、室内导航[2]、[3]和虚拟现实[4]中得到了广泛的应用。利用卷积神经网络中强大的特征表示,基于深度学习的语义分割方法[5]-[10]在传统的日间数据集[11],[12]上取得了令人鼓舞的结果。然而,这些方法不适用于不利的夜间照明,这对自动驾驶等现实应用至关重要。在这份工作中,我们将注意力集中在夜间驾驶场景中的语义分割任务上。
现行的语义分割技术方案没有考虑到光照不利环境下的图像处理

对于夜间驾驶场景的分割有两个主要的挑战。一是难以获得视觉感知较差的大尺度标记夜间数据集。为此,最近开发了几个夜间数据集,[13],[14]。NightCity[13]包含2,998张带有标记的夜间驾驶场景图像,而ACDC Night [14]有400张图像,可用于监督训练。另一个挑战是夜间图像中的曝光不平衡和运动模糊,这是现有的日间分割方法难以处理的问题。为了解决这些挑战,人们提出了一些领域自适应方法,将语义分割模型从白天转移到夜间,而不在夜间使用标签。域自适应网络(DANNet)[15]采用对抗性学习方法进行夜间语义分割,在分割网络之前添加了一个图像重构子网络。 这增加了大量的训练参数,这不利于部署。在[16],[17]中,黄昏域被视为实现从白天到夜间的域适应的桥梁。此外,一些方法[17]-[20]将图像增强模型作为预处理阶段,对夜间或日间图像进行程式化,构建合成数据集。通过涉及到复杂的昼夜图像增强网络,这些方法通常是计算密集型的。特别是,这对arXiv:2207.01331v2[cs]来说是很困难的。当域间间隙较大时,图像增强网络很难实现了理想的变换。

于夜间驾驶场景的分割的挑战为:缺少夜间环境标注下的数据集,夜间图像中的曝光不平衡和运动模糊
现行的域自适应网络采用gan的方式进行夜间语义分割,新增的重构网络增加了训练与部署的难度
现行的图像增强模型过于负责,属于计算密集型,且在图像差异过大后很难起到效果

在驾驶场景中拍摄的夜间图像通常同时包含过度曝光和曝光不足的部分,这严重降低了视觉外观和结构。图1(a)显示了一个具有过度曝光(街灯和汽车前灯)和曝光不足(背景和树木)区域的夜间图像的例子。这种不均匀的亮度恶化了图像的内容和纹理,使得很难准确地分割物体的边界。在数字成像系统中,润色专家通过调优图像增强模块的超参数来提高图像质量,包括白平衡调整、伽马校正、曝光补偿、细节增强、tone映射等。为了避免手动调整这些参数,采用了“白盒”图像自适应增强框架[21]-[23]来提高图像质量。
局部的过曝与欠曝光,导致图像亮度不均衡,恶化了图像的内容和纹理,使得seg难度变大

为了解决上述问题,我们提出了一种巧妙的驾驶场景语义分割方法,通过双图像自适应可学习滤波器(DIAL-Filter)来提高性能,其中包括一个图像自适应处理模块(IAPM)和一个可学习引导滤波器(LGF)模块。具体来说,我们在IAPM模块中提出了一组完全可微图像滤波器(DIF),其超参数根据一个基于cnn的小参数预测器(CNN-PP)根据输入图像的亮度、对比度和曝光信息进行自适应预测。此外,还建议使用LGF来增强分割网络的输出。提出了一种联合优化方案,以端到端的方式学习DIF、CNNPP、分割网络和LGF。此外,我们还利用白天和夜间的图像来训练所提出的网络。通过利用CNN-PP网络,本文方法能够自适应地处理不同光照下的图像。上图1显示了我们所提出的方法的一个例子分割过程。

上述部分图像自适应滤波技术已在我们之前的会议论文[24]中被用于检测任务。与[24]相比,我们在本工作中做出了以下新的贡献:
1)我们将图像自适应滤波方法扩展到夜间分割任务,并取得了最先进的结果;
2)提出了一种可学习的引导滤波器来提高目标边缘区域的分割性能;
3)我们开发了监督和无监督分割框架。

本文的主要贡献有三方面:

  • 我们提出了一种新的轻量级附加模块,称为DIAL-Filters,它可以很容易地添加到现有的模型中。通过对分割网络前后的双增强,可以显著提高夜间图像的分割性能。
  • 我们以端到端的方式训练我们的图像自适应分割模型,这确保了CNN-PP可以学习一个适当的DIF来增强图像的分割,并学习一个LGF来保留边缘和细节。
  • 监督实验表明,该方法可以显著提高ACDC Night和NightCity数据集的分割性能。在Dark Zurich 和 Nighttime Driving测试集进行的无监督实验表明,本文方法在无监督夜间语义分割方面取得了最先进的性能。

II. RELATED WORK

A. Semantic Segmentation

图像语义分割对于许多视觉理解系统至关重要,由于卷积神经网络(CNNs)的发展,这些系统在基准数据集上的性能得到了很大的提高。FCN [25]被认为是一个里程碑,它展示了在可变大小的图像上训练一个深度网络进行端到端语义分割的能力。基于多层次的方法[6]、[7]采用多尺度分析来提取全局上下文,同时保留了低层次的细节。此外,卷积层被用于生成最终的每像素预测。DeepLab及其变体[26]-[28]在分割网络中引入了空间卷积和空间空间金字塔池。

上述所有方法都集中于日间条件下的分割。在本文中,我们关注的是夜间的场景。为了研究我们提出的DIAL-Filters对夜间驾驶场景分割的有效性,我们选择了三种流行和广泛使用的分割网络作为基线,包括RefineNet [6]、PSPNet [7]和DeepLabV2 [26]

B. Image Adaptation

图像自适应被广泛应用于低级和高级任务中。对于图像增强,一些传统的方法[29]-[31]根据相应的图像特征自适应地计算图像变换的参数。Wang[31]等人[31]提出了一种基于输入图像的光照分布特征自适应调整增强参数的亮度调整函数。[21]-[23]的方法采用小CNN灵活学习图像变换的超参数。Yu等人[22]利用一个小型CNN,通过深度强化学习和对抗性学习来学习图像自适应曝光。Hu等人[21]提出了一套带有一组可微滤波器的后处理框架,其中使用深度强化学习(DRL)根据修饰图像的质量生成图像操作和滤波参数。对于高级检测任务,Zhang等[32]提出了一种改进的精明边缘检测方法,利用整个图像的梯度平均值自适应选择双阈值。IA-YOLO [24,本文作者的早期工作]提出了一种轻量的CNN来自适应地预测滤波器的参数,以获得更好的检测性能。受这些方法的启发,我们在夜间驾驶场景中采用图像自适应方法进行分割。
图像自适应方法通过生成图像优化参数或直接优化图像,如IA-YOLO生成滤波器优化参数来提升图片质量给本文极大的启发

C. Domain Adaptation

领域自适应方法[33]-[37]在分类、目标检测、行人识别和分割等任务中取得了令人兴奋性能。具有领域自适应的语义分割方法大致可分为三类,包括adversarial learning[37]-[39]、self-training[40]-[42]和curriculum learning[43]、[44]。

基于对抗性学习的方法通过对抗性训练减少了两个领域的分布位移。AdaptsegNet[37]提出了一种在不同特征层次上实现有效的实现输出空间域适应性的多层对抗网络。一些方法[38]、[39]也利用基于像素级预测的熵方案来解决无监督域自适应分割问题。self-training方法利用未标记的目标数据,利用源域中预先训练的模型生成的伪标签进行训练。举几个例子,Zhang等人[41]研究了原型的特征距离,以微调伪标签,并将预先训练好的知识提炼为一个自监督模型。Xie等人[40]提出了一种基于语义引导像素对比度学习的域对齐的单级端到端自适应网络。基于curriculum learning的方法[43]、[44]利用课程学习的方式来学习目标领域的简单属性,然后利用其对最终的分割网络进行正则化。

然而,这些领域适应方法大多关注的是合成到现实(即GTA5 [45]对Cityscapes)或跨城市(即Cityscapes对跨城市[46])的适应,这些都是日常的适应。因此,这些方法往往无法正确地处理日间和夜间图像之间的显著自适应差距,从而在夜间分割[15]中无法取得令人满意的性能。在本文中,我们主要关注白天和夜间领域之间的适应。
现行的域适应方法均为夸表征层的适应方法,在日间与夜间图像差异上并未取得良好性能

D. Nighttime Driving-scene Semantic Segmentation

虽然现有的作品大多集中在照明良好的场景的“正常”场景上,但也有一些研究解决了具有挑战性的场景,如夜间场景。一些研究者采用了基于域自适应的方法[16]、[17]、[20],将在正常场景中训练过的模型转移到目标域。在[16]中,提出了一种渐进的适应方法,通过黄昏时间的桥从白天过渡到夜间。[17]等人,[20]提出了一种基于DMAda [16]的指导课程适应方法,该方法利用标注的合成图像和未标注的真实图像,从白天到晚逐步适应分割模型。然而,在这些渐进自适应方法中,针对不同领域的附加分割模型显著增加了计算成本。一些研究[18],[19],[47]训练了额外的风格传输网络,例如CycleGAN [48],在训练语义分割模型之前进行日夜或每晚的图像传输。这些风格传输方法的缺点是后续分割网络的性能高度依赖于之前的样式转移模型。

最近,Wu等人[15],[49]提出了一种无监督的图像自适应方法,即将图像重构网络放置在分割网络的头部。采用对抗学习实现标记白天数据和未标记夜间数据之间的域对齐。不幸的是,附加的关系网需要产生大量的参数和计算。

与上述方法相比,我们提出了一种图像自适应分割方法,即将所提出的数据滤波器嵌入到分割网络中。本文方法还可以在对抗损失的无监督域适应训练,在性能和效率方面都具有显著的优势。

III. DUAL IMAGE-ADAPTIVE LEARNABLE FILTERS

夜间拍摄的驾驶场景图像由于光照较弱,能见度较差,导致语义分割困难。由于每张图像可能同时包含过度曝光和曝光不足的区域,因此缓解夜间分割困难的关键是处理曝光差异。因此,我们提出了一套双图像自适应可学习滤波器(DIAL-Filters)来增强分割网络前后的结果。如图2所示,整个pipeline由一个图像自适应处理模块(IAPM)、一个分割网络和一个可学习的引导滤波器(LGF)组成。IAPM模块包括一个基于cnn的参数预测器(CNN-PP)和一组可微图像滤波器(DIF)。
将夜间seg难度定义为曝光分布不均,并推出DIAL-Filters来优化seg前后的输入和输出

A. Image-adaptive Processing Module

Differentiable Image Filters:与[21]一样,图像滤波器的设计应符合可微性和分辨率独立性的原则。对于基于梯度的CNN-PP优化,滤波器应该是可微的,以便允许通过反向传播进行网络训练。由于CNN可能消耗密集的计算资源来处理高分辨率图像(例如,4000×3000),我们从大小为256×256的低采样低分辨率图像中学习滤波器参数。此外,对原始图像应用相同的分辨率的滤波器,使这些滤波器独立于图像分辨率。
我们提出的DIF由几个具有可调超参数的可微滤波器组成,包括曝光度、伽玛度、对比度和锐度。在[21]中,标准的图像操作,如伽玛、曝光和对比度,可以表示为Pixel-wise Filters。

Pixel-wise Filters,像素级滤波器将输入像素值Pi =(ri、gi、bi)映射到输出像素值Po =(ro、go、bo),其中(r、g、b)分别表示红、绿、蓝三个颜色通道的值。表I列出了三个像素级滤波器的映射函数,其中第二列列出了在本文方法中需要优化的参数。曝光和伽玛是简单的乘法和幂变换。显然,这些映射函数对于输入图像和它们的参数都是可微的。

设计可微对比度滤波器,设置原始图像和完全增强图像之间的线性插值。如表I所示,对比度滤波器映射函数中的En(Pi)的定义如下:

其中,Lum(Pi)为基于人眼对三种原色的敏感度的亮度函数,EnLum(Pi)为增强亮度函数。其定义如下:
L u m ( P i ) = 0.27 r i + 0.67 g i + 0.06 b i (2) Lum(Pi) = 0.27r_i + 0.67g_i + 0.06b_i \tag{2} Lum(Pi)=0.27ri+0.67gi+0.06bi(2)
E n L u m ( P i ) = 1 / 2 ( 1 − c o s ( π × ( L u m ( P i ) ) ) ) (3) EnLum(Pi) = 1/2(1 − cos(π × (Lum(P_i)))) \tag{3} EnLum(Pi)=1/2(1cos(π×(Lum(Pi))))(3)

Sharpen Filter. 图像锐化可以突出显示图像的细节。与非锐化掩模技术[29]一样,锐化过程可以描述如下
F ( x , λ ) = I ( x ) + λ ( I ( x ) − G a u ( I ( x ) ) ) , (34) F(x, λ) = I(x) + λ(I(x) − Gau(I(x))), \tag{34} F(x,λ)=I(x)+λ(I(x)Gau(I(x))),(34)
其中,I(x)是输入图像。 G a u ( I ( x ) ) Gau(I(x)) GauI(x)表示高斯滤波器,λ为正比例因子。这个锐化操作对于x和λ都是可区分的。请注意,通过优化λ,可以调整锐化程度,以获得更好的分割性能。
这里的介绍与IA-YOLO中一样,只是移除了对Tone Filter 和 Defog Filter.的介绍

CNN-based Parameters Predictor 在摄像机图像信号处理(ISP)管道中,通常采用一些可调滤波器进行图像增强,其超参数由经验丰富的工程师通过视觉检查[50]手动调整。这样的调优过程对于为广泛的场景找到合适的参数是非常尴尬和昂贵的。为了解决这个限制,我们使用一个小的CNN作为参数预测器来估计超参数,这是非常有效的。

CNN-PP的目的是通过了解图像的整体内容,如亮度、颜色和色调,以及曝光的程度,来预测DIF的参数。降采样图像足以估计这些信息,这大大节省了计算成本。与在[23]中一样,我们对输入图像的低分辨率版本应用一个小的CNN-PP来预测DIF的超参数。给定任何分辨率的输入图像,我们简单地使用双线性插值将其降采样到256×256分辨率。如图2所示,小的CNN-PP网络由5个卷积块组成,最终的全连接层输出DIF模块的超参数。当DIF的超参数总数为4个时,CNN-PP模型仅包含278K个参数。
与IA-YOLO中tf版本的CNN-PP预测15个参数,参数量仅为165k

B. Learnable Guided Filter

许多最近的高级视觉任务的方法在其原始架构背后级联一个引导过滤器,以改进结果[51],[52]。引导滤波器[53]是一种边缘保持和梯度保持的图像操作,它利用引导图像中的对象边界来检测对象的显著性。它能够抑制目标外的显著性,提高下行检测或分割性能。

原始引导滤波器具有一个引导映射I、一个输入图像p和一个输出图像q。如在公式中所述(5),假设q是I在以像素k为中心的窗口ωk中的线性变换。
q i = a k I i + b k , ∀ i ∈ ω k . (5) q_i = a_kI_i + b_k, ∀i ∈ ω_k. \tag{5} qi=akIi+bk,iωk.(5)

( a k , b k ) (a_k,b_k) akbk是一些在 ω k ω_k ωk中被假定为常数的线性系数。 ω k ω_k ωk是一个半径为r的正方形窗口。我们可以得到 ( a k , b k ) (a_k,b_k) akbk的最终解如下

其中 µ k µ_k µk σ k 2 σ^2_k σk2是窗口 ω k ω_k ωk中I的均值和方差。|ω|是 ω k ω_k ωk中的像素数, e e e是一个正则化参数, p ¯ k p¯k p¯k ω k ω_k ωk的平均值。当对每个窗口 ω k ω_k ωk应用线性变换时,如公式所示(8),我们可以通过平均所有可能的取值得到滤波输出:

为了进一步提高分割结果,我们在分割网络后面引入了一个可学习的引导滤波器(LGF)。算法1是我们的LGF模块的伪代码,其中fmean表示一个窗口半径为r的平均滤波器。相关性(corr)、方差(var)和协方差(cov)的缩写代表了这些变量的原始含义。详细的推导过程可以在[53]中找到。

图3说明了LGF的体系结构。输入p是分割网络的输出,它有19个通道。引导的图I是F (I)的输出。F (I)涉及两个卷积层,分别有64和19个输出通道,只包含1491个参数。它确保了I和p都有相同数量的通道。LGF模块与其他模块一起以端到端方式进行训练,确保LGF自适应地处理每个图像,从而在保持边缘保存的情况下获得更好的分割性能。

所使用的LGF可以作为一个随插随用的部件,添加到任意语义分割模型中

IV. NIGHTTIME SEMANTIC SEGMENTATION

将所提出的DIAL-Filter添加到分割网络中,形成了我们的夜间分割方法。如图2所示,我们将IAPM和LGF分别插件到分割网络的头部和末端。现有的方法大多采用无监督域自适应方法取处理夜间语义分割。为了进行更全面的比较,我们提出了基于DIAL-Filter的有监督和无监督分割框架。

A. Supervised Segmentation with DIAL-Filters

1)、 Framework:如上图(图2)所示,我们的监督夜间分割方法由IAPM模块、分割网络和LGF模块组成。IAPM模块包括一个基于cnn的参数预测器(CNN-PP)和一组可微图像滤波器(DIF)。我们首先将输入图像的大小调整为256×256,并将其输入CNN-PP来预测DIF的参数。然后,将经DIF滤波后的图像作为分割网络的输入。对初步的分割图像进行LGF滤波,得到最终的分割结果。对整个管道进行端到端训练,使CNN-PP能够学习适当的DIF,自适应地增强图像,实现更好的语义分割。

2)、 Segmentation Network:在[15]之后,我们在本文方法中选择了三种流行的语义分割网络,包括DeepLabV2 [26]、RefineNet [6]和PSPNet [7]。所有这些方法都采用了通用的ResNet-101主干[5]

3)、 Re-weighting and Segmentation Loss: 由于驾驶场景图像中不同对象类别的像素数不均匀,因此网络很难学习小尺寸对象类别的特征。这导致了在预测小物体的像素时性能不佳。在[15]之后,我们使用了一个重新加权的方案来进行改进网络多小目标的attention。重加权方程的定义为 w m ⋅ = − l o g ( a m ) w^·_m = − log(a_m) wm=log(am),其中, a m a_m am表示在被标记的Cityscapes数据集中被标注为类别m的像素的比例。显然, a m a_m am的值越低,分配的 w m ⋅ w^·_m wm的权重就越高。因此,它便于网络对较小尺寸对象的类别进行分类。对于每个类别m∈K,权重 w m ⋅ w^·_m wm被归一化如下:

其中e为可调超参数,w和σ(w)分别为 w m ⋅ w^·_m wm的均值和标准差。我们在训练期间默认设置为e = 0.05。

我们利用流行的加权交叉熵损失来训练模型.加权celoss 没有必要解释

所谓的 Re-weighting and Segmentation Loss实际上为对频率较少目标celoss的重新加权方式

B. Unsupervised Segmentation with DIAL-Filters

1)、 Framework: Dark Zurich[54]是一个相对全面的夜间数据集,用于真实世界的驾驶场景,它包含了白天、黄昏和夜间相同驾驶场景的相应图像。在我们的无监督方法中有三个域图像,包括一个源域S和两个目标域Td和Tn,其中S、Td和Tn分别表示Cityscapes(白天)、Dark Zurich-D(白天)和Dark Zurich-N(夜间)。
如图4所示,我们的无监督夜间分割框架采用了与[15]类似的架构。所提出的无监督框架由三个训练支路组成,通过权重共享IAPM模块、分割网络和LGF模块,执行从标记源域S到两个目标域Td和Tn的域自适应。值得一提的是,在训练过程中,只有Cityscapes中的图像才有语义标签。

2)、 Discriminators:在[37]之后,我们设计了识别器,通过应用对抗性学习来区分分割结果是否来自目标域的源域。具体来说,在我们的模型中有两个具有相同结构的鉴别器。每一个都包含5个卷积块,输出通道为{64、128、256、256、1}。每个卷积块包括一个4×4的卷积层与一个Leaky Relu。除了前两个卷积层的步幅为2外,其余的是1。他们被训练来区分输出是S或Td和S或Tn。

3)、Objective Functions: 在训练所提出的端到端无监督框架时,我们对生成器使用总损失和对鉴别器使用相应的对抗性损失。总损失由分割损失、静态损失静态和对抗性损失组成。
分割损失:如在公式中所述(11),我们以加权交叉熵损失作为分割损失。特别是,在我们的无监督框架中,只有带注释的源域图像被用来优化这种损失。在无监督的训练过程中,我们还设置了std = 0.05和avg = 1.0。
静态损失:考虑到Dark Zurich-D中的日间图像与Dark Zurich-N中相应的夜间图像的相似性,我们对[15]中的目标域夜间图像采用静态损失对道路、人行道、墙壁、植被、地形和天空等静态物体,使用日间图像伪标签进行监督训练
我们首先将 P t d ∈ R H × W × C P_{td}∈R^{H×W×C} PtdRH×W×C定义为目标域日间分割结果。 P t n ∈ R H × W × C P_{tn}∈R^{H×W×C} PtnRH×W×C表示相应的夜间分割预测。在计算静态损失时,我们只关注与静态类别对应的通道。因此,我们可以得到 P t d S ∈ R H × W × C S P^S_{td}∈R^{H×W×C^S} PtdSRH×W×CS P t n S ∈ R H × W × C S P^S_{tn}∈R^{H×W×C^S} PtnSRH×W×CS,其中 C S C_S CS是静态对象类别的个数。然后,我们通过公式得到重新加权的日间分割结果 F t d F_{td} Ftd作为伪标签 (10).最后,静态损失 L s t a t i c L_static Lstatic定义如下。实际上为日间伪标签与夜间预测结果3x3邻域最大值的ce loss

对抗性损失: 生成性对抗性训练被广泛用于对齐两个领域。在这种情况下,我们使用两个鉴别器来区分分割预测是来自源域还是来自目标域。我们在对抗性训练中使用最小二乘损失函数[55]。对抗性损失的定义为:

V. EXPERIMENTS

在本节中,我们首先介绍了实验测试集和评估指标。然后,我们进行了无监督和监督实验来研究本文方法在夜间驾驶场景语义分割中的有效性。在监督实验中,我们在三个数据集上评估了本文方法,包括Cityscapes[12]、NightCity[13]和ACDC [14],这些数据集具有具有像素级语义注释的地面真相。对于无监督测试,我们执行了从Cityscapes(带标签)到Dark Zurich[54]的域适应。

A. Datasets and Evaluation Metrics

对于所有的实验,我们使用类别级交叉过并集的平均值(mIoU)作为评价度量。以下数据集用于模型训练和性能评估:
1)Cityscapes[12]:Cityscapes是一个关注于日间城市街道场景的语义理解数据集,被广泛用作分割任务的基准数据集。它包含19种像素级注释,包括2975张训练图像,500张验证图像和1525张测试图像,分辨率为2048×1024。在这项工作中,我们在监督和非监督实验中使用Cityscapes作为日间标记的数据集。

2)NightCity[13]:NightCity是一个带有像素级注释的夜间城市驾驶场景的大型数据集,可用于监督语义分割。有2998张图像用于传输,1299张图像用于验证或测试,使用19个类别的像素级注释。被标记的对象类与Cityscapes[12]相同。

3)ACDC [14]: ACDC是一个具有语义驱动场景理解关系对应关系的不利条件数据集。它包含了4006张具有高质量像素级语义标注的图像,均匀分布在现实驾驶环境中四种常见的雾、夜间、雨雪不利条件中。分辨率和标记的类别都与Cityscapes[12]相同。ACDC数据集包含1000张雾霾图像、1006张夜间图像、1000张雨图像和1000张雪图像,用于密集的像素级语义注释。我们使用ACDC之夜作为我们的监督实验数据集,它包括400张训练,106张验证和500张测试图像。

4)Dark Zurich: Dark Zurich是一个大型数据集,与Cityscapes设计用于无监督语义分割。它包括2416张夜间图像,2920张黄昏图像和3041张用于训练的日间图像,这些图像都未标记,分辨率为1920×1080。这些图像是在白天、黄昏和夜间的同一场景中拍摄,这样它们就可以通过图像特征对齐。在这项工作中,我们只使用了2,416对夜间图像对来训练我们的无监督模型。在Dark Zurich数据集中还有201张带有像素注释的夜间图像,包括50张用于验证(Dark Zurich-val)和151张用于测试(Dark Zurich-test),可用于定量评估。Dark Zurich测试数据集仅通过官方网站提供了一个验证通道。我们通过将分割预测提交到在线评估网站,获得了我们提出的方法的mIoU结果。

5)Nighttime Driving: 夜间驾驶数据集[16]包括50张夜间驾驶场景图像,分辨率为1,920×1,080。与在[12]中一样,这个集合中的图像都被标记为相同的19个类。在这项工作中,我们只采用夜间驾驶数据集进行测试。

B. Supervised Segmentation with DIAL-Filters

  1. Experimental Setup: 我们采用了几种典型的骨干网络,包括DeepLabV2 [26]、RefineNet [6]和PSPNet [7],来验证DIAL-Filters的泛化能力。在[15]之后,所有的实验都利用了语义分割模型,这些模型在Cityscapes上预先训练了15万个epoch应该是iter。预训练的DeepLabV2、Re-fineNet和PSPNet在Cityscapes验证集上的mIoU分别为66.37、65.85和63.94。在训练过程中,我们采用规模在0.5到1.0之间的随机裁剪,大小为512×512,并应用随机水平翻转来扩展训练数据集。与[15],[26]一样,我们使用随机梯度下降(SGD)优化器来训练我们的模型,其动量为0.9,权重衰减为5×10−4。初始学习速率设置为2.5×10−4,然后我们采用poly学习速率策略以0.9降低其幂。批处理大小被设置为4。我们在Tesla V100 GPU上进行了实验,本文方法由PyTorch实现。

  2. Experiments on Cityscapes and NightCity Datasets: 为了证明我们提出的方法的有效性,我们将DIAL-Filters插件到三个经典的语义分割网络中,并在三个标记的数据集上进行实验。表二分别报告了现有方法和所提出的方法在Cityscapes(“C”列)或混合数据集(“C+N”列)上训练的方法的定量结果。通过对混合数据集(Cityscapes和NightCity)进行训练,并在NightCity测试中进行验证,本文方法分别比DeepLabV2、PSPNet和RefineNet要好1.85%、2.44%和2.41%。

    与这些基于日间Cityscapes训练的方法相比,本文方法在日间Cityscapes验证集上仍可以提高0.20%、2.65%和1.30%,而混合数据训练的基线模型改进较差,甚至更差。这说明IAPM模块能够在不同的光照条件下自适应地处理图像,从而实现更好的语义分割。图5显示了本文方法和基线PSPNet(在“C+N”上训练)的几个可视化示例。可以看出,本文方法对其他方法忽略的类别,如杆和交通标志具有更好的分割性能。

  3. Experiments on Cityscapes and ACDC_night Datasets: 我们在Cityscapes和ACDC_night的混合数据集上检验了该方法的有效性。如表三所示,我们提出的具有三种主干中的任何一种的DIAL-Filters在ACDC夜间测试数据集上比基线模型表现得更好。

图6显示了本文方法和基线RefineNet之间的定性比较。可以看出,所提出的IPAM模块能够通过自适应地增加输入图像的亮度和对比度来显示更多的对象,这对于小对象区域的语义分割至关重要。

图7说明了CNN-PP模块如何预测DIF的参数,包括详细的参数值和每个子滤波器处理的图像。通过学习到的DIF模块对输入的图像进行处理后,会发现更多的图像细节,有利于后续的分割任务。

整个实验表明,在夜间数据集环境下本文方法可以提升0.2~2.6%的miou,涨点效果不如无监督实验中稳定

C. Unsupervised Segmentation with DIAL-Filters

  1. Experimental Setup: 我们使用DeepLabV2 [26], RefineNet [6] , PSPNet [7],作为基线模型,进行无监督分割实验。所提出的模型由随机梯度下降(SGD)优化器进行训练,动量为0.9,权重衰减为5×10−4。和[15]一样,我们使用Adam优化器来训练β设置为(0.9,0.99)的鉴别器。鉴别器的学习速率设置为2.5×10−4。此外,我们对Cityscapes数据集采用0.5-1.0的crop size为512,在Dark Zurich数据集采用0.9-1.1的crop size设置为960。此外,在训练中还使用了随机水平翻转。其他相关设置与监督实验结果一致。

  2. Comparison with state-of-the-art methods: 我们将所提出的方法与最先进的无监督分割方法进行了比较,包括DANNet [15],MGCDA [20],GCMA [17],DMAda [16]和几种领域自适应方法[37],[39],[42]在Dark Zurich测试和夜间驾驶,以证明本文方法的有效性。所有这些相互竞争的方法都采用了ResNet-101主干。具体来说,本文方法和DANNet都用三个基线模型进行了测试。MGCDA、GCMA和DMAda使用基线精炼Net进行测试,而其余的则基于DeepLabV2

  3. Experimental Results on Dark Zurich-test: 表四报告了Dark Zurich测试数据集的定量结果。与最先进的夜间分割方法相比,我们提出的使用PSPNet的dial-filter获得了最高的mIoU分数。值得一提的是,虽然我们的模型更小,但它在所有三个基线模型上的性能都优于DANNet。可以发现,我们使用DeepLabV2、RefeneNet或PSPNet的dial-filter都比域自适应方法具有更好的性能(见表四中的第二个部分)

    图8展示了我们方法与MGCDA, DANNet等模型的一些对比效果。通过提出的dial-filter,我们的自适应模块能够从图像中区分感兴趣的物体,特别是小物体和在黑暗中具有混合类别的混淆区域。

    图9显示了一个关于CNN-PP模块如何预测DIF的参数的示例,包括详细的参数值和由每个子滤波器处理的图像。可以观察到,我们提出的dial-filter能够增加输入图像的亮度,揭示图像的细节,这是分割夜间图像的关键。

  4. Experimental Results on Night Driving:表五报告了 Night Drivin测试数据集上的mIoU结果。与最先进的夜间分割方法相比,我们的PSPNet dial-filter取得了最好的性能。尽管我们的模型更小,但当使用RefeneNet、DeepLabV2和PSPNet作为基线时,它分别比DANNet高出2.21%、1.96%和2.62%。此外,还可以清楚地看到,本文方法比领域自适应方法具有更好的性能。

整个实验表明,在夜间数据集环境下,所设计的无监督框架也可以提升1~2.6%的miou。

D. Ablation Study

为了检验我们提出的框架中每个模块的有效性,包括IAPM、LGF和DIF,我们在不同的设置下进行了消融实验。所有的实验都是在Cityscapes和NightCity的混合数据集上以有监督的方式进行训练的,其中的权重参数在Cityscapes上预先训练了15万个epochs我怀疑是iter

实验结果见表六。我们选择Re-fineNet(ResNet-101)作为基础模型,而“DIAL-Filters”是本文方法的完整模型。所有实验的设置和训练数据都相同的。可以看出,DIF预处理、LGF后处理和图像自适应IAPM都可以提高分割性能。当移除了我们提出的filter后,性能恶化,但仍优于固定的DIF和原始基线。这进一步证明了我们提出的可微滤波器和自适应处理策略的有效性。

消融实验表明,固定参数的DIF处理有一定提升效果,但整体上不如更深的网络

Re-fineNet deep是RefeneNet的更深层版本,其主干是ResNet-152,比ResNet-101多15644K的可学习参数。我们提出的方法比CNN-PP和LGF中只有280K附加参数的RefeneNet性能更好。具有固定DIF的方法意味着滤波器的超参数是一组给定的值,所有这些值都在一个合理的范围内。显然,我们的数据滤波器方法在夜间城市测试和城市景观测试中都取得了最好的性能,这表明本文方法可以自适应地处理白天和夜间的图像。这对于下游的细分任务是必不可少的。此外,用于后处理的LGF可以进一步提高性能。图10显示了有/没有LGF的可视化结果。可以看出,可学习引导滤波器获得了更精确的小目标分割边界。我们还评估了在测试数据集上所提出的可微滤波器的选择。

E. Efficiency Analysis

在我们提出的框架中,我们引入了一套新的可学习的参数滤波器到一个分割网络。CNN-PP有5个卷积层,一个辍学层和一个完全连接层,而LGF包括2个卷积层。基于RefineNet,表七比较了我们实验中使用的一些方法的效率。所有这些方法都在RefineNet中部署了一个附加模块。第二列列出了RefineNet模型上的附加参数的数量。第三列列出了使用一个特斯拉V100 GPU的512×1024大小的彩色图像上的运行时间。可以观察到,我们的1种方法在RefineNet上只增加了280K的可训练参数,同时在所有运行时间相当的实验中都获得了最好的性能。请注意,虽然本文方法比DANNet少,但它的运行时间略长。这是因为DIF模块中的滤波过程会导致额外的计算。
本文所提出的CNN-PP+DIF+LGF只增加了280k个参数,在特斯拉V100 GPU上将推理时间延迟了4ms,但可以实现0.2%~2.6%的涨点效果

VI. CONCLUSION

在本文中,我们提出了一种新的夜间驾驶条件下的语义分割方法,通过自适应地增强每个输入图像,以获得更好的性能。具体来说,我们引入了双图像自适应可学习滤波器(DIAL-Filters),并将它们嵌入到分割网络的头部和末端。开发了一个全可微图像处理模块来对输入图像进行预处理,其超参数通过一个小的卷积神经网络进行预测。通过可学习的引导滤波,进一步提高了初步的分割结果,以获得更准确的分割。整个框架以端到端方式进行训练,其中参数预测网络受到弱监督,通过监督实验中的分割损失来学习适当的DIF模块。我们在监督和无监督分割上的实验表明,所提出的数据滤波器优于以前的夜间驾驶场景语义分割方法。

猜你喜欢

转载自blog.csdn.net/a486259/article/details/132529038