Semantic Foggy Scene Understanding with Synthetic Data

导致了550个精心优化的高质量合成雾图像，其中直接从Cityscapes继承了精细的语义注释，另外还有20,000个合成模糊图像，没有精细注释。由此产生的“合成雾”图像用于调整两个语义分割模型（Yu和Koltun 2016 ; Lin等2017）和物体探测器（Girshick 2015））到雾的场景。模型以两种方式进行训练：（1）通过典型的监督学习方案，使用550个高质量注释模糊图像，和（2）通过新颖的半监督学习方法，增加用于的数据集（ 1）增加了2万张模糊的图像，并从这些图像的预测中得出这些图像的缺失监督，这些图像来自晴朗天气的对应物。出于评估目的，我们收集并注释一个新的数据集，Foggy Driving，其中有101张有雾的驾驶场景图像。

该论文的主要贡献是：（1）一种自动且可扩展的管道，可在真实的晴朗天气图像上施加高质量的合成雾; （2）两个新的数据集，一个是合成的，一个是真实的，以便于对SFSU中使用的模型进行培训和评估; （3）为SFSU提供新的半监督学习方法; （4）详细研究了SFSU图像去雾的效果以及人类对模糊场景的感知

雾的光学模型的选择

I(x) = R(x)t(x) + L(1 − t(x)),

这一公式是属于比较常见的去雾的模型公式

t(x) = exp(−β‘(x)).

这里引进了一个新的系数，衰减系数，来描述大气光的影响

参数 β称为衰减系数，它有效地控制雾的厚度：更大的值 ββ意思是浓雾。气象光学范围（MOR），也称为能见度，

标准的立体匹配算法

R晴天图像，合成雾图片作为左声道输入，Q作为右声道输入

M集合包含着缺失D值的像素

这是整个合成雾模拟的步骤

中心思想是利用立体对的彩色图像中存在的精确结构，以便在将后者用作计算传输的输入之前提高深度质量。

我们使用清晰图像的超像素分割来引导超像素级别的深度去噪和完成，假设每个单独的超像素大致对应于3D场景中的平面。

R中所有像素，其颜色偏差（测量为RGB颜色空间的差异）与的对应图像Q的像素幅度大于ε = 12 / 255被认为在深度方面无效，因此被添加到M中。

将R使用SLIC算法切割

使用RANSAC算法进行随机误差检验，内线值范围，迭代次数2000

超像素对匹配函数，对CIELAB颜色空间中超像素平均颜色之间的欧氏距离平方进行了计算，为了提高感知一致性

在颜色和空间位置上进行计算欧式距离

xs-xt计算空间上的欧式，这是为了避免寻找到外观相似但t距离极其远的情况。

之后用cos角来判断两个超像素的颜色接近度

超像素已经分配一个深度平面,我们使用匹配函数寻找到超过深度值像素属于M .此外,我们代替像素点的深度值不属于M,但构成大幅度异常值对相应的平面(偏差大于θ= 50米)与估算的值。这将生成一个完整的去噪深度图d0，并完成步骤2。

之后经过计算得到最终的合成图片

利用合成雾图片进行监督学习

更具体地说，实验可以概括为两个步骤:

1.微调一个模型，已训练在原始的城市景观数据集为晴朗的天气，只使用雾蒙蒙的城市景观合成图像-精制

2.在雾天驾驶条件下对模型进行了优化评价，并与原模型进行了性能比较。

我们选择的带监督管道的语义分割实验模型是现代膨胀卷积网络(DCN)[63]。特别地，我们利用了公开可用的膨胀模型，该模型已对城市景观训练集的2975幅图像进行了训练。我们想指出的是，这个模型最初是由[63]的作者在1396图像作物上训练和测试的，但是由于GPU内存的限制，我们在756作物上训练它，并在700作物上测试它。不过，Dilation10在雾天驾驶方面的平均得分比union (IoU)高出34.9%。在接下来的实验中，我们对包含498幅图像的雾都场景训练集进行了微调，并保留了各自验证集的52幅图像进行额外的评估。特别地，我们使用大小为1的微型批对3k迭代(约6个纪元)的原始模型的所有层进行微调。除非另有提到的,多雾的城市使用的衰减系数β= 0.01。

MSCNN网络

多尺度检测分为两种方法：

（1）利用一个单一尺度的分类器并将输入图片多次重新缩放成不同比例进行检测，使分类器能够与所有尺寸的目标相匹配。（2）利用卷积神经网络特征的复杂性。本文采用的是一个多尺度的检测方法，在卷积过程中的多个卷积层中进行检测，但是输入采用单一尺度的图片，并且每个检测层只检测固定尺寸大小的图片。

文章中的MS-CNN proposal network如图三所示，图像中间是网络的主干，同时在一些卷积层中带有分支结构。其中每个分支都是一个单一尺度的目标检测器。注意在第4-3个卷积层后带有一个缓冲层，是为了防止低层次卷积层在反向传播过程中影响主干网络的梯度。

整个proposal network子网络的损失用W来表示，S是训练目标的一个集合。其中整体的损失数由公式（1）进行计算，是将每一个检测层的损失叠加在一起作为整体损失，损失的计算与faster r-cnn相似，分别计算分类损失和回归损失。分类采用对数损失，回归采用SMOOTH-L1损失。

采样

对于每一个检测层训练样本都分为正、负样本。其中候选框是通过一个Anchor作为滑动窗口的中心，在特征映射上滑动产生的。Anchor的大小设置与卷积核的大小相关，并且不同检测层的大小设置也不同，具体设置如表一所示。当候选框与真实样本的IOU值大于等于0.5时，被标记为正样本，当IOU值小于0.2时被标记为负样本，其余的丢弃。

Semantic Foggy Scene Understanding with Synthetic Data

猜你喜欢