语义分割算法总结

大论文准备写语义分割这方面的内容，先做个记录。

FCN：
Fully Convolutional Networks for Semantic Segmentation，Submitted on 14 Nov 2014
主要特点：
推广了端到端卷积神经网络在语义分割问题上的应用
使用ImageNet预训练模型进行语义分割
使用反卷积层进行上采样
引入跳跃连接克服上采样的导致的粗糙结果。
解释：
全卷积神经网络可以视作卷积核在全幅图像上卷积。这与原始分类网络在输入块上重叠分类类似，但其由于共享计算而变得更加高效。尽管对该论文的阐释有多种（overfeat，博客）,全卷积神经网络显著提升了VOC2012上的分割效果。
在经过在ImageNet上预训练的网络（如VGG）的全连接层之后，由于CNNs中的池化操作，特征图需要被上采样。与简单的双线性插值不同，反卷积能够学习如何插值。该层也被称为上卷积（upconvolution）、全卷积（full convolution）、转置卷积（transposed convolution）或微步跨越卷积（fractionally-strided convolution ）。
然而，上采样（即使使用了反卷积层）由于池化层的信息损失产生的分割特征图较为粗糙。因此，短连接或跳跃连接被引入以产生高分辨率的特征图。

SegNet：
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation，Submitted on 2 Nov 2015
关键贡献：
将最大池化坐标传输给解码器以提升分割分辨率。
解释：
全卷积网络，通过反卷积层及少量短连接产生的分割结果较为粗糙。因此，SegNet中引入较多短连接。但与全连接神经网络中（在解码器）拷贝所有（编码器）特征图不同的是SegNet只拷贝（编码器的）最大池化下标（到解码器中）。这使SegNet的内存占用率更低。

Multi-Scale Context Aggregation by Dilated Convolutions，Submitted on 23 Nov 2015
主要贡献：
使用膨胀卷积，使用卷积层进行密集预测。
提出“上下文模块”，使用膨胀卷积进行多尺度融合。
解释：池化可以提高感受野，从而提升分类性能。但会降低特征图分辨率。因此，作者使用膨胀卷积层，其工作原理如下：

DeepLab（v1&v2）
v1 : Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs，Submitted on 22 Dec 2014
v2 : DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs，Submitted on 2 Jun 2016，Arxiv Link
主要贡献：
使用膨胀卷积
提出膨胀空间金字塔池化（atrous spatial pyramid pooling，ASPP）
使用全连接CRF（条件随机场）
解释：
膨胀卷积能够在不增加参数量的情况下提高感受野。网络被修改得与膨胀卷积论文类似。
多尺度处理通过将图像缩放之后传递给多路平行的CNN分支（图像金字塔）或者使用多路不同采样率的膨胀卷积层来实现。
结构化的预测通过全连接CRF实现。CRF在后处理步骤中被单独训练（优化）。

PSP-Net
Pyramid Scene Parsing Network，Submitted on 4 Dec 2016
主要贡献：
提出金字塔池化模块融合上下文
使用附加的损失
解释：
全景类别可以提供分割类的空间分布。金字塔池化模块使用大核池化层获取该种信息。
使用膨胀卷积对ResNets进行修改，并在其后添加金字塔池化层。该模块将ResNets使用覆盖整张图像的大核、一半及一小部分核池化层的上采样特征图进行拼接。
一种辅助损失，被添加到主分支的损失之中，用于ResNets第四阶段之后（即金字塔模块的输入）。该想法也被称为中间监督（intermediate supervision）。

DeepLab V3
Rethinking Atrous Convolution for Semantic Image Segmentation，Submitted on 17 Jun 2017
主要贡献：
提升的深黑空间金字塔池化（ASPP）
使用级联的深黑卷积模块
解释：
与DeepLabv2及膨胀卷积类似，将ResNets网络修改为使用膨胀卷积实现。提升的ASPP包括图像级特征连接、1x1卷积及3个3x3不同膨胀率的膨胀卷积。在每个平行卷积层之后使用批正则化。
级联模块是一个除去组件卷积层的ResNets 块，使用不同的膨胀率。该模块与膨胀卷积论文中的上下文模块类似但是此处被用于中间特征映射而非信念映射（信念映射是最后的CNN特征图，其通道数与类别数相同）。
两种提出的模块被单独评估，并且将两者结合并不能提升其性能。两者在验证集上性能相近ASPP稍显优势。未使用CRF。
两种模型性能均优于DeepLabv2最佳模型。作者解释道性能的提升来自批正则化及更优的多尺度上下文编码方式。

语义分割算法总结

猜你喜欢