A Review on Deep Learning Techniques Applied to Semantic Segmentation

阅读时候记录的一些自己简单的笔记，类似于文章框架，缺少讲解。

分割类综述论文大都引用此篇文章，特此学习。

摘要

1、引入了领域相关的术语及必要的背景知识；

2、介绍了主要的数据集以及对应的挑战，帮助研究者选取真正适合他们问题需要及目标的数据集；

3、介绍了现有的方法，突出了各自的贡献以及对本领域的积极影响；

4、展示了大量的针对所述方法及数据集的实验结果，同时对其进行了分析；

5、指出了一系列的未来工作的发展方向，并给出了对于目前最优的应用深度学习技术解决语义分割问题的研究结论。

引言

语义分割应用于静态2D图像、视频甚至3D数据、体数据，为场景理解做铺垫，场景理解即由具体到抽象。

语义分割应用：自动驾驶、人机交互、计算摄影学、图像搜索引擎、增强现实等

以往综述缺点：缺少数据集、未分析框架、未提供技术细节

本文贡献：1）数据集整理；2）重要语义分割方法起源、贡献的整理；3）从准确率、运行时间、内存占用等评价算法性能；4）总结现在技术，展望未来发展

Sec.2 术语和背景概念

语义分割：从粗糙推理到精细推理，对像素点进行稠密预测，每个像素都被分类标注为某个物体或区域。进一步分割为实力分割或基于部分的分割。

Sec.2.1 常见深度网络架构

AlexNet：首创模型，包括五个卷积层、最大池化层、ReLu层为非线性层，三层全连接层，以及Dropout层

VGG-16：第一层使用小感受野卷积层（参数更少，非线性更强），使得决策函数更有区分度，模型易训练

GoogLeNet ：结构复杂，22层和新引入的inception模块，证实CNN除了标准的序列还有其他堆叠方式。inception模块可以减少参数，减少内存，提升速度

ResNet ：152层，提出残差模块、残差模块解决深度丢失信息的问题，也解决梯度消失问题。

ReNet ：基于多维度循环神经网络，但并不使用多维RNN，而使用普通序列RNN模型。在ReNet中，每个卷积-池化层被4个同时在水平方向与竖直方向切分图像的RNN模型所替代。

Sec.2.2 迁移学习

训练需要足够的数据集，网络收敛需要时间较长。迁移学习从训练好的网络进行微调。

迁移学习：1）提前训练的网络必须满足网络结构等方面的约束，一般使用现有的网络架构或网络组件进行迁移学习；2）与训练过程本身对于从头开始训练过程区别较小，一般选网络高层微调，低层用于保留更通用的特征；3）选取较小学习率，一般以前训练权重相对较好。

分割标注数据集困难。规模一般比ImageNet小。对于RGB-D或3D数据集规模更小

Sec.2.3 数据预处理与数据增强

数据增强避免模型过拟合，增强模型泛化能力。一般在数据空间或者特征空间上应用迁移技术。

数据空间：应用迁移方法从已有数据中获得新样本（平移、扭曲、旋转、缩放、颜色空间转换、裁剪等），为了获得更大的数据集

Sec.3 数据集及竞赛

Sec.3.1 2D：平面RGB数据集

PASCAL VOC、PASCAL Context、PASCAL Part、SBD、Microsoft COCO、SYNTHIA、Cityspaces、CamVid、KITTI系列、Youtube Objects、Adobe、MINC、DAVIS、Standford background、SiftFlow、

Sec.3.2 2.5D：有深度信息的RGBD数据

NYUDv2、SUN3D、SUN RGBD、RGBD Object Dataset

Sec.3.3 3D：替数据/三维数据

ShapeNet Part、3D Mesh、Sydney Urban Object Dataset、Large-Scale Point Cloud Classification Benchmark

Sec.4 方法

FCN：利用现存的CNN网络作为模块之一产生层次化特征

Sec.4.1 解码器变体

SegNet

Sec.4.2 整合上下文知识

池化层虽然可以在获得某种空间不变性的同时保持同样的计算效率，但容易丢失全局上下文信息。而且神经元的感受野也只会随着层数线性增长。需要一些方法提高CNN对全局信息的敏感

Sec.4.2.1 条件随机场（CRF）

将CRF引入后处理阶段，是调优分割架构的输出，并且强化捕捉细粒度信息的通用办法。CRF使得低层图像信息与产生每个像素类分数的多类推理系统的输出相结合，能够促进捕捉长程依赖关系和精细局部细节。

DeepLabv1、v2

CRFasRNN：用CRF调优FCN

Sec.4.2.2 扩张卷积

由Kronecker-factored卷积滤波器扩展。扩张卷积可以指数级扩大感受野而不丢失分辨率。

Deeplab、多尺度上下文聚合模型、ENet

Sec.4.2.3 多尺度预测

CNN中每个参数都可能影响特征映射。多尺度预测一般是选用多个处理不同尺度的网络，最后将他们的预测结果结合为一个单一的输出。

VGG16多尺度版本等

Sec.4.2.4 特征融合

全局特征与相对局部的特征映射结合。

延迟融合常见利用跳远连接方式进行延迟特征融合。

提前融合：Parasenet中上下文模块、SharpMask

Sec.4.2.5 循环神经网络

RNN通过将像素级别和全局信息联系，建模全局上下文信息改善语义分割。

GRU：ReSeg

新型长短期记忆网络：LSTM-CF

二维循环：基于LSTM

更大的输入窗口：rCNN

无向循环图UGG：不直接使用RNN，为此UCG被分解为多个有向图DAG。

文献综述 | A Review on Deep Learning Techniques Applied to Semantic Segmentation-2017-语义分割部分