A Review on Deep Learning Techniques Applied to Semantic Segmentation 论文阅读

为了以后的学习方便，把几篇计算机视觉的论文放上来，仅为自己的学习方便。期间有参考了很多博客和文献，但是我写的仍然很粗糙，存在很多的疑问。这篇文章是第一篇有关语义分割的总结，可能大学毕设会用到，暂时先简单总结一下自己的所得。

大学快要毕业了，开始准备毕设，分割方向逃不了了。提示：排版对手机端不友好。

原文地址：A Review on Deep Learning Techniques Applied to Semantic Segmentation

参考译文：综述论文翻译：A Review on Deep Learning Techniques Applied to Semantic Segmentation

论文的背景

语义分割越来越受到计算机视觉和机器学习研究者的重视，可以说，分割任务是目前计算机视觉的一个重要的任务。现实生活中有很多的场景需要有效的、准确的分割技术，例如：自动驾驶[1][2]、室内导航、虚拟现实以及增强现实等。

传统的机器学习和计算机视觉技术，在一定程度上解决了分割的问题。但是深度学习的使用，大大的提高了分割任务的准确率。这些深度结构主要是基于卷积神经网络（CNNs）[3][4][5]，使得计算机视觉的研究发生了翻天覆地的变化。本文针对现有的(2017年)的顶尖论文（state-of-the-art，共114篇参考文献）中提出的技术（共27种）进行了总结，并列举当前现有的数据集（共28个），同时指出了现有论文的不足之处和对未来工作进行了展望。

论文内容

1、论文结构

Section 1(Introduction):

对深度学习在计算机视觉中起到的作用进行了一个简单的介绍，并说明本文是第一篇对基于深度框架的语义分割的技术总结的文章。对本文的贡献做出了如下总结：

⑴ 对现有的数据集进行了广泛的调研，这些数据集对研究利用深度学习进行分割有着至关重要的的作用；

⑵ 对现有的顶尖的使用深度学习的方法进行了彻底地分析，包括这些方法的起源以及他们的贡献；

⑶ 通过对比准确率（主要对比）、运行效率和所示存储空间等评判标准，对现有的方法进行了全面的比较；

⑷ 对该领域的未来发展方向进行了展望。

Section 2 (Terminology and Background Concepts):

对语义分割的常见问题、常用符号和惯用惯例进行了总结。

Section 3 (Dataset and Challenges):

介绍了现有的数据集、挑战和基准。

Section 4 (Methods):

对现有的方法根据其从低到高进行了排序，只是定性的介绍文章的闪光点和理论知识，并未展开定量细讲。

Section 5 (Discussion):

对现有的方法在各个数据集上表现进行简短的了总结和对比，并对不同语义分割领域的未来的工作进行了简短的展望。

Section 6 (Conclusion):

对本文的一个总结以及对相关工作及该领域目前最优方法进行了总结。

2、相关术语和概念

分割任务的出现是和前人的工作密切相关的，从对物体的分类、确定图片中物体的位置、语义分割再到实例分割，是一步步递进的，都是从粗到细的一个过程，详细的对比图见图1。

图1 分类、定位、语义分割和实例分割的进化图

对于像素级别的分类，可以进行形式化为找到一个合适的映射函数，将像素集中的像素 ${{x}_{i}}\in X\text{=}\left\{ {{x}_{1}},{{x}_{2}},\cdots ,{{x}_{N}} \right\}$ 映射到合适的标签空间 $L=\left\{ {{l}_{1}},{{l}_{2}},\cdots ,{{l}_{k}} \right\}$ 。标签空间中一般包含 $k+1$ 类，对应 $k$ 类物体和一个背景（ ${{l}_{0}}$ ），其中 $X$ 通常是2维图片中 $W\times H=N$ 个像素的数据集，不过可以通过扩展对数据应用到更高维度上去。

2.1 一些常用的深度网络架构

⑴ AlexNet [6]（参AlexNet层级分析）

该网络架构是使用深度卷积神经网络的先驱，获得了ILSVRC-2012的冠军，达到的TOP-5准确率为84.6%。架构的前五层为卷积层，后三层为全连接层，最大池化层存在于RPN层和第五个卷积层后。该架构的学习参数有6千万个，神经元有650000个。该网络的创新点在于使用ReLU（Rectified Linear Units），改善了Sigmoid存在的梯度消失和爆炸（梯度弥散）。AlexNet的网络结构如图2所示：

图2 AlexNet的网络架构

每层的卷积核的大小数量见表1。

表1 每个卷积层的卷积核的大小和数量

	Conv1	Conv2	Conv3	Conv4	Conv5
个数	96	256	384	384	256
长度	11	5	3	3	3
宽度	11	5	3	3	3
深度	3	48	256	192	192

⑵ VGG[7]

这个架构由16个权重层构成，所以又称VGG-16，取得了ILSVRC-2014的第二名，其测试的Top-5准确率为92.7%。该网络的创新点在于第一层网络使用了一些小的感受野的卷积层，使得模型的参数得到减少，并增加了模型的非线性，也因此使得决策函数更具区分度。网络中引进了1*1卷积核，增加了非线性的效果。

同AlexNet网络相同，VGG采用了5个卷积层和3个全连接层。但是AlexNet每层只有一个卷积层，而VGG采用了多个小的卷积层。使用小的卷积核，是在保证网络精度的前提下，进行减少参数的一个重要的方向。其网络结构如图3所示：

图3 VGG网络结构

⑶ GoogLeNet[8]

该网络在ILSVRC-2014上力压VGG，以 TOP-5准确率93.3%夺得冠军。GoogLeNet做到了22层深度网络，但是随着层数的增加，很容易有过拟合和增加计算量的烦恼，作者将全连接的方式改为稀疏连接来解决这两个问题。利用inception结构，这个结构很好地利用了网络中的计算资源，并且在不增加计算负载的情况下，增加网络的宽度和深度。

所有操作均并行计算出来，而后进行1×1卷积操作来进行降维。由于这些模块的作用，参数及操作的数量大大减少，网络在存储空间占用及耗时等方面均取得了进步。GooleNet网络结构见图4：

图4 带有Inception模块的GoogleNet网络结构

⑷ ResNet[9]

该网络在ILSVRC-2016中取得的96.4%的准确率而广受关注，同时也因其152层的深度以及对残差模块的引入而闻名。

本方法的关键想法：保证下一层可以从原始输入中学到不同新的信息（因为下一层同时得到了前一层的输出以及原始的输入）。另外，这种连接也协助解决了梯度消失的问题。其残差模块如图5所示：

图5 ResNet的残差模块

图中的折线称为shortcut connection，顾名思义，shortcut就是抄近道。具体的内容参考ResNet解析。

⑸ ReNet[10]

该网络使用常见的序列RNN模型，RNN模型的数量在每一层关于 $d$ （输入图像的维数为 $2d$ ）线性增长。在ReNet中，每个卷积层（卷积+池化）被4个同时在水平方向与竖直方向切分图像的RNN模型所替代，如图6所示：

图6 ReNet架构中的一层

2.2 迁移学习

用来让机器偷懒的方法，不用从头造车，拿轮子来造车的思想。从头训练一个深度神经网络通常是不可行的，有这样两个原因：一是训练需要足量的数据集，而这一般是很难得到的；二是网络达到收敛需要很长的时间。

迁移学习合理选择进行微调的层是很重要的，一般选网络中较高的层因为底层一般倾向于保留更加通用的特征；同时，合理地确定学习率也是重要的，一般选取较小的值，因为一般认为提前训练的权重相对比较好，无需过度修改。（趣说迁移学习）

2.3 数据预处理和增强

数据增强一般包括在数据空间或特征空间（或二者结合）上应用一系列的迁移技术。在数据空间上应用增强技术最常见，这种增强技术应用迁移方法从已有数据中可以得到新的样本。可用的迁移方法有：平移、旋转、扭曲、缩放、颜色空间转换、裁剪等。这些方法的目标均是通过生成更多的样本来构建更大的数据集，防止过拟合以及便于对模型进行正则化，还可以对该数据集的各个类的大小进行平衡，甚至手工地产生对当前任务或应用场景更加具有代表性的新样本。

数据增强对小数据集尤其有用，而且其效用已经在长期使用过程中被证明。例如，在[11]中，有1500张肖像图片的数据集通过设计4个新的尺寸 $\left( 0.6,0.8,1.2,1.5 \right)$ ，4个新的旋角 $\left ( -45,-22,22,45 \right )$ ，以及4个新的 $\gamma$ 变化 $\left( \text{0}\text{.5}\text{0}\text{.8}\text{1}\text{.2}\text{1}\text{.5} \right)$ 被增强为包含19000张训练图像的数据集。通过这一处理，当使用增强数据集进行微调时，其肖像画分割系统的交并比（IoU）从73.09%提升到了94.20%。

3、数据集和挑战

常见的数据集主要有几种形式：2D或者平面图、2.5D或RGB-D图和3D或立体图。

表2常见的大规模分割数据集

表2给出了一些常见的数据集的概览，收录了所有本文涉及的数据集并提供了一些有用信息如他们的被构建的目的、类数、数据格式以及训练集、验证集、测试集划分情况。

3.1 2维数据

常用的14种2维数据集以及访问网址如表3所示：

表3 常见的2维数据集

数据集名	访问地址
PASCAL Visual Object Classes视觉物体分类数据集(VOC)	http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
PASCAL 上下文数据集（PASCAL Context）	http://www.cs.stanford.edu/∼roozbeh/pascal-context/
PASCAL 部分数据集（PASCAL Part）	http://www.stat.ucla.edu/∼xianjie.chen/pascal part dataset/pascal part.html
Semantic Boundaries Dataset (SBD、语义边界数据集)	http://home.bharathh.info/home/sbd
Microsoft Common Objects in Context (COCO) 微软常见物体环境数据集	http://mscoco.org/
SYNTHetic Collection of Imagery and Annotations (SYNTHIA) 图像与注释合成数据集	http://synthia-dataset.net/
Cityscapes 城市风光数据集	https://www.cityscapes-dataset.com/
CamVid	http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/
KITTI	[12]
Youtube-Objects (YouTube物体数据集)	[13]
Adobe’s Portrait Segmentation Adobe肖像分割数据集	http://xiaoyongshen.me/webpage portrait/index.html
Materials in Context (MINC) 上下文语料数据集	[14]
Densely-Annotated VIdeo Segmentation (DAVIS) 密集标注的视频分割数据集	http://davischallenge.org/index.html
Stanford background 斯坦福背景数据集	http://dags.stanford.edu/data/iccv09Data.tar.gz
SiftFlow	[15]

3.2 2.5维数据

常用的5种2.5维数据集以及访问网址如表4所示：

表4 常见的2.5维数据集

数据集名	访问地址
NYUDv2数据集	http://cs.nyu.edu/∼silberman/projects/indoor scene seg sup.html
SUN3D数据集	http://sun3d.cs.princeton.edu/
SUNRGBD数据集	http://rgbd.cs.princeton.edu/
The Object Segmentation Database (OSD) 物体分割数据集	http://www.acin.tuwien.ac.at/?id=289
RGB-D Object Dataset RGB-D物体数据集	http://rgbd-dataset.cs.washington.edu/

3.3 3维数据

常用的5种3维数据集以及访问网址如表5所示：

表5 常见的3维数据集

数据集名	访问地址
ShapeNet部分数据集	http://cs.stanford.edu/ericyi/project page/part annotation/
斯坦福2D-3D-S数据集	http://buildingparser.stanford.edu
三维网格分割基准数据集	http://segeval.cs.princeton.edu/
悉尼城市物体数据集	http://www.acfr.usyd.edu.au/papers/SydneyUrbanObjectsDataset.shtml
大规模点云分类基准数据集	http://www.semantic3d.net/

4、基于深度学习的语义分割方法

基于深度学习的语义分割的方法汇总见表6：

表6 深度学习的语义分割的方法汇总

4.1 FCN

目前，最成功用于语义分割的深度学习技术均来自全卷积网络FCN [16]。其结构如图7所示：

图7 FCN网络结构

该方法利用了现存的卷积神经网络作为其模块之一来产生层次化的特征。[16]将现存的知名的分类模型包括AlexNet、VGG-16、GoogLeNet和ResNet等转化为全卷积模型：将其全连接层均替换为卷积层，输出空间映射代替分类分数。这些映射由小步幅卷积上采样（又称反卷积）得到，来产生密集的像素级别的标签。本方法在标准数据集如PASCAL VOC分割准确率上相对于传统方法取得了极大的进步，且同样高效。由于上述及更多显著的贡献，FCN成为了深度学习技术应用于语义分割问题的基石。

对FCN的贡献的一个总结为：

⑴ 推广端到端卷积网络在语义分割领域中的应用；

⑵ 修改ImageNet预训练模型并应用于图像语义分割；

⑶ 采用解卷积层（deconvolutional layer）实现上采样；

⑷ 引入跳跃连接（skip connections）改善上采样的粒度（coarseness）。

4.2 SegNet[17]

其与FCN的对比图见图8：

图8 FCN（右）和SegNet（左）的对比图

该网络的主要贡献：

⑴ 将最大池化索引（Maxpooling indices）转换到解码器，从而提升分割分辨率。

4.3 Conditional Random Fields (条件随机场，CRFs)

CRF促成了底层图像信息与产生像素级别的类别标签的多类别推理输出的结合，这种结合对于捕捉长期依赖性质尤其重要，这也是关注于局部细节的CNN所未能考虑到的。文中提到的DeepLab（v1 & v2）的主要贡献有：

⑴ 采用了带孔/空洞卷积；

⑵ 提出了金字塔型的空洞池化；

⑶ 采用全连接的CRF；

图9展示了这种基于CRF的后处理过程对DeepLab模型产生的得分和信念映射（the belief maps，不知道翻译的对不对）产生的影响。

图9 DeepLab中展示的CRF调优每次迭代带来的影响：第一行是得分映射，第二行是信念映射。

4.4 Dilated Convolutions (扩张的卷积)

该网络的主要贡献：

⑴ 采用空洞卷积（dilated convolution）作为能够实现像素级预测的卷积层；

⑵ 提出“背景模块”（context module），用于空洞卷积的多尺度聚合。

如图9所示，扩张率为1的扩张卷积使得感受野呈现指数级的增长，而滤波器的参数保持线性增长。这意味着扩张卷积可以在任意分辨率图片上高效地提取密集特征。另外，值得注意的是一般的卷积只是扩张率为1时的特殊情况。

图9 [18]所展示的不同扩张率的扩张卷积滤波器

4.5 多尺度预测（还需再看看）

整合上下文知识的另一种可能的做法便是使用多尺度预测，多尺度的网络一般都是选用多个处理不同尺度的网络，最后将他们的预测结果结合，产生一个单一的输出。

4.6 特征融合

特种融合技术将一个全局特征（由某网络中较前面的层提取得到）与一个相对局部的特征映射（后边的层提取得）相结合，分为先融合和后融合。常见的架构如原始FCN网络利用跳跃连接的方式进行后特征融合，也是通过将不用层产生的特征映射相结合。

图10 类似跳跃连接的架构，对特征映射进行后融合

另一种方法便是先融合，这一方法来自ParseNet[19]中的上下文模块。全局特征被反池化为与局部特征相同的尺寸，然后，将这两种特征进行串联后得到一个合并的特征，输入到下一层或者直接用于分类器的学习。如图11所示：

图11 ParseNet中的上下文模块示意图

4.6 循环神经网络RNN（待继续深究）

卷积神经网络在图像处理等非一维数据上取得了成功，卷积神经网络依赖于提前设计好的参数，将网络限制于局部上下文中。得益于自身的拓扑结构，循环神经网络成功地应用到了对长期或短期序列的建模上。但是，一个重要的问题是：图片中缺乏自然的序列结构，而RNN架构仅关注一维的输入。

基于面向分类的ReNet模型，Visin等人提出了ReSeg模型[20]用于语义分割，如图12所示。

图12 ReSeg网络示意图

在本方法中，输入图像在第一层VGG-16层中被处理，特征映射结果送入一个或更多的ReNet层中来进行微调。最终，特征映射的尺寸被调整，使用的是基于反卷积的上采样层。在本方法中，门循环单元（GRU）被用来平衡占用空间与计算复杂度。一般的RNN在建模长期依赖关系时表现不好，主要是因为梯度消失问题的存在。由此产生的长短期记忆网络（LSTM）[97] 和GRU [98]是该领域目前最好的两种方法，可以避免以上问题。

受ReNet架构的启发，有人为场景标注问题提出了一种新型的长短期记忆上下文融合模型（LSTM-CF）[21]。

4.7 实例分割（这些方法再仔细了解一下吧）

实例分割被认为是语义分割的下一步，与此同时其相对于其他底层像素级别分割技术来说是最具挑战性的。该问题的主要目标是将同一类的不同物体分割为各个实例，这个处理过程的自动化操作并不直观，因此，实例的数量并不是预先知道的，对得到的预测的评估方法也不像语义分割一样达到像素级别。所以，这个问题至今仍有部分未被解决，但是考虑到其潜在的应用，目前领域研究者对此保有兴趣。实例标注为我们分析遮挡情况提供了额外的信息，还可以数出属于同一类的物体的数量，从而可以为执行抓取任务的机器人检测出特定的物体。

基于此目的，Hariharan等人提出了一种同时检测和分割（SDS）的方法来提高现有方法的表现。

一种自下而上的层次化图像分割方法，称之为多尺度可结合组，以此得到建议的分割区域。对于每个区域，使用适合的区域CNN（R-CNN）版本来提取特征，其是由MCG方法中给出的边界框微调而来，而不是由选择性的搜索以及前景区域得出。然后，对每个建议的区域使用线性支持向量机（SVM）在CNN顶层特征上进行分类。最后，为了进行调优，非最大抑制（NMS）方法被应用到了先前的区域建议上。

接下来，Pinheiro等人[83]提出了深度掩模（DeepMask）模型，这是一种对物体给出提议的方法，基于单个的卷积网络。这个模型对于一个输入的分块预测出一个分割的覆盖区域，并给出这个块中包含物体的概率。这两个任务同时被一个单个的网络所学习和计算，他们共享多数的层，除了最后一层实现特定任务的层。

另一种方法由Zagoruyko等人[85]提出，使用快速R-CNN作为起点，使用深度掩模的物体提议而不是选择性搜索。这种结合多种方法的系统成为多路分类器，提高了COCO数据集上的表现，对于快速R-CNN做出了三处修改：使用整合的损失项改善了定位能力，使用中心区域提供上下文信息，以及最终跳过连接来为网络给出多尺度的特征。该系统相对于快速R-CNN取得了66%的提升。

可以看出，多数提到的方法依赖于现有的物体检测方法，这限制了模型的表现。即使这样，实例分割过程依然有很多问题未被解决，上述方法仅仅是这个有挑战性的方向的一小部分。

4.8 RGB-D 数据

深度数据需要被编码为每个像素点上的三个通道，就好像是RGB图像一样。有许多不同的技术，比如水平-高度-角度方法，这个方法被用于将深度信息编码为以下三个通道：水平方向的差距，距离“地面”的高度，以及局部表面法向与推知的重力方向的夹角。

Zeng等人[22]提出了一种使用多视角RGB-D数据和深度学习技术的物体分割方法。多视角捕获的RGB-D数据被送入FCN网络中，得到每个图像每个像素点分别作为40类的概率。分割标签由阈值截断，该阈值为各个视角下平均概率的三倍。另外，本工作训练多个网络（AlexNet和VGG-16）来提取特征，然后来评估使用深度信息的优势。

Ma等人提出了一个全新的物体类别分割方法，使用的也是多视角深度学习技术。多个视角是由运动的RGB-D摄像机拍摄的，在训练阶段，使用RGB-D SLAM技术获取摄像机轨迹，然后将RGB-D图像扭曲成与真实标注数据相同尺度以保证训练中的多视角的连续性。该方法基于FuseNet[23]，其在语义分割过程中结合了RGB与深度图像，通过加入多尺度的损失最小化技术改善了原有工作的表现。

4.9 3维数据（再看看）

为了在卷积网络中促成参数共享以及其他优化形式，多数工作借助于三维立体网格或者映射来将非结构化或者不规则点云或网格转化为普通表示形式，然后再将其输入网络中。例如，Huang等人[24]（如图13所示）选取了一个点云，通过一个密集的立体网格对其进行分析，生成了一系列的占位体元，将其作为三维CNN的输入并为每个体元产生一个标签，最后，算法将标签映射回点云。

图13 基于3DCNN的点云语义标注系统

PointNet[25]是一个先驱性的工作，提出了一种深度神经网络来将原始的点云作为输入，给出了一个同时进行分类和分割的联合的架构。图14展示了这种可以处理无序三维点集的双模块的网络。

图14 PointNet联合结构，用于分类和分割

4.10 视频序列

这方面最具标志性的工作便是Shelhamer等人提出的时钟FCN网络。该网络改编自FCN，使用视频中的短期线索来减少推理时间，同时保证正确率。这种时钟的方法依赖于以下想法：特征速度，即网络中短期的特征变化率，其在各层中经过某帧时是变化的，因此来自浅层的特征变化的比来自深层的特征要快。图15展示了时钟FCN的结构：

图15 时钟FCN的结构

作者提出了两种更新速率的策略：固定的和自适应的。固定的策略直接为每个阶段设置一个常数时间来重新计算特征。自适应策略则使用数据驱动的方法来设置时钟，例如，时钟依赖于运动或语义改变的数量。图16展示了这种自适应策略的例子：

图16 自适应的时钟方法

5、讨论

5.1 评价指标

主要有运行时间、占用存储空间和准确率，其中准确率是目前比较常用的评价指标，几种常用的准确率有像素准确率、像素准确率平均值、平均交并比（最常用）和频率加权交并比。

5.2 方法效果

论文中收集了这些方法对应论文中报告的所有的量化的结果。这些结果按照其输入数据集的不同分为三个部分：二维RGB数据、2.5维RGB-D数据以及三维体数据或视频序列数据。

⑴ RGB图像

对于二维图像这一类，论文选取了7个数据集：PASCAL VOC 2012、PASCAL上下文、PASCAL人物、CamVid、CityScapes、斯坦福背景以及SiftFlow数据集。这些数据集涵盖了多种情况和优化目标。每个数据集最好的方法和准确率见表7：

表7 现有2维数据集的最优方法及其IoU

数据集名	最优方法	准确率（IoU）
PASCAL VOC 2012	DeepLab	79.70
PASCAL上下文	DeepLab	45.70
PASCAL人物	DeepLab	64.94
CamVid	DAG-RNN	91.60
CityScapes	DeepLab	70.40
斯坦福背景	rCNN	80.20
SiftFlow数据集	DAG-RNN	85.30

⑵ 2.5维数据

本文选择了三个数据集进行分析，分别是SUN-RGB-D、NYUDv2、SUN3D。表8分别给出了这三个数据集上最优的结果。

表8 现有2.5维数据集的最优方法及其IoU

数据集名	最优方法	准确率（IoU）
SUN-RGB-D	LSTM-CF	48.10
NYUDv2	LSTM-CF	49.40
SUN3D	LSTM-CF	58.50

⑶ 3维数据

本文选择了三个数据集进行分析，分别是ShapeNet Part和Stanford-2D-3D-S。表9分别给出了这两个数据集上最优的结果。

表9 现有3维数据集的最优方法及其IoU

数据集名	最优方法	准确率（IoU）
ShapeNet Part	PointNet	83.70
Stanford-2D-3D-S	PointNet	47.71

⑷ 序列数据

本文选择了三个数据集进行分析，分别是CityScapes和YouTube-Objects。表10分别给出了这两个数据集上最优的结果。

表10 现有3维数据集的最优方法及其IoU

数据集名	最优方法	准确率（IoU）
CityScapes	PointNet	64.40
YouTube-Objects	PointNet	68.50

5. 未来研究方向

基于以上回顾过的代表了目前最高水平的方法，我们给出了一系列的未来研究的可能的方向。

1）三维数据集：目前急需一个大规模三维语义分割数据集，但这相对于其低维部分来说是较难创建的。虽然已经有了一些不错的工作，仍然需要更多、更好、更富变化的数据集的出现。

2）序列数据集：目前仅有少数几个数据集是基于序列的，这些数据集对于利用时间序列信息的方法的发展很有利。从本质上将二维及三维高质量数据联系起来必将引领新的研究方向。

3）使用图卷积网络（GCN）对点云进行分割：如之前所述，处理三维数据如点云等目前尚未解决，由于点云内在的无序性及非结构性，传统的架构如CNN等不能直接予以应用，除非使用某种离散化手段使其结构化。一个靠谱的研究方向便致力于将点云处理为图，然后在其上应用卷积。这种做法的好处便是在不量化数据的基础上保留了每个维度上的空间信息。

4）上下文知识：虽然FCN是语义分割领域中的一种坚实的方法，但是FCN网络缺乏对于上下文等特征的建模，而这些信息有可能会提高准确率。将CRF重写为RNN来创造一种端对端的解决方法看起来是一个靠谱的方法，可以提高真实生活场景下的性能。多尺度及特征融合方法也取得了较大的进展。总之，这些方法已经取得了不小的进步，但是仍然有许多问题亟待解决。

5）实时分割：在很多应用场景下，准确率是重要的，但是，能够处理达到常见的摄像机帧率（至少25帧每秒）的输入速度也是很关键的。目前多数的方法远远达不到这个帧率，比如，FCN-8处理一张低分辨率的PASCAL VOC数据集中的图像需要100ms，同时，CRFasRNN需要500ms。因此，接下来几年，期待会有一系列的工作关注于实时处理的限定，这些工作将必须在准确率与运行时间之间寻求一个平衡。

6）存储空间：某些平台受限于其存储空间。分割网络一般需要较大的存储空间，从而可以同时进行推理与训练。为了适应各种设备，网络必须要简单。虽然这可以通过降低复杂性（一般会牺牲准确率）来简单地实现，但是还是可以采取另外的办法。剪枝是一种靠谱的研究方向，可以用来简化网络，使得网络在保留多数信息的同时变得轻量化，也因此同时保留了原网络的准确率。

7）序列数据的时间一致性：一些方法解决了视频或序列分割的问题，但是他们有些未利用时间序列信息来提高准确率或效率。然而，没有一种方法解决了一致性的问题。对于一个应用在视频流上的分割系统来说，一致性信息是重要的，不仅可以逐帧地处理数据，还可以对整个片段的处理保持一致，而不需要通过平滑为序列预测出的像素级别的标签而产生人工的信息。

8）多视角整合：在最近提出的分割网络上应用多视角信息目前仅仅限于RGB-D摄像机相关的场景，尤其是致力于单一物体分割的情况。

论文的优点

⑴ 第一篇对现有的文献进行总结的文中，尽可能的对每个方法进行了对比；

⑵ 指出现有的方法的不足，提出了未来工作的展望；

论文的缺点（个人感觉）

⑴ 太过在意创新点，列举了一些不常见的方法，还有一些其他优秀的方法未列举。（简单说就是论文中有的地方还没来得及细看，或者我没看懂）

产生的问题

A、为什么两个3*3的卷积层相当于一个5*5的卷积层？

正确的说法是：对一个5*5的感受野先进行一次3*3的对位卷积，然后再经过一次3*3，便得到等同与5*5的卷积结果。具体效果如图17所示：

图17 两个3*3的卷积核代替一个5*5的卷积核

3个3*3的卷积核可代表1个7*7的卷积核的原理是一样，对于两个3*3卷积核，所用的参数总量为2*(3*3)*channels, 对于5*5卷积核为5*5*channels, 因此可以显著地减少参数的数量。但是计算下来，计算量增加，一个卷积层将25次乘法和24次加法提高到了90次乘法和80次加法。

B、1*1卷积的作用？

这里的1*1考虑的仅仅是卷积核的长度和宽度，对于不同深度的层，可以进行降维或者升维。假设原来的层的数据为 $m\times n\times 6$ 的蛋糕，那么1*1卷积核的作用相当于一个吸管，从上面插进去，得到一个 $\text{1}\times \text{1}\times \text{6}$ 的局部蛋糕。经过卷积，可以认为是对这部分蛋糕进行了简单的加工，假如说下一层的深度是5，那么神奇博士可以给恢复蛋糕4次，得到5个加工的结果。然后对应放回去，得到一个 $\text{1}\times \text{1}\times \text{5}$ 的“加工蛋糕”，实现降维。具体示意图见图18(m,n分别为长方体的底面的长和宽)

图18 1*1的卷积核

C、粒度的定义？划分粗细的标准？

打个比方，100个学生要进行管理，4个学生一个班25个班就叫细粒度，50个学生一个班2个班就叫粗粒度。程序也是一样事情定下来了功能就那么多，你定义了100个类就是细粒度，我定义了2个类就是粗粒度。

划分的标准没有明确的定义，只有相对的概念。粒度描述的是一种对问题的研究程度，越细研究则是细粒度，相对的是粗粒度。

D、CRF（条件随机场）

参考李航《统计学习方法》。

E、尺度的相关知识

SIFT特征匹配算法介绍——寻找图像特征点的原理

参考文献

Ess A, Müller T, Grabner H, et al. Segmentation-Based Urban Traffic Scene Understanding[C]//BMVC. 2009, 1: 2.
Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? the kitti vision benchmark suite[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 3354-3361.
Ning F, Delhomme D, LeCun Y, et al. Toward automatic phenotyping of developing embryos from videos[J]. IEEE Transactions on Image Processing, 2005, 14(9): 1360-1371.
Hariharan B, Arbelaez P, Girshick R B, et al. Simultaneous Detection and Segmentation[J]. european conference on computer vision, 2014: 297-312.
Farabet C, Couprie C, Najman L, et al. Learning Hierarchical Features for Scene Labeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929.
Krizhevsky A, Sutskever I, Hinton G E, et al. ImageNet Classification with Deep Convolutional Neural Networks[C]. neural information processing systems, 2012: 1097-1105.
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J]. computer vision and pattern recognition, 2015: 1-9.
He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. computer vision and pattern recognition, 2016: 770-778.
Visin F, Kastner K, Cho K, et al. Renet: A recurrent neural network based alternative to convolutional networks[J]. arXiv preprint arXiv:1505.00393, 2015.
Shen X, Hertzmann A, Jia J, et al. Automatic portrait segmentation for image stylization[J]. Computer Graphics Forum, 2016, 35(2): 93-102.
Geiger, Andreas, et al. "Vision meets robotics: The KITTI dataset." The International Journal of Robotics Research 32.11 (2013): 1231-1237.
Prest, Alessandro, et al. "Learning object class detectors from weakly annotated video." Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012.
Bell, Sean, et al. "Material recognition in the wild with the materials in context database." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
Liu, Ce, Jenny Yuen, and Antonio Torralba. "Nonparametric scene parsing: Label transfer via dense scene alignment." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009.
Long J, Shelhamer E, Darrell T, et al. Fully convolutional networks for semantic segmentation[J]. computer vision and pattern recognition, 2015: 3431-3440.
Badrinarayanan V, Kendall A, Cipolla R, et al. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv:1511.07122, 2015.
Liu W, Rabinovich A, Berg A C, et al. ParseNet: Looking Wider to See Better.[J]. arXiv: Computer Vision and Pattern Recognition, 2015.
Visin F, Ciccone M, Romero A, et al. Reseg: A recurrent neural network-based model for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2016: 41-48.
Li Z, Gan Y, Liang X, et al. RGB-D scene labeling with long short-term memorized fusion model[J]. CoRR, vol. abs/1604.05000, 2016.
Zeng A, Yu K, Song S, et al. Multi-view self-supervised deep learning for 6D pose estimation in the Amazon Picking Challenge[J]. international conference on robotics and automation, 2017.
Hazirbas C, Ma L, Domokos C, et al. FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-Based CNN Architecture[C]. asian conference on computer vision, 2016: 213-228.
Huang J, You S. Point cloud labeling using 3D Convolutional Neural Network[C]. international conference on pattern recognition, 2016: 2670-2675.
Charles R Q, Su H, Kaichun M, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[J]. computer vision and pattern recognition, 2017: 77-85.

附录

附录一：

表9 术语对照表

英语表达	中文翻译
Computational Photography	计算摄像学
Prune Subpar Approaches	过滤低水平的工作
Shortcut Connection	近路连接
Multi-dimenaionl Recurrent Neural Network (MDRNN)	多维度循环神经网络
Dilated/Atrous Convolutions	空洞/带孔卷积
Conditional Random Field，CRF	条件随机场
Atrous Spatial Pyramid Pooling，ASPP	金字塔型的空洞池化
Multi-scale Prediction	多尺度预测
Conditional Random Fields （CRF）	条件随机域
Dilated Convolutions	扩张的卷积
Feature Fusion	特征融合
Long Short-Term Memorized Context Fusion (LSTM-CF)	长短期记忆上下文融合模型
Undirected cyclic graphs (UCGs)	无向循环图
Directed Graphs (DAGs)	有向图
Gated Recurrent Units (GRUs)	门控循环单元
Simultaneous Detection and Segmentation (SDS)	同时检测和分割
Multi-scale COmbinatorial Grouping (MCG)	多尺度可结合组
Long Short-Term Memory （LSTM）	长短期记忆网络
Point Cloud	点云
Pixel Accuracy (PA)	像素准确率
Mean Pixel Accuracy (MPA)	像素准确率平均值
Mean Intersection over Union（MIoU）	平均交并比
Frequency Weighted Intersection over Union (FWIoU)	频率加权交并比

附录二（英文文献表达总结）：

1、举例表达

Many applications on the rise need accurate and efficient segmentation mechanisms: autonomous driving, indoor navigation, and even virtual or augmented reality systems to name a few.

As we previously stated, certain deep networks have made such significant contributions to the field that they have become widely known standards. It is the case of AlexNet, VGG-16, GoogLeNet, and ResNet.

2、强调重要性

The importance of scene understanding as a core computer vision problem is highlighted by the fact that an increasing number of applications nourish from inferring knowledge from imagery.

3、说明文献的贡献

To the best of our knowledge, this is the first review to focus explicitly on deep learning for semantic segmentation. …Because of that, we consider our work to be novel and helpful thus making it a significant contribution for the research community.