学习笔记:图像分割之深度学习场景分割(2015开始)综述之前是手工特征

文献:基于深度学习的场景分割算法研究综述
场景分割:场景图像指面向某个空间的图像,通常具有一定的透视形变,且其中包含的视觉要素数量较多。

算法性能对比图

在这里插入图片描述

难点:分割细粒度高、尺度变化多、空间相关性强

在这里插入图片描述

1 分割细粒度要求

场景分割结果需要精确到像素级别,且需要预测精确的分割边界

2 尺度变化大

由于场景图像中通常包含多种类别的视觉要素,不同类别的 视 觉 要 素 往 往 存 在 尺 度 差 异,同时由于场景图像存在透视形变,相同类别视觉要素也会呈现出不同尺度

3 空间相关性强

场景图像中的视觉要素存在复杂而紧密的 空间相关关系,这些空间相关关系对视觉要素的识别和分割具有极大帮助

算法优劣一:基于分辨率精细化

1 FCN 全卷积神经网路(迁移基于大数据训练的图像识别初始化参数)

  1. 优点:图像分割数据的标注困难,数据量相对少,直接训练导致模型陷入精度较低的局部极小值。通过使用图像识别与训练模型参数,可以学习到较为合适的特征,帮助模型收敛到精度较高的局部极小点,从而提升精度。
  2. 缺点:图像识别网络通常包含若干个步长 大 于1的 池 化 层.池 化 层 可 以 融 合池化区域的特征,扩大感受野,同时保持感受野中视觉要素的平移不变形.但同时,池化操作会缩小特征图的分辨率,从而丢失空间位置信息和许多细节信息.例如在目前常用的图像识别网络中,通常使用5个步长为2的池化层,使最后的语义特征图分辨率下降为原始输入图像的1?32.当图像识别网络被迁移到全卷积网络中后,语义特征图的分辨率过小和丢失过多细节信息导致分割边界不准确,从而影响了全卷积网络的分割精度
    在这里插入图片描述
    meanIntersection-over-Union,mIoU(交并比均值)=65.3%

2 反卷积网络 Segnet(直接对卷积进行镜像操作)

因为初始化参数是随机的,难以优化

3 基于高分辨率语义特征图的场景分割算法

来自FCN分辨率丢失问题

1 跨层特征融合

  1. 基于跨层结构的算法主要在“卷积-反卷积”结构的反卷积模块提升语义特征图的分辨率
  2. 通过融合较浅层的分辨率较大的特征图,提高语义特征图的分辨率,捕捉更多的细节信息,从而提高分割精度
  3. 使用前两个卷积层的输出做融合
    在这里插入图片描述

2 膨胀卷积算法

在这里插入图片描述
膨胀卷积的算法只对语义特征图进行一定程度的扩大

3 全分辨率残差网路 FRRN

将特征图分辨率始终保持在 原 始 图 像 大 小.该算法借鉴了残差学习的思想,包含2个 信 息 流:残 差 流 和 池 化 流.其 中残差流不包含任何池化和下采样操作,将该流的特征图始终保持在与原始图像相同的分辨率大小;而池化流则包含若干步长为2的池化操作,特征图的分辨率先减小后增大.残差流侧重于捕捉细节信息,主要用于确定精确的分割边界;而池化流则侧重于学习语义特征,主要用于识别视觉要素的类别.残差流和池化流在网络的前向传播过程中不断进行交互,从而使全分辨率残差网络可以同时学习语义特征和捕捉细节信息,因此可以获得更加精确的分割结果.FRRN 在 Cityscapes数 据 集 取 得 的 mIoU 为71.8%.但全分辨率残差网络也有其局限性.由 于 残差流始终保持在原始图像的分辨率,因此其维度较高,会占用大量 的 显 存 空 间.同 时,残差流和池化流的交互操作也 会 产 生 大 量 的 空 间 消 耗.这 都 制 约 了全分辨率残差网络在高分辨率场景图像中的使用.

算法优劣二:基于多尺度分割

1 共享结构算法

2 层级结构算法

3 并行结构算法

4 多尺度特征融合

5 自适应学习算法

算法优劣三:基于空间上下文的场景分割算法

1 基于多维循环神经网络

在这里插入图片描述

2 基于概率图模型

3 基于注意力机制

场景分割数据集

1 SIFT FLOW

SIFTFlow 数据 集[51]中 的 图 像 由8种 典 型 的户外场景组成.该数据集共包含2688个图像样本,其中2488个训练样本、200个 测 试 样 本,每 个 图 像的分辨率为256×256.同时数据集中包含33个语义类别的像素 级 人 工 标 注.SIFTFlow 数 据 集 的 图 像分辨率较小,场景比较简单,类别数和图像数量较少.

2 CamVid

CamVid数据集[86]中 的 图 像 均 采 集 于 街 景,包括701 个 街 景 图 像,其 中 包 括 468 个 训 练 图 像 和233个 测 试 图 像.每 个 图 像 样 本 的 分 辨 率 为 960×720,并 且 包 含 11 个 语 义 类 别 的 像 素 级 人 工 标 记.CamVid数据集的类别数和图像数量较少,但 图 像分辨率相对较大,场景针对于街景,对自动驾驶相关技术具有极大意义.

3 Barcelona

Barcelona数据集[87]由14871个训练图像样本和279个测试 图 像 样 本 组 成.其 中 训 练 图 像 采 集 于室内和室外场景,而测试图像均采集于巴塞罗那的街道场景.该数据集中不同图像样本的分辨率不同,并且包含170个语义类别的像素级人工标记.

4 Pascal Context (与语义分割数据集不同voc2012)

VOC数据集[89]为基础建立的.原始 PASCALVOC数据集仅标注了前景视觉要素的类别,而 PASCALContext数据集 还 提 供 了 背 景 视 觉 要 素 的 类 别,因此更加适 合 于 场 景 分 割 算 法.PASCALContext数据集包括4998个 训 练 图 像 样 本 和5105个 测 试 图像样本,每个图 像 样 本 的 分 辨 率 不 超 过500×500,并被 标 记 为 59 个 类 别 和 1 个 其 他 类.相 比 原 始PASCAL VOC 数 据 集,PASCAL Context数 据 集包含的图像样本和类别数量更多,难度也更大.

5 Cityscapes

Cityscapes数据集[53]中的图像是利用车载摄像头采集的欧洲城市的街景.该数据集包含共5000个图像样本,划分为2975个 训 练 图 像 样 本、500个 验证图像样本和1525个测试图像样本.数据集中包含19个类别的像素级的人工标注,其中每个图像样本的分辨 率 为2048×1024.Cityscapes数 据 集 针 对 于街道场景,包含的图像样本数量和类别数较少,但图
像的分辨率较大,这就需要在设计算法时同时兼顾算法速度和性能,对自动驾驶相关技术具有重大的意义,是目前评测深度学习场景分割算法常用的数据集之一.
在这里插入图片描述
在这里插入图片描述

算法泛化能力分析

1)算法在不同数据集的泛化能力;
2)算法在不同任务的 泛 化 能 力
在这里插入图片描述

原创文章 101 获赞 9 访问量 8371

猜你喜欢

转载自blog.csdn.net/weixin_44523062/article/details/106043646
今日推荐