读“基于监督学习的单幅图像深度估计综述”有感

基于监督学习的单幅图像深度估计

摘 要: 单幅图像深度估计是三维重建中基于图像获取场景深度的重要技术, 也是计算机视觉中的经典问题, 近年来, 基于监督学习的单幅图像深度估计发展迅速。
关键词: 监督学习;单幅图像;深度学习;深度估计

1.前言
监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。以下主要介绍了基于监督学习的单幅图像深度估计及其模型和优化方法; 分析了现有的参数学习、非参数学习、深度学习 3 类方法及每类方法的国内外研究现状及优缺点。

2.问题描述
从图像中估计每个像素的深度是计算机视觉的经典问题, 其中单幅图像的深度估计是一个还没有解决的难题. 透视投影使这个问题成为一个病态问题, 图像中一点的深度具有无数种可能, 求解这个问题的本质是构建一个关联图像信息和深度信息的模型. 监督学习将样本数据和其对应的输出数据作为输入, 从中学习出一个将输入映射到输出的规则并对新的样本做出预测和判断. 目前, 大多数的基于机器学习的单幅图像深度估计主要采用监督学习方法.监督学习需要将适合问题的训练数据作为学习和训练的输入, 训练数据由训练样本构成, 每个样本由一个输入对象和一个对应的输出值组成. 数据集是机器学习的核心, 对最终的训练效果影响很大, 一个好的数据集应该包括较多的对象类型, 以使算法能适应多种应用场景. 在深度估计问题中, 训练样本通常是二维 RGB 图像和二维深度图构成的图像对, 其中, 深度图中每个像素的值表示二维 RGB 图像中对应位置像素的深度.比较著名的深度估计数据集有由斯坦福大学 Saxena 等构建的 Maked3D 数据集,由纽约大学 Silberman等构建的 NYU depth v2 数据集。

3.参数学习方法
参数学习方法是指能量函数中含有未知参数的方法, 训练的过程是对这些参数的求解, 其中, 最典型的是 2005 年斯坦福大学的 Saxena等提出的使用监督学习的方法进行单幅图像深度估计. 该方法利用图像中呈现的纹理信息、模糊等单目深度线索作为特征, 分别构建了高斯 MRF 和拉普拉斯 MRF 模型, 使用激光扫描仪采集到的户外场景数据集作为训练数据和测试数据, 实现了对单幅图像的深度估计; 在特征提取阶段, 将图像分为矩形区域作为深度估计的基本单元, 使用一组卷积滤波器与图像块进行卷积操作, 将卷积输出及平方后的卷积输出作为特征向量; 为了更好地获取全局深度信息, 在 3 种不同的尺度下进行特征提取操作并增加了户外场景普遍具有的特征信息, 将获得的特征向量称为绝对特征, 用于估计每个区域的深度. 此外, 文献使用由相邻区域滤波器组的输出产生的直方图的差作为相对特征, 估计相邻区域间深度的差别; 基于提取的特征向量, 分别构建了高斯和拉普拉斯 2 种 MRF 模型, 其中, 能量函数的一阶项由绝对特征和相应参数构成, 二阶项由相对特征和参数构成; 使用训练数据对模型中的参数进行估计求解后, 即可通过 MAP 来对测试图像进行深度估计.
在此基础上, Saxena 等于 2007 年提出了以
超像素为估计单元的方法. 超像素是图像中具有相同属性的像素的集合, 表现为图像中一个不规则形状的区域. 为了减小计算量并简化问题, 深度估计中通常使用超像素中心位置处的像素代表整个超像素区域. 文献假设超像素为一个三维空间中的平面, 并以 3 种参数进行表示; 除了与深度线索相关的图像特征外, 还使用了相邻超像素的共面、共线等空间结构关系构建参数 MRF 模型. 此模型使用线性规划求解图像特征参数, 然后在MAP 框架下求解超像素平面的三个参数, 完成对超像素深度的估计. 此后, Saxena 等使用估计的深度信息实现了单幅图像的三维重建, 并利用单目深度线索提高了双目视觉系统的性能。整体上看, 参数方法的实质是对假设模型中的参数进行估计求解, 然后通过求得的参数完成对图像的深度估计. 在这个过程中, 需要对图像信息和深度之间的映射进行直接的人为假设, 事实上, 很难找到一个完美的模型来描述二者间关系, 故这种方法的精度较低.

4.非参数学习方法
与参数学习方法不同, 非参数学习方法的模型中不需要通过学习来求解的模型参数. 非参数学习方法已经在图像超分辨率、物体发现等很多计算机视觉问题中得到了应用, 相对于参数方法需要对图像信息和深度之间的映射进行假设, 非参数学习方法只使用现有的数据集作为深度推测的依据, 以相似的图像具有相似的深度为前提,利用数据集提供的信息预测图像的深度, 也叫数据驱动方法. 非参数学习方法的处理流程如图 4 所 示, 当有一幅待求图像时:
Step1. 使用 Gist、颜色直方图等图像特征在数据集中采样一定数量的相似样本, 这些相似样本构成一个新的数据子集并作为后续推断的依据;
Step2. 利用新的数据子集通过学习的方式完成变换过程, 其结果是获取粗略的待求图像的深度图, 并以此作为下一步的优化对象;
Step3. 采用 MRF/CRF 模型对上一阶段获取的深度图进行推断及平滑处理, 由于模型中没有未知参数, 故平滑后的结果即为最终的深度图.在这里插入图片描述
然而由于使用SIFT流涉及大量计算, 为了提高效率, 波士顿大学的 Konrad 等提出一种简化的方法来实现从大量图像+深度图的样例中估计单幅图像的深度. 该方法先检索到的相似图像进行中值滤波产生初始深度图; 然后用双边交叉滤波对初始深度图进行平滑; 最后使用获得的深度图得到立体图像对中的右眼图像, 完成二维到三维的转换. 非参数学习方法不需要对图像信息和深度之间的关系进行人为的假设, 充分利用了现有数据集的信息预测深度. 但由于整个过程中涉及较多中间处理步骤, 也容易引入更多的误差; 同时由于算法依赖于图像检索初始化, 计算量大、耗时高, 很难得到实际应用.

5.深度学习方法
参数学习方法和非参数学习方法都实现了单幅图像的深度估计, 但算法精度都较低且耗时高, 无法应用于实际. 总体看来, 2 种方法的缺点主要体现在人为假设较多、处理过程烦琐等方面. 所以, 更自然、更统一的模型框架是提高算法的发展方向. 近年来, 深度学习发展迅速, 在语音识别、计算机视觉等领域取得了很大进展; 深度学习能够提取高度抽象的特征, 以边缘、形状等抽象方式更好地表达数据, 从而提高机器学习算法的效果. 绝大部分深度学习算法都涉及人工神经网络, 其结构是串联的不同类型的非线性处理单元, 处理信息的方式类似于生物大脑. 深度学习使用串联的、由非线性处理单元构成的层进行特征提取和变换, 每层的前一层的输出是该层的输入, 每层的输出都是对数据不同程度的抽象表达, 高层特征来自于低层特征, 以此形成对数据的分层表示. 深度学习使用的深度神经网络是具有更多层级的人工神经网络, 能够模拟更为复杂的非线性关系. 在计算机视觉领域, 最常用的深度神经网络是卷积神经网(convolutional neural networks, CNN), 其已经在手势识别、面部识别、本征图像分解等得到了广泛应用。在网络结构方面, 除了早期专门为深度估计所设计网络结构外, 主要采用在其他计算机视觉任务上也表现出色的 VGG, ResNet和以 Hourglass网络为典型的对称式网络结构 3 种类型或它们的变形. VGG 是牛津大学于 2014 年提出的一个较早的网络结构, 其创新之处在于使用较小的卷积核以学习更复杂的模式, 且提高了网络的深度. ResNet 于 2016 年被提出, 针对网络深度增加而产生的梯度消失问题, 设计一种残差模块来训练更深的网络, 最终使得网络层数突破了 1000 层。

6.总结
以上 3 种网络结构在单幅图像深度估计中较为常用, 但除了针对某种网络结构设计了特殊的模块以外, 大部分算法并不依赖于具体某种网络结构. 深度学习技术还在迅速发展中, 新的网络结构也会层出不穷.除此之外,基于监督学习的单幅图像深度估计技术还有很大的发展空间, 并且利用深度学习的单幅图像深度估计是本领域的趋势. 目前, 该领域的研究主要集中在数据集和深度学习模型 2 个方面. 首先, 深度学习对训练数据的数量需求很大, 传统的监督学习方法所使用的数量已经不能满足深度学习的要求并制约了训练效果的提高, 因此数据集必须朝更多数量、更多场景类型的方向发展, 如何构建满足深度学习的数据集成为一个重要的研究方向.

【参考文献】
1.毕天腾, 刘越, 翁冬冬,等. 基于监督学习的单幅图像深度估计综述[J]. 计算机辅助设计与图形学学报, 2018, 030(008):1383-1393.

猜你喜欢

转载自blog.csdn.net/qq_46152664/article/details/111404853