Depth Map Prediction from a Single Image using a Multi-Scale Deep Network (2014 NIPS)

主要思想:使用神经网络对深度进行学习。一个粗尺度网络首先在全局上对场景深度进行预测。然后通过使用细尺度网络进行局部区域的优化。

缺点:早期直接用深度网络估计深度,只有卷积层,池化层,和全连接层最后得到的深度图分辨率太小

      Coarse 网络是一个经典的AlexNet(NIPS 2012)结构,任务是使用场景的全局视角来预测整体深度图结构。网络的上几层是全连接层,因此可以包括整张图片的信息。同样的,底层和中间几层被设计通过最大池化操作降到一个小的空间维度,来连接图像不同部分。这样做了之后,这个网络能够整合整个场景全局的理解来预测深度。这样的针对全图的理解在单张图片中是需要的,因为这样可以有效地利用诸如消失点、物体位置、空间对齐等线索。局部线索(通常立体匹配)很难注意到这些重要的特征。

   在Fine网络中,作者先采用大步长的卷积核将图片的大小变小之后,并没有再去降低特征的大小,而是采用了步长为1,大小为5的卷积核去进行特征提取并结合之前Coarse网络的结果得到最终预测的结果.这个网络只有卷积层和在第一层的边缘特征中有一个池化步骤。 在训练的时候,此网络先训练Coarse网络然后再固定Coarse网络的训练参数再去训练Fine网络.

损失函数:

,是(y,y*)的误差最小化值。对于任何预测值y,e的α次方是对应ground truth最合适的尺度。所有尺度y的倍数都有同样的错误率,进而使尺度不变的。

                 

y是真实的深度,y*是合成的深度,i,j分别为深度图中的某一对像素点.

在make3d数据集下实际跑出来的结果分辨率太低,其实这篇论文再后来又有改进Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture (ICCV 2015),把scale1中AlexNet换成了更深的VGG16,其实也可以换成其他更深的的网络。

猜你喜欢

转载自blog.csdn.net/weixin_40311211/article/details/81101568