论文阅读笔记------摄影测量与深度学习

以下为本人论文学习笔记和心得，请勿转载。

摄影测量与深度学习这篇文章是一篇探讨深度学习方法在摄影测量领域可行性的一篇综述性论文，作者是武汉大学遥感学院院士龚健雅，季顺平。

文章首先回顾了摄影测量的历史，然后回顾了深度学习的历史，然后大体说明了摄影测量，计算机视觉，深度学习三者之间的关系。写到这里本人觉得还没有学习到具体技术细节方面的东西，不过引起了我的一些兴趣，之前我认为写文章尽可能的避免这种回顾历史的话语，但是发现大佬们的综述性文章都喜欢回顾历史。不过是否能够在自己的文章当中回顾历史不得而知。

在回顾历史的结尾，提到了一个NB的人物，Marr，这个人是计算机视觉学科的鼻祖，有空确实应该看看Marr大佬的文章。

文章中的一句话可以以后使用“人工智能，深度学习方法可以在摄影测量过程的自动化，智能化方面起到显著的作用”。这个说法可以用来说明深度学习相比较于传统的摄影测量匹配方法有什么区别。

接下来文章开始正式讨论深度学习。其中有一段的解释挺有意思，“前馈神经网络定义一个函数映射，y=f（x，w），以x和y作为已知条件来训练出w，得到某个最优近似的函数f*，因此，前馈是指仅由w和f得到y，而y不会有反馈作用于f的过程，若y反作用于f，这种网络称之为循环神经网络”。这一段是我第一次听说循环神经网络是这个意思，以后还可以更多的了解循环神经网络的定义。

多层感知机MLP，是由多个函数符合而成。F(X)=F1(F2(F3(F4(......Fn(X)))))。这是我第一次更加直观的理解什么事隐藏层。之前我一直以为整个神经网络应该就是表示成y=f（x，w1，w2，w3....）的形式，看来隐藏层不是简单地增加参数w，而是变成了复合函数的形式。

文章中之处。2015年，PoseNet第一次将CNN应用到相机的定位定姿当中。

文章中还按时间顺序整理了基于深度学习的密集匹配算法，MC-CNN,这是利用CNN来估计出一个匹配代价函数。这篇文章要认真研究。

文章中还指出一些基于CNN的遥感目标分类方法在全连接层的最后采用的SVM支持向量机的方法，我们也需要了解一些SVM的知识。

文章指出了现有的深度学习方法应用于遥感影像领域的几个困难的地方。

1、首先就是数据集缺乏。就密集匹配领域来说，现有的基于深度学习的计算机视觉数据库大多都是近景物体，例如玩偶，植物，街道等。对于航空影像缺乏必要的训练数据集。

2、文章也指出，要建立像ImageNet那样大型的遥感影像数据集是很困难的，我们把这个问题分为遥感影像分类和密集匹配两个方面来说。对于遥感影像分类，遥感影像的识别需要大量专业遥感人员进行遥感解译，对于某些遥感影像难以辨别的对象还要进行现场的考察。相比较而言，ImageNet数据集中的例如猫，狗之类的普通影像仅需要一般工作人员就能很好的分别。对于密集匹配方面，建立大型的航空影像的标准深度信息需要使用大型航空飞机搭载Lidar来获得深度信息，这相比较于KITTI，Middubury这样的数据集建立的成本高得多。

另外，文章还是提到了SGM算法，这个算法看来是传统密集匹配算法中的老大，

下面进入了文章的核心部分，就是进行了什么样的深度学习实验。文章虽然包括了立体匹配和分类两个方面，但由于我的研究方向是立体匹配，所以我只关心立体匹配。

核心的步骤有这几个。首先，采用了20幅航空影像，但是裁剪为384幅小影像，这是为了显卡计算快一些。其次，采用的也是由Lidar数据作为标准数据。在模型方面，作者并没有设计某种网型，也没有进行真正意义上的训练。直接用MC-CNN,GC-NET两种方法进行模型测试，并且采用SGM算法，还有一种叫SURE软件的方法进行对比。

实验结果是，MC-CNN,GC-NET方法优于SGM，但是比SURE方法差。重点来了，作者认为，出现这个情况的原因是由于没有更多的用航空影像进行迁移训练。（这一点本人是想到了的），还有一点！就是SURE采用了多视匹配的策略。

注意：如果在深度学习的策略中加入更多的多视匹配策略说不定可以提高精度。

论文阅读笔记------摄影测量与深度学习

猜你喜欢