由于以防止自己忘记，记下：

深度学习SLAM ：最新的基于深度学习的deepvo，VINet，大家怎样评价？

1.DeepVO: A Deep Learning approach for Monocular Visual Odometry；

2.VINet : Visual-inertial odometry as a sequence-to-sequence learning problem

3.VidLoc：6-DoF video-clip relocalization

回答：

前段时间一直忙着毕业论文以及找工作，囧。我的毕业论文就是研究的DeepVO，已经答辩过了，我实现的结果是：

CNN-VO（采用卷积神经网络）

比现有基于CNN的方法好，比单目VISO2好，但是不及双目VISO2

2. CNN-LSTM-VO（采用循环卷积神经网络）

方法实现上和DeepVO2017类似，不过细节有差别。比CNN-VO好那么一点吧，然而不及双目VISO2。

我的这两种方法都只利用KITTI VO左目图片，和DeepVO2017论文中的效果相比都差那么一些。还有待进一步研究... 评论中也提到无监督的参考文献，这里补充几篇，对DeepVO很有参考价值~

【1】Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." arXiv preprint arXiv:1704.07813 (2017). (https://arxiv.org/pdf/1704.07813) (加入几何约束，同时估计深度)

【2】Li R, Wang S, Long Z, et al. UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning[J]. arXiv preprint arXiv:1709.06841, 2017.(https://arxiv.org/pdf/1709.06841) (双目无监督)

VINet[1](AAAI2017)、VidLoc[2](CVPR2017)应该属于绝对姿态估计，其中VINet结合了IMU的信息，利用CNN网络和两个LSTM网络达到姿态估计的目的。而VidLoc应该是个加强版的PoseNet，引入LSTM对连续帧进行绝对姿态估计，这两篇文章好像出自于同一个实验室。绝对姿态估计有个问题就是必须在相同场景中训练和测试，并没有解决领域迁移问题。

ICRA2017上他们还有一篇文章DeepVO[3]，解决相对姿态估计问题，我尝试复现过这篇文章的方法，但是效果一直不好。因为相邻两帧的相对姿态非常小，很多情况下转角可能只有0.0几度，要用深度学习方法去回归感觉很不科学。希望有共同研究方向的人能复现下。

另外一篇DeepVO[4]是2016年印度理工发表的一篇文章，这篇文章只采用CNN来回归相对姿态，我复现过，效果跟论文作者的实验结果一致（在没见过的场景下效果很差~~）。

magic leap也发表过相关的文章。再往前几年还有一些类似的研究，不过效果都不是很好，或者只是换了个评价角度来说明深度学习方法的优势。这里就不贴其他大量的参考文献了。

[1] Clark, Ronald, et al. "VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem." AAAI. 2017. (http://www.cs.ox.ac.uk/files/9028/CS-RR-17-05.pdf)

[2] Clark, Ronald, et al. "VidLoc: 6-doF video-clip relocalization." arXiv preprint arXiv:1702.06521 (2017). (https://arxiv.org/pdf/1702.06521.pdf)

[3] Wang, Sen, et al. "Deepvo: Towards end-to-end visual odometry with deep recurrent convolutional neural networks." Robotics and Automation (ICRA), 2017 IEEE International Conference on. IEEE, 2017. (http://ieeexplore.ieee.org/abstract/document/7989236/)

[4] Mohanty, Vikram, et al. "Deepvo: A deep learning approach for monocular visual odometry." arXiv preprint arXiv:1611.06069 (2016). (https://arxiv.org/pdf/1611.06069.pdf)

参考：https://www.zhihu.com/question/65068625

slam深度学习前端

由于以防止自己忘记，记下：

1.DeepVO: A Deep Learning approach for Monocular Visual Odometry；

2.VINet : Visual-inertial odometry as a sequence-to-sequence learning problem

猜你喜欢