slam深度学习前端

由于以防止自己忘记,记下:

深度学习SLAM :最新的基于深度学习的deepvo,VINet,大家怎样评价?

1.DeepVO: A Deep Learning approach for Monocular Visual Odometry;

2.VINet : Visual-inertial odometry as a sequence-to-sequence learning problem

3.VidLoc:6-DoF video-clip relocalization

回答:

前段时间一直忙着毕业论文以及找工作,囧。我的毕业论文就是研究的DeepVO,已经答辩过了,我实现的结果是:

  1. CNN-VO(采用卷积神经网络)

比现有基于CNN的方法好,比单目VISO2好,但是不及双目VISO2

2. CNN-LSTM-VO(采用循环卷积神经网络)

方法实现上和DeepVO2017类似,不过细节有差别。比CNN-VO好那么一点吧,然而不及双目VISO2。

我的这两种方法都只利用KITTI VO左目图片,和DeepVO2017论文中的效果相比都差那么一些。还有待进一步研究... 评论中也提到无监督的参考文献,这里补充几篇,对DeepVO很有参考价值~

【1】Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." arXiv preprint arXiv:1704.07813 (2017). (https://arxiv.org/pdf/1704.07813) (加入几何约束,同时估计深度)

【2】Li R, Wang S, Long Z, et al. UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning[J]. arXiv preprint arXiv:1709.06841, 2017.(https://arxiv.org/pdf/1709.06841) (双目无监督)


VINet[1](AAAI2017)、VidLoc[2](CVPR2017)应该属于绝对姿态估计,其中VINet结合了IMU的信息,利用CNN网络和两个LSTM网络达到姿态估计的目的。而VidLoc应该是个加强版的PoseNet,引入LSTM对连续帧进行绝对姿态估计,这两篇文章好像出自于同一个实验室。绝对姿态估计有个问题就是必须在相同场景中训练和测试,并没有解决领域迁移问题。

ICRA2017上他们还有一篇文章DeepVO[3],解决相对姿态估计问题,我尝试复现过这篇文章的方法,但是效果一直不好。因为相邻两帧的相对姿态非常小,很多情况下转角可能只有0.0几度,要用深度学习方法去回归感觉很不科学。希望有共同研究方向的人能复现下。

另外一篇DeepVO[4]是2016年印度理工发表的一篇文章,这篇文章只采用CNN来回归相对姿态,我复现过,效果跟论文作者的实验结果一致(在没见过的场景下效果很差~~)。

magic leap也发表过相关的文章。再往前几年还有一些类似的研究,不过效果都不是很好,或者只是换了个评价角度来说明深度学习方法的优势。这里就不贴其他大量的参考文献了。

[1] Clark, Ronald, et al. "VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem." AAAI. 2017. (http://www.cs.ox.ac.uk/files/9028/CS-RR-17-05.pdf)

[2] Clark, Ronald, et al. "VidLoc: 6-doF video-clip relocalization." arXiv preprint arXiv:1702.06521 (2017). (https://arxiv.org/pdf/1702.06521.pdf)

[3] Wang, Sen, et al. "Deepvo: Towards end-to-end visual odometry with deep recurrent convolutional neural networks." Robotics and Automation (ICRA), 2017 IEEE International Conference on. IEEE, 2017. (http://ieeexplore.ieee.org/abstract/document/7989236/)

[4] Mohanty, Vikram, et al. "Deepvo: A deep learning approach for monocular visual odometry." arXiv preprint arXiv:1611.06069 (2016). (https://arxiv.org/pdf/1611.06069.pdf)

参考:https://www.zhihu.com/question/65068625

猜你喜欢

转载自blog.csdn.net/weixin_39752599/article/details/84432860