从零到一实现自动驾驶初步设计

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yunxinan/article/details/85615129

自动驾驶分为四步实现:
一、环境感知需要解决的问题:
物体检测在这里插入图片描述

2D图像转为3D图像
SFM-Net:从视频中学习结构与运动
SfM-Net是SfM-learner的升级版 ,我们提出了SfM-Net一种geometry-aware几何敏感的神经网络用于视频中的运动估计,此网络分解了基于场景和对象深度的帧间像素运动,相机运动3D对象旋转和平移。给定一个帧的序列SfM-Net预测深度,分割相机和刚体运动,然后将这些转换为稠密帧间运动场(光流),可微的扭曲帧最后做像素匹配和反向传播。模型可以通过不同程度的监督方法进行训练:1)自监督的投影光测误差(photometric error)(完全无监督)的方式,2)用自运动(相机运动)进行有监督训练的方式,3)使用深度(比如说RGBD传感器提供的)进行有监督训练的方式。SfM-Net提取了有意义的深度估计并成功地估计了帧间的相机运动和评议。它还能在没有监督信息提供的情况下,成功分割出场景中的运动物体。
全景分割 计算机视觉与IMU融合
VINet论文地址:https://arxiv.org/pdf/1701.08376v1.pdf
VINet=FlowNet+RNN。视觉惯性里程计(Visual Inertial Odometry)是一种融合图像视觉和廉价惯性数据的组合定位方法。它通过摄像头和惯性器件的廉价结合,既可以有效抑制惯性器件的漂移,又可以克服视觉里程计(Visual Odometry)中的尺度、相对运动和低帧率等问题,是实现低成本高精度定位的有效手段。
传统VIO(视觉惯性里程)视觉里程计的主要方法分为基于特征点的方法和不使用特征点的直接法两种。特征点方法也叫稀疏方法,而使用特征点描述的也叫稠密方法。VINet的框架一般可分为三个过程,基于图像序列的光流估计、基于惯性数据的积分操作以及基于滤波和优化的运动融合。从文献披露的情况来看,深度学习在这三个子领域均已涉及。首先来说说光流估计的问题。光流是运动物体在像素空间中瞬时速度的体现,它需要结合相邻帧之间像素的对应关系。
它的整个网络可以分为三部分。其中,CNN部分通过一个FlowNet来得到相邻帧间图像间的光流运动特征(1024维)。接着,使用一个常规的小型LSTM网络来处理IMU的原始数据,得到IMU数据下的运动特征。最后,对视觉运动特征和IMU运动特征做一个结合,送入一个核心的LSTM网络进行特征融合和位姿估计。

DeepVO论文: https://arxiv.org/pdf/1611.06069v1.pdf
UnDeepVo论文:https://arxiv.org/pdf/1709.06841.pdf
在这里插入图片描述
Matterport3D室内环境RGB-D数据的深度学习
Matterport3D论文地址:https://arxiv.org/pdf/1709.06158.pdf
MultiPoseNet:https://github.com/mkocabas/pose-residual-network/
文中提出了一种新的自底向上(Bottom-Up)模式的多人姿势估计架构,它将多任务模型(multi-task model)与新颖的分配算法(assignment method)相结合。MultiPoseNet可以联合处理人体检测,关键点检测,人体分割和姿态估计问题。新颖的分配算法由姿态残差网络(PRN)实现,该网络接收关键点和人体检测的结果,通过将关键点分配给人体实例来产生准确的姿态。在COCO关键点数据集上,该姿态估计方法在准确性(比之前最好的结果要高4个点的mAP)和速度方面均优于所有之前的自下而上(Bottom-Up)方法; 它在准确性上也可以与最好的自顶向下(Top-Down)方法相媲美,但速度至少快4倍。MultiPoseNet方法是目前最快的实时姿态估计系统,在GTX1080TI显卡上速度是23帧/秒。
在这里插入图片描述
深度学习线路规划模型
VidLoc: A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization
论文地址:https://arxiv.org/pdf/1702.06521.pdf
在这里插入图片描述
2D-2D形式:通过两个图像的像素位置来估计相机的运动。
3D-2D形式:假设已知其中一组点的3D坐标,以及另一组点的2D坐标,求相机运动。
3D-3D形式:两组点的3D坐标均已知,估计相机的运动。
端到端的定位系统
PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization
论文地址:https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Kendall_PoseNet_A_Convolutional_ICCV_2015_paper.pdf

SLAM相关技术:http://www.slamcn.org/index.php/首页
双目识别:DeMoN:学习单双目?深度和运动的网络
DeMoN代码:https://github.com/lmb-freiburg/demon

猜你喜欢

转载自blog.csdn.net/yunxinan/article/details/85615129
今日推荐