3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo - 代码天地

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo

企业开发 2023-08-22 19:40:39 阅读次数: 0

0 写在前面

分享最近在BEV感知方面的工作，欢迎自动驾驶同行交流学习，助力自动驾驶早日落地。

1.概述

对于自动驾驶而言，BEV（鸟瞰图）下的目标检测是一项十分重要的任务。尽管这项任务已经吸引了大量的研究投入，但灵活处理自动驾驶车辆上安装的任意相机配置（单个或多个摄像头），仍旧是一个不小的挑战。

为此提出BEVFormer，利用了Transformer强大的特征提取能力以及Timestamp结构的时序特征的查询映射能力，在时间维度和空间维度对两个模态的特征信息进行聚合，增强整体感知系统的检测效果。

论文连接：https://arxiv.org/pdf/2203.17270v1.pdf

代码链接：GitHub - zhiqi-li/BEVFormer

关于BEVFormer

BEVFormer通过预定义的网格状BEV查询，将时间和空间进行交互，从而挖掘空间和时间信息。为了聚合空间信息，我们设计了一个空间交叉注意（ spatial cross-attention），每个BEV查询都从摄像机视图的感兴趣区域提取空间特征。对于时间信息，我们提出了一种时间自我注意（ temporal self-attentio），以反复融合历史BEV信息。在nuScenes数据集上，NDS评估值指标达到了SOTA : 56.9%，比之前基于激光雷达的SOTA方法性能高9个点。我们进一步表明，BEVFormer显著提高了低能见度条件下目标速度估计和调用的精度。

图1

2.结构框架

图2

BEVFormer的编码层包含网格状的BEV查询、时间自我注意和空间交叉注意。

在空间交叉注意中，每个BEV查询只与感兴趣区域的图像特征交互。

在时间自注意力中，每个BEV查询都与两个功能交互：当前时间戳的BEV查询和前一个时间戳的BEV功能。

3.配置环境详细参考源码，这里不一一阐述，在这里分享我配置过程中的问题及解决方法

报错：No module named 'tools' 分析：绝对路径没有识别到
解决：export PYTHONPATH=${PYTHONPATH}:/home/mnt/mmdetection3d/BEVFormer/tools
source ~/.profile

在终端执行：python tools/create_data.py nuscenes --root-path ./data/nuscenes --out-dir ./data/nuscenes --extra-tag nuscenes --version v1.0 --canbus ./data

若生成下图所示结果表明数据处理正确

4.实验结果，demo展示

nuScense包含1000个，每个约20s的数据，标注2Hz，每个样本包含6个摄像机具有360度的水平场景。对于目标检测任务有标注了1.4M个3D框，共包含10个类别。5种评价标准：ATE, ASE, AEO, AVE, AAE，另外，nuScense还提出了NDS来计算综合评分。

BEV特征能够被用于3D目标检测和地图语义分割任务上。常用的2D检测网络，都可以通过很小的修改迁移到3D检测上。实验验证了使用相同的BEV特征同时支持3D目标检测和地图语义分割，实验表明多任务学习能够提升在3D检测上的效果。

连续帧的视频demo：

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo_哔哩哔哩_bilibili3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo, 视频播放量 1、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者小张做CV, 作者简介一个做自动驾驶感知的码农，独角兽实习生，相关视频：讲师亲授！《深度学习实战》课纲解读与学习指导，0基础直达论文发水平，就业&毕设&竞赛一步到位！，终于找到了！这绝对是全B站最详细（没有之一）OpenCV入门到精通全套视频，整整150集（建议收藏慢慢看），最全！Transformer最新顶会论文100篇合集，语义SLAM（ORBSLAM2+FCAF3D），震撼！AI自动写程序，CVPR2022车道线检测SOTA工作CLRNet在Tusimple数据集训练测试demo，助力自动驾驶早日落地，【YOLO目标检测】不愧是清华教授，3小时就把导师三年没让我搞明白的YOLOv7/v6/v5/v4/v3/v2/v1讲明白了！简直让我茅塞顿开！，ChatGPT VScode 插件已上线。，ECCV2022 SimpleRecon 无需 3D 卷积的高质量三维重建方案，终于找到了！这绝对是全B站最详细（没有之一）OpenCV入门到精通全套视频，整整130集（建议收藏慢慢看）https://www.bilibili.com/video/BV16P411K7rp/

写在最后：由于我的设施有限，训练数据有所减少，推荐大家最好在8个GPU上训练

回答：从视觉算法的角度来说，识别物体是否存在更多是语义层面的问题，这一过程依赖于训练数据，必然存在漏检、误检等错误。而通过 LiDAR 等设备从物理层面上识别物体的存在则更为可靠。此外，多尺度、小物体检测等视觉算法中存在的传统问题也会制约系统的性能。

具体流程大家可通过bilibili评论区询问，我会在评论区给大家解答，更多优质资料分享可通过本人CSDN公主号，大家关注后留言即可

猜你喜欢

转载自blog.csdn.net/weixin_64043217/article/details/128263870

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo

计算机视觉·常用数据集·3D

CVPR2023 | MSMDFusion: 激光雷达-相机融合的3D多模态检测新思路（Nuscenes SOTA！）...

【3维视觉】3D数据类型介绍

【3D视觉原理】3D数据处理总体流程

无需3D运动数据训练，最新人体姿势估计方法达到SOTA | CVPR 2020

【3D视觉原理】3-3D数据表示与转换

3D数据集

【慕课笔记】3D感知技术与实践（一）概述和数据获取

BEV视觉3D感知算法梳理

ICCV23 | Ada3D：利用动态推理挖掘3D感知任务中数据冗余性

Focal Sparse Conv复现过程（nuScenes数据集）

基于单目3D目标检测的路侧数据集（CVPR 2022 | 百度开源Rope3D | 车路协同感知）

3D 数据

（新SOTA）UNETR++：轻量级的、高效、准确的共享权重的3D医学图像分割

nuScenes 3D目标检测数据集解析（完整版附python代码）

自动驾驶感知算法实战12——BEV 基于图像/Lidar/多模态数据的3D检测与分割任务

史上最全 | BEV感知算法综述（基于图像/Lidar/多模态数据的3D检测与分割任务）...

Nuscenes 数据集浅析

Nuscenes 数据集

最新SOTA！基于4D成像雷达和相机融合的3D目标检测新基线

Matplotlib 3D 数据

Halcon 3D 1 读取3d数据

一种视觉3D车道线感知&地面重构方法---解析与思考

3d视觉库

3D视觉随笔

3d视觉资源

jquery css 3d旋转demo

3D人脸识别Demo

Unity Demo ——3D时钟

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)