用BEVformer来卷自动驾驶-1

之所以是-1,是因为大概率1篇文章写不完,但是又不知道应该用几篇来说事,先写着看     

按照惯例,上论文地址:2203.17270v1.pdf (arxiv.org)

Image

      什么是BEV, Bird's -Eye-View的意思,就是鸟瞰

      比如稍微传统一些的自动驾驶,大部分的实现。如果靠纯CV的方案的话,那么基本上不管你做什么下游任务,物体检测也好,还是分割图像也好,就看到你眼前这一块,或者说摄像头里这一块视野,然后分别对自己摄像头里的任务产生的结果做决策

      鸟瞰就不一样了,让你能开上帝视角,参见特斯拉的那种行驶界面

Image

      如上图所示,中间的图才配称得上是鸟瞰图,它可以感知周遭的一切环境,无死角的感知,进而来实现最合理的驾驶action(和高精地图的方案是不一样的,高精地图只有对主观路况的呈现,记得是主观路况的呈现,而不是感知,同时如果不配合雷达或者其他的方案是无法对同一物理时间的周遭其他对象进行感知的)

     

猜你喜欢

转载自blog.csdn.net/kingsoftcloud/article/details/135159643