A Survey on Multimodal Large Language Models for Autonomous Driving

本文是LLM系列文章,针对《A Survey on Multimodal Large Language Models for Autonomous Driving》的翻译。

摘要

随着大型语言模型(LLM)和视觉基础模型(VFM)的出现,受益于大型模型的多模态人工智能系统有可能像人类一样感知现实世界、做出决策和控制工具。近几个月来,LLM在自动驾驶和地图系统中得到了广泛关注。尽管其潜力巨大,但仍缺乏对LLM驾驶系统应用的关键挑战、机遇和未来努力的全面了解。在本文中,我们对这一领域进行了系统的研究。我们首先介绍了多模态大语言模型(MLLMs)的背景、使用LLM的多模态模型开发以及自动驾驶的历史。然后,我们概述了用于驾驶、运输和地图系统的现有MLLM工具以及现有的数据集和基准。此外,我们总结了第一届WACV自动驾驶大型语言和视觉模型研讨会(LLVM-AD)的工作,这是第一次关于自动驾驶中LLM的研讨会。为了进一步推动这一领域的发展,我们还讨论了在自动驾驶系统中使用MLLMs需要学术界和工业界共同解决的几个重要问题。论文集可以在Awesome Multimodal LLMAutonomous Driving找到。

1 引言

2 自动驾驶的发展

3 多模态语言模型的发展

4 自动驾驶的多模态语言模型

5 数据集和基准

6 LLVM-AD研讨会总结

7 讨论

8 结论

在这项调查中,我们探索了将多模态大语言模型(MLLM)集成到下一代自动驾驶系统中的模式。我们的研究首先概述了MLLMs和自动驾驶的发展,这两个领域传统上被认为是不同的领域,但现在越来越相互关联。然后,我们对自动驾驶的多模态语言模型的具体算法和应用进行了广泛的文献综述,然后重点介绍了将MLLMs应用于自动驾驶的研究现状和基准数据集。我们研究的一个重要亮点是综合了第一次LLVM-AD研讨会的关键见解和发现,例如提出新的数据集和改进当前的自动驾驶MLLMs算法。最后,我们就重要的研究主题和在自动驾驶中增强MLLMs的前景进行了前瞻性讨论。我们讨论了未来的挑战和机遇,旨在展示进一步探索的途径。总的来说,本文为自动驾驶领域的研究人员提供了宝贵的资源。它提供了对MLLMs在彻底改变自动交通格局中的重要作用和巨大潜力的全面理解。我们希望本文能促进未来MLLMs与自动驾驶集成的研究。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/135216358