University of California|3D-LLM: Combinando mundo 3D com modelo de linguagem em grande escala

A equipe do projeto 3D-LLM da Universidade da Califórnia mencionou: Foi comprovado que o modelo de linguagem grande (LLM) e o modelo de linguagem visual (VLM) funcionam bem em várias tarefas, como o raciocínio de senso comum. Embora esses modelos sejam muito poderosos, eles não são baseados no mundo físico 3D, que envolve conceitos mais ricos, como relações espaciais, recursos, física, layout, etc.

Neste trabalho, é possível infundir um mundo 3D em modelos de linguagem de grande escala e introduzir toda uma nova família de 3D-LLMs.

Especificamente, o 3D-LLM pode usar a nuvem de pontos 3D e seus recursos como entrada e executar várias tarefas relacionadas a 3D, incluindo legendas, legendas densas, resposta a perguntas 3D, decomposição de tarefas, base 3D, diálogo assistido em 3D, navegação, etc.


d17dc8ab3177e7d64a9407dfb3ccb409.jpeg

O projeto menciona: "Usando os três tipos de mecanismos de sugestões que projetamos, conseguimos coletar mais de 300.000 dados de linguagem 3D cobrindo essas tarefas. imagens multivisualização. Em seguida, usamos 2D VLM como a espinha dorsal para treinar 3D-LLM. Ao introduzir um mecanismo de localização 3D, o 3D-LLM pode capturar melhor as informações espaciais 3D.

Os experimentos no ScanQA mostram que nosso modelo supera as linhas de base de última geração por uma grande margem (por exemplo, as pontuações BLEU-1 superam as pontuações de última geração em 9%). Além disso, experimentos em nossos conjuntos de dados retidos de legendas 3D, combinações de tarefas e diálogos assistidos em 3D mostram que nosso modelo supera os VLMs 2D.

Exemplos qualitativos também mostram que nosso modelo pode executar muito mais tarefas além do escopo dos LLMs e VLMs existentes. Página do projeto: : Usamos 2D VLM como backbone para treinar 3D-LLM. Ao introduzir um mecanismo de localização 3D, o 3D-LLM pode capturar melhor as informações espaciais 3D. "

A seguir estão alguns cenários de aplicação do 3D-LLM

a61ed0735ae570d784feaaceba2f8aad.jpeg

Acho que você gosta

Origin blog.csdn.net/specssss/article/details/131953291
Recomendado
Clasificación