Universidad de California|3D-LLM: combinación del mundo 3D con un modelo de lenguaje a gran escala

El equipo del proyecto 3D-LLM de la Universidad de California mencionó: Se ha demostrado que el modelo de lenguaje grande (LLM) y el modelo de lenguaje visual (VLM) funcionan bien en múltiples tareas, como el razonamiento de sentido común. Aunque estos modelos son muy poderosos, no se basan en el mundo físico 3D, que implica conceptos más ricos como las relaciones espaciales, las posibilidades, la física, el diseño, etc.

En este trabajo, es posible infundir un mundo 3D en modelos de lenguaje a gran escala e introducir una familia completamente nueva de 3D-LLM.

Específicamente, 3D-LLM puede tomar la nube de puntos 3D y sus características como entrada y realizar varias tareas relacionadas con 3D, que incluyen subtítulos, subtítulos densos, respuesta a preguntas en 3D, descomposición de tareas, base 3D, diálogo asistido por 3D, navegación, etc.


d17dc8ab3177e7d64a9407dfb3ccb409.jpeg

El proyecto menciona: "Usando los tres tipos de mecanismos de sugerencias que diseñamos, pudimos recopilar más de 300 000 datos de lenguaje 3D que cubren estas tareas. Para entrenar 3D-LLM de manera eficiente, primero utilizamos extractores de características 3D de características 3D renderizadas que se obtienen de imágenes multivista. Luego, usamos 2D VLM como la columna vertebral para entrenar 3D-LLM. Al introducir un mecanismo de localización 3D, 3D-LLM puede capturar mejor la información espacial 3D.

Los experimentos en ScanQA muestran que nuestro modelo supera las líneas base de última generación por un amplio margen (por ejemplo, las puntuaciones BLEU-1 superan las puntuaciones de última generación en un 9 %). Además, los experimentos en nuestros conjuntos de datos retenidos de subtítulos en 3D, combinaciones de tareas y diálogo asistido en 3D muestran que nuestro modelo supera a los VLM en 2D.

Los ejemplos cualitativos también muestran que nuestro modelo puede realizar muchas más tareas más allá del alcance de los LLM y VLM existentes. Página del proyecto: : Usamos 2D VLM como columna vertebral para entrenar 3D-LLM. Al introducir un mecanismo de localización 3D, 3D-LLM puede capturar mejor la información espacial 3D. "

Los siguientes son algunos escenarios de aplicación de 3D-LLM

a61ed0735ae570d784feaaceba2f8aad.jpeg

Supongo que te gusta

Origin blog.csdn.net/specssss/article/details/131953291
Recomendado
Clasificación