Revisión | ¡La revisión más completa de modelos grandes multimodales ya está aquí!

De: Qubits

Ingrese al grupo de PNL—> Únase al grupo de intercambio de PNL

¡ La revisión más completa de modelos grandes multimodales está aquí!

Escrito por 7 investigadores chinos de Microsoft , tiene 119 páginas——

f2f35a24f64c5b25f96787668e4345bd.png

Parte de dos tipos de direcciones de investigación de modelos grandes multimodales que se han completado y aún están a la vanguardia , y resume de manera integral cinco temas de investigación específicos:

  • comprensión visual

  • generación visual

  • Modelo de visión unificada

  • Modelo grande multimodal respaldado por LLM

  • agente multimodal

9ccace010a840ce084ebaf948e20dcab.gif

‍Y concéntrate en un fenómeno:

Los modelos básicos multimodales han pasado de especializados a universales.

Ps. Esta es la razón por la que el autor dibujó directamente una imagen de Doraemon al comienzo del artículo .

¿Quién debería leer esta reseña (informe)?

En palabras originales de Microsoft:

Siempre que desee aprender los conocimientos básicos y los últimos avances de los modelos básicos multimodales, ya sea un investigador profesional o un estudiante, es su "plato".

Echemos un vistazo ~

Un artículo para comprender el estado actual de los grandes modelos multimodales

Los dos primeros de estos cinco temas específicos son áreas actualmente maduras, mientras que los tres últimos aún son áreas de vanguardia.

1. Comprensión visual

El tema central en esta parte es cómo entrenar previamente una poderosa columna vertebral de comprensión de imágenes.

Como se muestra en la figura siguiente, según las diferentes señales de supervisión utilizadas para entrenar el modelo, podemos dividir los métodos en tres categorías:
supervisión de etiquetas, supervisión de lenguaje (representada por CLIP) y autosupervisión de solo imagen.

La última señal de supervisión de representación se extrae de la propia imagen. Los métodos populares incluyen el aprendizaje contrastivo, el aprendizaje sin contraste y el modelado de imágenes enmascaradas.

Además de estos métodos, el artículo también analiza con más detalle los métodos de preentrenamiento para categorías como la fusión multimodal, la comprensión de imágenes a nivel regional y a nivel de píxeles.

def6228379c444b333993010b6928180.png

También se enumeran trabajos representativos de cada uno de los métodos anteriores.

2666942b2bc1a5ea21ae9de419560237.png

2. Generación visual

Este tema es el núcleo de AIGC y no se limita a la generación de imágenes, sino que también incluye videos, nubes de puntos 3D, etc.

Y su utilidad no se limita al arte, el diseño y otros campos: también es muy útil para sintetizar datos de entrenamiento, ayudándonos directamente a lograr un circuito cerrado de comprensión y generación de contenido multimodal.

En esta sección, los autores se centran en la importancia y los métodos de generar efectos que sean estrictamente consistentes con la intención humana (con énfasis en la generación de imágenes).

Específicamente, parte de cuatro aspectos: generación espacial controlable, reedición basada en texto, mejor seguimiento de las indicaciones de texto y personalización del concepto de generación.

08b6464269d59123dd8856bbfd598d0a.png

Al final de esta sección, los autores también comparten sus puntos de vista sobre las tendencias de investigación actuales y las direcciones de investigación futuras a corto plazo.

Es decir, desarrollar un modelo de diagrama de Vincent general que pueda seguir mejor las intenciones humanas y hacer que las cuatro direcciones anteriores sean más flexibles y reemplazables.

También se enumeran obras representativas de cada una de las cuatro direcciones:

fda5bc1f1595bdefe903dacea61c0156.png

3. Modelo visual unificado

Esta sección analiza los desafíos de construir un modelo de visión unificada: 

‍Primero, los tipos de entrada son diferentes;

En segundo lugar, diferentes tareas requieren diferente granularidad y la salida también requiere diferentes formatos;

En tercer lugar, además de la modelización, los datos también presentan desafíos.

Por ejemplo, el costo de los diferentes tipos de anotaciones de etiquetas varía mucho y el costo de recopilación es mucho mayor que el de los datos de texto, lo que da como resultado que el tamaño de los datos visuales suele ser mucho menor que el de los corpus de texto.

Sin embargo, a pesar de los desafíos, los autores señalan:

El campo CV está cada vez más interesado en desarrollar sistemas de visión universales y unificados, y han surgido tres tendencias:

21d5d2554d92bd560506909f6e06825d.png

Uno es del conjunto cerrado al conjunto abierto, que puede combinar mejor el texto y las imágenes.

El segundo es de tareas específicas a capacidades generales. La razón más importante de esta transición es que el costo de desarrollar un nuevo modelo para cada nueva tarea es demasiado alto;

En tercer lugar, desde un modelo estático hasta un modelo programable, LLM puede utilizar diferentes lenguajes e indicaciones contextuales como entrada y producir el resultado deseado por el usuario sin realizar ajustes. El modelo de visión general que queremos construir debe tener las mismas capacidades de aprendizaje contextual.

4. Modelo multimodal grande respaldado por LLM

Esta sección explora exhaustivamente los grandes modelos multimodales.

Primero, llevamos a cabo un estudio en profundidad de los antecedentes y ejemplos representativos, discutimos el progreso de la investigación multimodal de OpenAI e identificamos las brechas de investigación existentes en este campo.

A continuación, el autor examina en detalle la importancia de perfeccionar la instrucción en modelos lingüísticos de gran tamaño.

Luego, el autor analiza el ajuste de instrucciones en grandes modelos multimodales, incluidos principios, importancia y aplicaciones.

Finalmente, se cubren algunos temas avanzados en el campo de los modelos multimodales para una comprensión más profunda, que incluyen:

Más contenido más allá de la visión y el lenguaje, aprendizaje de contexto multimodal, entrenamiento de parámetros eficiente y Benchmark.

5. Agente multimodal

El llamado agente multimodal es un método que conecta a diferentes expertos multimodales con LLM para resolver problemas complejos de comprensión multimodal.

En esta parte, el autor lo lleva principalmente a revisar la transformación de este modelo y resume las diferencias fundamentales entre este método y el método tradicional.

Luego, MM-REACT, como representante, mostró a todos el funcionamiento específico de este método.

Luego proporciona un resumen completo de cómo construir un agente multimodal, sus capacidades emergentes en la comprensión multimodal y cómo se puede ampliar fácilmente para incluir el último y mejor LLM y potencialmente millones de herramientas.

Por supuesto, al final también hay discusiones sobre algunos temas de alto nivel, incluido cómo mejorar/evaluar agentes multimodales, varias aplicaciones creadas a partir de ellos, etc.

81edb7e9b6fdbd62c5c1cafb7fcdeeb1.png

Sobre el Autor

Hay siete autores en total para este informe.

El iniciador y responsable general es Chunyuan Li.

Es investigador principal en Microsoft Redmond y tiene un doctorado de la Universidad de Duke. Sus intereses de investigación recientes incluyen la formación previa a gran escala en CV y ​​PNL.

Fue responsable de la introducción inicial, el resumen final y la redacción del capítulo "Grandes modelos multimodales entrenados con LLM".

603b6da792b6d904bcda64233a5ed750.png

Hay 4 autores principales en total:

  • Zhegan

Actualmente trabajando en Apple AI/ML, responsable de la visión a gran escala y la investigación de modelos básicos multimodales. Anteriormente, fue el investigador principal de Microsoft Azure AI. Tiene una licenciatura y una maestría de la Universidad de Pekín y un doctorado de la Universidad de Duke.

  • Zheng Yuan Yang

Investigador senior de Microsoft, se graduó con un doctorado de la Universidad de Rochester y ganó honores como el Premio Doctoral Sobresaliente ACM SIGMM.Estudió en la Universidad de Ciencia y Tecnología de China como pregrado.

  • Jian Wei Yang

Investigador principal del Grupo de Aprendizaje Profundo de Microsoft Research Redmond. Doctorado del Instituto de Tecnología de Georgia.

  • Linjie Li (mujer)

Investigador del grupo de visión por computadora Microsoft Cloud & AI, graduado con maestría en Purdue University.

Fueron respectivamente responsables de escribir los cuatro capítulos temáticos restantes.

Dirección de revisión:
https://arxiv.org/abs/2309.10020


Ingrese al grupo de PNL—> Únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/133327623
Recomendado
Clasificación