VIGC: haga y responda preguntas, nuevas ideas para ajustar la adquisición de datos con instrucciones visuales de alta calidad

A partir de abril de este año, con
el código abierto de proyectos de modelos grandes multimodales como MiniGPT-4, LLaVA, InstructBLIP, etc., la popularidad de los modelos grandes se ha extendido desde el campo de la PNL a la visión por computadora y los campos multimodales. .

Los modelos multimodales grandes requieren datos de diálogos de texto y gráficos de alta calidad para el ajuste fino de las instrucciones, pero los datos actuales de ajuste fino de las instrucciones multimodales se basan principalmente en texto sin formato GPT-4, y la calidad y diversidad de los datos son relativamente limitadas. Con este fin, propusimos el modelo de corrección y generación de instrucciones visuales VIGC, que puede generar automáticamente diversos datos de instrucciones basados ​​en el modelo multimodal, reducir las ilusiones y garantizar la calidad de los datos según el módulo de corrección de instrucciones. Estos datos de instrucciones se agregan para ajustar el modelo y mejorar aún más el rendimiento del modelo.

¿Qué puede hacer VIGC ?


Figura 1. Ejemplo de VIGC: imagen de entrada, el modelo genera automáticamente preguntas relevantes y sus respuestas correspondientes

Como se muestra en la figura, el usuario proporciona (1) cualquier imagen; (2) el tipo de datos requerido, y VIGC puede generar preguntas y respuestas correspondientes a la imagen. En comparación con el gran modelo multimodal actual de imágenes y texto, con imágenes y preguntas dadas, VIGC puede lograr la autopregunta y la autorespuesta obteniendo respuestas a las preguntas correspondientes, y estos pares de preguntas y respuestas pueden usarse como instrucción de alta calidad. El ajuste de datos para el entrenamiento de modelos multimodal a gran escala mejora aún más el rendimiento del modelo.

¿Cuáles son las ventajas de VIGC ?

Para responder a esta pregunta, primero analizamos el esquema de adquisición de datos de ajuste fino de instrucciones actual.

Figura 2: Texto sin formato GPT-4 para la generación de datos de ajuste fino de instrucciones

Actualmente, la mayoría de los datos de ajuste para obtener instrucciones gráficas y de texto se basan en GPT-4 de solo idioma. Combinando las imágenes proporcionadas, las anotaciones relacionadas con imágenes y las preguntas de anotaciones manuales, GPT-4 genera las respuestas correspondientes. Hay dos defectos en este enfoque:

● Altos costos de anotación: dado que GPT-4 no puede ver imágenes reales, es necesario anotar manualmente la información de la imagen correspondiente (como la categoría de destino en la imagen, la información de posicionamiento y la información de descripción) en función de problemas relacionados con la imagen.
● La calidad de la respuesta está limitada por la anotación: la cantidad de información contenida en una imagen es mucho mayor que la información de la anotación, por lo que al responder preguntas, GPT-4 se basa directamente en la información de anotación limitada y pierde fácilmente la información detallada en el imagen.

Por el contrario, VIGC afina el modelo de entrenamiento de datos a través de instrucciones iniciales, guiando al modelo para que genere automáticamente preguntas y respuestas apropiadas basadas en imágenes. Las ventajas de este método en comparación con el texto plano GPT-4 para generar datos de ajuste de instrucciones son:

● Contiene contenido más detallado: la respuesta generada por VIGC es que el modelo realmente ve el contenido de la imagen para responder y contiene información más detallada;
● No se necesita explicación adicional: VIGC aún puede generar datos de preguntas y respuestas de alta calidad para imágenes no vistas. content., gracias a la capacidad del modelo VIGC para extraer la información visual de la imagen a través del modelo visual y confiar en el modelo de lenguaje posterior para generar respuestas automáticamente. El punto clave aquí es que el modelo visual y el modelo de lenguaje grande han visto una gran cantidad de gráficos y datos de texto sin formato, y han integrado una gran cantidad de conocimiento. VIGC es más como destilar conocimiento relacionado con imágenes de estos modelos grandes.

¿ Cómo entrenar y utilizar VIGC ?


Figura 3. Diagrama del marco VIGC. El lado izquierdo corresponde al proceso de entrenamiento VIGC y el lado derecho corresponde al proceso de inferencia VIGC.

01 Proceso de formación

Para obtener una imagen determinada y generar automáticamente gráficos y contenido de texto, es necesario construir datos de ajuste fino de la instrucción inicial, incluidas imágenes, tipos de preguntas, preguntas correspondientes relacionadas con imágenes y respuestas correctas. Fase de entrenamiento VIG de generación de comandos visuales

● Información de entrada: imágenes y tipos de preguntas correspondientes (como tipo de diálogo, tipo de descripción detallada, tipo de razonamiento lógico)
● Información de salida: preguntas y respuestas de este tipo.

Sin embargo, al utilizar solo el método anterior, el modelo a menudo sufre graves problemas de alucinaciones al generar información de descripción detallada. Este fenómeno es común en los grandes modelos multimodales actuales. Esencialmente, ocurre cuando los datos de entrenamiento tienen ciertas características repetitivas. es fácil adaptar el modelo generado a esta distribución de datos. Por ejemplo, en las imágenes de capacitación, cuando las descripciones de personas y mesas aparecen en pares de preguntas y respuestas, las descripciones de las sillas suelen aparecer más tarde. Durante la fase de inferencia, el modelo tenderá a mencionar sillas cuando vea personas y mesas (incluso si no hay sillas en la imagen de inferencia).

Con este fin, VIGC utiliza el método iterativo Q-Former para actualizar rápidamente la información de características ingresada al modelo, lo que permite que el modelo complete las respuestas posteriores combinando el contenido de la pregunta y algunas de las respuestas actuales al responder la pregunta. Por lo tanto, en la etapa de capacitación también agregamos el módulo de corrección de instrucciones visuales VIC. En esta etapa:

● Información de entrada: imagen, tipo de pregunta correspondiente, pregunta
● Información de salida: respuesta

02 Etapa de razonamiento

Para obtener datos de ajuste de instrucción de alta calidad, el proceso de la fase de inferencia es el siguiente:
a. Dada una imagen y un tipo de pregunta, VIG genera las preguntas y respuestas correspondientes;
b. Ingresa la imagen y las preguntas generadas por VIG en VIC, y extraer la información relevante a través de Q-Former Generar una nueva respuesta después de las características de la imagen;
c. Dividir la respuesta anterior, ingresar la primera respuesta, imagen y pregunta nuevamente en VIC para generar la segunda respuesta actualizada A2; d. La
totalidad El proceso se ejecuta iterativamente hasta que el modelo encuentra el terminador.

¿Los datos VIGC ayudan al modelo?

Según los datos generados por VIGC, después de volver a unirnos al entrenamiento del modelo, descubrimos que el rendimiento del modelo se puede mejorar aún más.

Tabla 1. Mejora del rendimiento al agregar el modelo de datos VIGC

Como se muestra en la tabla anterior, en la evaluación basada en MMBench, sumando los datos adicionales generados por VIGC, el indicador se puede mejorar del 24,4% al 27,5%. En el conjunto de evaluación de LLaVA, el indicador aumentó del 84,7% al 87%.

Resumir

VIGC propone un nuevo método de construcción de datos de instrucción multimodal que puede generar automáticamente diversos datos de alta calidad basados ​​en imágenes sin etiquetar. Con base en los datos generados, el rendimiento del modelo actual se puede mejorar aún más y se puede utilizar como adquisición de datos de instrucción y Rendimiento del modelo Nuevas ideas de mejora.

Información relacionada con VIGC
Dirección del artículo: https://arxiv.org/pdf/2308.12714.pdf
Código: https://github.com/opendatalab/VIGC
Demostración: https://opendatalab.github.io/VIGC

El modelo VIGC ha sido de código abierto, ¡bienvenido a protagonizar!
Para obtener contenido más interesante, visite OpenDataLab: https://opendatalab.org.cn/

Supongo que te gusta

Origin blog.csdn.net/OpenDataLab/article/details/132888734
Recomendado
Clasificación