BLIP-2: El prototipo de la próxima generación de modelos multimodales

Haga clic en la tarjeta a continuación para seguir la cuenta oficial de " CVer "

Mercancías secas pesadas AI/CV, entregadas por primera vez

Haga clic para ingresar —>【Aprendizaje multimodal】WeChat Technology Exchange Group

Autor: Bamboo Rat Merchant | (Fuente: Zhihu) Editor: CVer

https://zhuanlan.zhihu.com/p/606364639

Recientemente, ChatGPT ha estado en el centro de atención, pero solo entender el texto más o menos limita sus talentos. Gracias al brillante desempeño de Transformer en los campos de la PNL y CV, la multimodalidad ha tenido un gran progreso en los últimos años. Sin embargo, la mayor parte del trabajo previo se limita a unas pocas tareas específicas, como VQA, ITR, VG, etc., lo que limita su aplicación. Recientemente, el Sr. Junnan Li colgó su última obra maestra BLIP2. Permítanme tener una nueva comprensión del modelo multimodal, espero compartir mis pensamientos a través de este artículo. Debido a mi nivel limitado y al hecho de que no he examinado documentos en campos relacionados durante mucho tiempo, la mayor parte del pensamiento puede hacerse a puerta cerrada, por lo que inevitablemente hay muchos errores. Todos son bienvenidos a corregir y discutir. .

ALBEF, BLIP, BLIP2 son obras maestras de Junnan Li, que me inspiraron mucho. ALBEF eliminó el detector voluminoso, BLIP unificó la comprensión y la generación, BLIP2 actualizó mi cognición nuevamente, ¡gracias!

1e073d145d94d4042018b924b4418d6c.png

BLIP-2: Preentrenamiento de lenguaje-imagen de arranque con codificadores de imágenes congeladas y modelos de lenguaje grandes

Enlace en papel: https://arxiv.org/abs/2301.12597

Repositorio de código: https://github.com/salesforce/LAVIS/tree/main/projects/blip2

Demostración en HF:

https://huggingface.co/spaces/Salesforce/BLIP2

TL,DR

  1. Comprensión y generación de contenido abierto multimodal, lo que nos da más espacio para la imaginación;

  2. Mirando el modo gráfico desde una nueva perspectiva, se introduce el modelo LLM. El modelo CV es un sensor, responsable de la percepción, y el modelo LLM es un procesador, responsable del procesamiento;

  3. Recursos informáticos relativamente amigables, en comparación con un modelo grande con cientos de tarjetas, el modelo más grande de BLIP 2 es solo 16 A100 40G;

  4. El desempeño de las tareas gráficas tradicionales es explosivo;

del titanic

f29778414d3d871cca7ab9ea1fc91629.png

Respuesta a preguntas multimodales para modelos BLIP2

Antes de presentar la tesis, analicemos qué capacidades se necesitan para realizar la pregunta y la respuesta en la imagen.

  1. Qué está pasando en la imagen: Un hombre con sus brazos alrededor de una mujer en la proa. (Capacidad del modelo de CV perceptual)

  2. Lo que hace la pregunta: ¿Cuál es el final de la película? (Percepción - Capacidad de los modelos de PNL)

  3. ¿Qué tiene que ver la imagen con la película? Esta es una toma clásica del Titanic. (Capacidad de Alinear Fusión-Modelos Multimodales)

  4. Con qué termina la película: El Titanic se hundió. (Capacidad de inferencia del modelo LLM)

Comprensión de los roles que desempeñan los diferentes modelos.

Como se puede ver en las preguntas anteriores, para resolver este problema, se necesitan varios modelos para cooperar. De hecho, desde la aparición de los modelos multimodales (especialmente los modelos multimodales gráficos y de texto), cómo cooperar entre modalidades se ha convertido en un problema.

e5ce5f3d45480515f346c99a4f203a95.png

ViLBERT

En 2019, ViLBERT y Uniter adoptaron pares Objeto-Texto para mejorar la capacidad del modelo para comprender imágenes. La introducción de Object requiere inevitablemente un detector engorroso para detectar varios fotogramas, lo que hace que la modalidad de imagen parezca engorrosa. Además, el modelo del detector inevitablemente tendrá el problema de la detección perdida.Puede consultar algunos trabajos posteriores de Open-Vocabulary, como ViLD. En esta etapa, es obvio que la comprensión de las imágenes es el punto culminante de la multimodalidad, y el texto es más una tarea de imagen auxiliar.

7695cama4750e2bb4572f91f91e30a249.jpeg

Desear

En 21 y 22, quitar el detector se convirtió en la corriente principal. ViLT, ALBEF, VLMo, BLIP, etc. abandonaron el detector, se deshicieron por completo de la comodidad de la red CNN y adoptaron por completo el Transformador. Por supuesto, esto también benefició del propio modelo ViT La brillantez del campo CV ha hecho posible la integración orgánica de los dos modos. En esta etapa, los modales de texto parecen estar a la par con los modales de imagen. Desde el desempeño real de varias tareas posteriores específicas (VQA, VG, ITR), ha sido bastante satisfactorio. Pero siempre siento que es casi de mal gusto, es decir, un razonamiento complejo. Por ejemplo, la mayoría de las preguntas sobre VQA son simples cálculos lógicos o reconocimiento, que no se sienten lo suficientemente inteligentes.

Entonces, ¿cómo lograr un razonamiento más complejo? Como todos sabemos, el campo de la PNL siempre ha estado por delante del desarrollo del campo del CV. Gracias a un corpus más rico, el campo de la PNL ya ha tenido algunas investigaciones sobre modelos con capacidades de razonamiento preliminar, especialmente la aparición de grandes modelos LLM. (Google acaba de lanzar el 22B ViT hoy, y un modelo de esta escala en el campo de la PNL no debería ser noticia). Entiendo claramente cuán fuerte es la capacidad de LLM, de hecho, solo después de ChatGPT.

196d28cabad7feeb592f6ab5fd40d15e.jpeg

BLIP2

El 23 de enero, salió BLIP2 e introdujo LLM. Desde el punto de vista de la imagen, BLIP2 probablemente se compone de varias partes, la imagen (Image) se ingresa en el codificador de imágenes (Image Encoder), y el resultado obtenido se fusiona con el texto (Text) en Q-Former (inicialización BERT). ), y finalmente enviado al modelo LLM. Soy un estudiante de automatización y miro BLIP2 desde la perspectiva de la automatización.

  • imágenes y texto: señales naturales;

  • Codificador de imagen: sensor (imagen);

  • Q-Former: sensor (texto) + algoritmo de fusión (Consulta);

  • LLM: Procesador.

La mayoría de los modelos anteriores se centraron en el diseño de sensores y algoritmos de fusión, pero ignoraron el importante papel del procesador. Aunque el modelo BERT puede comprender el texto, no tiene un concepto de visión del mundo, no tiene una gran base de conocimientos de fondo y solo puede usarse como un sensor. Solo el modelo LLM puede realizar esta función, unificar las señales de cada modo y observar este problema desde una perspectiva macro. Aquí hay una cita del texto original.

Desarrollado por LLM (por ejemplo, OPT (Zhang et al., 2022), FlanT5 (Chung et al., 2022)), se puede solicitar a BLIP-2 que realice una generación de imagen a texto sin disparo que sigue las instrucciones del lenguaje natural, que permite capacidades emergentes como el razonamiento de conocimiento visual, la conversación visual, etc.

En la actualidad, quizás LLM sea un eslabón clave en la próxima generación de modelos multimodales.

Sin más preámbulos, vamos a presentar el documento.

Cómo unificar representaciones multimodales

LLM es esencialmente un modelo de lenguaje y, naturalmente, no puede recibir información directamente de otras modalidades. Por lo tanto, cómo unificar la información de cada modo en el espacio de características que LLM pueda entender es el primer paso para resolver el problema. Por ello, el autor propone Q-Former.

53c8de1aecc6676c4a71e95581da4f1f.jpeg

Diseño de Q-Anterior

Para fusionar características, la arquitectura Transformer es la más adecuada. Los estudiantes que están familiarizados con ALBEF o BLIP pueden encontrar que la estructura de Q-Former es en realidad muy similar a ALBEF Si observa el código, puede encontrar que se modifica sobre la base de ALBEF.

Comparado con ALBEF, la mayor diferencia es la introducción de Learned Query. Se puede observar que estas consultas interactúan con las características de la imagen a través de la Atención Cruzada, e interactúan con las características del texto a través de la Auto-Atención. Hay dos ventajas al hacer esto: (1) Estas consultas se obtienen en base a dos tipos de información modal; (2) no importa qué tan grande sea la columna vertebral visual, finalmente es la característica de salida de la longitud de la consulta, lo que reduce en gran medida la cantidad de cálculo. Por ejemplo, en el experimento real, la función de salida del modelo ViT-L/14 tiene un tamaño de 257x1024 y, finalmente, la función de consulta de 32x768.

En realidad, hay algunas dudas aquí, y todos son bienvenidos a discutir. Esto es lo que dice el papel:

Esta arquitectura de cuello de botella funciona junto con nuestros objetivos de capacitación previa para obligar a las consultas a extraer la información visual más relevante para el texto.

El autor obliga a Query a extraer características relacionadas con el texto a través de Q-Former, pero si no hay texto antes del razonamiento, ¿qué tipo de características se consideran relevantes?

Las tres tareas de capacitación para Q-Former son el aprendizaje contrastivo de imagen y texto (ITC), la generación de texto basada en imágenes (ITG) y la coincidencia de imagen y texto (ITM). Entre ellas, las tareas de ITC e ITM son similares a la implementación en ALBEF, excepto que las funciones de imagen se cambian a funciones de Consulta. Para obtener más información, consulte la implementación del código (ITC e ITM). Lo que es especial aquí es la tarea ITG, que es diferente del MLM en ALBEF, aquí se cambia a la tarea de generar el Texto completo de la oración, similar a Captioning, y el código específico implementa ITG. De hecho, estas tareas se obtienen mediante el uso de funciones de consulta y funciones de texto como entrada, pero hay diferentes combinaciones de máscaras. Para obtener más información, consulte la imagen de la derecha en la figura anterior.

La primera etapa, el entrenamiento del modelo, se compone de las tres tareas anteriores, a través de las cuales se realiza la extracción y fusión de características. Pero ahora mismo la modelo aún no ha visto el LLM. Ahora hemos completado la extracción y fusión de datos con el sensor, y el siguiente paso es convertir los datos a un formato que el procesador pueda reconocer.

Conviértete en lo que sabe LLM

47c8ff3496557804841ba09bffc23c60.jpeg

La segunda etapa de la arquitectura de entrenamiento.

A través de la primera etapa de capacitación, Query ha condensado la esencia de la imagen, y lo que debemos hacer ahora es convertir Query en lo que reconoce LLM.

¿Por qué no dejar que LLM reconozca Query, pero dejar que Query se convierta en LLM? Esto se debe a dos razones: (1) el costo de capacitación del modelo LLM es un poco alto; (2) desde la perspectiva del aprendizaje rápido, la cantidad actual de datos multimodales no es suficiente para garantizar una mejor capacitación LLM, pero puede hacer que pierda generalización. Si no puede ajustar el modelo a la tarea, ajuste la tarea al modelo.

Aquí, el autor diseñó diferentes tareas para dos tipos diferentes de LLM:

  1. LLM de tipo decodificador (como OPT): la consulta se usa como entrada y el texto se usa como destino;

  2. Codificador-Decodificador tipo LLM (como FlanT5): la consulta y la primera mitad de una oración se usan como entrada, y la segunda mitad se usa como destino;

Para adaptarse a las diferentes dimensiones de incrustación de cada modelo, el autor introdujo una capa FC para la transformación de dimensiones.

Hasta ahora, se ha introducido el método de entrenamiento en dos etapas del modelo.

detalles de entrenamiento

Como trabajo gráfico previo a la formación, las cuestiones de ingeniería suelen ser la clave. El proceso de formación de BLIP2 consta principalmente de los siguientes puntos dignos de atención:

  1. En cuanto a datos de entrenamiento: Contiene imágenes en común COCO, VG, SBU, CC3M, CC12M y 115M LAION400M. El método CapFilt en BLIP se usa para hacer Bootstrapping de los datos de entrenamiento.

  2. Modelo CV: se seleccionan ViT-L/14 y ViT-G/14 de CLIP, en particular, el autor utiliza las características de la penúltima capa como salida.

  3. Modelos LLM: Se seleccionaron algunos modelos de diferentes escalas para OPT y FlanT5.

  4. Durante el entrenamiento, tanto el modelo CV como el LLM se congelan y los parámetros se convierten a FP16. Esto reduce en gran medida la carga computacional del modelo. El Q-Former de entrenamiento principal basado en la inicialización de la base BERT tiene solo 188 millones de parámetros.

  5. Los modelos más grandes, ViT-G/14 y FlanT5-XXL, solo necesitan 16 tarjetas de A100 40G, y el entrenamiento se puede completar en 6+3 días.

  6. Todas las imágenes están escaladas a un tamaño de 224x224.

parte experimental

El autor primero usó una página completa para mostrarnos la capacidad de generación de imagen a texto de tiro cero instruida de BLIP2. Por el momento, no lo expresaré aquí, y lo discutiremos más adelante. Veamos primero el efecto de BLIP2 en algunas tareas gráficas tradicionales.

Subtítulos de imagen

b6ab74fae2ec54678f00149c28689587.jpeg

Subtitulado de los resultados del experimento

El autor usa la imagen con el mensaje de texto "una foto de" como entrada del modelo. Congele LLM durante el entrenamiento, entrene modelos Q-Former y CV. Se puede ver que en el conjunto de datos en el dominio (COCO), su desempeño no es muy impresionante, pero en el conjunto de datos fuera del dominio NoCaps, BLIP2 muestra una fuerte capacidad de generalización, y el modelo antes de la intersección tiene una mejora significativa.

Respuesta Visual a Preguntas

e2c7f50ad9d8a8be12c099d539feaa55.jpeg

Resultados del experimento VQA

f89302caaa6b37ccfbfd63a9623564c9.jpeg

Canalización de tareas de VQA

Los parámetros de entrenamiento son consistentes con la tarea IC, principalmente Q-Former y ViT. La diferencia es que tanto Q-Former como LLM tienen Pregunta como entrada de texto. La entrada de texto de Q-Former asegura que las funciones extraídas por Query sean más refinadas.

Recuperación de imagen y texto

1ae90cb0588de5e1636ebe01beca4728.jpeg

Resultados del experimento de recuperación de imagen y texto

Para la tarea ITR, el autor solo usó la primera etapa de Q-Former y ViT para hacerlo, y no introdujo LLM. El método específico es similar al de ALBEF.Primero, la similitud del producto punto se calcula a través de la tarea ITC, y luego se toma el par coincidente de Topk para realizar la tarea ITM para obtener el Matching Score final. SOTA se actualizó nuevamente en Flickr30K, especialmente I2T, que básicamente está saturado.

Generación de imagen a texto de disparo cero instruido

Creo que esta habilidad es la parte más brillante de BLIP2. Esto es lo que dice el artículo:

Ejemplos seleccionados de generación de imagen a texto de tiro cero instruida utilizando un modelo BLIP-2 con ViT-G y FlanT5XXL, donde muestra una amplia gama de capacidades que incluyen conversación visual, razonamiento de conocimiento visual, razonamiento de sentido visual, narración de historias, personalizado generación de imagen a texto, etc.

Primero, echemos un vistazo a la capacidad de BLIP2 para recuperar información. Los siguientes ejemplos son preguntas sobre el conocimiento previo de los objetos en la imagen. Se puede ver que el modelo ha dado las respuestas correspondientes. Lo que se refleja aquí es en realidad la poderosa base de conocimientos de fondo de LLM. Lo que hay en la imagen (ViT) + lo que se pregunta (Q-Former, LLM) + encontrar la respuesta (LLM).

aec3e18845c2e1b9e3308d9e2a54ddcb.jpeg

capacidad de recuperación de información

Todas las siguientes preguntas requieren que el modelo infiera más el contenido de la imagen. Por ejemplo, en la Figura 2, es necesario establecer un vínculo causal entre ser sorprendido por hombres y pollos.

f178974fcf46fe69ac98853b836a966e.jpeg

capacidad de razonamiento fáctico

Los últimos problemas son problemas generativos abiertos. Se requiere que el modelo tenga cierta capacidad para generar texto largo.

214b83cd267dc925cf1eed51cebaebb9.jpeg

Preguntas abiertas de generación

Para explorar más a fondo el efecto del modelo BLIP2, también probé algunas demostraciones por mi cuenta. Aquí se usa la combinación de modelos de ViT-G y FlanT5. El CKPT provisto en Hugging Face suma alrededor de 50G. Como persona que generalmente tiene más exposición a CV Desde un punto de vista humano, está destinado a explotar Generalmente, el CKPT de mi modelo es aproximadamente el mismo que el de la última fracción.

f1207671a072f165e46d384eb9700573.jpeg

Archivo de parámetros del modelo

Primero introduzca el formato de entrada de la prueba, aquí está la referencia principal:

GitHub - NielsRogge/Transformers-Tutorials: este repositorio contiene demostraciones que hice con la biblioteca de Transformers de HuggingFace.

Probé las muestras de entrada en el siguiente formulario, entre los cuales Incontext Learning es más especial Aquí, además de la información en la imagen, también daré la información en un texto, esperando que el modelo dé una respuesta por integrando la información de las dos modalidades.

  • Respuesta de una sola pregunta

    • Plantilla: "Pregunta: {} Respuesta:"

    • Entrada: [Consulta, Plantilla]

  • Respuesta multipreguntas

    • Contexto: "Pregunta: {} Respuesta: {}".

    • Plantilla: "Pregunta: {} Respuesta: "

    • Entrada: [Consulta, Contexto, Plantilla]

  • Aprendizaje en contexto

    • Plantilla: "Contexto: {} Pregunta: {}"

    • Entrada: [Consulta, Plantilla]

  • Generación instruida

    • Entrada: [Consulta, Comando]

A continuación se presentan algunas muestras de prueba y hallazgos interesantes. Negrita es la salida del modelo.

Ejemplo: Airbus 380

4cce8c77a4675afac3a13b0dfca36e47.png

Primero, hacemos algunas preguntas simples

P: ¿Qué tipo de avión es este?
R: un a380
P: ¿Cuáles son las características de este tipo de aviones?
R: el a380 es la aerolínea comercial de pasajeros más grande.

Se puede ver que BLIP2 básicamente dio la respuesta correcta, pero cuando pregunté sobre la capacidad de pasajeros de la aeronave, el modelo todavía dio 380. Se especula que esta aeronave está estrechamente relacionada con el número 380.

P: ¿Cuántas personas puede acomodar este avión?
R: 380

Entonces, para el mismo problema, damos una pequeña pista textual, aquí hay una introducción de Wiki para alimentar el modelo.

C: El Airbus A380 es un gran avión comercial de fuselaje ancho que fue desarrollado y producido por Airbus. Es el avión de pasajeros más grande del mundo y el único avión a reacción de dos pisos de longitud completa. Los estudios de Airbus comenzaron en 1988 y el proyecto se anunció en 1990 para desafiar el dominio del Boeing 747 en el mercado de larga distancia. El avión de dos pisos de longitud completa tiene un asiento típico para 525 pasajeros, con una capacidad máxima certificada para 853 pasajeros.
P: ¿Cuántas personas puede acomodar el avión en esta figura?
R: 853

En este momento, podemos ver que el modelo dio la respuesta con éxito. Es decir, el modelo tiene la capacidad de combinar dos informaciones modales para un razonamiento conjunto. ¿Qué pasa si hacemos algo malo, como dar el Contexto incorrecto?

C: El Airbus A350 es un avión de reacción bimotor de fuselaje ancho y largo alcance desarrollado y producido por Airbus.
P: ¿Qué tipo de avión es esta figura?
R: airbus a350

Como puede ver, el modelo genera la respuesta incorrecta. Tal vez porque LLM presta más atención al texto, y el concepto de figura puede no serle familiar, en su opinión, las 32 consultas son solo tokens de Word con información visual.

Ejemplo: señales de tráfico

79d3b9a1f51a9dd330bb833619129c56.jpeg

En este ejemplo, simplemente dejamos que el modelo genere una pregunta por sí mismo.

P: Dame varias preguntas sobre la figura.
A: ¿Cuál es el límite de velocidad en la carretera?

A continuación, preguntémonos, ¿sabe el modelo la respuesta?

P: ¿Cuál es el límite de velocidad en la carretera?
R: 40 mph.

Se puede ver que el modelo da con precisión el límite de velocidad. Luego le pedimos que hiciera algunos juicios lógicos simples.

P: ¿Puedo conducir a 70 mph aquí?
R: No.
P: ¿Puedo manejar a 30 mph aquí?
R: Sí.

El modelo fue capaz de dar la respuesta correcta. Finalmente, llegue a una tarea de OCR, deje que el modelo emita lo que está escrito en el letrero.

P: ¿Qué está escrito en este letrero?
R: límite de velocidad 40.

El modelo también dio la respuesta correcta. Se puede ver que el modelo tiene cierta base para el juicio lógico y el reconocimiento de texto en imágenes.

Ejemplo: Formulario

54c3be9015df2ecce3c6cb2fed94e8fa.jpeg

Aquí primero use la tabla en el artículo para hacer la prueba.

P: ¿Cuál es el nombre de la mesa?
A: una comparación de la resonancia magnética y la tomografía computarizada.

Emmm, pertenece a mi propia familia y no reconoce a mi propia familia. Pregúntale si se conoce a sí mismo.

P: ¿Conoces BLIP2?
R: BLIP2 es una proteína que en humanos está codificada por el gen BLIP2.

Bueno, no sé. Luego hay algunas preguntas, la respuesta de la modelo no es muy buena.

P: ¿Qué modelo de la tabla funciona mejor?
A: dcm vs dcm vs dcm vs dcm vs dcm vs dcm.
P: ¿Cuántos parámetros de entrenamiento tiene BLIP2?
R: BLIP2 tiene un total de diez parámetros de entrenamiento.

En realidad, la razón es más fácil de entender. En comparación con la brecha de la imagen natural, la imagen de la tabla es más grande y el modelo en sí puede carecer de los datos de entrenamiento correspondientes; en segundo lugar, aunque las 32 consultas hacen que la información sea más refinada, también mejora la capacidad de expresión del modelo Cuello de botella, más el tamaño de 224x224, en realidad es más difícil reconocer caracteres tan pequeños. Veamos el siguiente ejemplo.

Ejemplo: Cuadro 1

332ccb16f86082931906e48f39141da6.png

Dejamos que el modelo se haga una pregunta.

P: Dame varias preguntas sobre la figura
R: ¿Cuál es el porcentaje de supervivencia para aquellos sin tratamiento adolescente?

Se puede ver que la dirección general de la pregunta del modelo es posible, como la tasa de supervivencia. Pero el Tratamiento Adyuvante en el cuadro se reconoce como un tratamiento para adolescentes. Esto muestra que el modelo tiene algunas capacidades de OCR, pero no muchas. Especialmente para caracteres relativamente pequeños y poco comunes, es fácil identificar errores.

Ejemplo: Cuadro 2

77f826c4daeca5e2fec6991c6d4a8026.png

Nuevamente, deje que el modelo se haga una pregunta primero.

C: Leyenda: Fig. 3. Las cifras de hospitalización y UCI de nuestra simulación.
P: Dame varias preguntas sobre la figura
A: ¿Cuál es la población de la ciudad?

Pregúntate y responde.

C: Leyenda: Fig. 3. Las cifras de hospitalización y UCI de nuestra simulación.
P: ¿Cuál es la población de la ciudad?
R: Población de la ciudad de Nueva York 8 millones.

No es difícil ver desde aquí que el modelo puede reconocer palabras comunes incluso si las imágenes son relativamente pequeñas. El último es el más difícil.

P: El día 20, ¿cuántas personas aproximadamente fueron hospitalizadas?
R: 200, 000.

Los requisitos de esta pregunta son realmente bastante altos. El modelo necesita inferir el valor en función de las coordenadas, y la respuesta no es inesperada.

Limitación

En primer lugar, es innegable que este trabajo nos ha dado más espacio para la imaginación, especialmente la capacidad de generación instruida de imagen a texto Zero-shot Creo que debe haber capacidades potenciales que no se han descubierto. Pero también vemos en las muestras de prueba que el modelo todavía tiene algunos problemas. En el artículo, el autor también dio algunos casos malos, como el establecimiento de una conexión incorrecta, una base de inferencia incorrecta y una base de conocimiento desactualizada.

57015f961ddabb4154996981e6a63790.jpeg

Mal caso

En el artículo, el autor explica principalmente las deficiencias de su propio modelo como, en primer lugar,

Sin embargo, nuestros experimentos con BLIP-2 no observan una mejora en el rendimiento de VQA al proporcionar al LLM ejemplos de VQA en contexto. Atribuimos la falta de capacidad de aprendizaje en contexto a nuestro conjunto de datos previo al entrenamiento, que solo contiene un único par de imagen y texto por muestra.

Dado que la mayoría de los conjuntos de datos de gráfico y texto son coincidencias uno a uno, es difícil para el modelo establecer conexiones contextuales.

En segundo lugar,

La generación de imagen a texto de BLIP-2 podría tener resultados insatisfactorios debido a varias razones, incluido el conocimiento inexacto del LLM, la activación de la ruta de razonamiento incorrecta o la falta de información actualizada sobre el contenido de la nueva imagen.

Esto se debe principalmente a las limitaciones del propio modelo LLM.

Además de los puntos mencionados por el autor, creo que también se pueden explorar los siguientes puntos:

  1. Para el reconocimiento detallado, dado que la información de la imagen se concentra en 32 consultas, es dudoso que se pueda reconocer la información detallada y la información de posición importante en la imagen;

  2. Más tareas, BLIP2 tiene poderosas capacidades de disparo cero, se puede aplicar a más tareas, la modalidad múltiple es similar a VG y la modalidad única es similar a la Clasificación.

  3. Por supuesto, desde la perspectiva de los sensores y procesadores, otros modos (como el Audio) también pueden probarse con un sensor y luego enviarse al procesador para su análisis hhh

Por supuesto, las capacidades de BLIP2 deberían estar lejos de ser exploradas por completo, y las compartiremos cuando obtengamos una nueva comprensión.

Haga clic para ingresar —> CV WeChat Technology Exchange Group

Descarga de papel y código BLIP-2

 
  

Respuesta de fondo: BLIP2, puede descargar documentos y códigos

多模态学习 交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-多模态学习 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

Supongo que te gusta

Origin blog.csdn.net/amusi1994/article/details/129095966#comments_27610159
Recomendado
Clasificación