MME: un punto de referencia de evaluación integral para modelos de lenguajes grandes multimodales

Este artículo también es un artículo relacionado de la serie LLM, cuyo objetivo es la traducción de "MME: un punto de referencia de evaluación integral para modelos de lenguajes grandes multimodales".

MME: un punto de referencia de evaluación integral para modelos de lenguajes grandes multimodales

Resumen

Los modelos multimodales de lenguaje grande (MLLM), que se basan en potentes LLM para realizar tareas multimodales, han demostrado capacidades emergentes sorprendentes en estudios recientes, como escribir poemas basados ​​en imágenes. Sin embargo, estos estudios de caso difícilmente reflejan completamente el desempeño de MLLM, ya que carecen de una evaluación integral. En este artículo, llenamos este vacío proponiendo MME, el primer punto de referencia de evaluación de MLLM. Mide las capacidades perceptivas y cognitivas en un total de 14 subtareas. Para evitar una posible fuga de datos causada por el uso directo de conjuntos de datos públicos para la evaluación, las anotaciones de los pares instrucción-respuesta se diseñan manualmente. El diseño de instrucción conciso nos permite comparar MLLM de manera justa, en lugar de tener que luchar con la ingeniería de sugerencias. Además, con tales indicaciones, también podemos realizar fácilmente estadísticas cuantitativas. En nuestro MME, se evalúan exhaustivamente un total de 12 MLLM de última generación, lo que no solo muestra que los MLLM existentes todavía tienen mucho margen de mejora, sino que también revela direcciones potenciales para la optimización posterior del modelo.

1. Introducción

Kit de evaluación de 2 MME

3 experimentos

4 Análisis

Resumimos cuatro problemas comunes que afectan en gran medida el desempeño de los MLLM. El primer problema fue no seguir las instrucciones . Aunque empleamos un diseño de instrucción muy conciso, también hay MLLM que responden libremente en lugar de seguir instrucciones. Por ejemplo, como se muestra en la primera fila de la Figura 4, la instrucción dice "responda sí o no", pero MLLM solo hace una expresión declarativa. Si "sí" o "no" no aparece al comienzo del lenguaje generado, el modelo de juicio dio una respuesta incorrecta. Creemos que un buen MLLM (especialmente después del ajuste de instrucciones) debería poder seguir instrucciones tan simples, que también son comunes en la vida diaria.
El segundo problema es la falta de conciencia . Como se muestra en la segunda fila de la Figura 4, MLLM reconoció mal la cantidad de plátanos en la primera imagen y leyó mal los caracteres en la segunda imagen, lo que resultó en respuestas incorrectas. Observamos que el desempeño perceptivo es susceptible a diferencias sutiles en las instrucciones, ya que dos instrucciones para la misma imagen difieren en una sola palabra, pero conducen a resultados perceptivos completamente diferentes o incluso contradictorios.
El tercer problema es la falta de razonamiento . En la tercera fila de la Figura 4, podemos ver en el texto rojo que MLLM ya sabe que la primera imagen no es una oficina, pero aún así da una respuesta incorrecta de "sí". De manera similar, en la segunda imagen, MLLM calculó el resultado aritmético correcto pero terminó dando la respuesta incorrecta. Estos fenómenos indican que la cadena lógica se rompe durante el proceso de razonamiento de MLLM. Agregar un mensaje de CoT, como "Pensemos paso a paso", puede producir mejores resultados. Esperamos seguir investigando en profundidad.
El cuarto problema es la ilusión de un objeto que sigue instrucciones , como se muestra en la cuarta fila de la Figura 4. Cuando una instrucción contiene una descripción de un objeto que no aparece en la imagen, MLLM asumirá que el objeto existe y eventualmente dará una respuesta "sí". Como se muestra en las Tablas 1, 2 y 3, esta situación de responder constantemente "sí" conduce a una precisión de aproximadamente el 50% y una precisión de aproximadamente 0. Esto sugiere una necesidad urgente de suprimir las alucinaciones y la comunidad debería considerar la confiabilidad de las respuestas generadas.

5. Conclusión

Este artículo presenta el primer punto de referencia de evaluación MLLM, MME, con cuatro características distintas en términos de tipo de tarea, fuente de datos, diseño de instrucción y estadísticas cuantitativas. Evaluamos 12 MLLM de última generación en MME y los resultados experimentales muestran que todavía hay mucho margen de mejora. También resumimos los problemas comunes planteados en los resultados experimentales, proporcionando una guía valiosa para el desarrollo de MLLM.

Supongo que te gusta

Origin blog.csdn.net/c_cpp_csharp/article/details/132358114
Recomendado
Clasificación