Modelo chino multimodal a gran escala VisCPM: admite la generación bidireccional de diálogos, textos e imágenes, ¡y la capacidad de recitar poemas y hacer dibujos es increíble! Código abierto inteligente del Departamento de Tsinghua...

El editor de este artículo es el corazón de la máquina Organización: Frente a la inteligencia de la pared

Reproduzca el logro de romper paredes, ¡VisCPM está llegando!

El CPM-1 lanzado en diciembre de 2020 es el primer modelo chino a gran escala en China; el CPM-Ant lanzado en septiembre de 2022 puede superar el efecto de ajuste fino de todos los parámetros con solo un ajuste fino del 0,06 % de los parámetros; el WebCPM lanzado en mayo de 2023 es el primer modelo de código abierto basado en búsqueda en chino. El modelo grande CPM-Bee 10 billones es el último modelo de pedestal lanzado por el equipo. Su competencia en chino encabeza la lista autorizada ZeroCLUE, y su competencia en inglés es igual a LLaMA.

Los modelos a gran escala de la serie CPM, que han realizado repetidamente logros que rompen muros, han liderado a los modelos domésticos a gran escala para escalar la cima, ¡y el VisCPM lanzado recientemente es otra prueba! VisCPM es una serie de grandes modelos multimodales de código abierto conjunto de Facewall Intelligence, NLP Lab de la Universidad de Tsinghua y Zhihu en OpenBMB. Entre ellos, el modelo VisCPM-Chat admite capacidades de diálogo multimodal en chino e inglés, y el modelo VisCPM-Paint admite capacidades de generación de texto a imagen. La evaluación muestra que VisCPM ha alcanzado el mejor nivel entre los modelos chinos de código abierto multimodal.

VisCPM se entrena en base a las decenas de miles de millones de parámetros del modelo base CPM-Bee, e integra un codificador visual (Q-Former) y un decodificador visual (Diffusion-UNet) para admitir la entrada y salida de señales visuales.Gracias a la excelente capacidad bilingüe de la base CPM-Bee, VisCPM solo puede entrenar previamente en datos multimodales en inglés y generalizar para lograr excelentes capacidades multimodales en chino.

0a7d4254cd406974008e01c28ee0c907.png

Diagrama de estructura simple de VisCPM

Echemos un vistazo más de cerca a dónde están VisCPM-Chat y VisCPM-Paint.

9dc82f76502bdb2fc6e71b6cb8a4621d.png

Enlace VisCPM: https://github.com/OpenBMB/VisCPM

VisCPM-Chat admite diálogo multimodal bilingüe orientado a imágenes en chino e inglés. El modelo utiliza Q-Former como codificador visual, CPM-Bee (10B) como modelo base de interacción del lenguaje y un objetivo de capacitación de modelado del lenguaje para fusionar los modelos de visión y lenguaje. El entrenamiento modelo incluye dos etapas de pre-entrenamiento y perfeccionamiento de la instrucción.

El equipo usó alrededor de 100 millones de datos gráficos en inglés de alta calidad para entrenar previamente a VisCPM-Chat, incluidos CC3M, CC12M, COCO, Visual Genome, Laion, etc. En la etapa previa al entrenamiento, los parámetros del modelo de lenguaje se mantienen fijos y solo algunos parámetros de Q-Former se actualizan para respaldar la alineación eficiente de representaciones de lenguaje visual a gran escala.

Después de eso, el equipo ajustó las instrucciones de VisCPM-Chat, utilizando las instrucciones en inglés LLaVA-150K para ajustar los datos , y mezcló los datos chinos traducidos correspondientes para ajustar las instrucciones del modelo, a fin de alinear las capacidades básicas multimodales del modelo y las intenciones del usuario. En la etapa de ajuste fino de las instrucciones, actualizaron todos los parámetros del modelo para mejorar la eficiencia de utilización de los datos de ajuste fino de las instrucciones.

Curiosamente, el equipo descubrió que incluso con el ajuste fino de las instrucciones usando solo datos de instrucción en inglés, el modelo podía entender preguntas en chino pero solo responderlas en inglés. Esto demuestra que las capacidades multilingües y multimodales del modelo han sido bien generalizadas . Al agregar una pequeña cantidad de datos de traducción al chino en la etapa de ajuste fino de las instrucciones, el idioma de respuesta del modelo se puede alinear con el idioma de las preguntas del usuario.

El equipo evaluó el modelo en el conjunto de pruebas de inglés de LLaVA y el conjunto de pruebas de chino traducido. El punto de referencia de la evaluación examina el rendimiento del modelo en un diálogo de dominio abierto, una descripción detallada de la imagen y un razonamiento complejo, y utiliza GPT-4 para la puntuación. Se puede observar que VisCPM-Chat logra el mejor desempeño promedio en habilidad multimodal en chino , sobresale en diálogo de dominio general y razonamiento complejo, y también muestra una buena habilidad multimodal en inglés.

VisCPM-Chat ofrece dos versiones de modelo, a saber, VisCPM-Chat-balance y VisCPM-Chat-zhplus. El primero es más equilibrado en inglés y chino, y el segundo es más prominente en chino . Los dos modelos usan los mismos datos en la etapa de ajuste fino de las instrucciones. VisCPM-Chat-zhplus agregó 20 millones de pares de imagen-texto en chino nativo limpios y 120 millones de pares de imagen-texto traducidos al chino en la etapa previa al entrenamiento.

4a7dd4826707b2e9035581d51801d97c.png

La siguiente es una demostración de las capacidades de diálogo multimodal de VisCPM-Chat. No solo puede reconocer mapas de regiones específicas, sino también comprender pinturas de graffiti y carteles de películas, e incluso reconocer el logotipo de Starbucks. Además, ¡los bilingües chino e inglés son muy resbaladizos!

f9c0fa361a80325c4b19efdf880287f1.png

Veamos nuevamente VisCPM-Paint , que admite la generación bilingüe de texto a imagen en chino e inglés . El modelo utiliza CPM-Bee (10B) como codificador de texto, UNet como decodificador de imágenes y entrena el lenguaje de fusión objetivo y el modelo de visión a través del modelo de difusión.

Durante el proceso de entrenamiento, los parámetros del modelo de lenguaje siempre se mantienen fijos. El decodificador de visión se inicializa con los parámetros UNet de Stable Diffusion 2.1 y se fusiona con el modelo de lenguaje descongelando gradualmente los parámetros de puente clave: primero entrenando el mapeo de representación de texto a la capa lineal del modelo de visión y luego descongelando aún más la capa de atención cruzada de UNet. El modelo se entrenó en el conjunto de datos de texto a texto en inglés Laion 2B.

Al igual que VisCPM-Paint, gracias a la capacidad bilingüe del modelo base CPM-Bee, VisCPM-Paint puede entrenarse solo a través de pares de imagen y texto en inglés y generalizarse para lograr buenas capacidades de generación de texto a imagen en chino, logrando los mejores resultados de los modelos chinos de código abierto . Al agregar 20 millones de datos de texto de imagen originales limpios en chino y 120 millones de datos de texto de imagen traducidos al chino, la capacidad de generación de texto a imagen en chino del modelo se ha mejorado aún más. Del mismo modo, VisCPM-Paint tiene dos versiones diferentes, balance y zhplus. Tomaron muestras de 30 000 imágenes en el conjunto de prueba de generación de imágenes estándar MSCOCO y calcularon el índice de generación de imágenes de evaluación FID (Distancia de inicio de Fréchet) de uso común para evaluar la calidad de las imágenes generadas.

59ee6ce1984f4dea93cafe63148e9428.png

En el modelo VisCPM-Paint, ingrese dos indicaciones de "la luna brillante está creciendo en el mar, el cielo está en este momento, estilo estético, estilo abstracto" y "el osmanthus de dulce aroma cae, la luna está tranquila y las montañas están vacías", y se generan las siguientes dos imágenes:

6e1592e914adbf150d0746aa8f6989f7.jpeg

(Aún hay margen de mejora en la estabilidad del efecto generación)

Bastante sorprendente, se puede decir que ha captado con precisión la concepción artística de los poemas antiguos, y en el futuro, si no comprende los poemas, ¡puede generar directamente una imagen para comprender! Si se aplica al diseño, puede ahorrar mucha mano de obra. No solo puede "pintar", sino que también puede "recitar poemas" usando VisCPM-Chat : use imágenes para recuperar poemas de forma inversa. Por ejemplo, los poemas de Li Bai se pueden usar para describir e interpretar la escena del Río Amarillo, y "Shui Tiao Ge Tou" de Su Shi también se puede usar para expresar emociones cuando se enfrenta a la Noche de Luna de Medio Otoño.

a8b94e3bd85436cb18335db2395e2bca.jpeg078a9c58c9c68a1c773ebf404c3b5fe2.jpeg

VisCPM no solo genera bien, sino que la versión de descarga está bien diseñada y es fácil de instalar y usar. 

df9b4cbafcea3e702683c1f24f7ba137.png

VisCPM proporciona versiones con diferentes habilidades en chino e inglés.

e1e37b68370d83f964e1075fc852d653.png

Pasos de instalación

VisCPM proporciona versiones de modelo con diferentes capacidades en chino e inglés para que las descargue y elija. Los pasos de instalación son simples y el diálogo multimodal se puede realizar con unas pocas líneas de código durante el uso. Las comprobaciones de seguridad para el texto de entrada y las imágenes de salida también están habilitadas de forma predeterminada en el código. (Vea README para tutoriales específicos) En el futuro, el equipo integrará VisCPM en el marco del código huggingface y mejorará gradualmente el modelo de seguridad, admitirá la implementación rápida de páginas web, la cuantificación del modelo de soporte, el ajuste del modelo de soporte y otras funciones , ¡espere la actualización!

Cabe mencionar que los modelos de la serie VisCPM son muy bienvenidos para fines personales y de investigación . Si desea utilizar el modelo con fines comerciales, también puede comunicarse con [email protected] para analizar asuntos de licencias comerciales.

Los modelos tradicionales se centran en el procesamiento de datos monomodales. La información en el mundo real suele ser multimodal. Los grandes modelos multimodales mejoran las capacidades de percepción e interacción de los sistemas de inteligencia artificial y brindan nuevas oportunidades para que la IA resuelva tareas complejas de percepción y comprensión en el mundo real. Hay que decir que la compañía de modelos a gran escala de la Universidad de Tsinghua tiene una sólida capacidad de investigación y desarrollo para la inteligencia de la pared frontal, y el modelo multimodal a gran escala VisCPM lanzado conjuntamente es poderoso y sorprendente ¡Espero su posterior publicación de resultados!

¡Un video de un minuto para aprender sobre el Imagic del diagrama de Vincent de difusión en CVPR2023!

Preste atención a la cuenta oficial [Aprendizaje automático y creación de generación de IA], le esperan cosas más emocionantes para leer

Explicación simple de difusión estable: Interpretación del modelo de difusión potencial detrás de la tecnología de pintura AI

¡Explicación detallada de ControlNet, un algoritmo de generación de pintura AIGC controlable! 

GAN clásico tiene que leer: StyleGAN

bc9697c9244494575d13bfeb272c68ab.png ¡Haz clic en mí para ver los álbumes de la serie de GAN~!

Una taza de té con leche, ¡conviértete en la frontera de la visión AIGC+CV!

¡El último y más completo resumen de 100! Generar modelos de difusión Modelos de difusión

ECCV2022 | Resumen de algunos trabajos sobre la generación de redes de confrontación GAN

CVPR 2022 | Más de 25 direcciones, los últimos artículos de 50 GAN

 ICCV 2021 | Resumen de los artículos de GAN sobre 35 temas

¡Más de 110 artículos! CVPR 2021 peinado de papel GAN ​​más completo

¡Más de 100 artículos! El peinado de papel GAN ​​más completo de CVPR 2020

Desmantelando la nueva GAN: representación desacoplada MixNMatch

StarGAN Versión 2: Generación de imágenes de diversidad multidominio

Descarga adjunta | Versión en chino de "Aprendizaje automático explicable"

Descarga adjunta | "Algoritmos de aprendizaje profundo de TensorFlow 2.0 en la práctica"

Descarga adjunta | "Métodos Matemáticos en Visión por Computador" compartir

"Una revisión de los métodos de detección de defectos superficiales basados ​​en el aprendizaje profundo"

Una encuesta de clasificación de imágenes de disparo cero: una década de progreso

"Una encuesta de aprendizaje de pocos disparos basada en redes neuronales profundas"

El "Libro de los ritos · Xue Ji" tiene un dicho: "Aprender solo sin amigos es solitario e ignorante".

¡Haga clic en una taza de té con leche y conviértase en el vacilante de la frontera de la visión AIGC+CV! , ¡únete  al planeta de la creación generada por IA y  el conocimiento de la visión por computadora!

Supongo que te gusta

Origin blog.csdn.net/lgzlgz3102/article/details/131693186
Recomendado
Clasificación