[Análisis del artículo] Conos: neuronas conceptuales en modelos de difusión para generación personalizada

inserte la descripción de la imagen aquí
Enlace de papel: https://readpaper.com/pdf-annotate/note?pdfId=4731757617890738177¬eId=1715361536274443520
Enlace de código fuente: https://github.com/Johanan528/Cones

Descripción general

¿Qué problema se aborda en el documento?

La concatenación de múltiples grupos de neuronas conceptuales que representan diferentes personas, objetos y entornos puede generar de manera flexible todos los conceptos relacionados en una sola imagen (integrando múltiples sujetos específicos en una escena).

¿Es un problema nuevo? Si es así, ¿por qué importa? Si no, ¿por qué sigue siendo importante?

No, este es el primer método que logra generar cuatro sujetos diversos diferentes en una imagen. (métodos de generación dirigidos por sujetos)

¿Cuál es la clave de la solución?

Proponemos encontrar un pequeño grupo de neuronas, que son parámetros en la capa de atención de un modelo de difusión de texto a imagen preentrenado, de modo que los valores cambiantes de esas neuronas puedan generar un tema correspondiente en diferentes contenidos, según la semántica en el mensaje de texto de entrada.

Este artículo propone un nuevo método basado en gradientes para analizar e identificar el concepto de neuronas, denominado Cones1. Los motivamos como los parámetros que escalan hacia abajo cuyo valor absoluto puede construir mejor el tema dado mientras se preserva la información previa.

Cual es el resultado?

Amplios estudios cualitativos y cuantitativos en diversos escenarios muestran la superioridad de nuestro método en la interpretación y manipulación de modelos de difusión.

Método

3.1. Neuronas conceptuales para un sujeto dado

pérdida de implantación de concepto
inserte la descripción de la imagen aquí
donde:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Algoritmo:
inserte la descripción de la imagen aquí

3.2. Interpretabilidad de las neuronas conceptuales

inserte la descripción de la imagen aquí
Al cerrar el concepto, las neuronas dibujan inmediatamente el contorno del tema dado en el mapa de atención correspondiente al identificador de texto y, posteriormente, generan el tema en la salida final. Esto muestra las fuertes conexiones entre las neuronas conceptuales y el sujeto dado en las representaciones de la red.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

3.3. Captura colaborativa de múltiples conceptos

inserte la descripción de la imagen aquí

Expresar

inserte la descripción de la imagen aquí
Figura 7. Comparación de la capacidad de generación de múltiples sujetos. Primera fila: en comparación con otros métodos, el nuestro puede generar mejor el "suéter" en el aviso. Segunda fila: Nuestro método refleja mejor la semántica de “jugar”, mientras que Dreambooth pierde los detalles de la maceta de madera. Tercera fila: nuestras imágenes generadas tienen una mayor similitud visual con el sujeto de destino y una mejor alineación semántica con "sentado" y "vistiendo". Dreambooth no genera "silla". Cuarta fila: Cones (Ours) mantiene una gran similitud visual para todos los sujetos.

inserte la descripción de la imagen aquí
Figura 8. Comparación de métodos de generación de sujetos sin sintonización. Para Cones, concatenamos neuronas conceptuales de múltiples sujetos directamente. Para Custom Diffusion, usamos el método de "optimización de restricciones" para componer múltiples sujetos.

inserte la descripción de la imagen aquí
Tabla 1. Comparaciones cuantitativas. Los conos funcionan mejor excepto en la alineación de la imagen en el caso de un solo sujeto. Esto podría deberse a que la métrica de alineación de la imagen es fácil de sobreajustar, como se señala en Custom Diffusion (Kumari et al., 2022). DreamBooth y Textual Inversion emplean muchos parámetros en el aprendizaje, mientras que Cones solo implica la desactivación de unos pocos parámetros.

inserte la descripción de la imagen aquí
Tabla 2. Costo de almacenamiento y escasez de neuronas conceptuales. A medida que aumenta el número de sujetos objetivo, necesitamos almacenar más índices de neuronas conceptuales. Ahorramos más del 90% del espacio de almacenamiento en comparación con Custom Diffusion

Conclusión

Este artículo revela las neuronas conceptuales en el espacio de parámetros de los modelos de difusión. Encontramos que para un sujeto dado, hay un pequeño grupo de neuronas conceptuales que dominan la generación de este sujeto. Cerrarlos producirá representaciones del tema dado en diferentes contextos según las indicaciones de texto. Concatenarlos para diferentes materias puede generar todas las materias en los resultados. Un mayor ajuste puede mejorar la capacidad de generación de múltiples sujetos, que es el primero en lograr generar hasta cuatro sujetos diferentes en una imagen. La comparación con los competidores de última generación demuestra la superioridad del uso de neuronas conceptuales en calidad visual, alineación semántica, capacidad de generación de temas múltiples y consumo de almacenamiento.

Supongo que te gusta

Origin blog.csdn.net/NGUever15/article/details/129829628
Recomendado
Clasificación