Directorio de artículos
Ponencia: Proyecto "DreamBooth: Ajuste fino de modelos de difusión de texto a imagen para generación impulsada por sujetos"
: https://dreambooth.github.io/
Código de terceros: https://github.com/XavierXiao/Dreambooth-Stable - Difusión
Resumen
Los modelos de texto a imagen progresan bien, pero no logran generar nuevas modalidades a partir de un conjunto de referencia proporcionado. DreamBooth utiliza modelos semánticos previos previamente entrenados y nuevas pérdidas de preservación previas específicas del objetivo para sintetizar objetivos en varias escenas, poses, perspectivas e iluminación que no aparecen en la imagen de referencia.
pregunta
Los modelos de texto a imagen existentes no pueden generar este objetivo a partir de imágenes de referencia.
algoritmo
Solo se necesitan de 3 a 5 imágenes sin ninguna descripción de texto, y se pueden usar varias indicaciones para guiar la generación de variantes objetivo.
3.1 Modelo de difusión del gráfico de Vinsen
La función de pérdida es como en la fórmula 1, para el ruido inicial ϵ ∈ N ( 0 , I ) \epsilon \in N(0, I)ϵ∈norte ( 0 ,I ) , x es un valor verdadero.
3.2 Modelo de gráfico de Vincent personalizado
La idea convencional es realizar un ajuste fino a través de una pequeña cantidad de conjuntos de datos, pero es propenso al sobreajuste y al colapso del modelo. Sin embargo, los autores encontraron que el modelo de difusión de gráficos de Wensen a gran escala es bueno para integrar nueva información sin olvidar el conocimiento previo, y no se adaptará demasiado a los conjuntos de entrenamiento a pequeña escala.
El autor diseñó el indicador como "un [identificador] [sustantivo de clase]" , [identificador] es un identificador fijo relacionado con el objetivo y [sustantivo de clase] es una descripción de la categoría objetivo, como gatos y perros. Si no se utilizan descripciones de clase o si se utilizan descripciones de clase incorrectas, se incrementará el tiempo de capacitación o se cambiará el idioma, lo que reducirá el rendimiento.
Los identificadores usan palabras comunes o letras aleatorias, el efecto es similar, porque cada letra se tokeniza por separado, por lo que el autor usa tokens que no son comunes en el vocabulario f ( V ^ ) f( \hat V)f (V^ )en el espacio de textoV ^ \hat VV^。
3.3 Pérdida de Preservación Previa Específica de Clase
Ajustar directamente todas las capas de todos los modelos conducirá a un cambio de idioma; al mismo tiempo, puede conducir a una disminución en la diversidad de salida.
En respuesta a los problemas anteriores, el autor propone una pérdida previa específica de categoría autogenerada para garantizar la diversidad y suprimir el sesgo lingüístico. El método utiliza esencialmente modelos supervisados de muestra generativa . La función de pérdida es como en la fórmula 2, donde C pr C_{pr}Cp rCon solo información de categoría, la Figura 3 muestra el proceso.
experimento
Método de evaluación
- CLIP-I: La extracción de CLIP genera la imagen y la incrustación de la imagen real, y calcula la similitud de coseno entre los dos;
- DINO: ViT-S/16 DINO extrae la incrustación del gráfico generado y el gráfico real, y calcula la similitud de coseno entre los dos;
- CLIP-T: calcule la similitud del coseno entre las incrustaciones de CLIP de imágenes de máquinas rápidas
Comparar
En la Tabla 1, el autor comparó DreamBooth con Textual Inversion e Imagen con Stable Diffusion.
La Tabla 2 muestra los resultados de la evaluación manual. DreamBooth es mejor que Textual Inversion en cuanto a la precisión del objetivo y la consistencia de las indicaciones. En combinación con la Tabla 1, hay pequeñas diferencias en indicadores cuantitativos La experiencia intuitiva del usuario es muy diferente. El resultado de la visualización se muestra en la Figura 4.
experimento de ablación
LPP
El autor compara la influencia de la pérdida de preservación previa (PPL). Los resultados se muestran en la Tabla 3. El método de evaluación es PRES, y la distancia de incrustación DINO entre el objetivo generado aleatoriamente de la categoría anterior y el objetivo especificado de la imagen real es calculado colapsado Al mismo tiempo, los autores utilizaron el LPIPS medio para la evaluación de la diversidad (DIV). Los autores encontraron una mayor diversidad usando PPL, visualizada en la Figura 6.
clase previa
Usando la categoría anterior, se pueden generar varios objetivos de textura; usar la categoría incorrecta conducirá a la generación de objetos extraños; no usar la categoría anterior, dificultando el ajuste del modelo y luego generando objetivos incorrectos. Los resultados experimentales se muestran en la Tabla 4.
solicitud
refactorizar Los objetivos se pueden generar en diferentes entornos, como se muestra en la Figura 7.
reproducción de arte. Como se muestra en la Figura 8,
se genera la nueva perspectiva. Como se muestra en la Figura 8, solo se pueden usar 4 vistas frontales para generar perspectivas invisibles: lateral, superior e inferior.
Modificación de propiedad. Como se muestra en la Figura 8, el indicador de entrada es: "un cruce de un perro [V] y una [especie objetivo]"
límite
La Figura 9 muestra algunos casos de falla.
El autor atribuye:
a. Débil anterior, o el objetivo y los conceptos específicos rara vez aparecen en el conjunto de entrenamiento;
b. El entorno está acoplado con la apariencia del objetivo;
c. Sobreadaptación a la imagen real, que es propensa a ocurrir cuando el El aviso es similar a la imagen real.
Al mismo tiempo, para algunos objetivos relativamente raros, es difícil que el modelo genere múltiples variantes del objetivo.
en conclusión
El DreamBooth propuesto por el autor solo necesita de 3 a 5 imágenes de destino, y la variante de destino se puede generar a través de una guía rápida. El núcleo de este método es vincular el objetivo con un identificador específico.