Interpretación de la Tesis DreamBooth


Ponencia: Proyecto "DreamBooth: Ajuste fino de modelos de difusión de texto a imagen para generación impulsada por sujetos"
: https://dreambooth.github.io/
Código de terceros: https://github.com/XavierXiao/Dreambooth-Stable - Difusión

Resumen

Los modelos de texto a imagen progresan bien, pero no logran generar nuevas modalidades a partir de un conjunto de referencia proporcionado. DreamBooth utiliza modelos semánticos previos previamente entrenados y nuevas pérdidas de preservación previas específicas del objetivo para sintetizar objetivos en varias escenas, poses, perspectivas e iluminación que no aparecen en la imagen de referencia.

pregunta

Los modelos de texto a imagen existentes no pueden generar este objetivo a partir de imágenes de referencia.

algoritmo

Solo se necesitan de 3 a 5 imágenes sin ninguna descripción de texto, y se pueden usar varias indicaciones para guiar la generación de variantes objetivo.

3.1 Modelo de difusión del gráfico de Vinsen

La función de pérdida es como en la fórmula 1, para el ruido inicial ϵ ∈ N ( 0 , I ) \epsilon \in N(0, I)ϵnorte ( 0 ,I ) , x es un valor verdadero.
inserte la descripción de la imagen aquí

3.2 Modelo de gráfico de Vincent personalizado

La idea convencional es realizar un ajuste fino a través de una pequeña cantidad de conjuntos de datos, pero es propenso al sobreajuste y al colapso del modelo. Sin embargo, los autores encontraron que el modelo de difusión de gráficos de Wensen a gran escala es bueno para integrar nueva información sin olvidar el conocimiento previo, y no se adaptará demasiado a los conjuntos de entrenamiento a pequeña escala.
El autor diseñó el indicador como "un [identificador] [sustantivo de clase]" , [identificador] es un identificador fijo relacionado con el objetivo y [sustantivo de clase] es una descripción de la categoría objetivo, como gatos y perros. Si no se utilizan descripciones de clase o si se utilizan descripciones de clase incorrectas, se incrementará el tiempo de capacitación o se cambiará el idioma, lo que reducirá el rendimiento.
Los identificadores usan palabras comunes o letras aleatorias, el efecto es similar, porque cada letra se tokeniza por separado, por lo que el autor usa tokens que no son comunes en el vocabulario f ( V ^ ) f( \hat V)f (V^ )en el espacio de textoV ^ \hat VV^

3.3 Pérdida de Preservación Previa Específica de Clase

Ajustar directamente todas las capas de todos los modelos conducirá a un cambio de idioma; al mismo tiempo, puede conducir a una disminución en la diversidad de salida.
En respuesta a los problemas anteriores, el autor propone una pérdida previa específica de categoría autogenerada para garantizar la diversidad y suprimir el sesgo lingüístico. El método utiliza esencialmente modelos supervisados ​​de muestra generativa . La función de pérdida es como en la fórmula 2, donde C pr C_{pr}Cp rCon solo información de categoría, la Figura 3 muestra el proceso.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

experimento

Método de evaluación

  1. CLIP-I: La extracción de CLIP genera la imagen y la incrustación de la imagen real, y calcula la similitud de coseno entre los dos;
  2. DINO: ViT-S/16 DINO extrae la incrustación del gráfico generado y el gráfico real, y calcula la similitud de coseno entre los dos;
  3. CLIP-T: calcule la similitud del coseno entre las incrustaciones de CLIP de imágenes de máquinas rápidas

Comparar

inserte la descripción de la imagen aquí
En la Tabla 1, el autor comparó DreamBooth con Textual Inversion e Imagen con Stable Diffusion.
La Tabla 2 muestra los resultados de la evaluación manual. DreamBooth es mejor que Textual Inversion en cuanto a la precisión del objetivo y la consistencia de las indicaciones. En combinación con la Tabla 1, hay pequeñas diferencias en indicadores cuantitativos La experiencia intuitiva del usuario es muy diferente. El resultado de la visualización se muestra en la Figura 4.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

experimento de ablación

LPP

inserte la descripción de la imagen aquí
El autor compara la influencia de la pérdida de preservación previa (PPL). Los resultados se muestran en la Tabla 3. El método de evaluación es PRES, y la distancia de incrustación DINO entre el objetivo generado aleatoriamente de la categoría anterior y el objetivo especificado de la imagen real es calculado colapsado Al mismo tiempo, los autores utilizaron el LPIPS medio para la evaluación de la diversidad (DIV). Los autores encontraron una mayor diversidad usando PPL, visualizada en la Figura 6.
inserte la descripción de la imagen aquí

clase previa

Usando la categoría anterior, se pueden generar varios objetivos de textura; usar la categoría incorrecta conducirá a la generación de objetos extraños; no usar la categoría anterior, dificultando el ajuste del modelo y luego generando objetivos incorrectos. Los resultados experimentales se muestran en la Tabla 4.
inserte la descripción de la imagen aquí

solicitud

refactorizar Los objetivos se pueden generar en diferentes entornos, como se muestra en la Figura 7.
inserte la descripción de la imagen aquí

reproducción de arte. Como se muestra en la Figura 8,
se genera la nueva perspectiva. Como se muestra en la Figura 8, solo se pueden usar 4 vistas frontales para generar perspectivas invisibles: lateral, superior e inferior.
Modificación de propiedad. Como se muestra en la Figura 8, el indicador de entrada es: "un cruce de un perro [V] y una [especie objetivo]"
inserte la descripción de la imagen aquí

límite

inserte la descripción de la imagen aquí
La Figura 9 muestra algunos casos de falla.
El autor atribuye:
a. Débil anterior, o el objetivo y los conceptos específicos rara vez aparecen en el conjunto de entrenamiento;
b. El entorno está acoplado con la apariencia del objetivo;
c. Sobreadaptación a la imagen real, que es propensa a ocurrir cuando el El aviso es similar a la imagen real.
Al mismo tiempo, para algunos objetivos relativamente raros, es difícil que el modelo genere múltiples variantes del objetivo.

en conclusión

El DreamBooth propuesto por el autor solo necesita de 3 a 5 imágenes de destino, y la variante de destino se puede generar a través de una guía rápida. El núcleo de este método es vincular el objetivo con un identificador específico.

Supongo que te gusta

Origin blog.csdn.net/qq_41994006/article/details/131295309
Recomendado
Clasificación