DreamBooth: ajuste fino de los modelos de difusión de texto a imagen para la generación dirigida por sujetos

DreamBooth: ajuste fino de los modelos de difusión de texto a imagen para la generación dirigida por sujetos (lectura en papel)

Nataniel Ruiz, Google Research, EE. UU., CVPR2023, Citado: 218, Código , Papel

1. Introducción

Los modelos de texto a imagen a gran escala han dado un salto notable en la evolución de la IA, lo que permite la síntesis de imágenes diversas y de alta calidad a partir de señales de texto dadas. Sin embargo, estos modelos carecen de la capacidad de imitar la apariencia de los sujetos en un conjunto de referencia dado y sintetizar nuevas representaciones en diferentes entornos . En este trabajo, proponemos un enfoque novedoso para "personalizar" los modelos de difusión de texto a imagen. Dadas solo unas pocas imágenes de un tema como entrada, ajustamos un modelo de texto a imagen preentrenado para que aprenda a vincular identificadores únicos a temas específicos . Una vez que el sujeto está integrado en el dominio de salida del modelo, este identificador único se puede usar para sintetizar imágenes realistas novedosas del sujeto en diferentes escenas. Al explotar los antecedentes semánticos integrados en el modelo, combinados con una novedosa pérdida de preservación previa específica de clase autogenerada, nuestra técnica es capaz de sintetizar imágenes de sujetos en diversas escenas, poses, puntos de vista y condiciones de iluminación que no están presentes en las imágenes de referencia. conservando las características clave del tema. También proporcionamos un nuevo conjunto de datos y un protocolo de evaluación para esta nueva tarea, que se basa en la generación basada en temas. Nuestra técnica se aplica a varias tareas previamente intratables, incluida la recontextualización de temas, la síntesis de vista guiada por texto y la representación artística, al tiempo que se conservan las características clave del tema.

inserte la descripción de la imagen aquí

2. Pensamiento holístico

Quiere un modelo grande que se adapte a su tema, como la Figura 1, su perro, quiere ponerlo en varios lugares o en varias formas, quiere que el perro sea como su perro, pero la ubicación y la forma de P También debe ser realista y figurativo. Este artículo es para resolver este problema, la forma principal es el ajuste fino de la regularización.

Primero, prepara algunas imágenes de su perro (como las cuatro de la Figura 1), y quiere que su perro nade, luego usaré el modelo de difusión preentrenado para generar 1000 imágenes de "un perro nadando", obviamente los perros generados de esta manera varían. Entonces, si quieres convertirte en tu perro, solo necesitas usar a tu perro como identificador único [V]. En este momento, usamos 4 imágenes de su perro como conjunto de entrenamiento y luego agregamos [V] en el mensaje, "un perro [V]". No hay necesidad de agregar "nadar" aquí, solo queremos que el modelo aprenda este identificador único, y después del entrenamiento, el modelo reemplazará [V] con un perro, luego todos los perros diferentes en el frente se convertirán en usted El perro de la familia se ha ido

El proceso de entrenamiento es simple: 2 conjuntos de datos, uno generado por el modelo y otro con sus propios temas. 2 indicaciones de texto, una es "una categoría [V]" y otra es "una categoría...". Usamos la función de pérdida para el entrenamiento conjunto.Durante el proceso de entrenamiento, el modelo aprende "un perro [V]" mientras aprende "un perro nadando", por lo que el modelo solo cambia la apariencia del perro. Vea a continuación la función de pérdida.

3. Método

En este trabajo, proponemos un enfoque novedoso para personalizar los modelos de difusión de texto a imagen (adaptándolos a las necesidades de generación de imágenes específicas del usuario). Nuestro objetivo es extender el diccionario lenguaje-visual del modelo para que vincule nuevas palabras a temas específicos que el usuario quiera generar. Una vez que el nuevo diccionario está integrado en el modelo, puede usar estas palabras para sintetizar imágenes novedosas y realistas del sujeto, colocándolo en diferentes escenas y conservando sus características clave de identificación. El efecto es similar a una "cabina de fotos mágica": una vez que se han tomado algunas fotos del sujeto, la cabina de fotos generará fotos del sujeto en diferentes condiciones y escenarios en función de indicaciones de texto simples e intuitivas. Más específicamente, dadas varias imágenes de un sujeto (alrededor de 3 a 5), ​​nuestro objetivo es incrustar el sujeto (características de estas pocas imágenes) en el dominio de salida del modelo, lo que permite sintetizarlo con un identificador único . Con este fin, proponemos una técnica que utiliza identificadores de token raros para representar un tema determinado y afina un marco de texto a imagen basado en difusión previamente entrenado.

Ajustamos el modelo de texto a imagen utilizando una imagen de entrada y una señal de texto que consta de un identificador único seguido del nombre de la clase del sujeto (por ejemplo, " un perro [V] "). Este último permite que el modelo aproveche su conocimiento previo de las clases de temas mientras vincula identificadores únicos. Para evitar que la desviación del idioma provoque que el modelo asocie un nombre de clase (p. ej., "perro") con una instancia específica , proponemos una pérdida de preservación previa autógena y específica de clase que explota la semántica previa de la clase incrustada en el modelo. y lo alienta a generar diversas instancias de la misma clase que nuestro sujeto. Aplicamos nuestro método a una variedad de aplicaciones de generación de imágenes basadas en texto, incluida la recontextualización de temas, la modificación de atributos, obras de arte originales, etc., abriendo nuevas vías para tareas que antes eran intratables. Destacamos la contribución de cada componente en nuestro método a través de estudios de ablación y lo comparamos con líneas de base alternativas y trabajos relacionados. También llevamos a cabo estudios de usuarios que evalúan la fidelidad de los temas y las señales en nuestras imágenes sintetizadas, en comparación con métodos alternativos.

Dadas solo unas pocas imágenes tomadas al azar (generalmente 3-5) de un tema específico sin ninguna descripción textual, nuestro objetivo es generar nuevas imágenes del tema con alta fidelidad y seguir las pistas de texto Variedad. No ponemos ninguna restricción en el contexto de la configuración de captura de imágenes de entrada y las imágenes del sujeto. A continuación, presentamos algunos antecedentes sobre los modelos de difusión de texto a imagen (Sección 3.1), seguidos de nuestra técnica de ajuste fino para vincular identificadores únicos a temas descritos en varias imágenes (Sección 3.2). se propone que nos permite superar el problema de la deriva del lenguaje en los modelos de ajuste fino (Sección 3.3).

3.1 Modelo de difusión Text2Image

Un modelo de difusión es un modelo generativo probabilístico que se entrena para aprender una distribución de datos eliminando gradualmente el ruido de una variable muestreada de una distribución gaussiana. Específicamente, realizamos un modelo de difusión de texto a imagen previamente entrenado x ^ θ \hat x_θX^iInteresante, el modelo recibe un mapa de ruido inicial ϵ ∼ N ( 0 , I ) ϵ ∼ N(0, I)ϵnorte ( 0 ,I ) y un codificador de textoΓ ΓΓ y mensaje de textoPPEl vector condicional c = Γ ( P )generado por P c = Γ(P)C=Γ ( PAG ) , generar una imagenxgen = x ^ θ ( ϵ , c ) x_gen = \hat x_θ(ϵ, c)Xgen=X^i( ϵ ,c ) . Se entrenan utilizando una pérdida de error al cuadrado para eliminar el ruido de una imagen con ruido variable o un código latentezt : = α tx + σ t ϵ z_t := α_tx + σ_tϵzt:=atX+pagtϵ :
mi x , do , ϵ , t = [ ω t ∣ ∣ x ^ θ ( α tx + σ t ϵ , c ) − x ∣ ∣ 2 2 ] (1) \mathbb{E}_{x,c, \epsilon, t}=[\omega_t||\hat x_\theta(\alpha_tx+\sigma_t \epsilon, c)-x||^2_2] \tag{1}miX , do , ϵ , t=[ ayt∣∣X^i( untX+pagt, _c )X 22]( 1 )

3.2 Modelo text2image personalizado

Nuestra primera tarea es incrustar instancias de temas en el dominio de salida del modelo para que podamos consultar el modelo en busca de varias imágenes novedosas del tema. Un pensamiento natural es ajustar el modelo utilizando un conjunto de datos de pocas tomas del sujeto . El ajuste fino de los modelos generativos (como las GAN) en escenarios de pocos disparos debe manejarse con cuidado, ya que esto puede provocar un sobreajuste y el colapso del modo, y no captura bien la distribución objetivo. Se han realizado estudios sobre técnicas para evitar estos problemas, aunque a diferencia de nuestro trabajo, estos estudios están dirigidos principalmente a generar imágenes con distribuciones de objetivos similares, pero sin el requisito de preservación del tema. Con respecto a estos temas, observamos un hallazgo interesante de que, en un entorno de ajuste cuidadoso utilizando la pérdida de difusión en la Ecuación 1, los grandes modelos de difusión de texto a imagen parecen ser buenos para incorporar nueva información en su conocimiento empírico o sobreajustarse a un pequeño conjunto de imágenes de entrenamiento.

Diseño de avisos personalizados para pocas tomas : Nuestro objetivo es "plantar" un nuevo par (identificador único, tema) en el "diccionario" del modelo de difusión. Para evitar la sobrecarga de escribir descripciones de imágenes detalladas para un conjunto determinado de imágenes, optamos por un enfoque más simple de etiquetar todas las imágenes de entrada para un tema como "un [identificador] [sustantivo de clase]", donde [identificador] es un identificador único asociado con el sujeto, [sustantivo de clase] es un descriptor de clase aproximado para el sujeto (por ejemplo, gato, perro, reloj, etc.). Los descriptores de clase pueden ser proporcionados por el usuario u obtenidos utilizando un clasificador. Usamos descriptores de categoría en oraciones para combinar el conocimiento previo de categorías con incrustaciones de identificadores únicos de nuestros temas , y descubrimos que usar descriptores de categoría incorrectos o no usar descriptores de categoría aumenta el tiempo de capacitación y la desviación del idioma al tiempo que degrada el rendimiento. En esencia, tratamos de tomar el conocimiento previo del modelo de una categoría específica y entrelazarlo con una incrustación del identificador único de nuestro sujeto, de modo que podamos usar el visual previo para generar nuevas poses y configuraciones del sujeto en diferentes entornos.

Identificadores de fichas raras : a menudo encontramos palabras en inglés existentes (p. ej., "único", "especial") que no son las óptimas, ya que el modelo tiene que aprender a desenredarlas de su significado original y volver a conectarlas con nuestro sujeto. Esto requiere un identificador con antecedentes débiles tanto en el modelo de lenguaje como en el modelo de difusión. Un enfoque peligroso es elegir caracteres aleatorios del idioma inglés y concatenarlos para generar un identificador raro (por ejemplo, "xxy5syt00"). De hecho, el generador de tokens puede dividir cada letra en tokens por separado, y esas letras tienen una probabilidad previa alta para estas letras. A menudo encontramos que estas marcas tienen debilidades similares a las del uso de palabras comunes en inglés. Nuestro enfoque es encontrar tokens raros en el vocabulario y luego usar un detokenizer para invertir estos tokens en el espacio de texto para minimizar la probabilidad de que el identificador tenga un fuerte anterior . Hacemos una búsqueda de tokens raros en el vocabulario y obtenemos una secuencia de identificadores de tokens raros f ( V ^ ) f(\hat V)f (V^ ), dondefff es un tokenizador que asigna secuencias de caracteres a tokens, yV ^ \hat VV^ es de la notaciónf ( V ^ ) f(\hat V)f (V^ )texto decodificado. La longitud de la secuencia puede ser variablekkk , encontramos quek = { 1 , . . . , 3 } k =\{1, ..., 3\}k={ 1 ,... ,3 } Las secuencias relativamente cortas funcionan bien. Entonces, porf( V ^ ) f(\hat V)f (V^ )usando el detokenizer para invertir el vocabulario, obtenemos la definición de nuestro identificador únicoV ^ \hat VVUna secuencia de caracteres para ^ . Para Imagen, encontramos que usar un muestreo aleatorio uniforme de tokens correspondientes a 3 o menos caracteres Unicode (sin espacios) y usar el rango de tokenizador T5-XXL {5000, …, 10000} funciona bien.

分词器(Tokenizer)是一种将文本分解为离散单元(如单词、子词或字符)的工具或算法。
在自然语言处理中,分词是文本预处理的重要步骤之一,它将连续的字符序列切分成有意义的单元,以便进一步处理和分析。
例如将"我喜欢学习机器学习"分成"我 喜欢 学习 机器学习"。

3.3 Pérdida de Preservación Previa Específica de Clase

Según nuestra experiencia, el mejor resultado para lograr la máxima fidelidad de tema es ajustar todas las capas del modelo . Incluyendo capas de ajuste fino condicionadas a incrustaciones de texto, lo que plantea el problema de la deriva del lenguaje. La deriva del lenguaje es un problema observado en los modelos de lenguaje, donde un modelo entrenado previamente en un corpus de texto grande y luego ajustado en una tarea específica pierde gradualmente el conocimiento sintáctico y semántico del lenguaje. Hasta donde sabemos, somos los primeros en descubrir un fenómeno similar que afecta a los modelos de difusión, donde el modelo olvida gradualmente cómo generar temas que pertenecen a la misma categoría que el tema de destino.

Otro problema es que se puede reducir la diversidad de la salida. Los modelos de difusión de texto a imagen naturalmente tienen una alta diversidad de salida. Cuando ajustamos un pequeño conjunto de imágenes, queremos poder generar sujetos con nuevos puntos de vista, poses y articulaciones. Sin embargo, existe el riesgo de reducir la pose de salida y la variabilidad de la vista (por ejemplo, sobreajustar a un pequeño número de vistas). Observamos que esto es lo que sucede a menudo, especialmente cuando el modelo tarda demasiado en entrenarse.

Para aliviar los dos problemas anteriores, proponemos una pérdida de conservación anterior específica de clase autogenerada para promover la diversidad y resistir la deriva del idioma . Esencialmente, nuestro enfoque es modelarMuestras autogeneradas para supervisar el modelo, de modo que el anterior se conserve después de que comience el ajuste fino de pocos disparos . Esto le permite generar diversas imágenes previas de clases y conserva el conocimiento sobre las clases previas que se pueden combinar con el conocimiento sobre las instancias de las materias. Específicamente, usamos z_{t1} ∼ N(0, I) con ruido inicial aleatorio zt 1 ∼ N ( 0 , I )zt 1norte ( 0 ,I ) y el vector condicionalcpr := Γ ( f ( ” a [sustantivo de clase] ” ) ) c_{pr} := Γ(f(”a [sustantivo de clase]”))Cp r:=Γ ( f ( " a [ c l a ss n o u n ] " )) congela el muestreador ancestral en el modelo de difusión previamente entrenado para generar datosxpr = x ^ ( zt 1 , cpr ) x_{pr} = \hat x( z_{t1}, c_{pr})Xp r=X^ (zt 1,Cp r) Derive lo siguiente:
E x , c , ϵ , ϵ ′ , t = [ ω t ∣ ∣ x ^ θ ( α tx + σ t ϵ , c ) − x ∣ ∣ 2 2 ] + λ ω t ′ ∣ ∣ x ^ θ ( α t ′ x + σ t ′ ϵ ′ , cpr ) − xpr ∣ ∣ 2 2 ] (2) \mathbb{E}_{x,c,\epsilon,\epsilon',t} =[\ omega_t||\hat x_\theta(\alpha_tx+\sigma_t \epsilon, c)-x||^2_2]+\lambda \omega_{t'}||\hat x_\theta(\alpha_{t' x}+ \sigma_{t'}\epsilon', c_{pr})-x_{pr}||^2_2] \tag{2}miX , C , ϵ , ϵ' ,t=[ ayt∣∣X^i( untX+pagt, _c )X 22]+yo _t′′∣∣X^i( unt' x+pagt′′ϵ ,Cp r)Xp r22]( 2 )
donde el segundo término es un término preservador a priori, que supervisa el modelo con imágenes generadas por el propio modelo, y λ controla el peso relativo de este término. La Figura 3 ilustra el proceso de ajuste fino del modelo utilizando muestras generadoras de clases y una pérdida de retención anterior. A pesar de su simplicidad, encontramos que esta pérdida de preservación anterior es muy efectiva para promover la diversidad de producción y superar la deriva lingüística. También descubrimos que es posible entrenar para más iteraciones sin sobreajuste. Encontramos que en Imagen, usando λ=1 y tasa de aprendizaje1 0 − 5 10^{-5}1 05 , y usa 5 × 1 0 − 6 5×10^{-6}en Difusión estable5×1 0−6 , alrededor de 1000 iteraciones y un tamaño de conjunto de datos del sujeto de 3-5 imágenes son suficientes para obtener buenos resultados . En el proceso, se generaron alrededor de 1000 muestras "a [sustantivo de clase]", pero se pudieron usar menos muestras. Para Imagen, este proceso de formación tarda unos 5 minutos en una TPUv4 y 5 minutos en una NVIDIA A100.
inserte la descripción de la imagen aquí

4. Experimenta

En esta sección, mostramos algunos experimentos y aplicaciones. Nuestro método permite una amplia modificación semántica guiada por texto de las instancias de los temas, incluida la recontextualización, la modificación de los atributos del tema (como el material y las especies), la representación artística y la modificación del punto de vista.

Es importante que en todas estas modificaciones hayamos podido conservar el carácter visual único que le da al tema su identidad y esencia. Si la tarea es la recontextualización, las características del sujeto seguirán siendo las mismas, pero la apariencia (por ejemplo, la pose) puede cambiar. Si la tarea es una modificación semántica más fuerte, como cruzar nuestro sujeto con otra especie/objeto, las características clave del sujeto se conservarán después de la modificación. En esta sección, usamos [V] para referirnos al identificador único del sujeto.

Recopilamos un conjunto de datos de 30 sujetos , incluidos objetos únicos y mascotas, como mochilas, animales de peluche, perros, gatos, gafas de sol, dibujos animados, etc. También recopilamos 25 sugerencias : 20 sugerencias de recontextualización y 5 sugerencias de modificación de propiedades de objetos; 10 sugerencias de recontextualización, 10 sugerencias de accesorios y 5 sugerencias de modificación de propiedades de tema/mascota. Para evaluar la suite, generamos cuatro imágenes para cada sujeto y cada señal, para un total de 3000 imágenes. Esto nos permite medir de forma robusta el rendimiento y la capacidad de generalización de nuestros métodos.
inserte la descripción de la imagen aquí

4.1 Experimento de ablación

Ablación de pérdida de preservación previa (PPL): ajustamos el modelo de Imagen en 15 sujetos en nuestro conjunto de datos, usando nuestra propuesta (PPL) y no usando PPL para la comparación. La pérdida de preservación previa tiene como objetivo resistir la deriva del lenguaje y preservar la información previa. Calculamos la medida de conservación previa (PRES) calculando la similitud por pares de la incrustación DINO promedio entre las imágenes generadas de sujetos aleatorios y nuestras imágenes reales específicas del sujeto. Una medida más alta de esto indica una mayor similitud entre un tema aleatorio de esa categoría y nuestro tema específico, lo que indica un desglose de la información previa. Calculamos una medida de diversidad (DIV) entre imágenes generadas del mismo sujeto con las mismas señales utilizando la similitud de coseno LPIPS promedio. Observamos que el modelo entrenado con PPL tiene mayor diversidad (reduce ligeramente la precisión del sujeto), lo cual también se puede observar cualitativamente en la Figura 5, el modelo entrenado con PPL sobreajusta el entorno de la imagen de referencia A menos combinaciones, mayor variedad de poses y expresiones de perros se pueden generar.
inserte la descripción de la imagen aquí
Experimentos de ablación de clase previa: ajustamos Imagen en un subconjunto de nuestro conjunto de datos (5 sujetos), entrenados sin sustantivos de clase, muestreamos aleatoriamente sustantivos de clase incorrectos y sustantivos de clase correctos. Para nuestros temas, con los sustantivos de clase correctos, podemos ajustar fielmente los temas y aprovechar los antecedentes de clase para generar nuestros temas en varios contextos. Cuando usamos el sustantivo de clase incorrecto (por ejemplo, "lata" para una mochila), nuestros sujetos chocaron con la clase anterior, lo que a veces resultó en mochilas cilíndricas o sujetos con forma incorrecta. Si no usamos sustantivos categóricos para el entrenamiento, el modelo no puede aprovechar los previos categóricos, tiene dificultades para aprender temas y convergencia, y puede generar muestras incorrectas. Los resultados de la precisión del tema se muestran en la Tabla 4, y nuestro método propuesto tiene una precisión del tema significativamente mayor.

inserte la descripción de la imagen aquí
Limitaciones: Mostramos algunos casos de falla de nuestro método en la Fig. 8. El primero tiene que ver con la incapacidad de generar con precisión el contexto del aviso. Las posibles razones son antecedentes débiles para estos contextos, o la incapacidad para generar simultáneamente temas y conceptos asignados debido a las bajas probabilidades de co-ocurrencia en el conjunto de entrenamiento. El segundo es el entrelazamiento del contexto y la apariencia, es decir, la apariencia del sujeto cambia debido al contexto de la pista, y el cambio de color de la mochila se usa como ejemplo en la Figura 8. En tercer lugar, también observamos que el sobreajuste a las imágenes reales ocurre cuando las señales son similares al entorno original en el que se vio al sujeto por primera vez. Otras limitaciones incluyen que algunos temas son más fáciles de aprender que otros (como perros y gatos). Ocasionalmente, para temas menos comunes, el modelo no admite demasiadas variaciones de temas. Por último, también hay diferencias en la precisión del sujeto, y algunas imágenes generadas pueden contener características de sujetos ficticios, según la solidez de los antecedentes del modelo y la complejidad de la modificación semántica.

Supongo que te gusta

Origin blog.csdn.net/qq_43800752/article/details/131057905
Recomendado
Clasificación