[Análisis en papel] Eliminación de puntuaciones y avisos de difusión 2D para una generación robusta de texto a 3D

inserte la descripción de la imagen aquí
artículo: https://arxiv.org/pdf/2303.15413.pdf

Descripción general

inserte la descripción de la imagen aquí

2. Destilación de partituras y el problema de Janus

Función de densidad: dado un conjunto de puntos de vista muestreados uniformemente Π y un mensaje de usuario ω.
inserte la descripción de la imagen aquí

Al utilizar esta formulación, evitamos el uso de la desigualdad de Jensen, en contraste con [27]( Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation ).

Aplicando el logaritmo a cada lado de la ecuación se obtiene:

inserte la descripción de la imagen aquí
Usando la regla de la cadena, obtenemos:
inserte la descripción de la imagen aquí
donde Z = |Π| es una constante El término entre paréntesis, se estima prácticamente por modelos de difusión.

Esto se amplía aún más aplicando la regla de Bayes de la siguiente manera:
inserte la descripción de la imagen aquí

  • El primer término de gradiente, que refleja la puntuación incondicional modelada por los modelos de difusión 2D [5, 25], contiene un sesgo que afecta a las imágenes vistas de cerca desde puntos de vista específicos durante la optimización 3D temprana cuando zθ es ruidoso.
  • el gradiente de impulso de pose en la ecuación. 4 es una guía [3,6,7,25] que impulsa la imagen renderizada para representar mejor una pose de cámara específica y un mensaje de usuario. El término se amplía aún más:
    inserte la descripción de la imagen aquí
    donde C se define como: que representa la información mutua condicional puntual (PCMI).
    inserte la descripción de la imagen aquí
    inserte la descripción de la imagen aquí

Figura 2. Ilustración de nuestro marco. Proponemos técnicas de eliminación de sesgo rápidas y de puntaje para estimar gradientes robustos e imparciales de los parámetros 3D frente a los puntos de vista.

3. Eliminar el sesgo de la puntuación

inserte la descripción de la imagen aquí

Figura 3 . Esta visualización demuestra que las puntuaciones 2D erróneas dan como resultado artefactos críticos, por ejemplo, patas, picos y cuernos adicionales en esta figura.

Si la puntuación incondicional, el término está sesgado hacia alguna dirección de visualización. Puede afectar negativamente la consistencia 3D y el realismo de los objetos generados a través de la regla de la cadena (Ec. 3).

las grandes magnitudes en el gradiente de aviso del usuario también pueden causar problemas al introducir artefactos relacionados con el texto que no están presentes en la imagen renderizada desde un campo 3D.

Dichos artefactos incluyen caras, picos y cuernos adicionales (ver Fig. 1 y Fig. 3), que no son realistas o son inconsistentes con la estructura del objeto 3D.

Por lo tanto, es necesario ajustar este gradiente para reducir los artefactos y mejorar el realismo de los objetos 3D generados. Sin embargo, el sesgo 2D que fluye hacia el campo 3D apenas ha sido formulado o ajustado para una mejor optimización y consistencia 3D.

Umbralización dinámica de puntuaciones 2D a 3D.

Proponemos un método efectivo que trunca dinámicamente las puntuaciones para mitigar los efectos del sesgo y los artefactos en las puntuaciones 2D predichas. Específicamente, aumentamos linealmente el valor de truncamiento a lo largo de la optimización:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

4. Desprestigio rápido

Identificar contradicciones utilizando modelos de lenguaje.

El término de gradiente rápido puede cancelar el término de gradiente de pose necesario para la consistencia de la vista de los objetos 3D generados, como podemos derivar de la ecuación. 5

inserte la descripción de la imagen aquí

Figura 4. Muestras de Stable Diffusion [18] ante un mensaje de texto con contradicción. A pesar de que se proporciona "Vista posterior de" en las indicaciones, la palabra "sonriendo" en la indicación hace que los modelos de difusión sesguen hacia la vista frontal de un objeto.

proponemos un método para identificar contradicciones utilizando modelos de lenguaje entrenados con modelado de lenguaje enmascarado (MLM). Específicamente, sea V un conjunto de indicaciones de vista posibles y sea U un conjunto de tamaño 2, que contiene la presencia y ausencia de una palabra en la indicación de usuario por razones de brevedad. Luego calculamos lo siguiente:
inserte la descripción de la imagen aquí
P (u) es una fidelidad definida por el usuario. Si P (u) = 1, la palabra nunca se eliminará del mensaje de usuario.
ecuación 7 es igual a la información mutua puntual (PMI) ya que:

inserte la descripción de la imagen aquí

Reducir la discrepancia entre las indicaciones de visualización y las poses del espacio de objetos.

hacemos ajustes prácticos a las indicaciones del rango de vista, como reducir el rango de azimut de la "vista frontal" a la mitad. Además, buscamos indicadores de vista precisos [16, 27] que nos brinden mejores resultados.

5. Comparación con la línea de base

Como se muestra en los resultados cualitativos en la Fig. 1, nuestros métodos reducen las inconsistencias de vista en los objetos 3D y mitigan el llamado problema de Janus. Esta mejora viene con poca sobrecarga en comparación con la línea de base.

inserte la descripción de la imagen aquí

Figura 1. Comparación entre la línea base (SJC [27]) y la nuestra. Nuestros métodos de eliminación de sesgo reducen cualitativamente las inconsistencias de la vista en el texto a 3D sin disparo y el llamado problema de Janus.

Nuestro método produce objetos 3D más consistentes que la línea de base, como se demuestra en la Tabla 1 en base a 70 indicaciones. Tenga en cuenta que eliminar las contradicciones en las indicaciones conduce a mejores resultados.

inserte la descripción de la imagen aquí

Tabla 1. Evaluación cuantitativa. Los mejores valores están en negrita y los segundos mejores están subrayados. Conservado significa que se conservan las indicaciones del usuario, es decir, P (u) = 1 para todo u.

inserte la descripción de la imagen aquí

Figura 5. Mejora de la consistencia de la vista a través de la eliminación del sesgo de las indicaciones y la puntuación. La línea de base es SJC original [27], y Prompt y Score denotan la eliminación de sesgo de prompt y score, respectivamente. El mensaje de usuario dado es "un gato sonriente", y las imágenes se representan desde puntos de vista arbitrarios.

La Figura 5 demuestra que gradualmente mejoran la consistencia de la vista y reducen los artefactos según lo previsto.

Conclusión

En este artículo, formulamos e identificamos las fuentes del problema de Janus en la generación de texto a 3D sin disparo. En este sentido, argumentamos que eliminar el sesgo de las indicaciones y las puntuaciones 2D sin procesar es esencial para la generación realista. Por lo tanto, proponemos dos métodos que aumentan la calidad y son aplicables a los marcos existentes con poca sobrecarga sin supervisión 3D, mostrando potencial para futuras investigaciones en esta prometedora área.

Supongo que te gusta

Origin blog.csdn.net/NGUever15/article/details/129981320
Recomendado
Clasificación