Narrador: basado en texto, controlable naturalmente, generado interactivamente entre personas y escenas | Publicado por Tianda y la Universidad de Tsinghua

Wenyuan Xinzhiyuan Editor: LRS Tiene mucho sueño

[Introducción a Xinzhiyuan] El narrador puede generar de forma natural y controlable interacciones entre personas y escenas a partir de descripciones de texto, y es adecuado para diversas situaciones: interacción guiada por relaciones espaciales, interacción guiada por múltiples acciones, interacción entre escenas de varias personas y los tipos anteriores de combinación libre.

La generación natural y controlable de interacción entre la escena humana (HSI) juega un papel importante en muchos campos, como la creación de contenidos de realidad virtual/realidad aumentada (VR/AR) y la inteligencia artificial centrada en el ser humano.

Sin embargo, los métodos existentes tienen una controlabilidad limitada, tipos de interacción limitados y resultados generados no naturales, lo que limita seriamente sus escenarios de aplicación práctica.

En respuesta a este problema, el equipo de la Universidad de Tianjin y la Universidad de Tsinghua propusieron Narrador en el trabajo de ICCV 2023, centrándose en una tarea desafiante, que es generar de forma natural y controlable personas y escenas realistas y diversas a partir de descripciones de texto.

c0ed4533d629b493fb7a62dcd5a2d2e1.png

Página de inicio del proyecto: http://cic.tju.edu.cn/faculty/likun/projects/Narrator

Código: https://github.com/HaibiaoXuan/Narrator

Desde una perspectiva cognitiva humana, un modelo generativo ideal debería poder razonar correctamente sobre las relaciones espaciales y explorar grados de libertad interactivos.

Por lo tanto, el autor propone un modelo generativo basado en el razonamiento relacional, modelando las relaciones espaciales en escenas y descripciones respectivamente a través de gráficos de escenas, e introduciendo un mecanismo de interacción a nivel parcial que representa acciones interactivas como estados de partes atómicas del cuerpo.

En particular, beneficiándose del razonamiento relacional, el autor propuso además una estrategia de generación de múltiples personas simple pero efectiva, que fue la primera exploración de la generación interactiva de escenas de múltiples personas controlable en ese momento.

Finalmente, el autor realizó una gran cantidad de experimentos y encuestas a usuarios, demostrando que Narrador puede generar diversas interacciones de manera controlable y su efecto es significativamente mejor que el trabajo existente.

motivación del método

Los métodos existentes de generación de interacción entre el hombre y la escena se centran principalmente en la relación física geométrica de la interacción, pero carecen de control semántico sobre la generación y se limitan a la generación de una sola persona.

Por lo tanto, los autores se centran en la desafiante tarea de generar de forma controlable interacciones realistas y diversas entre escenas humanas a partir de descripciones en lenguaje natural. Los autores observaron que los humanos suelen utilizar la percepción espacial y el reconocimiento de acciones para describir de forma natural a las personas que participan en diversas interacciones en diferentes lugares.

a0b96cbd2e60c4a25b3a9a68d7a6ed2c.png

Figura 1 El narrador puede generar de forma natural y controlable interacciones semánticamente consistentes y físicamente razonables entre el hombre y la escena, y es adecuado para las siguientes situaciones: (a) interacciones guiadas por relaciones espaciales, (b) interacciones guiadas por múltiples acciones, (c) múltiples personas interacción escena, y (d) interacción persona-escena que combina los tipos de interacción anteriores.

Específicamente, las relaciones espaciales se pueden representar como interrelaciones entre diferentes objetos en una escena o área local, mientras que las acciones interactivas se especifican mediante estados de partes atómicas del cuerpo, como los pies de una persona en el suelo, el torso inclinado, los golpecitos con la mano derecha y el descenso. .

Tomando esto como punto de partida, el autor utiliza gráficos de escena para representar relaciones espaciales y propone un mecanismo de gráfico de escena local y global conjunto (JGLSG) para proporcionar conocimiento de la posición global para la generación posterior.

Al mismo tiempo, considerando que el estado de las partes del cuerpo es la clave para simular interacciones realistas consistentes con el texto, el autor introdujo un mecanismo de acción a nivel de parte (PLA) para establecer la correspondencia entre las partes del cuerpo humano y las acciones.

Beneficiándose de la cognición observacional efectiva y la flexibilidad y reutilización del razonamiento relacional propuesto, los autores proponen además una estrategia de generación multijugador simple y efectiva, que es la primera estrategia de generación multijugador naturalmente controlable y fácil de usar en ese momento. Solución de generación de interacción de escenas (Multi-Human Scene Interaction, MHSI).

Ideas de métodos

Descripción general del marco del narrador

El propósito de Narrador es generar de forma natural y controlable interacciones entre humanos y escenas que sean semánticamente consistentes con las descripciones del texto y coincidan físicamente con la escena tridimensional.

ed29404db8054d84a96d81323fed674e.png

Figura 2 Descripción general del marco del Narrador

Como se muestra en la Figura 2, este método utiliza un codificador automático variacional condicional (cVAE) basado en transformador, que incluye principalmente:

1) En comparación con la investigación existente que considera escenas u objetos de forma aislada, un mecanismo conjunto de gráficos de escenas globales y locales está diseñado para razonar sobre relaciones espaciales complejas y lograr una conciencia de posicionamiento global;

2) Basado en la observación de que las personas completarán acciones interactivas a través de diferentes partes del cuerpo al mismo tiempo, se introduce un mecanismo de acción a nivel de componentes para lograr interacciones realistas y diversas;

3) Además, se introduce una pérdida bifacial interactiva en el proceso de optimización con reconocimiento de escena para obtener mejores resultados de generación;

4) Se expande aún más a la generación de interacción de varias personas y, en última instancia, promueve el primer paso en la interacción de escenas de varias personas.

Mecanismo combinado de gráfico de escena global y local.

El razonamiento de las relaciones espaciales puede proporcionar al modelo pistas sobre escenas específicas, lo que juega un papel importante para lograr un control natural en la interacción entre los humanos y las escenas.

Por lo tanto, el autor diseñó un mecanismo conjunto de gráficos de escenas globales y locales, que se implementa mediante los siguientes tres pasos:

1. Generación de gráficos de escena global: dada una escena, utilice un modelo de gráfico de escena previamente entrenado para generar un gráfico de escena global, es decir, dónde está el objeto e12dac7bc273c4fd8e55d09bd86d101c.png con una etiqueta de categoría, es la relación entre y , n es el número de objetos , m es el número de relaciones;968e31c9c4b6c66a08fcc229a034eaae.png5771447d2c883040233c2746d9e7cc7e.png8e832e9ae31f84318f7f7125fcf6ebcb.pngc299b77c9a77e9ca27668cce3a8742be.png9b4c5d7b2892e623316ca7a33a634405.png

2. Generación de gráficos de escenas locales: utilice herramientas de análisis semántico para identificar la estructura de la oración descrita y extraer y generar escenas locales 7dad56749eb7db9e4e3566a6b52ed7ab.png, en las que de7afedbfd214a97d250f71874691206.pngse define el triplete sujeto-predicado-objeto;

3. Coincidencia de gráficos de escena: el modelo corresponde a nodos en los gráficos de escena global y local según las mismas etiquetas semánticas de objetos y agrega automáticamente un nodo humano virtual para proporcionar información de ubicación al extender las relaciones de borde.

Mecanismo de acción a nivel de componente (PLA)

Las interacciones humanas en la escena se componen de estados de partes atómicas del cuerpo, por lo que el autor propone un mecanismo de acción detallado a nivel de partes para que el modelo pueda prestar atención a partes importantes e ignorar partes irrelevantes de una interacción determinada.

Específicamente, los autores exploran acciones interactivas ricas y diversas y asignan estas posibles acciones a cinco partes principales del cuerpo humano: cabeza, torso, brazo izquierdo/derecho, mano izquierda/derecha y parte inferior del cuerpo izquierda/derecha.

Al mismo tiempo, se utiliza la codificación one-hot (One-Hot) para representar estas acciones y partes del cuerpo respectivamente, y se conectan de acuerdo con la relación correspondiente para la codificación posterior.

Para la generación interactiva de múltiples acciones, el autor utiliza un mecanismo de atención para conocer el estado de diferentes partes de la estructura corporal.

En una combinación dada de acciones interactivas, la atención queda automáticamente protegida entre la parte del cuerpo correspondiente a cada acción y todas las demás acciones.

Tomemos como ejemplo "una persona en cuclillas en el suelo usando un gabinete", ponerse en cuclillas corresponde al estado de la parte inferior del cuerpo, por lo que la atención marcada por otras partes se bloqueará a cero.

Optimización del conocimiento de la escena

Los autores aprovechan las limitaciones geométricas y físicas para la optimización basada en escenas para mejorar los resultados de generación. A lo largo del proceso de optimización, el método garantiza que las poses generadas no se desvíen, al tiempo que fomenta el contacto con la escena y restringe el cuerpo para evitar la interpenetración con la escena.

Dada la escena tridimensional S y los parámetros SMPL-X generados, la pérdida de optimización es:

3ed0cb338800152c543e2064a7dca912.png

Entre ellos, 10279dad58146a19aff4c7778fb07a60.pnganima a los vértices del cuerpo a contactar la escena; ec3f3827098c9adf32c1ee9c6f1e38cf.pnges un término de colisión basado en la distancia simbólica; 24b1018861a5f5c7772621e21822f4ff.pnges una pérdida bipartita interactiva (IBS) introducida adicionalmente en comparación con el trabajo existente, que es un conjunto de puntos equidistantes muestreados entre la escena y el cuerpo humano; 544b724338281a5f6d5a1bcd2a9335af.pnges un factor de regularización utilizado para penalizar los parámetros que se desvían de su inicialización.

Interacción de escena multijugador (MHSI)

En escenarios del mundo real, en muchos casos no hay una sola persona interactuando con la escena, sino varias personas interactuando de manera independiente o asociada.

Sin embargo, debido a la falta de conjuntos de datos MHSI, los métodos existentes generalmente requieren esfuerzos manuales adicionales y no pueden realizar esta tarea de manera controlada y automatizada.

Con este fin, los autores solo utilizan conjuntos de datos de una sola persona existentes y proponen una estrategia simple pero efectiva para direcciones de generación de varias personas.

Dada una descripción de texto relacionada con varias personas, el autor primero la analiza en múltiples gráficos de escenas locales ad40b93bef9bd825b03e17ac714daa36.pngy acciones interactivas 68f107de06d7d19f46cfb5721c0600c1.png, y define el conjunto candidato como 9c8a904bddfee40d11ceb7f8ab1562dd.png, donde l es el número de personas.

Para cada elemento del conjunto de candidatos, primero se introduce en Narrador junto con la escena a9471dea3e6573b5058088e9cfec06df.pngy el gráfico de escena global correspondiente , y luego se realiza el proceso de optimización.37087953a3e16f32401436b814228827.png

Para manejar colisiones entre personas, se introduce una pérdida adicional en el proceso de optimización 5ed073175ebf320d708dd0ba98412a47.png, donde 6311683ca6caae8b690282cece491f73.pnges la distancia firmada entre personas.

Luego, cuando la pérdida de optimización es inferior al umbral determinado en función de la experiencia experimental, el resultado generado se acepta y se actualiza agregando nodos humanos 3835e72923112f53678b3387068a6e70.png; de lo contrario, el resultado generado se considera no confiable y se actualiza protegiendo el nodo objeto correspondiente c51737b4f9979361fde03bd94874a7a1.png.

Vale la pena señalar que este método de actualización establece la relación entre los resultados de cada generación y los resultados de la generación anterior, evita un cierto grado de aglomeración y hace que la distribución espacial sea más razonable y la interacción más realista que la simple generación múltiple.

El proceso anterior se puede expresar como:

3fbd1adbde551aa2747010519c2a32a1.png

Resultados experimentales

Dado que los métodos existentes actualmente no pueden generar de forma natural y controlable interacciones entre humanos y escenas directamente a partir de descripciones de texto, el autor extiende razonablemente PiGraph [1], POSA [2] y COINS [3] a métodos adecuados para descripciones de texto, y utiliza los mismos. conjuntos de datos utilizados para entrenar sus modelos oficiales, los métodos modificados se definen como PiGraph-Text, POSA-Text y COINS-Text.

97a1603327387168108b5af6e72206ba.png

Figura 3 Resultados de comparación cualitativa de diferentes métodos

La Figura 3 muestra los resultados de la comparación cualitativa de Narrador con tres líneas de base. PiGraph-Text tiene problemas de penetración más graves debido a limitaciones en su propia representación.

POSA-Text a menudo cae en mínimos locales durante el proceso de optimización, lo que resulta en interacciones no deseadas. COINS-Text vincula acciones a objetos específicos, carece de conciencia global de la escena, conduce a la penetración con objetos no especificados y es difícil de manejar relaciones espaciales complejas.

Por el contrario, Narrador puede razonar correctamente sobre las relaciones espaciales y analizar estados corporales bajo múltiples acciones basadas en diferentes niveles de descripciones de texto, logrando así mejores resultados de generación.

En términos de comparación cuantitativa, como se muestra en la Tabla 1, Narrador supera a otros métodos en cinco indicadores, lo que muestra que los resultados generados por este método tienen una consistencia del texto más precisa y una mayor plausibilidad física.

dc3573d7224176c1e175448d9e60d2fa.png

Tabla 1 Resultados de comparación cuantitativa de diferentes métodos

Además, el autor también proporciona comparaciones y análisis detallados para comprender mejor la efectividad de la estrategia MHSI propuesta.

Teniendo en cuenta que actualmente no hay trabajo sobre MHSI, eligieron un enfoque sencillo como base, es decir, la generación secuencial y la optimización con COINS.

Para hacer una comparación justa, también se introducen las pérdidas por colisión artificiales. La Figura 4 y la Tabla 2 muestran los resultados cualitativos y cuantitativos respectivamente, los cuales prueban firmemente que la estrategia propuesta por el autor es semánticamente consistente y físicamente razonable en MHSI.

 5905bf0502ae240cf4b97530a35cf77e.png

Figura 4 Comparación cualitativa de MHSI con el método de generación secuencial y optimización usando COINS

883776e7c835daf5de1036aba6ba719b.png

Tabla 2 Comparación cuantitativa de MHSI con el método de generación secuencial y optimización con COINS

El vídeo de demostración de este trabajo es el siguiente:

Sobre el Autor

21b589ef997a9223c8fc4a174f66e9ad.png

Xuan Haibiao, estudiante de maestría en la Universidad de Tianjin

Principales direcciones de investigación: visión tridimensional, visión por computadora, generación interactiva de escenas humanas.

b9977bebecb78931630d544bd855ab8d.png

Li Xiongzheng, candidato a doctorado de nivel 19 en la Universidad de Tianjin

Principales direcciones de investigación: visión 3D, visión por computadora, reconstrucción del cuerpo humano y de la ropa.

b1c9320486c7e6d455793ca2cffd74b6.png

Zhang Jinsong, candidato a doctorado de la Universidad de Tianjin

Principales direcciones de investigación: visión 3D, visión por computadora, generación de imágenes.

6decef71331c52dea9ace0e8548fe428.png

Zhang Hongwen, becario postdoctoral en la Universidad de Tsinghua

Principales direcciones de investigación: Visión por computadora y gráficos centrados en el ser humano.

2558ddab43531632fc53dd9131516284.png

Liu Yebin, profesor de la Universidad de Tsinghua

Principales direcciones de investigación: infografía, visión tridimensional y fotografía computacional.

Página de inicio personal: https://liuyebin.com/

9eb17cc0a673d74599ff5ebc36660dc5.png

Li Kun (autor correspondiente), profesor y supervisor doctoral en la Universidad de Tianjin

Principales direcciones de investigación: visión 3D, reconstrucción y generación inteligentes.

Página de inicio personal: http://cic.tju.edu.cn/faculty/likun

Referencias:

[1] Savva M, Chang AX, Hanrahan P, et al. Pigraphs: instantáneas de interacción de aprendizaje a partir de observaciones [J]. Transacciones ACM sobre gráficos (TOG), 2016, 35(4): 1-12. 

[2] Hassan M, Ghosh P, Tesch J, et al. Poblar escenas 3D aprendiendo la interacción persona-escena[C]. Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. 2021: 14708-14718. 

[3] Zhao K, Wang S, Zhang Y, et al. Síntesis de interacción composicional humano-escena con control semántico[C]. Congreso Europeo sobre Visión por Computador. Cham: Springer Nature Suiza, 2022: 311-327.

Siga la cuenta pública [Aprendizaje automático y creación generada por IA], le esperan más cosas interesantes para leer

¡Supresión, 60.000 palabras! ¡130 artículos en 30 direcciones! CVPR 2023 ¡El documento AIGC más completo! Léelo de una vez

Una explicación detallada de la difusión estable: interpretación del artículo sobre el modelo de difusión potencial detrás de la tecnología de pintura con IA

¡Una sencilla introducción a ControlNet, un algoritmo de generación de pintura AIGC controlable! 

El GAN ​​clásico debe leer: StyleGAN

a1806d93380b10780c125ee235f7e945.png ¡Haz clic en mí para ver la serie de álbumes de GAN~!

¡Tome una taza de té con leche y conviértase en el creador de tendencias de vanguardia de la visión AIGC+CV!

¡La colección más reciente y completa de 100 artículos! Generar modelos de difusiónModelos de difusión

ECCV2022 | Resumen de algunos artículos sobre Generative Adversarial Network GAN

CVPR 2022 | Más de 25 direcciones, los últimos 50 artículos de GAN

 ICCV 2021 | Resumen de 35 artículos temáticos de GAN

¡Más de 110 artículos! Revisión del artículo GAN más completo de CVPR 2021

¡Más de 100 artículos! Revisión del artículo GAN más completo de CVPR 2020

Desembalaje de una nueva GAN: representación desacoplada MixNMatch

StarGAN versión 2: generación de imágenes de diversidad multidominio

Descarga adjunta | Versión china del "aprendizaje automático explicable"

Descarga adjunta | "Práctica del algoritmo de aprendizaje profundo TensorFlow 2.0"

Descarga adjunta | Intercambio de "Métodos Matemáticos en Visión por Computador"

"Una revisión de los métodos de detección de defectos superficiales basados ​​en el aprendizaje profundo"

"Una revisión de la clasificación de imágenes de muestra cero: diez años de progreso"

"Una revisión del aprendizaje de pocas muestras basado en redes neuronales profundas"

El "Libro de los Ritos·Xue Ji" dice: Si estudias solo y sin amigos, te sentirás solo e ignorante.

¡Haga clic en una taza de té con leche y conviértase en el creador de tendencias de vanguardia de la visión AIGC + CV! , ¡únete  al planeta de la creación generada por IA y  el conocimiento de la visión por computadora!

Supongo que te gusta

Origin blog.csdn.net/lgzlgz3102/article/details/132769752
Recomendado
Clasificación