Narrador: orientado por texto, naturalmente controlável, gerado interativamente entre pessoas e cenas | Lançado por Tianda e Universidade Tsinghua

Wenyuan Xinzhiyuan Editor: LRS Com tanto sono

[Introdução Xinzhiyuan] O narrador pode gerar interações de cena humana de forma natural e controlada a partir de descrições de texto e é adequado para várias situações: interação guiada por relações espaciais, interação guiada por múltiplas ações, interação de cena com várias pessoas e combinação livre dos tipos acima.

A geração natural e controlável de interação de cena humana (HSI) desempenha um papel importante em muitos campos, como criação de conteúdo de realidade virtual/realidade aumentada (VR/AR) e inteligência artificial centrada no ser humano.

No entanto, os métodos existentes têm controlabilidade limitada, tipos de interação limitados e resultados gerados não naturais, o que limita seriamente os seus cenários de aplicação prática.

Em resposta a este problema, a equipe da Universidade de Tianjin e da Universidade de Tsinghua propuseram o Narrador no trabalho do ICCV 2023, concentrando-se em uma tarefa desafiadora, que é gerar de forma natural e controlada pessoas e cenas realistas e diversas a partir de descrições de texto.

Página inicial do projeto: http://cic.tju.edu.cn/faculty/likun/projects/Narrator

Código: https://github.com/HaibiaoXuan/Narrator

Do ponto de vista cognitivo humano, um modelo generativo ideal deve ser capaz de raciocinar corretamente sobre relações espaciais e explorar graus de liberdade interativos.

Portanto, o autor propõe um modelo generativo baseado no raciocínio relacional, modelando as relações espaciais em cenas e descrições respectivamente por meio de gráficos de cena, e introduzindo um mecanismo de interação em nível de parte que representa ações interativas como estados atômicos de partes do corpo.

Em particular, beneficiando-se do raciocínio relacional, o autor propôs ainda uma estratégia de geração multipessoas simples, mas eficaz, que foi a primeira exploração da geração interativa controlável de cenas multipessoas naquela época.

Finalmente, o autor conduziu um grande número de experimentos e pesquisas com usuários, provando que o Narrador pode gerar diversas interações de maneira controlada e seu efeito é significativamente melhor do que o trabalho existente.

motivação do método

Os métodos existentes de geração de interação humano-cena concentram-se principalmente na relação geométrica física da interação, mas carecem de controle semântico sobre a geração e são limitados à geração de uma única pessoa.

Portanto, os autores se concentram na desafiadora tarefa de gerar de forma controlada interações realistas e diversas entre cenas humanas a partir de descrições em linguagem natural. Os autores observaram que os humanos normalmente usam a percepção espacial e o reconhecimento de ações para descrever naturalmente pessoas envolvidas em diversas interações em diferentes locais.

Figura 1 O narrador pode gerar de forma natural e controlada interações entre cenas humanas semanticamente consistentes e fisicamente razoáveis, e é adequado para as seguintes situações: (a) interações guiadas por relações espaciais, (b) interações guiadas por múltiplas ações, (c) multipessoas interação de cena e (d) interação humano-cena que combina os tipos de interação acima.

Especificamente, as relações espaciais podem ser representadas como inter-relações entre diferentes objetos em uma cena ou área local, enquanto as ações interativas são especificadas por estados atômicos de partes do corpo, como os pés de uma pessoa no chão, inclinação do tronco, batidas com a mão direita e abaixamento. .

Tomando isso como ponto de partida, o autor usa gráficos de cena para representar relações espaciais e propõe um mecanismo Joint Global and Local Scene Graph (JGLSG) para fornecer consciência de posição global para a geração subsequente.

Ao mesmo tempo, considerando que o estado das partes do corpo é a chave para simular interações realistas consistentes com o texto, o autor introduziu um mecanismo de Ação em Nível de Parte (PLA) para estabelecer a correspondência entre partes e ações do corpo humano.

Beneficiando-se da cognição observacional eficaz e da flexibilidade e reutilização do raciocínio relacional proposto, os autores propõem ainda uma estratégia de geração multijogador simples e eficaz, que é a primeira estratégia de geração multijogador naturalmente controlável e fácil de usar no momento. Solução de geração de interação de cena (Multi-Human Scene Interaction, MHSI).

Ideias de métodos

Visão geral da estrutura do narrador

O objetivo do Narrador é gerar interações homem-cena de forma natural e controlada que sejam semanticamente consistentes com as descrições do texto e correspondam fisicamente à cena tridimensional.

Figura 2 Visão geral da estrutura do narrador

Conforme mostrado na Figura 2, este método usa um autoencoder condicional variacional baseado em transformador (cVAE), que inclui principalmente:

1) Em comparação com a pesquisa existente que considera cenas ou objetos isoladamente, um mecanismo conjunto de gráfico de cena global e local é projetado para raciocinar sobre relações espaciais complexas e alcançar consciência de posicionamento global;

2) Com base na observação de que as pessoas realizarão ações interativas através de diferentes partes do corpo ao mesmo tempo, é introduzido um mecanismo de ação em nível de componente para alcançar interações realistas e diversas;

3) Uma perda bifacial interativa é adicionalmente introduzida no processo de otimização com reconhecimento de cena para obter melhores resultados de geração;

4) Expande-se ainda mais para a geração de interação multipessoas e, em última análise, promove o primeiro passo na interação de cena multipessoas.

Mecanismo combinado de gráfico de cena global e local

O raciocínio das relações espaciais pode fornecer ao modelo pistas sobre cenas específicas, o que desempenha um papel importante na obtenção de controlabilidade natural na interação entre humanos e cenas.

Portanto, o autor projetou um mecanismo conjunto de gráfico de cena global e local, que é implementado através das três etapas a seguir:

1. Geração de gráfico de cena global: dada uma cena, use um modelo de gráfico de cena pré-treinado para gerar um gráfico de cena global, ou seja, onde está o objeto com um rótulo de categoria, é a relação entre e , n é o número de objetos , m é o número de relacionamentos;

2. Geração de gráfico de cena local: Utilizar ferramentas de análise semântica para identificar a estrutura da frase descrita e extrair e gerar cenas locais , nas quais o trio sujeito-predicado-objeto é definido;

3. Correspondência de gráfico de cena: o modelo corresponde a nós nos gráficos de cena global e local com base nos mesmos rótulos semânticos de objeto e adiciona automaticamente um nó humano virtual para fornecer informações de localização, estendendo relacionamentos de borda.

Mecanismo de Ação em Nível de Componente (PLA)

As interações humanas na cena são compostas por estados de partes atômicas do corpo, então o autor propõe um mecanismo de ação de nível parcial refinado para que o modelo possa prestar atenção a partes importantes e ignorar partes irrelevantes de uma determinada interação.

Especificamente, os autores exploram ações interativas ricas e diversas e mapeiam essas ações possíveis para cinco partes principais do corpo humano: cabeça, tronco, braço esquerdo/direito, mão esquerda/direita e parte inferior esquerda/direita do corpo.

Ao mesmo tempo, a codificação one-hot (One-Hot) é usada para representar essas ações e partes do corpo, respectivamente, e elas são conectadas de acordo com o relacionamento correspondente para codificação subsequente.

Para a geração interativa de multiações, o autor utiliza um mecanismo de atenção para aprender o estado de diferentes partes da estrutura corporal.

Numa determinada combinação de ações interativas, a atenção é automaticamente blindada entre a parte do corpo correspondente a cada ação e todas as outras ações.

Tomemos como exemplo "uma pessoa agachada no chão usando um armário", o agachamento corresponde ao estado da parte inferior do corpo, de modo que a atenção marcada por outras partes será bloqueada a zero.

Otimização de reconhecimento de cena

Os autores aproveitam restrições geométricas e físicas para otimização com reconhecimento de cena para melhorar os resultados de geração. Ao longo do processo de otimização, o método garante que as poses geradas não se desviem, ao mesmo tempo que estimula o contato com a cena e restringe o corpo para evitar a interpenetração com a cena.

Dada a cena tridimensional S e os parâmetros SMPL-X gerados, a perda de otimização é:

Entre eles, incentiva vértices do corpo a entrar em contato com a cena; é um termo de colisão baseado na distância simbólica; é uma perda bipartida interativa (IBS) introduzida adicionalmente em comparação com o trabalho existente, que é um conjunto de pontos equidistantes amostrados entre a cena e o corpo humano; é um fator de regularização utilizado para penalizar parâmetros que se desviam de sua inicialização.

Interação de cena multijogador (MHSI)

Em cenários do mundo real, em muitos casos não há apenas uma pessoa interagindo com a cena, mas diversas pessoas interagindo de forma independente ou associada.

No entanto, devido à falta de conjuntos de dados MHSI, os métodos existentes geralmente requerem esforços manuais adicionais e não podem realizar esta tarefa de forma controlada e automatizada.

Para este fim, os autores utilizam apenas conjuntos de dados individuais existentes e propõem uma estratégia simples, mas eficaz, para direções de geração multipessoas.

Dada uma descrição de texto relacionada a várias pessoas, o autor primeiro a analisa em vários gráficos de cena local e ações interativas e define o conjunto candidato como , onde l é o número de pessoas.

Para cada item do conjunto de candidatos, ele é primeiro alimentado no Narrador junto com a cena e o gráfico de cena global correspondente e, em seguida, o processo de otimização é executado.

Para lidar com colisões entre pessoas, é introduzida uma perda adicional no processo de otimização , onde é a distância sinalizada entre pessoas.

Então, quando a perda de otimização for inferior ao limite determinado com base na experiência experimental, o resultado gerado é aceito e atualizado pela adição de nós humanos ; caso contrário, o resultado gerado é considerado não confiável e atualizado pela blindagem do nó do objeto correspondente .

Vale ressaltar que este método de atualização estabelece a relação entre os resultados de cada geração e os resultados da geração anterior, evita certo grau de aglomeração e torna a distribuição espacial mais razoável e a interação mais realista do que a simples geração múltipla.

O processo acima pode ser expresso como:

Resultados experimentais

Como os métodos atualmente existentes não podem gerar interações entre cenas humanas de forma natural e controlada diretamente a partir de descrições de texto, o autor estende razoavelmente PiGraph [1], POSA [2] e COINS [3] para métodos adequados para descrições de texto e usa o mesmo. conjuntos de dados usados para treinar seus modelos oficiais, os métodos modificados são definidos como PiGraph-Text, POSA-Text e COINS-Text.

Figura 3 Resultados de comparação qualitativa de diferentes métodos

A Figura 3 mostra os resultados da comparação qualitativa do Narrador com três linhas de base. PiGraph-Text apresenta problemas de penetração mais sérios devido a limitações em sua própria representação.

O POSA-Text frequentemente cai em mínimos locais durante o processo de otimização, resultando em interações indesejáveis. COINS-Text vincula ações a objetos específicos, não possui consciência global da cena, leva à penetração de objetos não especificados e é difícil de lidar com relações espaciais complexas.

Em contraste, o Narrador pode raciocinar corretamente sobre as relações espaciais e analisar os estados do corpo sob múltiplas ações com base em diferentes níveis de descrições de texto, alcançando assim melhores resultados de geração.

Em termos de comparação quantitativa, conforme mostrado na Tabela 1, o Narrador supera outros métodos em cinco indicadores, mostrando que os resultados gerados por este método apresentam consistência textual mais precisa e melhor plausibilidade física.

Tabela 1 Resultados de comparação quantitativa de diferentes métodos

Além disso, o autor também fornece comparações e análises detalhadas para compreender melhor a eficácia da estratégia MHSI proposta.

Considerando que atualmente não há trabalho sobre MHSI, escolheram uma abordagem simples como base, nomeadamente geração sequencial e otimização com COINS.

Para fazer uma comparação justa, também são introduzidas perdas artificiais por colisão. A Figura 4 e a Tabela 2 mostram os resultados qualitativos e quantitativos respectivamente, ambos comprovando fortemente que a estratégia proposta pelo autor é semanticamente consistente e fisicamente razoável no MHSI.

Figura 4 Comparação qualitativa do MHSI com o método de geração e otimização sequencial utilizando COINS

Tabela 2 Comparação quantitativa do MHSI com o método de geração sequencial e otimização com COINS

O vídeo de demonstração deste trabalho é o seguinte:

Sobre o autor

Xuan Haibiao, estudante de mestrado na Universidade de Tianjin

Principais direções de pesquisa: visão tridimensional, visão computacional, geração interativa de cena humana

Li Xiongzheng, doutorando de 19º nível na Universidade de Tianjin

Principais direções de pesquisa: visão 3D, visão computacional, reconstrução do corpo humano e do vestuário

Zhang Jinsong, candidato a doutorado pela Universidade de Tianjin

Principais direções de pesquisa: visão 3D, visão computacional, geração de imagens

Zhang Hongwen, pós-doutorado na Universidade Tsinghua

Principais direções de pesquisa: Visão computacional e gráficos centrados no ser humano

Liu Yebin, professor da Universidade Tsinghua

Principais direções de pesquisa: computação gráfica, visão tridimensional e fotografia computacional

Página inicial pessoal: https://liuyebin.com/

Li Kun (autor correspondente), professor e supervisor de doutorado na Universidade de Tianjin

Principais direções de pesquisa: visão 3D, reconstrução e geração inteligente

Página inicial pessoal: http://cic.tju.edu.cn/faculty/likun

Referências:

[1] Savva M, Chang AX, Hanrahan P, et al. Pigraphs: aprendendo instantâneos de interação a partir de observações[J]. Transações ACM em Gráficos (TOG), 2016, 35(4): 1-12.

[2] Hassan M, Ghosh P, Tesch J, et al. Preencher cenas 3D aprendendo a interação entre cena humana[C]. Anais da Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões. 2021: 14708-14718.

[3] Zhao K, Wang S, Zhang Y, et al. Síntese composicional da interação humano-cena com controle semântico[C]. Conferência Europeia sobre Visão Computacional. Cham: Springer Nature Suíça, 2022: 311-327.

Siga a conta pública [Aprendizado de máquina e criação gerada por IA], coisas mais interessantes estão esperando por você para ler

Supressão, 60.000 palavras! 130 artigos em 30 direções! CVPR 2023 O documento AIGC mais abrangente! Leia de uma só vez

Uma explicação aprofundada da difusão estável: interpretação do artigo sobre o modelo de difusão potencial por trás da tecnologia de pintura de IA

Uma introdução simples ao ControlNet, um algoritmo controlável de geração de pintura AIGC!

O GAN clássico deve ser lido: StyleGAN

Clique em mim para ver a série de álbuns do GAN ~!