[Análise do artigo] Pontuações e sugestões de difusão 2D para geração robusta de texto para 3D

insira a descrição da imagem aqui
artigo: https://arxiv.org/pdf/2303.15413.pdf

Visão geral

insira a descrição da imagem aqui

2. Destilação de Pontuação e o Problema de Janus

Função de densidade:: dado um conjunto de pontos de vista uniformemente amostrados Π e prompt do usuário ω.
insira a descrição da imagem aqui

Ao usar essa formulação, evitamos o uso da desigualdade de Jensen, em contraste com [27]( Pontuação de encadeamento jacobiano: levantamento de modelos de difusão 2D pré-treinados para geração 3D ).

Aplicando o logaritmo a cada lado da equação, obtém-se:

insira a descrição da imagem aqui
Usando a regra da cadeia, obtemos:
insira a descrição da imagem aqui
onde Z = |Π| é uma constante. O termo entre colchetes é praticamente estimado por modelos de difusão.

Isso é expandido ainda mais pela aplicação da regra de Bayes da seguinte forma:
insira a descrição da imagem aqui

  • O primeiro termo de gradiente, refletindo a pontuação incondicional modelada por modelos de difusão 2D [5, 25], contém um viés que afeta as imagens vistas de perto de pontos de vista específicos durante a otimização 3D inicial quando zθ é ruidoso.
  • o gradiente de solicitação de pose na Eq. 4 é a orientação [3,6,7,25] que orienta a imagem renderizada para representar melhor uma pose de câmera específica e um prompt de usuário. O termo é expandido ainda mais:
    insira a descrição da imagem aqui
    onde C é definido como: que representa a informação mútua condicional pontual (PCMI).
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui

Figura 2. Ilustração do nosso framework. Propomos técnicas de desviesamento de pontuação e prompt para estimar gradientes robustos e imparciais dos parâmetros 3D em relação aos pontos de vista.

3. Desvio de Pontuação

insira a descrição da imagem aqui

Figura 3 . Esta visualização demonstra que pontuações 2D erradas resultam em artefatos críticos, por exemplo, pernas adicionais, bicos e chifres nesta figura.

Se a pontuação incondicional, o termo é tendencioso para proteger alguma direção de visualização. Pode afetar negativamente a consistência 3D e o realismo dos objetos gerados através da regra da cadeia (Eq. 3).

grandes magnitudes no gradiente de prompt do usuário também podem causar problemas ao introduzir artefatos relacionados ao texto que não estão presentes na imagem renderizada de um campo 3D.

Tais artefatos incluem faces extras, bicos e chifres (ver Fig. 1 e Fig. 3), que são irrealistas ou inconsistentes com a estrutura do objeto 3D.

Portanto, ajustar esse gradiente é necessário para reduzir os artefatos e melhorar o realismo dos objetos 3D gerados. No entanto, o viés 2D que flui para o campo 3D dificilmente foi formulado ou ajustado para melhor otimização e consistência 3D.

Limiarização dinâmica de pontuações 2D para 3D.

propomos um método eficaz que trunca dinamicamente as pontuações para mitigar os efeitos de viés e artefatos nas pontuações 2D previstas. Especificamente, aumentamos linearmente o valor de truncamento ao longo da otimização:
insira a descrição da imagem aqui
insira a descrição da imagem aqui

4. Debiasing de prompt

Identificar contradições utilizando modelos de linguagem.

O termo de gradiente de prompt pode cancelar o termo de gradiente de pose necessário para a consistência de exibição de objetos 3D gerados, como podemos derivar da Eq. 5

insira a descrição da imagem aqui

Figura 4. Amostras de difusão estável [18] com um prompt de texto com contradição. Apesar de “Back view of” ser fornecido nos prompts, a palavra “sorrindo” no prompt torna os modelos de difusão inclinados para a visão frontal de um objeto.

propomos um método para identificar contradições usando modelos de linguagem treinados com modelagem de linguagem mascarada (MLM). Especificamente, deixe V representar um conjunto de possíveis prompts de exibição e deixe U ser um conjunto de tamanho 2, que contém a presença e a ausência de uma palavra no prompt do usuário para brevidade. Em seguida, calculamos o seguinte:
insira a descrição da imagem aqui
P (u) é uma fidelidade definida pelo usuário. Se P(u) = 1, a palavra nunca será removida do prompt do usuário.
Eq. 7 é igual à informação mútua pontual (PMI), pois:

insira a descrição da imagem aqui

Reduzindo a discrepância entre os prompts de exibição e as poses do espaço do objeto.

fazemos ajustes práticos nos prompts de alcance da visão, como reduzir o alcance do azimute da “visão frontal” pela metade. Além disso, procuramos prompts de visualização precisos [16, 27] que nos fornecem resultados aprimorados.

5. Comparação com a linha de base

Conforme mostrado nos resultados qualitativos da Fig. 1, nossos métodos reduzem as inconsistências de visualização nos objetos 3D e atenuam o chamado problema de Janus. Essa melhoria vem com pouca sobrecarga em comparação com a linha de base.

insira a descrição da imagem aqui

Figura 1. Comparação entre a linha de base (SJC [27]) e a nossa. Nossos métodos de correção de viés reduzem qualitativamente as inconsistências de exibição em texto para 3D zero-shot e o chamado problema de Janus.

Nosso método produz objetos 3D mais consistentes do que a linha de base, conforme demonstrado na Tabela 1 com base em 70 prompts. Observe que a remoção de contradições nos prompts leva a melhores resultados.

insira a descrição da imagem aqui

Tabela 1. Avaliação quantitativa. Os melhores valores estão em negrito e os segundos melhores estão sublinhados. Preservado significa que os prompts do usuário são preservados, ou seja, P (u) = 1 para todos os u.

insira a descrição da imagem aqui

Figura 5. Melhoria da consistência da exibição por meio de correção de prompt e pontuação. A linha de base é o SJC original [27], e Prompt e Score denotam o desvio de prompt e pontuação, respectivamente. O prompt do usuário fornecido é “um gato sorridente” e as imagens são renderizadas de pontos de vista arbitrários.

A Figura 5 demonstra que eles melhoram gradualmente a consistência da exibição e reduzem os artefatos conforme pretendido.

Conclusão

Neste artigo, formulamos e identificamos as fontes do problema de Janus na geração zero-shot text-to-3D. Sob essa luz, argumentamos que reduzir o viés dos prompts e pontuações 2D brutas é essencial para a geração realista. Portanto, propomos dois métodos que aumentam a qualidade e são aplicáveis ​​a estruturas existentes com pouca sobrecarga sem supervisão 3D, mostrando potencial para pesquisas futuras nesta área promissora.

Acho que você gosta

Origin blog.csdn.net/NGUever15/article/details/129981320
Recomendado
Clasificación