文献阅读(CV) Estimativa de pose monocular 3D de várias pessoas por meio da previsão de fatores de correção fatorados

Motivação: Por que os autores queriam abordar esse problema?

  • Restaurar poses 3D de várias pessoas em uma única imagem continua sendo um problema desafiador

Contribuição: O que o autor realizou neste artigo (pontos inovadores)?

  • Resolva o problema de estimativa de pose multipessoal 3D (3D-MPPE) usando uma estrutura de cima para baixo

  • propôs um quadro geral

    a localização 3D de pessoas: usada para estimativa de profundidade de raiz e estimativa de coordenadas 2D de raízes.
    Sugere-se (leia-se) em [1] que a profundidade das raízes humanas pode ser estimada ajustando a área projetada com um fator de correção . Neste artigo, é proposto um método baseado em aprendizado mais eficaz, especificamente, a área de projeção de uma pessoa pode ser afetada por vários fatores, incluindo profundidade, altura, pose e até oclusão mútua da pessoa, em vez de um único fator . Portanto, o fator de correção proposto anteriormente pode ser decomposto em múltiplos fatores para estimar melhor a profundidade das raízes de uma pessoa. Portanto, este artigo projeta uma rede de localização 3D para prever esses fatores decompostos individualmente. Como a profundidade de uma pessoa é inversamente proporcional à área projetada, uma vez que esses fatores são obtidos, a profundidade da pessoa pode ser calculada acima da caixa delimitadora detectada

    estimativa de pose humana 3D relativa:
    Um módulo de fusão de recursos multiescala é proposto e um mecanismo de atenção é introduzido na tarefa de estimativa de pose humana 3D relativa [2]. Esse design permite que a rede integre informações multiescala durante o upsampling, aprimorando informações eficazes e suprimindo informações inválidas.

opinião própria

  • Não há introdução da pose 2D para a pose 3D, mas a pose 3D relativa e a profundidade absoluta são geradas e, finalmente, a pose humana 3D absoluta é gerada

referências

[1] Abordagem de cima para baixo com reconhecimento de distância da câmera para estimativa de pose 3D de várias pessoas a partir de uma única imagem RGB
[2] Atenção coordenada para um design de rede móvel eficiente

Acho que você gosta

Origin blog.csdn.net/qq_42980908/article/details/124828559
Recomendado
Clasificación