[Notas de lectura en papel] Representación coordinada consciente de la distribución para la estimación de la pose humana

Dirección del proyecto: https://ilovepose.github.io/coco/

Resumen del artículo

  El método en este artículo se llama OSCURO, que propone un método de codificación y decodificación, de modo que las coordenadas a mapa de calor (para entrenamiento) y mapa de calor a coordenadas (para prueba) se puedan expresar con mayor precisión.

  En el papel, DARK puede reducir la pérdida de resolución de entrada de red (de 384 ∗ 288 384 * 2883 8 42 8 8 a256 ∗ 192 256 * 1922 5 61 9 2 a128 ∗ 96128 * 961 2 89 6) ;

Contenido de papel

Decodificación coordinada

  Si el modelo entrenado funciona bien, el mapa de calor predicho por la red tendrá la misma distribución que la etiqueta, es decir, el mapa de calor será como se muestra en la siguiente fórmula, donde xxx son las coordenadas del elemento predichas en el mapa de calor;μ \ muμ es la coordenada central en el kernel de Gauss, es decir, la posición estimada del punto clave; la covarianza∑ \ sum es una matriz diagonal,∑ = [σ 2 0 0 σ 2] \ sum = \ left [\ begin {matrix} \ sigma ^ 2 & 0 \\ 0 & \ sigma ^ 2 \ end {matrix} \ right]=[σ200σ2]

  Utilizando el principio de optimización de probabilidad logarítmica, la fórmula anterior se puede convertir a logaritmo para inferir la posición máxima:

   μ \ mu μ es la posición del punto clave que necesitamos predecir. Dado que es un valor extremo, la primera derivada es:

  En μ \ muUtilice la fórmula de Taylor de segundo orden en μ , dondemmm es el valor máximo:

  Finalmente, obtenemos las coordenadas de los puntos clave que queremos predecir:

  La derivación anterior se basa en el caso de que el mapa de calor predicho es una distribución gaussiana ideal. En realidad, el mapa de calor predicho tendrá varios picos cerca del valor máximo. Esto tendrá un impacto negativo en el método de decodificación anterior , por lo que se requiere el mapa de calor. . En este artículo, el kernel gaussiano se utiliza para preprocesar el mapa de calor para suavizar varios picos. El kernel_size del kernel gaussiano generalmente corresponde al kernel_size durante el entrenamiento.

  Por lo tanto, la decodificación de DARK se divide en tres pasos:

  1. Primero, suaviza la distribución del mapa de calor [procesamiento del kernel gaussiano]
  2. Taylor se despliega para obtener el posicionamiento del punto clave
  3. Restauración de resolución (la resolución de la imagen de entrada se restaura a la resolución de imagen original)
Codificación coordinada

  En las coordenadas de resolución de la imagen original (u, v) (u, v)U ,v ) , mapeado a la resolución de entrada de red(u ′, v ′) (u ', v')U ,v ), Las coordenadas se asignarán de números enteros a números de punto flotante. La función de mapeo se muestra en la siguiente figura

  Pero generalmente usa (u ′, v ′) (u ', v')U ,v ) Algenerar un mapa de calor, las coordenadas se convertirán en números enteros para obtener la coordenada de un elemento y luego usarán la función gaussiana para generar el mapa de calor. Hay una desviación entre las coordenadas de este número entero y las coordenadas reales, por lo que cuando DARK genera el mapa de calor, utiliza directamente el número de punto flotante para generar el mapa de calor:

Resultados experimentales

  Los resultados de los experimentos comparativos que utilizan el suavizado del kernel gaussiano son los siguientes: La tabla 2 muestra que el suavizado del kernel gaussiano puede mejorar el AP en un 0,3%

  Los resultados del experimento de comparación de la decodificación y codificación de DARK son los siguientes: se puede ver que tanto la codificación como la decodificación mejoran los resultados.

  Los resultados experimentales comparativos del uso del método DARK con diferentes resoluciones son los siguientes: Se puede ver que la oscuridad tiene un mayor beneficio en modelos con resoluciones pequeñas;

  Como puede verse en la tabla siguiente, cuando los indicadores son más rigurosos, las ventajas de DARK serán más obvias, lo que indica que el método DARK es útil para la estabilidad de la predicción de puntos clave .

  La siguiente tabla muestra los resultados de DARK aplicado a cada red. Se puede ver que DARK es un método independiente del modelo y se puede aplicar a varios modelos;

Supongo que te gusta

Origin blog.csdn.net/qq_19784349/article/details/107113881
Recomendado
Clasificación