Dos minutos para entender las capas relevantes en el flujo óptico RAFT

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow es el mejor artículo de ECCV 2020. Cuando leí el artículo, estaba muy confundido acerca de esta capa relacionada con 4D. Descubrí que no hay buena información en Internet. Después de pensar en eso, hablaré sobre mi comprensión. Espero que pueda ayudar a todos.
Figura 1. Establecimiento de volúmenes de correlación
Esta figura muestra que se puede obtener un volumen 4D tomando el producto interno de dos mapas de características, y su dimensión es H ∗ W ∗ H ∗ WH*W*H*WHWHw _ En el conocimiento que he aprendido en el pasado, el producto interno es la correspondiente multiplicación y suma de dos vectores.Es imposible imaginar por qué el producto interno de dos imágenes puede generar un tensor 4D a través del conocimiento previo.
Descripción de la fórmula en el texto

1. Cálculo de correlación

Los volúmenes de correlación de este artículo se denominan volúmenes de correlación completos, es decir, la correlación se calcula entre cada punto de la Imagen1 y todos los puntos de la Imagen2. Este par de imágenes son imágenes en 3D (imágenes en color).
inserte la descripción de la imagen aquí
donde yo, ji, jyo ,j es el rango y la columna de Image1,k , lk,lk ,l es la fila y la columna de image2,hhh es el número de canales.
C1111 = C_{1111}=C1 1 1 1= el primer canal de las dos imágenes( 1 , 1 ) (1,1)( 1 ,1 ) Multiplicación de posición + el segundo canal de las dos imágenes( 1 , 1 ) (1,1)( 1 ,1 ) Multiplicación de posición + el tercer canal de las dos imágenes( 1 , 1 ) (1,1)( 1 ,1 ) Multiplicación de posiciones.
Si Imagen1( 1 , 1 ) (1,1)( 1 ,1 ) relacionado con todos los cálculos de puntos de Image2, ahora imagine que el resultado esH ∗ WH*WHmatriz de W.
Entonces, si todos los puntos de la Imagen1 (es decir, H ∗ WH*WHpuntos W ) están relacionados con el cálculo de todos los puntos de Image2->H ∗ WH*WHW udsH ∗ WH*WHW matriz->tensor 4DH ∗ W ∗ H ∗ WH*W*H*WHWHw _
Se ha explicado aquí por qué el cálculo de los volúmenes de correlación total para dos imágenes en color es un tensor 4D.

2. Pirámides relacionadas

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Se sabe que la correlación de dos imágenes es un tensor 4D. El artículo dice que la combinación de las dos últimas dimensiones es H ∗ W ∗ H ∗ WH*W*H*WHWHLa segunda H en W ∗ WH*WHW , esta pirámide tiene 4 capas, y cada capa solo realiza la agrupación para las siguientes dos dimensiones. Luego, las primeras tres capas se muestran en la figura, y el artículo dice que esta operación puede garantizar la información de alta resolución de la imagen (la primeraH ∗ WH*WHW permanece sin cambios) y puede garantizar el seguimiento del movimiento de desplazamiento pequeño (el segundoH ∗ WH*WHagrupación W ).

Dado que las dos primeras capas deben obtenerse correlacionando el primer punto de la Imagen 1 con todos los puntos de la Imagen 2, después de agrupar, es equivalente a agrupar la Imagen 1 o la Imagen 2 y luego calcular la correlación global.

Referencia: RAFT: transformadas de campo recurrentes de todos los pares para flujo óptico

Supongo que te gusta

Origin blog.csdn.net/xiufan1/article/details/122464954
Recomendado
Clasificación