RAFT: Recurrent All-Pairs Field Transforms for Optical Flow es el mejor artículo de ECCV 2020. Cuando leí el artículo, estaba muy confundido acerca de esta capa relacionada con 4D. Descubrí que no hay buena información en Internet. Después de pensar en eso, hablaré sobre mi comprensión. Espero que pueda ayudar a todos.
Esta figura muestra que se puede obtener un volumen 4D tomando el producto interno de dos mapas de características, y su dimensión es H ∗ W ∗ H ∗ WH*W*H*WH∗W∗H∗w _ En el conocimiento que he aprendido en el pasado, el producto interno es la correspondiente multiplicación y suma de dos vectores.Es imposible imaginar por qué el producto interno de dos imágenes puede generar un tensor 4D a través del conocimiento previo.
1. Cálculo de correlación
Los volúmenes de correlación de este artículo se denominan volúmenes de correlación completos, es decir, la correlación se calcula entre cada punto de la Imagen1 y todos los puntos de la Imagen2. Este par de imágenes son imágenes en 3D (imágenes en color).
donde yo, ji, jyo ,j es el rango y la columna de Image1,k , lk,lk ,l es la fila y la columna de image2,hhh es el número de canales.
C1111 = C_{1111}=C1 1 1 1= el primer canal de las dos imágenes( 1 , 1 ) (1,1)( 1 ,1 ) Multiplicación de posición + el segundo canal de las dos imágenes( 1 , 1 ) (1,1)( 1 ,1 ) Multiplicación de posición + el tercer canal de las dos imágenes( 1 , 1 ) (1,1)( 1 ,1 ) Multiplicación de posiciones.
Si Imagen1( 1 , 1 ) (1,1)( 1 ,1 ) relacionado con todos los cálculos de puntos de Image2, ahora imagine que el resultado esH ∗ WH*WH∗matriz de W.
Entonces, si todos los puntos de la Imagen1 (es decir, H ∗ WH*WH∗puntos W ) están relacionados con el cálculo de todos los puntos de Image2->
H ∗ WH*WH∗W udsH ∗ WH*WH∗W matriz->
tensor 4DH ∗ W ∗ H ∗ WH*W*H*WH∗W∗H∗w _
Se ha explicado aquí por qué el cálculo de los volúmenes de correlación total para dos imágenes en color es un tensor 4D.
2. Pirámides relacionadas
Se sabe que la correlación de dos imágenes es un tensor 4D. El artículo dice que la combinación de las dos últimas dimensiones es H ∗ W ∗ H ∗ WH*W*H*WH∗W∗H∗La segunda H en W ∗ WH*WH∗W , esta pirámide tiene 4 capas, y cada capa solo realiza la agrupación para las siguientes dos dimensiones. Luego, las primeras tres capas se muestran en la figura, y el artículo dice que esta operación puede garantizar la información de alta resolución de la imagen (la primeraH ∗ WH*WH∗W permanece sin cambios) y puede garantizar el seguimiento del movimiento de desplazamiento pequeño (el segundoH ∗ WH*WH∗agrupación W ).
Dado que las dos primeras capas deben obtenerse correlacionando el primer punto de la Imagen 1 con todos los puntos de la Imagen 2, después de agrupar, es equivalente a agrupar la Imagen 1 o la Imagen 2 y luego calcular la correlación global.
Referencia: RAFT: transformadas de campo recurrentes de todos los pares para flujo óptico