ICCV 2023 | ¡Conecta y reproduce! La Universidad Jiao Tong de Shanghai propone AccFlow: un marco de estimación de flujo óptico de marco cruzado

Haga clic en la tarjeta a continuación para seguir la cuenta pública " CVer "

Información avanzada de AI/CV, entregada lo antes posible

Haga clic para ingresar -> Grupo [Detección de objetivos y transformador]

ICCV23 | La Universidad Jiao Tong de Shanghai propuso un marco de estimación de flujo óptico entre cuadros: AccFlow, que acumula el flujo óptico entre cuadros para obtener un flujo óptico entre cuadros de larga distancia, se adapta a cualquier algoritmo de estimación de flujo óptico entre cuadros y se conecta -y juega.

6cefc2c6573c7662f027ab46035769e4.png

Responda en el fondo de la cuenta pública CVer WeChat: AccFlow, puede descargar el pdf y el código de este documento

Documento: https://arxiv.org/abs/2308.13133

Código: https://github.com/mulns/AccFlow

En los últimos años, los algoritmos de estimación de flujo óptico han logrado rápidas mejoras de rendimiento con el apoyo del aprendizaje profundo. Sin embargo, los algoritmos de flujo óptico existentes estiman principalmente el flujo óptico entre fotogramas adyacentes del vídeo, mientras que la estimación del flujo óptico entre fotogramas rara vez se explora. Este artículo propone un algoritmo para estimar el flujo óptico entre cuadros, AccFlow, que obtiene flujo óptico de largo alcance acumulando flujo óptico en cuadros adyacentes. AccFlow se puede utilizar con cualquier algoritmo de flujo óptico entre cuadros, plug and play.

acumulación inversa

Supongamos que hay un video de T fotogramas y hay T-1 flujo óptico entre fotogramas obtenido previamente           a8cddf8d6f56becce0927d0b0946a69c.png. Al acumular continuamente estos flujos ópticos entre cuadros, podemos obtener flujos ópticos entre cuadros de larga distancia. Ahora considere el proceso de acumulación de dos flujos ópticos, que se puede dividir en dos pasos: primero, alinee los puntos iniciales de los dos vectores de flujo óptico; luego, sume los valores de los dos vectores. Entre estos dos pasos, el más difícil es el proceso de alineación, porque existe un problema de oclusión causado por la operación de deformación. Proponemos un método de acumulación inversa: en comparación con la acumulación directa, la acumulación inversa puede aliviar en gran medida el problema de oclusión.

237a4978a6c2393af3f241c2aaeb2cf5.png

Como se muestra en la figura anterior, pensamos en la acumulación como la suma de la flecha roja y la flecha azul. La flecha punteada amarilla representa la distancia de alineación. Si el lapso de tiempo entre los dos fotogramas que deben alinearse es mayor, el movimiento generalmente será mayor y un movimiento mayor conducirá a mayores problemas de oclusión. Por lo tanto, el problema de oclusión acumulada hacia adelante aumenta gradualmente con el tiempo. En cambio, con el proceso de acumulación inversa, encontramos que la distancia de alineación es independiente del tiempo y siempre se mantiene en un valor mínimo. Contamos la relación de oclusión con 5000 datos, y 424ffa51d0ab075abcc794079f76ee53.pnglas estadísticas de la relación de oclusión en diferentes intervalos entre cuadros () son las siguientes:

2f84181c1ae60f51946b00183a6bdb9b.png

5eff424e36e09942eadce7ed85872e1c.png

En la imagen de arriba, damos un ejemplo práctico. Se puede ver que la proporción de áreas de oclusión acumuladas en la dirección de avance continúa aumentando a medida que aumenta el número de iteraciones. Por el contrario, la proporción de oclusión acumulada hacia atrás no se acumula con el número de iteraciones y siempre permanece más pequeña y, por lo tanto, más fácil de resolver. Esto confirma la importancia de la acumulación inversa que propusimos.

Red AccFlow

ac118a8f4107e82fd9bd21db5fd61671.png

La estructura de red de AccFlow se divide en dos partes: AccPlus y Adaptive Blending. Entre ellos, AccPlus es la parte central para completar la acumulación inversa de flujo óptico. Adaptive Blending proporciona información complementaria para ayudar a la red a manejar mejor el problema de acumulación de errores. En la red AccPlus, utilizamos convolución deformable para realizar la alineación y fusión de características de los dos campos de flujo óptico, y llenar de forma adaptativa las áreas ocluidas. Además, utilizamos Adaptive Blending para fusionar información complementaria, donde la información complementaria proviene de una estimación de extremo a extremo del flujo óptico de largo alcance (utilizando el algoritmo de estimación de flujo óptico de cuadro adyacente OFNet). Toda la estructura de la red AccPlus es sencilla y ligera. Sin embargo, el proceso de acumulación en AccPlus puede conducir fácilmente a la acumulación de errores, por lo que la información complementaria proporcionada por el módulo de Mezcla Adaptativa proporciona una función de movimiento estimado de un extremo a otro como información complementaria para corregir el error acumulado, logrando así mejores resultados. Vale la pena mencionar que OFNet desempeña el papel de proporcionar flujo óptico de entrada en el marco AccFlow. Nuestros experimentos encontraron que OFNet puede ser reemplazado por diferentes algoritmos de flujo óptico, como RAFT [1], GMA [2], GMFlow [3], etc. espera.

conjunto de datos

Para entrenar eficazmente la red AccFlow, proponemos un nuevo conjunto de datos CVO, que contiene 11406 muestras. Entre ellos, cada muestra incluye una secuencia de vídeo de 7 fotogramas y su correspondiente etiqueta de flujo óptico. A diferencia de otros conjuntos de datos de flujo óptico, no solo proporcionamos flujo óptico entre fotogramas adyacentes, sino que también proporcionamos flujo óptico entre fotogramas con diferentes espacios entre fotogramas. Por lo tanto, CVO puede proporcionar datos de etiquetas más completos para tareas relacionadas y ayudar eficazmente a AccFlow a aprender la generación de flujo óptico de largo alcance.

Resultados experimentales  

2a52790b5dc48e703e2c0ae5178c4b67.png

Como se muestra en la figura anterior, exploramos los cambios de rendimiento de diferentes algoritmos a medida que aumenta la distancia acumulada. Se puede ver que el EPE de AccFlow sigue siendo el más bajo y tiene el cambio más pequeño. Por el contrario, el rendimiento de los algoritmos RAFT [1] y GMA [2] y sus variantes disminuye gradualmente a medida que aumenta la distancia acumulada. Entre ellos, tanto el algoritmo RAFT como el GMA están ajustados en el conjunto de datos CVO para garantizar la equidad en comparación con AccFlow. '-w' representa el algoritmo de inicio en caliente. Se puede ver que el uso de inicio en caliente puede mejorar el rendimiento hasta cierto punto, pero aún no es efectivo para la estimación del flujo óptico de larga distancia.

fb577b431aa9c0473e896f6c137dea0a.png

Arriba, mostramos una comparación de efectos visuales subjetivos. '-Lim' es un algoritmo de acumulación de flujo óptico [4]. Como puede verse en la figura anterior, es difícil estimar directamente el flujo óptico del primer y último fotograma (izquierda 2), y el método de acumulación (izquierda 3 a 5) ha mejorado. AccFlow supera a otros algoritmos en movimiento con situaciones de oclusión más complejas. Se pueden encontrar más comparaciones visuales en el material complementario.

Responda en el fondo de la cuenta pública CVer WeChat: AccFlow, puede descargar el pdf y el código de este documento

Referencia   

[1] Zachary Teed y Jia Deng. Balsa: Transformaciones de campo recurrentes de todos los pares para flujo óptico. En Proc. Conf.Eur. Computadora. Vis. (ECCV), páginas 402–419, 2020.

[2] Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li y Richard Hartley. Aprender a estimar movimientos ocultos con agregación de movimiento global. En Proc. IEEE/CVF Int. Conf. Computadora. Vis. (ICCV), páginas 9772–9781, 2021.

[3] Xu, Haofei y Zhang, Jing y Cai, Jianfei y Rezatofighi, Hamid y Tao, Dacheng. GMFlow: Learning Optical Flow via Global Matching. En Proc. IEEE/CVF CVPR, páginas 8121-8130, 2022.

[4] SukHwan Lim, John G. Apostolopoulos y Abbas El Gamal. Estimación del flujo óptico mediante vídeo sobremuestreado temporalmente. Traducción IEEE. Proceso de imagen., 14:1074–1087, 2005

Haga clic para ingresar -> grupo de comunicación [Detección de objetivos y transformador]

Descarga de documento y código ICCV/CVPR 2023

 
  

Respuesta entre bastidores: CVPR2023, puede descargar la colección de artículos de CVPR 2023 y artículos de código abierto

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

Supongo que te gusta

Origin blog.csdn.net/amusi1994/article/details/132913827
Recomendado
Clasificación