ICCV 2023 | Interpretación de los aspectos más destacados de los artículos seleccionados por el Instituto de Investigación Megvii

Recientemente, la Conferencia Internacional sobre Visión por Computador ICCV (Conferencia Internacional sobre Visión por Computador) anunció los resultados de la aceptación de trabajos en 2023. Se presentaron un total de 8.068 trabajos para esta conferencia, y la tasa de aceptación fue del 26,8%. ICCV es la principal conferencia académica en el campo de la informática mundial, que se lleva a cabo cada dos años, e ICCV 2023 se llevará a cabo en París, Francia, en octubre de este año. Este año, se seleccionaron 14 artículos del Instituto de Investigación Megvii, que cubren la detección de objetos 3D de visión pura, la detección 3D multimodal, la comparación de imágenes, la estimación de flujo óptico, el registro de nubes de puntos 3D y otros campos. El siguiente es un resumen de los trabajos seleccionados:

01

PETRv2: un marco unificado para la percepción 3D a partir de imágenes multicámara

PETRv2: un marco de percepción 3D de visión unificada únicamente

PETRv2 es un marco unificado para la percepción 3D visual pura. Basado en PETR, PETRv2 primero extiende la codificación de posición 3D en PETR para el modelado de tiempo y realiza la alineación de tiempo de las posiciones de los objetos entre diferentes marcos. Para ser aplicable al aprendizaje multitarea (como la segmentación BEV y la detección de carriles 3D), PETRv2 diseña vectores de consulta específicos para diferentes tareas y utiliza un decodificador de transformador unificado para la decodificación. PETRv2 logra un rendimiento de vanguardia en detección de objetos 3D, segmentación BEV y detección de carriles 3D, y muestra una gran robustez frente al ruido. También llevamos a cabo un análisis de solidez detallado del marco PETR. Esperamos que PETRv2 sirva como base sólida para la percepción 3D.

fbd5a2629a2e6789813c6f83650afedf.png

Palabras clave: codificación de posición 3D, multitarea, marcas de carril, robustez

Enlace en papel: https://arxiv.org/pdf/2206.01256.pdf

Enlace de código: https://github.com/megvii-research/PETR.git

02 

Exploración del modelado temporal centrado en objetos para una detección eficiente de objetos 3D multivista

StreamPETR: un marco de modelado temporal centrado en objetos para la detección 3D solo de visión

Proponemos un marco de detección de objetos 3D solo de visión para el modelado temporal prolongado: StreamPETR. El algoritmo está diseñado para transmisiones de video, entrenado con un número finito seleccionable de cuadros y puede adaptarse a marcos de tiempo más largos o incluso cuadros infinitos durante la prueba. StreamPETR utilizará la cola de memoria compuesta por consultas de destino como una representación de tiempo eficiente y utilizará el mecanismo de atención para un modelado de tiempo eficiente, lo que puede mejorar en gran medida el rendimiento de detección de los detectores de un solo cuadro casi sin costo computacional adicional. En la lista de nuScenes, StreamPETR es el primer algoritmo de detección de objetos 3D solo de visión en línea con un rendimiento comparable al lidar.

cfce50b0dd1e2fb320f65574661e3f0b.png

Palabras clave: modelado de series temporales, consulta de objetos dispersos, rápido

Enlace en papel: https://arxiv.org/pdf/2303.11926.pdf

Enlace de código: https://github.com/exiawsh/StreamPETR

 03

Transformador modal cruzado: hacia una detección de objetos 3D rápida y robusta

Transformador multimodal: Marco de detección 3D de fusión multimodal rápido y robusto

Proponemos un detector 3D rápido y robusto - Cross Modal Transformer (CMT). Nuestro modelo conserva el diseño de DETR, y las características de las diferentes modalidades solo se fusionan a nivel de token, y el método de fusión es el concat más simple. Nuestra arquitectura de modelo único logra un resultado de detección de vanguardia del 74,1 % de NDS en el conjunto de prueba nuScenes, y la velocidad de inferencia supera todos los esquemas existentes. Además, nuestro modelo es muy robusto frente a daños en el sensor y problemas de fluctuación Incluso si todo el LiDAR se daña durante el tiempo de ejecución, nuestro modelo aún puede mantener la precisión de inferencia del modelo de visión pura.

261a99fe4bdbb6b1cdb45345849943cf.png

Palabras clave: rápido, robusto, falla del sensor, alta precisión

Enlace en papel: https://arxiv.org/pdf/2301.01283.pdf

Enlace de código: https://github.com/junjie18/CMT

 04

OnlineRefer: una línea de base simple en línea para la segmentación de objetos de video de referencia

OnlineRefer: un marco simple de segmentación de objetos de video de referencia en línea

La tarea RVOS tiene como objetivo segmentar objetos de video usando instrucciones de lenguaje, y la solución principal actual es el modelo fuera de línea. En este artículo, rompimos el conocimiento anterior de que solo el modelo fuera de línea es adecuado para RVOS y proporcionamos una línea de base en línea llamada OnlineRefer. Basado en Deformable DETR, este método utiliza el cuadro de predicción del cuadro anterior como punto de referencia (propagación de consultas) del cuadro actual para segmentar el objetivo cuadro por cuadro. Nuestro trabajo realiza una propagación de consultas simple en un detector de un solo cuadro y logra el rendimiento de SOTA en Refer-Youtube-VOS y Refer-DAVIS 17. También esperamos que este trabajo sirva de inspiración para la aplicación de Segment Anything Model (SAM) en el campo del video.

9fac3da52c26bbe2753ac5c42a79e03b.jpeg

Palabras clave: segmentación de video, segmentación de palabra clave, SAM

Enlace en papel: https://arxiv.org/abs/2307.09356

Código: https://github.com/wudongming97/OnlineRefer

 05

Warping adaptativo guiado por la incertidumbre para una coincidencia estéreo robusta y eficiente

Coincidencia estéreo robusta y eficiente a través de la deformación de imagen adaptativa guiada por la incertidumbre

Para el problema de estimación de profundidad en la visión binocular, la tecnología de coincidencia estéreo basada en la correlación es la solución principal actual. Sin embargo, existe un problema en la tecnología existente de que es difícil usar un conjunto de modelos de parámetros fijos para mantener un rendimiento estable en una variedad de escenarios complejos. Por lo tanto, llevamos a cabo un estudio en profundidad sobre la solidez del algoritmo de coincidencia estéreo, propusimos un módulo de distorsión de imagen adaptativo basado en la guía de incertidumbre y diseñamos un nuevo marco de coincidencia estéreo CREStereo++, que mejoró efectivamente la solidez del modelo. Este algoritmo ganó el campeonato en la competencia Robust Vision Challenge 2022, y su versión liviana también funcionó mejor que otros algoritmos de la misma magnitud computacional en el conjunto de datos KITTI.

1a160d86134cde915f6e2464be679f27.png

Palabras clave: emparejamiento estéreo, adaptativo, tarea robusta

Enlace en papel: https://arxiv.org/abs/2307.14071

 06

Occ Net: Correspondencia robusta de imágenes basada en la estimación de ocupación 3D para regiones ocluidas

Coincidencia de redes con oclusión: redes robustas de coincidencia de imágenes basadas en la estimación de ocupación 3D

Los métodos de coincidencia de imágenes en su mayoría ignoran la relación de oclusión entre los objetos debido al movimiento de la cámara y la estructura de la escena. Para resolver este problema, proponemos un método de coincidencia de imágenes llamado OccNet, que utiliza modelos de ocupación 3D para describir la relación de oclusión entre objetos y encontrar puntos coincidentes en el área de oclusión. Con el sesgo inductivo codificado en el módulo de estimación de ocupación (OE) combinado con el módulo de conocimiento de oclusión (OA), OccNet puede simplificar enormemente el proceso de iniciar una representación 3D consistente de varias vistas. Evaluamos el desempeño de OccNet en conjuntos de datos simulados y del mundo real, y los resultados experimentales muestran que OccNet supera los métodos de vanguardia existentes, independientemente de las escenas de oclusión.

d6d6f19305592df2872c71619a7adfca.png

No solo puede hacer coincidir los puntos visibles, sino también las líneas en el gráfico (puntos ocluidos)

Palabras clave: emparejamiento, oclusión, estimación de ocupación, 3D, pose

 07

DOT: un entrenador orientado a la destilación

DOT: un optimizador orientado a la destilación

La destilación de conocimiento transfiere el conocimiento del modelo grande al modelo pequeño, y su función de pérdida a menudo incluye pérdida específica de tareas y pérdida de destilación. Encontramos que después de introducir la pérdida por destilación, la pérdida de tarea del modelo de estudiante es aún mayor. Esta es una compensación poco intuitiva. Especulamos que esto se debe a la suboptimización de la pérdida de destilación, ya que la pérdida de tarea del modelo del maestro es menor que la del modelo del estudiante, y una menor pérdida de destilación acerca al estudiante al maestro, lo que resulta en una mejor convergencia de la pérdida de la tarea. Con el objetivo de la optimización insuficiente de la pérdida por destilación, este artículo propone un optimizador DOT orientado a la destilación. DOT considera la tarea y el gradiente de la pérdida por destilación por separado y luego aplica un gran impulso a la pérdida por destilación para acelerar su optimización. Mostramos experimentalmente que DOT rompe esta compensación, es decir, ambas pérdidas están completamente optimizadas.

624d0e99e9b9549e73135746da0299ca.png

Palabras clave: destilación de conocimiento, algoritmo de optimización, método de momento

Enlace en papel: https://arxiv.org/abs/2307.08436

 08

Destilación de conocimiento espacial acumulativo para transformadores de visión

Destilación de conocimiento espacial de gradiente para ViT

Extraer conocimiento de CNN es un arma de doble filo para ViT. El sesgo inductivo local amigable con la imagen de CNN ayuda a ViT a aprender más rápido y mejor, pero trae dos problemas: (1) El diseño de red de CNN y ViT es completamente diferente, lo que resulta en diferentes niveles semánticos de características intermedias, lo que hace que los métodos espaciales de la transferencia de conocimiento es ineficiente. (2) Extraer conocimiento de CNN limita la convergencia de la red en el proceso de entrenamiento posterior, porque la capacidad de ViT para integrar información global está inhibida por la supervisión de polarización inductiva local de CNN. Con este fin, proponemos la Destilación Gradiente de Conocimiento Espacial (CSKD). CSKD destila el conocimiento espacial de CNN al token correspondiente de ViT sin introducir características intermedias. CSKD aprovecha el módulo Gradient Knowledge Fusion (CKF), que presenta las respuestas globales de las CNN y enfatiza gradualmente su importancia durante la capacitación. CKF explota el sesgo inductivo local de CNN en la etapa inicial de entrenamiento y explota completamente la capacidad global de ViT en la etapa posterior.

 5d5a1bfb5c4c13a07d3236cda984e47a.png

Palabras clave: destilación de conocimiento, red heterogénea, sesgo inductivo

Enlace en papel: https://arxiv.org/abs/2307.08500

 09

Aprendizaje supervisado de homografía con generación de conjuntos de datos realistas

Aprendizaje supervisado de matrices de homografía generadas a partir de conjuntos de datos reales

Este documento propone un marco iterativo, que incluye una fase de generación y una fase de entrenamiento, para generar datos de entrenamiento realistas para el aprendizaje supervisado de homografías. En la etapa de generación, dado un conjunto de pares de imágenes sin etiquetar, se utilizan una máscara de plano principal preestimada y una homografía entre pares de imágenes para generar pares de imágenes GT con movimiento realista. En la fase de entrenamiento, los datos generados se refinan y utilizan para entrenar la red a través de los dos módulos propuestos, CCM y QAM. La red entrenada se utilizará para actualizar la matriz de homografía preestimada en la siguiente etapa; a través de esta estrategia iterativa, la calidad de los datos y el rendimiento de la red se pueden mejorar gradualmente de forma simultánea.

114eea1004d44e47b1a165b121c3dbfd.jpeg

Palabras clave: Estimación de Homografía, Aprendizaje Supervisado, Generación de Datos

Enlace en papel: https://arxiv.org/abs/2307.15353

 10

MEFLUT: tablas de búsqueda 1D no supervisadas para fusión de imágenes de exposición múltiple

MEFLUT: Fusión multiexposición basada en tabla de búsqueda 1D no supervisada

Este documento presenta un nuevo método para la fusión de imágenes de exposición múltiple (MEF). Descubrimos que los pesos de fusión para las imágenes expuestas se pueden codificar como una tabla de búsqueda 1D (1D LUT), que toma valores de intensidad de píxel como entrada y genera los pesos de fusión correspondientes. Aprendemos una LUT 1D independiente para cada imagen de exposición, y luego todos los píxeles en diferentes exposiciones pueden consultar de forma independiente la LUT 1D correspondiente para una fusión eficiente y de alta calidad. Para aprender estos LUT 1D, introducimos un mecanismo de atención en múltiples dimensiones de la red MEF construida para mejorar significativamente la calidad de la fusión. En segundo lugar, a diferencia de los métodos anteriores que rara vez consideran la implementación real, construimos LUT 1D a través de la red ya entrenada. En la implementación real, solo se deben implementar LUT 1D en lugar de toda la red. Este método puede estar libre de cualquier restricción de plataforma. , puede implementarse con alta calidad y alta eficiencia. Además, recopilamos un nuevo conjunto de datos MEF que contiene 960 muestras. Llevamos a cabo extensos experimentos en conjuntos de datos recopilados, así como en conjuntos de datos disponibles públicamente para verificar la efectividad de nuestro método.

a0d30e6b6927b5b609bdc9cddf464018.png

Palabras clave: imágenes de exposición múltiple, alto rango dinámico, sin supervisión, rápido, eficiente

 11

Aprendizaje del flujo óptico de una cámara de eventos con un conjunto de datos renderizado

Aprendizaje de flujo óptico para cámaras de eventos basado en datos de representación 

Este documento propone un conjunto de datos de alta calidad con datos de eventos precisos y etiquetas de flujo óptico basadas en tecnología de representación de gráficos por computadora, denominada MDR. Además, este documento propone un módulo de ajuste adaptativo plug-and-play ADM, que se utiliza para ajustar los datos de eventos de entrada al mejor intervalo de densidad y cooperar con la red de estimación de flujo óptico para obtener resultados de estimación más precisos. Los experimentos muestran que nuestro conjunto de datos MDR puede facilitar el aprendizaje de la estimación de flujo óptico basada en cámaras de eventos, y que las redes de estimación de flujo óptico anteriores pueden mejorar constantemente su rendimiento cuando se entrenan en nuestro conjunto de datos. Además, las tuberías principales de estimación de flujo óptico equipadas con nuestro módulo ADM pueden mejorar aún más el rendimiento.

210c5c33e42fef3ad0f9e65c819da385.png

Palabras clave: cámara de eventos, flujo óptico, conjunto de datos sintéticos

Enlace en papel: https://arxiv.org/abs/2303.11011

  12

GAFlow: incorporación de la atención gaussiana en el flujo óptico

GAFlow: Estimación de flujo óptico con mecanismo de atención gaussiana

En este artículo, proponemos un nuevo método de estimación de flujo óptico que introduce la atención gaussiana en el modelo de flujo óptico (GAFlow) para enfatizar las características locales durante el aprendizaje de la representación y hacer cumplir la correlación de movimiento durante la coincidencia. Específicamente, este documento propone una capa restringida gaussiana (GCL) y un módulo de atención guiada gaussiana (GGAM); estos módulos basados ​​en gaussiana se pueden integrar de forma natural en los marcos de flujo óptico existentes. La capa de restricción gaussiana se puede conectar al módulo Transformador existente para fortalecer el aprendizaje de características del vecindario local que contiene información estructural de grano fino; el módulo de atención guiada gaussiana no solo hereda las características del vecindario de la distribución gaussiana, sino que también se enfoca en el En Regiones de aprendizaje dinámico dependientes de la escena. Los experimentos muestran que GAFlow logra un mejor rendimiento tanto en las pruebas de generalización como en los puntos de referencia en línea.

fd9f0543e045d5386defb3acbd30e720.png

Palabras clave: flujo óptico, atención gaussiana

  13

Desenredo de movimiento explícito para una estimación de flujo óptico eficiente

Estimación de flujo óptico eficiente basada en desacoplamiento de movimiento explícito

Este documento propone un nuevo marco de estimación de flujo óptico EMD-Flow, que separa el aprendizaje de movimiento global de la estimación de flujo óptico local, de modo que la coincidencia global y el refinamiento local puedan procesarse con menos recursos informáticos. La red contiene dos nuevos módulos: Multiscale Motion Aggregation (MMA) y Confidence-Guided Optical Flow Propagation (CFP), que aprovechan al máximo la información de coincidencia entre escalas y los mapas de confianza autónomos para manejar la incertidumbre densamente coincidente, generar una información inicial más densa flujo óptico. Finalmente, con un módulo de decodificación liviano para manejar pequeños desplazamientos, se realiza un marco de estimación de flujo óptico eficiente y estable. Los experimentos demuestran que EMD-Flow logra un mejor equilibrio entre el rendimiento y el tiempo de ejecución en conjuntos de datos de flujo óptico estándar.

1a37e31f5e77d9ae615d77da54625147.png

Palabras clave: flujo óptico, desacoplamiento de movimiento, modelo eficiente

   14

SIRA-PCR: Adaptación de Sim a Real para registro de nubes de puntos 3D

SIRA-PCR: registro de nubes de puntos 3D basado en la adaptación de dominios sintéticos a reales

Construimos el primer conjunto de datos de síntesis de escenas interiores a gran escala para el registro de nubes de puntos 3D, llamado FlyingShapes, basado en el conjunto de datos de escenas interiores simuladas 3D-FRONT. Al mismo tiempo, también proponemos un canal de adaptación de dominio generativo de datos sintéticos a datos reales, denominado SIRA. Entre ellos, se utiliza un módulo de remuestreo adaptativo para eliminar las diferencias de distribución de bajo nivel entre los datos de nube de puntos sintéticos y reales. A través de este método, nuestro modelo entrenado logra resultados de registro de última generación en el conjunto de datos de escena interior 3DMatch y el conjunto de datos de escena exterior ETH, logrando tasas de recuperación de registro del 94,1 % y 99,0 %, respectivamente.

89420c6eda3f652dd06537458e25e534.png

Palabras clave: registro de nubes de puntos, adaptación de dominios, conjuntos de datos sintéticos

414dfb7f26c286a4d791f6968ad1f6fb.gif

Supongo que te gusta

Origin blog.csdn.net/Megvii_tech/article/details/132157903
Recomendado
Clasificación