DEMM: La estimación de profundidad es lo más importante: mejorar la estimación de profundidad por objeto para la detección monocular 3D

1. Frontera

  • Los métodos de percepción monocular 3D, incluida la detección y el seguimiento, tienden a funcionar mal en comparación con las técnicas basadas en lidar. A través del análisis del sistema se encontró quecada objetivoLa precisión de la estimación de la profundidad es el principal factor que afecta el rendimiento .

  • De todas las propiedades de la imagen, incluida la rotación, el tamaño, la profundidad y el centro no modal, se descubrió que sólo influye la profundidad de cada objeto, es decir, la profundidad del centro 3D del vehículo.
    inserte la descripción de la imagen aquí

  • Trabajos recientes (por ejemplo, detección monocular 3D) se han centrado principalmente en aprender directamente de imágenes RGB sin procesar o explotar representaciones pseudo lidar extraídas de mapas de profundidad densa predichos .

  • Las dos representaciones anteriores pueden ser complementarias a la hora de estimar la profundidad de cada objeto, y aprender de cualquiera de ellas por sí sola puede ser subóptimo.

    • Las imágenes RGB en realidad codifican apariencia , textura , geometría 2D , etc., pero no contienen información directa 3D. Es difícil aprender a mapear con precisión las características RGB en profundidad sin ajustar información irrelevante.
    • Las caracterizaciones pseudo-lidar modelan directamente la estructura 3D del objetivo a través del mapa de profundidad densa estimada, lo que simplifica el aprendizaje de la profundidad de cada objetivo; sin embargo, el mapa de profundidad densa estimada suele ser ruidoso (normalmente con al menos un 8 % de error relativo promedio ) .

2. Marco general

inserte la descripción de la imagen aquí

● La figura anterior muestra una descripción general del marco de fusión de múltiples etapas para la estimación de profundidad objeto por objeto: primero, detección de objetos 2D y detección de seguimiento de fotogramas cruzados , creando un tracklet para cada objeto; luego, construyendo una representación pseudo-lidar. del objeto a través de fotogramas , y Las características de imagen RGB del fotograma actual ; la compensación de movimiento automático se aplica a todos los parches pseudo lidar de cada tracklet y se convierte al mismo sistema de coordenadas; finalmente, las características de imagen RGB del fotograma actual y las características pseudo lidar fusionadas en el tiempo se fusionan para generar la profundidad del objetivo por objetivo.

  • El proceso de extracción de la representación pseudo lidar consta de tres pasos:
    • (1) Estimación de profundidad densa para cada imagen
    • (2) Mejorar la profundidad densa prevista para pseudo lidar
      • Mejora cada píxel de todo el mapa de profundidad a una nube de puntos según el modelo de la cámara.
    • (3) Extraer representación pseudo lidar con red neuronal
      • Objetivo bt parche pseudo lidar P t P_t basado en la marca de tiempo del par de cuadros delimitadores 2D tPAGtPara recorte, donde P t P_tPAGtes caja bt b_tbtEl conjunto de puntos pseudo-lidar en .
      • con otro codificador de funciones F p F_pFpextraer objetivo bt b_tbtLa función pseudo lidar PL P_LPAGL

3. Método de fusión en T con compensación del movimiento propio basado en representación pseudo lidar

  • Punto de partida
    • Sin embargo, un método sencillo consiste en fusionar directamente las características de la imagen entre fotogramas .Fusionar directamente características RGB de diferentes fotogramas puede no ser ideal, porque las características RGB combinan el movimiento del ego de la cámara y el movimiento del objeto, lo que dificulta aprender el movimiento y la consistencia temporal de secuencias de imágenes 2D.
    • Para una fusión temporal eficiente de las estimaciones de profundidad, el movimiento de la cámara debe compensarse para garantizar que las características de diferentes fotogramas se encuentren en el mismo sistema de coordenadas. Afortunadamente, el movimiento del ego de la cámara se puede compensar fácilmente en el espacio 3D mediante una representación pseudo lidar . Por lo tanto, se propone un método de fusión en T basado en una representación pseudo-lidar con compensación del movimiento propio.
    • Adivina: estima el movimiento de tu propio automóvil a través de la pseudo nube de puntos de los marcos delantero y trasero, y después de compensar el movimiento del propio automóvil, recorta el mapa de profundidad de otros autos en cada marco y luego fusionalo con el RGB. imagen (obtenida por track)

4. Detalles de la red

  • Usos de extracción de características RGBCentroNetyPista central
    • Objetos como puntos
    • Seguimiento de objetos como puntos
  • Usos de extracción de características pseudo lidarparchenet
  • Seguimiento de detección 2D para formar trackle: basado enfiltro de kalmanrastreador
    • Seguimiento sencillo en línea y en tiempo real
    • El autor dice que usar uno más avanzado podría mejorar:
      • Fairmot: sobre la equidad de la detección y reidentificación en el seguimiento de múltiples objetos
      • Soda: seguimiento de múltiples objetos con asociación de datos blandos
      • Hacia el seguimiento multiobjeto en tiempo real

Supongo que te gusta

Origin blog.csdn.net/qq_35759272/article/details/132567900
Recomendado
Clasificación