Red de detección de objetos 3D de múltiples vistas para conducción autónoma

1. Resumen

MV3D utiliza la nube de puntos LIDAR y RGB como entradas de red para predecir el cuadro delimitador 3D con dirección. La red contiene dos partes: 1. Generación de propuesta de objetivo 3D; 2. Fusión de características de vista múltiple. Generar cajas de candidatos 3D. Y diseñe un mecanismo de fusión profunda combinado con funciones regionales de vista múltiple, y realice el intercambio de información en la capa intermedia bajo diferentes caminos.

2. Introducción

Tubería de red

3. Trabajo relacionado

Detección de objetos 3D en nube de puntos

La mayoría de los métodos usan nube de puntos 3D con representación de cuadrícula de vóxel, formas deslizantes y Vote3D para usar el clasificador SVM para la detección de objetos 3D. VeloFCN proyecta la nube de puntos a la vista frontal.

Detección de objetos en 3D en imágenes

3DVP utiliza el modo voxel 3D y el detector ACF para detección 2D y estimación de pose 3D. 3DOP utiliza el método de minimización de entropía para reconstruir la profundidad de la imagen binocular y luego ingresarla a la R-CNN para el reconocimiento del objetivo. Mono3D y 3DOP tienen la misma canalización, pero solo usan imágenes monoculares para generar propuestas 3D. Para fusionar la información de series temporales, algunos trabajos combinan la detección de objetivos 2D y la detección de objetivos 3D en combinación con la estructura en movimiento y la estimación del terreno.

Fusión multimodal

[10] Combine imágenes, profundidad, flujo óptico y use un marco híbrido para la detección de peatones en 2D. [7] Fusiona imágenes RGB y de profundidad en una etapa temprana, y entrena un clasificador 2D basado en pose. El método de este artículo se inspiró en [14, 26].

Propuestas de objetos 3D

......

4. Arquitectura de red MV3D

La entrada de la red es una entrada de nube de puntos de vista múltiple e imágenes RGB. Primero, se genera una propuesta 3D a partir de la vista de pájaro, y la fusión de características de vista múltiple se realiza en función de la representación de características de la región.

4.1 Representación de nube de puntos 3D

4.1.1 Representación de la vista de pájaro

La vista de pájaro muestra que contiene información de altura, intensidad y densidad, y la nube de puntos proyectada es discreta para una cuadrícula 2D con una resolución de 0.1 m. Para cada celda, la altura es la altura máxima en la celda. Para obtener información de altura más detallada, la nube de puntos se divide en partes M iguales, y cada sección tiene un mapa de altura, por lo que se pueden obtener mapas de altura M. La característica de intensidad es el valor de reflexión de la nube de puntos más alta de cada celda. La densidad de las nubes de puntos indica el número de nubes de puntos en cada celda. Todas las nubes de puntos deben calcular las características de intensidad y densidad, y las secciones M deben calcular las características de altura, por lo que el canal de características de la vista de pájaro es (M + 2).

4.1.2 Representación de la vista frontal

La vista frontal proporciona características complementarias para la vista de pájaro. Dado que la nube de puntos del radar es muy escasa, proyectarla en el plano de la imagen dará como resultado un mapa de puntos 2D escaso. Este artículo lo proyecta sobre una superficie cilíndrica para generar una vista frontal densa. Dada una nube de puntos 3D p = (x, y, z), las coordenadas de vista frontal correspondientes son:

Donde

 

4.2 red de propuestas 3D

Usando la vista de pájaro como entrada, en la red de detección de objetivos 3D, la vista de pájaro tiene las siguientes ventajas en comparación con la vista frontal y la imagen: 1. Al proyectar en la vista de pájaro, se conserva el tamaño físico del objetivo; Para evitar el problema de oclusión en diferentes espacios: 3. En la escena de la carretera, el objetivo ocupa el pavimento horizontal, la variación en la posición vertical es pequeña y la vista de pájaro puede obtener un cuadro delimitador 3D más preciso.

Dada una vista panorámica, la red genera propuestas de recuadro 3D a partir del recuadro a priori 3D. Los parámetros de cada recuadro 3D son (x, y, z, l, w, h), que representa la posición central del objetivo bajo el sistema de coordenadas de la nube de puntos Y el tamaño del objetivo. Para cada fotograma 3D anterior, el ancla correspondiente a la vista de pájaro se puede obtener por discretización (x, y, l, w). En este documento, N cuadros anteriores 3D están diseñados por el valor de verdad del conjunto de entrenamiento de agrupación. Para el automóvil, el valor de (l, w) es {(3.9, 1.6), (1.0, 0.6)}, y la altura es 1.56m.

Debido a que la nube de puntos láser es escasa, genera muchos anclajes vacíos. Este papel elimina estos anclajes vacíos para reducir la cantidad de cálculo. Para cada ancla no vacía, la red generará una caja 3D. Para una menor redundancia, NMS se utiliza para la supresión.

 

4.3 Red de fusión basada en regiones

4.3.1 Agrupación de ROI de múltiples vistas

Las características desde diferentes perspectivas y modalidades tienen diferentes resoluciones. El ROI Pooling se utiliza para obtener vectores de características de la misma longitud en cada vista. En este documento, las propuestas 3D generadas se proyectan en tres vistas: vista de pájaro (BV), frente Vista (FV) y plano de imagen (RGB), dada una propuesta 3D, use el siguiente modelo para obtener el ROI de cada vista:

Dado un mapa de características de entrada x de la red front-end de cada vista, obtenemos  características de longitud fija fv a través de la agrupación de ROI:

 

4.3.2 Integración profunda

 , 

4.3.3 Regresión de caja 3D con dirección

Regrese a los 8 vértices del cuadro 3D .

La pérdida de tareas múltiples se usa para predecir la categoría y la orientación del objetivo. La pérdida de entropía cruzada se usa para la pérdida de categoría, y la pérdida l1 se usa para la pérdida de caja 3D. Las condiciones para que las propuestas 3D sean muestras positivas son: el IOU de las propuestas y el valor verdadero es mayor que 0.5, de lo contrario es una muestra negativa. En la etapa de inferencia, se utiliza NMS en el cuadro 3D, y el umbral es 0.05.

4.3.4 Regularización de la red.

 Para cada iteración, elegimos aleatoriamente hacer una ruta de acceso global o una ruta de acceso local con  una probabilidad del 50%, si es una ruta de acceso global, seleccione aleatoriamente una de las tres vistas, si es una ruta de acceso local, ingrese La ruta tiene un 50% de posibilidades de caerse. Asegúrese de que haya al menos una entrada.

 agregar rutas auxiliares y pérdidas a la red

 

 

5. Experimento

 

Supongo que te gusta

Origin www.cnblogs.com/ahuzcl/p/12691286.html
Recomendado
Clasificación