CVPR2020 | Exploración de información de visibilidad de objetos en detección 3D

Autor: Jiang días Parque
Fecha : 2020-04-21
Prólogo
Este artículo es un trabajo colaborativo de la Universidad Carnegie Mellon y Argo AI, que ha sido aceptado por CVPR20 (oral). El contenido principal de este artículo es la detección de objetivos 3D basada en la nube de puntos. A diferencia de investigaciones anteriores, este artículo se basa en la observación Se encuentra que las áreas libres y desconocidas no se pueden distinguir en la vista BEV. Como se muestra en los dos cuadros rojos que se muestran en (a) en la figura siguiente, en BEV parece que todos son espacios libres que no contienen puntos. Pero si el láser escaneado por lidar vuelve a dibujar la imagen como se muestra en la figura (b), donde el verde indica el área escaneada por el láser y el blanco es el área desconocida, es decir, el blanco es el área bloqueada por el objeto en primer plano, y el verde es el verdadero Lo que se escaneó, por lo tanto, la información que podemos obtener es que el área del marco rojo a la izquierda indica desconocido, mientras que el lado derecho es en realidad un espacio libre real. Por lo tanto, el autor de este artículo utiliza la información de espacio libre para mejorar la precisión de detección.
Dirección del artículo: https://arxiv.org/pdf/1912.04986.pdf
Resumen del contenido principal
El autor cree que la observación principal mencionada anteriormente en este artículo es que se puede agregar información de espacio libre y desconocida a la red de aprendizaje profundo con información de características disponibles, porque la red de aprendizaje profundo actual no puede distinguir entre desconocidos y De acuerdo con la información del espacio libre, el autor construyó el mapa de visibilidad basado en esta observación, utilizó puntos de referencia como línea de base y adoptó una variedad de estrategias de fusión y métodos de aumento de datos. La superficie experimental final ha mejorado mucho el efecto en Nuscense. Confirme la validez de esta observación. El siguiente es el efecto experimental visual.
1. Resumen
1. Una gran parte de la investigación actual sobre inspección 3D es encontrar una representación adecuada de los datos del sensor 3D. En la actualidad, hay dos tipos de representaciones principales, que son la representación de punto original y la representación de vóxel. Entre ellas, la representación basada en puntos puede retener la información más original sin perder información de estructura geométrica, pero el método basado en puntos está sujeto al costo de tiempo del módulo SA y FP Un gran problema, pero el 3DSSD de CVPR20 de este año adopta la omisión de la capa FP y, al mismo tiempo, mejora el método de detección 3D del diseño del módulo SA, que es comparable al método actual de dos etapas en precisión y puede alcanzar 25FPS. El método basado en voxel se ha desarrollado en gran medida después de la introducción de una convolución escasa, al igual que el método descrito en PV-RCNN en CVPR2020 tiene alta eficiencia y alta precisión, pero la sensación intuitiva es que la voxelización durante el preprocesamiento En este momento, definitivamente habrá pérdida de información, especialmente información detallada. Sobre este tema, el CVPR20 SA-SSD de este año también caracteriza la característica de vóxel en la estructura de nube de puntos más original, haciendo la información geométrica detallada inicial y La fusión de información original de xoel mejora la capacidad de voxelbackbone para percibir información de geometría. Además, también hay una red de detección de GNN este año, por lo que la nube de puntos se representa como un gráfico, y la estructura de la nube de puntos debe construirse durante el preprocesamiento, pero es inevitable que este método tenga un gran costo de tiempo. Por lo tanto, el autor de este artículo también debería explorar dicho método de representación, que debería ser capaz de combinar la información de espacio libre observada en este artículo, y finalmente usar la forma de expresión de voxel.
2. El autor señala que las representaciones de muchas nubes de puntos anteriores se proponen para datos 3D reales, mientras que las nubes de puntos en la escena de conducción autónoma se escanean en tiempo real y solo se pueden contar como 2.5D. Este punto presentado por el autor tiene tal problema. La serie de puntos original se experimentó en el conjunto de datos modelnet40, que son todos datos 3D completos. Para Lidarsweep en tiempo real, en realidad solo hay puntos de superficie, y La parte de oclusión necesita ser reconstruida, y el mapa completo de la nube de puntos después de la reconstrucción se puede contar como información 3D.
3. Debido a que el barrido lidar es información 2.5D, si solo se usa (x, y, z), la información oculta de freespae se perderá. Por lo tanto, este artículo restaura esta información a través de la emisión de rayos 3D: el autor agregó un mapa de visibilidad voxelizado como entrada al espacio libre. El autor también experimentó con el efecto de este espacio libre combinando dos métodos de aumento de datos en este artículo: la expansión de datos de objetos virtuales (SEGUNDO) y la fusión de marcos de tiempo múltiple.
4. Se agregó la entrada de visibilidad de este artículo a las nuscenes, lo que puede mejorar significativamente la precisión de detección del método de sota actual.
2. Introducción
2.1 ¿Qué es la visibilidad en el texto?
Como se mencionó en la introducción, las características de oclusión de los datos de barrido lidar en tiempo real en este documento muestran que estos datos 2.5D solo pueden recopilar los puntos más superficiales, y en realidad hay un problema de oclusión para los puntos después de este punto. El texto se expresa como "una vez que un elemento de escena particular se mide a una profundidad particular, la visibilidad asegura que todos los demás elementos de escena detrás de él a lo largo de su línea de visión estén ocluidos". Esta es también la razón por la cual los datos obtenidos por el sensor 3D se pueden expresar en una estructura bidimensional. De hecho, es más preciso expresarlos como datos 2.5D.
2.2 La importancia de la visibilidad
El artículo señala que en muchas tareas, como la construcción de mapas y las tareas de navegación de conducción autónoma, la visibilidad es un contenido muy importante; pero en la detección de objetivos, no hay ningún artículo que extraiga esta información como información de orientación para mejorar la precisión de la detección. El autor de este artículo declaró que es posible modificar simplemente la arquitectura de aprendizaje profundo y agregar estrategias de aumento de datos para realizar la exploración de información de espacio libre en la detección 3D. Por lo tanto, el autor de este artículo agregó información de visibilidad al método actual basado en voxel de la sota
2.3 La expresión actual de visibilidad
(1) mapa de ocupación: una expresión de uso común en la construcción de mapas de robots móviles
(2) Octomap: forma de representación de visibilidad en composición 3D general
2.4 Métodos actuales basados ​​en Lidar
(1) Métodos de una y dos etapas, se seguirá un artículo de revisión para presentar la comparación de varios métodos nuevos.
(2) Aumento de objetos
En este artículo, el autor mencionó específicamente el método de aumento de datos en SEGUNDO (integrando el gt en la escena utilizada para formar una base de datos, y luego insertando aleatoriamente varios gts de la base de datos para la escena de entrenamiento). En la actualidad, casi todos Han adoptado este método de aumento de datos, y también se debe a que este método de aumento es muy efectivo, pero el autor de este artículo señala que este método de aumento de datos viola la relación de oclusión en escenas reales. Algunos contenidos de aumento de datos se han modificado para adaptarse a la relación de oclusión en escenas reales.
(3) La fusión de barrido de múltiples cuadros es la primera en usar información continua entre cuadros, y la red de detección de objetivos 3D diseñada por RNN se publicó en CVPR18 [1]. SEGUNDO posteriormente agrega la información de los diferentes cuadros en un solo lugar mientras retiene Son relativos a la marca de tiempo del marco actual. También en el CVPR20 de este año, el trabajo de 3D-VID del Instituto de Investigación Baidu puede reducir los resultados de detección de FP a través de la extracción de características espaciales y módulos de fusión espacio-temporal. Este artículo fue presentado en la publicación anterior del blog del autor. Vale la pena mencionar que estos dos artículos están basados ​​en puntos de referencia.
2.5 Contribuciones a este artículo
1. El autor introdujo por primera vez el método de "algoritmos de emisión de rayos" (emisión de rayos), que se utiliza para calcular de manera eficiente la visibilidad de la cuadrícula de voxel. Y confirmó que la información adicional se puede agregar al aprendizaje de gradiente basado en lotes
2. Se agrega un método simple de aumento de datos al método basado en voxel: el autor utiliza el mapa de visibilidad voxelizado como información de entrada adicional.
3. Se confirma que el mapa de visibilidad se puede reemplazar por la combinación de dos métodos actuales de aumento de datos: la fusión entre la expansión de datos del objeto virtual y el barrido LIDAR.
3. Visibilidad para la detección de objetos en 3D
Antes de presentar la estructura, el autor enumera muchos métodos actuales y señala que estos métodos tienen dos innovaciones principales: una es el uso de métodos de aumento de datos que Object inserta en la escena del entrenamiento y la otra es la fusión de características de múltiples cuadros. . El autor también realizará un estudio comparativo sobre estos dos métodos y su propio método. De hecho, según la comprensión del autor, la fusión multitrama puede lograr el efecto de la reconstrucción 3D, que también tiene el efecto distinguible del espacio libre y el espacio desconocido mencionado por el autor en este artículo. En términos de innovaciones en este artículo:
1. El autor introdujo por primera vez un método para calcular eficientemente la visibilidad, llamado algoritmo de emisión de rayos
2. Integre la visibilidad obtenida anteriormente con la estructura actual de la red de aprendizaje profundo
3.1 Estructura de este artículo
estructura de red general
De la siguiente manera, la estructura y el diseño de la red aquí son los mismos que el método anterior basado en voxel, y el proceso específico se puede expresar en dos partes, a saber, anclajes 3D predefinidos y estructura de la red
1. La imagen de la izquierda muestra el método basado en el ancla comúnmente utilizado del método basado en vóxel, es decir, para cada tipo de objeto, establezca el cuadro de anclaje a una cierta distancia en el plano BEV. Cuántas categorías hay y la cantidad de anclajes Crecimiento lineal, por lo que en el artículo de 19 años OHS y el CVPR20 3D-SSD de este año han adoptado el método sin ancla para reducir el consumo de memoria.
2. La imagen de la derecha es el método estándar actual basado en voxel. Primero, la convolución escasa 3D se usa desde el barrido de puntos para reducir la altura a 1, y luego la convolución 2D se usa para retroceder y clasificar el cuadro de anclaje 3D.
Aumento de datos y fusión multitrama
Como se mencionó anteriormente, el método de aumento de datos en este artículo estudia principalmente el "extraer objeto de la base gt e insertarlo en la escena de entrenamiento para el aumento de datos" propuesto por SECOND. Mostrará el efecto mejorado en el posterior experimento de ablación. % También para la fusión de fotogramas múltiples, el registro de fusión de fotogramas múltiples también se usa en este documento, de modo que la información de entrada tiene una dimensión más expresada como (x, y, z, t), y el experimento muestra que el resultado final se puede mejorar en un + 8.6%.
3.2 Cómo calcular la visibilidad
Como se mencionó en el artículo anterior, este artículo aumenta la precisión de detección al agregar información del mapa de Visibilidad. Aquí nos enfocamos en cómo calcular la Visibilidad:
1. Todos sabemos que después de que el radar láser emite luz láser en una dirección determinada, se encuentra con el reflejo de la superficie del objeto y es recibido, y el punto de retorno, es decir, la información de posición del punto de superficie del objeto puede calcularse por el tiempo de vuelo del láser TOF.
2. El método de visibilidad del autor es en realidad un método muy intuitivo: de acuerdo con la posición del punto y el lidar, podemos conectar los dos puntos para formar una línea en el espacio, y el vóxel por el que pasa la línea se marca como espacio libre, punto El vóxel existente se marca como ocupado, y el resto es desconocido (predeterminado). En la implementación, comienza desde el vóxel original y calcula de qué lado sale el vóxel, luego el próximo vóxel investigado es este vólex. Comparta el vóxel de esta interfaz hasta llegar al final del último punto. Se puede expresar como el siguiente proceso de pseudocódigo:
Calcular la visibilidad de una nube de puntos de un solo cuadro
De acuerdo con el algoritmo anterior, solo la última condición de terminación debe cambiarse de llegar a fin a encontrarse BLOQUEADA para terminar, es decir, los datos de la nube de puntos que se han aumentado en realidad se tratan como BLOQUEADOS. Como se muestra en la siguiente figura, aquí (a) representa la escena original, (b) inserta el objeto aumentado pero no agrega ningún procesamiento, se puede ver claramente que hay una obstrucción detrás de la pared Del objeto, esto no es sentido común. Por lo tanto, en (c), se adopta un enfoque de sentido común, es decir, el objeto bloqueado se elimina, pero esto puede provocar el problema de que el objeto insertado se puede eliminar, por lo que el enfoque correcto es eliminar la pared frontal bloqueada, Como se muestra en la figura (d), este es el final del encuentro BLOQUEADO como se mencionó anteriormente.
Calcular la visibilidad de múltiples cuadros
El cálculo anterior de la Visibilidad de Voxel solo calcula la Visibilidad de un solo cuadro. Para el barrido continuo, una idea simple es que, dado que conocemos la posición del sensor inicial, podemos tratar todos los cuadros utilizados como un solo cuadro, pero este método Causará un costo de tiempo relativamente grande. El autor utiliza el filtrado bayesiano para predecir el mapa de visibilidad de cuadros consecutivos. Como se muestra en la siguiente figura, la imagen de la izquierda muestra la vista superior del barrido de un solo cuadro y el mapa de visibilidad correspondiente, donde el rojo significa marcado como ocupar, el azul es espacio libre y el gris es desconocido; la Figura (b) muestra la predicción usando el filtrado Bayesiano Una vista superior de la nube de puntos multitrama y la visibilidad correspondiente, aquí para cada vxole, cuanto más roja, mayor es la posibilidad de ser ocupada.
3.3 Integrar el mapa de visibilidad en la red troncal
Como se muestra en la figura a continuación, los métodos de fusión seleccionados por el autor son fusión temprana y fusión tardía, que en realidad es la diferencia entre la fusión de información original y la fusión de características semánticas.
Aquí está la columna vertebral utilizada en este artículo. Son los puntos de referencia CVPR de 19 años. Los resultados de la red son los siguientes. Este artículo se mejora sobre la base de voxelnet. El voxelnet de voxelnet se divide en pilares, por lo que puede omitir directamente la parte CNN 3D y hacerlo al mismo tiempo. La precisión alcanzada no disminuye.
4. Experimentos
4.1 nusceno
Como se muestra en la figura a continuación, el autor realizó un experimento sobre el punto de referencia de nuscencia. El efecto es el siguiente. Se puede ver que en la mayoría de los casos, la línea de base se ha mejorado mucho.
El efecto de verificación en el conjunto de datos val también es el siguiente:
4.2 Experimento de ablación
Como se muestra en la figura a continuación, se han realizado los siguientes experimentos de ablación para el método de fusión y el tratamiento de objetos aumentados, como la fusión multitrama, etc. El efecto experimental combinado "temprano + perforación + multitrama" es el mejor.
5. El pensamiento del autor.
Este artículo se basa en observaciones y descubrió que en el método SOTA actual, la información del espacio libre no se usa, por lo que el mapa de visibilidad correspondiente se agrega a la red base de acuerdo con esta observación; este artículo realiza experimentos en nuscenes, y el experimento de ablación se realiza lo suficiente; y antes La diferencia entre muchos artículos es que el punto de partida de este artículo no es mejorar los problemas en la estructura de la red, sino observar la información que se ignora en la práctica. Del mismo modo, el autor cree que este artículo está más cerca del proyecto y la capa inferior en comparación con otros artículos de inspección 3D de este año, utilizando una pérdida de información más básica, pero también se puede pensar que el pilar en sí ha perdido información de profundidad, y lo mismo El escaneo lidar tiene un ángulo, ¿podemos usar también esta información? Además, el autor cree que tal espacio libre usa el método de representación de voxel, el foco está en que la información de espacio libre se puede expresar de esta manera, y si se usa el método basado en puntos, no sé cómo adjuntar la información de espacio libre a En punto.

Supongo que te gusta

Origin www.cnblogs.com/YongQiVisionIMAX/p/12742156.html
Recomendado
Clasificación