Lectura de la velocidad del papel -- LiMoSeg

Lectura de la velocidad del papel – LiMoSeg: segmentación de movimiento LiDAR basada en vista de pájaro en tiempo real

先赞后看,养成好习惯。有帮助的话,点波关注!我会坚持更新,感谢您的支持!

参考
1. LiMoSeg
2. SEGUNDO: Detección convolucional escasamente integrada
3. BEVDetNet

1. Resumen

La detección y segmentación de objetos en movimiento es una de las tareas esenciales en la solución integral de conducción automática. 三帧Este documento propone una nueva estructura de red de segmentación de movimiento de nube de puntos en tiempo real, utilizando datos de nube de puntos continuos , utilizando representación de datos BEV, que muestra una clasificación binaria estática y dinámica a nivel de píxel. Al mismo tiempo, el artículo propone 数据增强un método para reducir efectivamente el desequilibrio entre las clases estáticas y dinámicas, utilizando el recorte artificial de vehículos estáticos en el cuadro pasado y sintetizando el objeto en movimiento en el cuadro actual. La plataforma Nvidia Jetson Xavier prueba 8msla velocidad de inferencia y los resultados de la evaluación cuantitativa están disponibles.

2. Introducción

En comparación con la detección y segmentación de objetos basada en la geometría de la superficie, los métodos de segmentación de movimiento basados ​​en CNN aún son inmaduros. Las cámaras pueden proporcionar información rica en colores, pero carecen de información de profundidad y dependen de las condiciones de iluminación.Lidar tiene una mayor ventaja en las condiciones climáticas y de iluminación.

obra principal :

  • Se propone un nuevo esquema de segmentación del movimiento de la nube de puntos en tiempo real, utilizando la representación BEV para clasificar cada píxel como móvil o estático.
  • Se introduce una capa de cálculo escalonada para mejorar la diferencia de valor de píxel entre las partes dinámicas y estáticas mediante el uso de movimiento de varios fotogramas.
  • Se introduce una tecnología de mejora de datos para lograr el propósito de la simulación mediante la rotación y traducción de objetos estáticos en marcos continuos, y resuelve de manera efectiva el problema del desequilibrio entre clases.

Trabajo relacionado :
La mayoría de los esquemas de segmentación de movimiento se basan en la visión, y también hay esquemas de fusión de visión y láser.El esquema de usar la modalidad láser solo se ha vuelto popular recientemente. El método tradicional es el método de RANSAC+clustering. El esquema de flujo de la escena no es sensible al ruido ni a los objetos de baja velocidad, y la mayor parte de la segmentación semántica requiere una gran cantidad de parámetros.

3. Red y método

3.1 Representación de entrada

Después de la alineación de tiempo, el cuadro actual y los dos últimos cuadros (un total de tres cuadros) se utilizan para convertir en un mapa BEV.
Resolución de 0,1 m, x (0,48), y (-16,16), cada nube de puntos de cuadro se convierte en una imagen de 480*320 BEV.
Según la representación de profundidad (rango), faltará información de distancia y los vehículos distantes no se podrán ver en el mapa de profundidad. Además, existe un problema de oclusión en la representación del mapa de profundidad, que BEV superará. Otra ventaja de BEV es la reconstrucción de nubes de puntos en 3D, y es fácil y conveniente construir un índice de píxeles. Los módulos como la planificación descendente también se basan en el espacio BEV, lo que reduce la conversión mutua.

3.2 Aumento de datos

Los métodos de mejora de datos comúnmente utilizados son los métodos de mejora de gt de verdad sobre el terreno o sobremuestreo .

Cómo lo hacemos :
para marcos sin objetos en movimiento, recopilamos todos los conjuntos de puntos que pertenecen a la categoría del vehículo. Use un valor aleatorio uniforme, muestree 连续4帧y traslade el conjunto de puntos estáticos a lo largo de los ejes x e y. En la dirección x de cada cuadro, la cantidad de traslación incremental generará un concepto de movimiento. Marque estos puntos como puntos de vehículos en movimiento y combínelos con los puntos en movimiento en el cuadro actual.

3.3 Estructura de la red

Con BEVDetNet , la red representada por BEV tiene un encabezado de clasificación binaria de punto clave y establece recientemente una estructura de decodificación conjunta y codificación múltiple, que se codifica en la Figura 1.
codificacióninserte la descripción de la imagen aquí

El módulo de extracción de características se llama Downsampling Blocks(DB), utilizando 5 5, 3 3 núcleos de convolución para obtener características de diferentes escalas. Upsampling Blocks(UB), que se utiliza para aumentar la resolución espacial de la entrada y garantizar la salida de la misma dimensión. Procesamos los datos de entrada de tres marcos consecutivos 独立的编码, los enviamos a 3 módulos DB y procesamos los resultados de diferentes etapas 并列和基于乘法的融合. 联合编码Para obtener la interacción en las tres corrientes y obtener la función de desplazamiento relativo del objeto, usamos el operador de multiplicación basado en canales para formar la conexión en la función. 联合解码Hay 4 módulos DB para calcular de manera eficiente características complejas y obtener información de movimiento.

La capa residual calcula la diferencia entre fotogramas después de la compensación de movimiento, y las partes dinámica y estática entre los dos fotogramas generan uno 视差图. Los objetos estacionarios se superponen en un área grande, y esta área obtiene un valor residual grande, y la parte del objeto en movimiento básicamente no se superpone, y el error residual de esta posición es 0.

4. Resultados

Conjunto de datos :
SemanticKITTI

  • Conjunto de entrenamiento: 00-07 + 09-10 (al menos 20 puntos de movimiento por cuadro)
  • Conjunto de validación: 08

pérdida :
entropía cruzada ponderada

Criterios de evaluación :
Iou

Resultados del experimento de ablación
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_36354875/article/details/126585134
Recomendado
Clasificación