Estado de la investigación y tendencia de desarrollo del algoritmo SLAM basado en lidar 3D

Autores: Xue Guanghui, Li Ruixue, Zhang Zhenghao, Liu Rui

Fuente: Información y Control

Editor: Zheng Xinxin @一点Inteligencia Artificial

Invitación a unirse al grupo: 7 grupos de intercambio de direcciones profesionales + 1 grupo de demanda de datos

Dirección original: Estado de la investigación y tendencia de desarrollo del algoritmo SLAM basado en lidar 3D

00  resumen

El algoritmo SLAM es el vínculo clave para que el robot móvil realice un movimiento autónomo. LiDAR tiene las ventajas de una precisión de alto alcance, insensibilidad a interferencias externas y una construcción de mapas intuitiva y conveniente, y se usa ampliamente en la construcción de mapas de escenas grandes y complejos en interiores y exteriores. Con la aplicación y popularización de los láseres 3D, los académicos nacionales y extranjeros han logrado resultados fructíferos en la investigación de algoritmos SLAM basados ​​en lidar 3D.

Este artículo clasifica el estado de la investigación nacional y extranjera de los algoritmos SLAM láser 3D en la asociación de datos front-end y la optimización back-end, analiza y resume los principios, ventajas y desventajas de varios algoritmos SLAM láser 3D y esquemas de mejora, y expone el aprendizaje profundo. y fusión de múltiples sensores La aplicación de la teoría y la tecnología en el algoritmo SLAM láser 3D, señalando la fusión de información de múltiples fuentes, la combinación con el aprendizaje profundo, la solidez de los escenarios de aplicación, el marco general del algoritmo SLAM y la penetración de la tecnología de sensores móviles e inalámbricos. El sistema de señal son los factores clave de los puntos críticos de investigación y las tendencias de desarrollo del algoritmo SLAM láser 3D.

Los resultados de la investigación tienen un importante valor de referencia y significado orientador para el algoritmo SLAM láser 3D y la investigación del posicionamiento en tiempo real y la construcción de mapas de robots móviles en entornos desconocidos.

01 Introducción

El marco clásico del algoritmo SLAM incluye dos partes: asociación de datos de front-end y optimización de back-end, como se muestra en la Figura 1. Con base en los datos de la nube de puntos medidos por LIDAR, el front-end realiza el registro cuadro a cuadro mediante coincidencia de escaneo y detección de bucle cerrado para obtener la relación entre diferentes datos de nube de puntos cuadro a cuadro, actualiza continuamente la estimación de posición, y almacena la información del mapa correspondiente; el back-end mediante mantenimiento y Optimice la pose del robot y las restricciones de observación obtenidas por el front-end, y obtenga la estimación de máxima verosimilitud del mapa construido y la pose actual del robot.

Figura 1 Marco del algoritmo Laser SLAM

Según los sensores utilizados, los algoritmos SLAM se dividen aproximadamente en dos tipos: algoritmos SLAM visuales basados ​​en sensores visuales y algoritmos SLAM láser basados ​​en lidar. En comparación con los sensores visuales, LIDAR tiene las ventajas de una alta precisión de alcance, menos susceptible a interferencias externas como la iluminación y los cambios de ángulo de visión, y una construcción de mapas intuitiva y conveniente. Se utiliza ampliamente en la construcción de escenas interiores y exteriores complejas a gran escala. mapas.

Lidar se divide en Lidar 2D y Lidar 3D según el número de líneas láser. En la actualidad, el desarrollo de la tecnología SLAM láser 2D está relativamente maduro y se ha aplicado en robots de servicios y sitios industriales.

El radar láser 2D emite y recibe láser de una sola línea al mismo tiempo. Tiene una estructura simple, alta velocidad de escaneo, alta resolución angular, bajo consumo de energía y precisión de centímetros, pero está limitado por el entorno del avión y no se puede aplicar a entornos todo terreno. Escenas como onduladas o pendientes no pueden realizar el posicionamiento y la construcción de mapas.

El radar láser 3D mide la información geométrica entre él y los objetos en un entorno desconocido mediante la emisión de múltiples rayos láser y obtiene datos de nubes de puntos que contienen información precisa de distancia y ángulo, reflejando información de la estructura espacial 3D, y cuanto mayor es el número de líneas, mayor es el número de Puntos láser obtenidos Cuanto más, más clara será la descripción de la estructura del entorno.

Con la producción en masa y la popularización del radar láser multilínea, así como la reducción del consumo de energía y la mejora de la potencia informática de los procesadores integrados, el radar láser 3D ha comenzado a avanzar hacia un bajo costo, un bajo consumo de energía y un alto rendimiento. aplicaciones de confiabilidad Los algoritmos SLAM basados ​​​​en radar láser 3D se han desarrollado rápidamente.

El algoritmo LOAM (odometría y mapeo LiDAR) propuesto por ZHANG en 2014 es actualmente el algoritmo SLAM láser 3D más representativo. El principio es dividir el SLAM láser en un método de cálculo de kilometraje y un algoritmo de construcción de mapas, que tiene las ventajas de velocidad rápida, alta precisión, buena robustez y bajo consumo de cálculo; la desventaja es que no hay detección de circuito cerrado y la deriva ocurrirá en pruebas a gran escala y en entornos abiertos Habrá problemas de degradación debido a la falta de funciones. SHAN y otros optimizaron la coincidencia de funciones de LOAM, agregaron detección de bucle cerrado y propusieron LeGO-LOAM, que redujo el tiempo de ejecución en un orden de magnitud en comparación con el algoritmo LOAM y logró una precisión similar o incluso mejor ocupando menos computación. recursos, pero a veces se produjo un error o falta de reconocimiento. Algunos académicos utilizan la iteración lineal Eigen y la optimización no lineal de Ceres Solver para simplificar la estructura del código, reducir la derivación matemática compleja y las operaciones redundantes, y proponen A-LOAM, una implementación avanzada de LOAM.

Además, DESCHAND et al.propusieron un marco de coincidencia de marco a modelo IMLS-SLAM, introdujeron la fórmula de superficie de mínimos cuadrados móviles implícitos (IMLS) y utilizaron el método de minimizar la distancia desde el punto a la superficie implícita para representar la puntos de escaneo del lidar local. Esto proporciona una estimación precisa de la pose, pero no se puede lograr en tiempo real. Como método denso típico, BEHLEY et al.propusieron el algoritmo SuMa (mapeo basado en surfel) para el registro y la detección de circuito cerrado basado en mapas basados ​​en surfel, que es más robusto ante características faltantes o datos faltantes, basándose únicamente en el punto láser. nubes Los datos pueden construir un mapa globalmente consistente en un entorno a gran escala.

La investigación existente sobre el algoritmo SLAM lidar 3D ha demostrado un buen rendimiento en la prueba de conjuntos de datos públicos, la deriva de traslación o rotación es baja y la calidad de la imagen y la precisión de la trayectoria son altas, pero todavía existen muchas limitaciones en las aplicaciones prácticas. : Incluyendo el robustez al entorno, como de interior a exterior o de un entorno estático a un entorno dinámico; requisitos en tiempo real, como en algunas plataformas robóticas como vehículos terrestres no tripulados (UGV), los recursos informáticos son limitados y la informática El posicionamiento de la unidad y la planificación de la ruta deben realizarse al mismo tiempo y el costo de cálculo es relativamente alto.

Los académicos resumieron el trabajo relacionado de SLAM, describieron los problemas generales, modelos y marcos, dificultades y métodos principales de SLAM, revisaron el progreso del trabajo relacionado y discutieron la tendencia de desarrollo de SLAM. Entre ellos, el progreso de los algoritmos introduce principalmente Algoritmo visual SLAM O aspectos específicos de los algoritmos SLAM o sus subcampos, existen pocos estudios que involucren algoritmos SLAM lidar 3D. Zhou Zhiguo y otros describieron el marco del algoritmo SLAM lidar 3D y los módulos clave, pero para la introducción del esquema del algoritmo, solo se seleccionaron 6 algoritmos de código abierto para prueba y comparación, y no se ampliaron en detalles. XU y otros presentaron el proceso de desarrollo y el último trabajo de investigación de SLAM de fusión multisensor basado en lidar 3D.

Este artículo expone sistemáticamente el esquema actual del algoritmo SLAM láser 3D convencional desde el front-end y el back-end del algoritmo SLAM láser 3D, la aplicación del aprendizaje profundo y la fusión de múltiples sensores en SLAM láser 3D, y analiza los problemas y problemas existentes. del actual algoritmo SLAM láser 3D convencional Insuficiente, resuma sus puntos críticos de investigación y tendencias de desarrollo, con el fin de proporcionar referencia y orientación para su investigación de seguimiento.

02 parte delantera SLAM

La interfaz del algoritmo SLAM láser 3D resuelve principalmente el problema de la asociación de datos. La coincidencia de escaneo considera las relaciones de datos locales, mientras que la detección de bucle cerrado se ocupa de las relaciones de datos globales. Tanto la coincidencia de escaneo como la detección de bucle cerrado establecen restricciones entre nodos según el láser. datos del marco.

2.1 Algoritmo de coincidencia de escaneo

La precisión y la eficiencia computacional del algoritmo de coincidencia de escaneo afectan directamente la precisión de la estimación de la trayectoria y la construcción del mapa del algoritmo SLAM, y proporcionan el valor inicial y la relación de restricción del estado del robot para la optimización del back-end. Algoritmos de coincidencia basados ​​en características.

1) Algoritmo de coincidencia basado en ICP

El algoritmo ICP clásico fue propuesto por BESL et al. y CHEN et al. en 1992. El principio es tomar el error de distancia mínima como función objetivo y encontrar iterativamente la mejor relación de transformación entre dos puntos de escaneo en marcos de escaneo adyacentes. Es fácil que este algoritmo caiga en el óptimo local y, cuando aumenta el número de puntos de escaneo, el costo de cálculo es demasiado alto.

Para resolver el problema de que el algoritmo ICP clásico es fácil de caer en el óptimo local y mejorar la eficiencia y precisión, muchos académicos han estudiado el algoritmo mejorado basado en ICP y han optimizado los pasos del algoritmo ICP, incluida la selección de puntos y la comparación. , ponderar y eliminar asociaciones erróneas, o La elección de minimizar la función de costes. Entre ellos, los algoritmos adecuados para LIDAR SLAM 3D incluyen PP-ICP (ICP punto a plano), PL-ICP (ICP punto a línea), GICP (ICP generalizado), NICP (ICP normal), etc. El costo de error del algoritmo PP-ICP es la distancia entre el punto y el plano, mientras que el algoritmo PL-ICP utiliza la distancia desde el punto a la línea como costo de error, que está más en línea con la situación real; GICP combina el algoritmo ICP y el algoritmo PL-ICP, y realiza el registro de nubes de puntos para mejorar la aplicabilidad y precisión; para mejorar la precisión, NICP considera el vector normal y la curvatura de la superficie del entorno.

IMLS-ICP asigna un valor de peso a cada punto y selecciona un punto representativo para hacer coincidir; utilizando la superficie normal local basada en el punto objetivo, la superficie se reconstruye mediante el método IMLS. BLAM calcula preliminarmente la transformación de pose de dos cuadros de datos de nube de puntos a través del algoritmo GICP, obtiene el punto más cercano correspondiente al cuadro actual y usa el algoritmo GICP nuevamente para obtener datos de pose precisos, realiza una detección de circuito cerrado para obtener un mapa. y mejora la precisión del mapeo. El algoritmo LiTAMIN introduce la divergencia simétrica KL (Kullback-Leibler) en la función de costo ICP que refleja la diferencia entre las dos distribuciones de probabilidad, lo que reduce el número de puntos de registro de la nube de puntos y mejora la velocidad de procesamiento; utilizando el árbol KD (árbol de dimensiones K). ) para construir un mapa de cuadrícula de vóxeles, que mejora la precisión y solidez del algoritmo mientras mantiene la precisión del registro. Sin embargo, el gran número de iteraciones necesarias para lograr la convergencia, el requisito de una buena inicialización y la sensibilidad al ruido aún limitan el ICP y sus variantes; además, el costo computacional de aplicar la coincidencia de nubes de puntos sin procesar suele ser alto.

2) Algoritmo de coincidencia basado en características geométricas

El algoritmo de escaneo basado en características geométricas utiliza principalmente características de bordes y planos, y mantiene la coincidencia de bordes y planos, como se muestra en la Figura 2. LOAM extrae características de borde y plano del fotograma actual y hace coincidir fotogramas en función de la suavidad local, y hace coincidir puntos en la nube de puntos actual con bordes y planos en el mapa. También hay muchos estudios que amplían el algoritmo de coincidencia basado en características geométricas para lograr un mejor rendimiento. Por ejemplo, LeGO-LOAM utiliza una optimización del terreno separada antes de la extracción de características. El diagrama de bloques del sistema de software del algoritmo se muestra en la Figura 3. R-LOAM (LOAM de referencia) combina las características de la cuadrícula extraídas de los objetos de referencia para reducir efectivamente la deriva a largo plazo, pero tiene altos requisitos para la precisión de posicionamiento de las cuadrículas 3D y los objetos de referencia. Dado que no se requiere información previa de la relación de conversión de la nube de puntos, las características geométricas de una forma específica se utilizan para resolver iterativamente el algoritmo de coincidencia. La cantidad de cálculo del algoritmo de coincidencia basado en las características geométricas se reduce considerablemente, el tiempo real El rendimiento es bueno, la precisión de coincidencia es alta y se usa ampliamente; la desventaja es que cuando las características geométricas del entorno no son obvias, los resultados pueden ser inexactos e inestables.

Figura 2 Coincidencia de escaneo de funciones

Figura 3 Diagrama de bloques del sistema del algoritmo LeGO-LOAM

Surfel es un método de renderizado basado en puntos que utiliza nubes de puntos en lugar de mallas poligonales para renderizar formas 3D, pero requiere procesamiento de GPU. DROESCHEL y otros utilizaron características de elementos de superficie para registrar escaneo láser 3D continuo con mapas de cuadrícula de resolución múltiple construidos incrementalmente; para lograr precisión en el caso de la escasez de medición y la discretización de la cuadrícula, se utilizó un modelo de mezcla gaussiana de manera probabilística. de facetas mejora la precisión y eficiencia del algoritmo. En referencia al método de procesamiento de Elastic-Fusion en SLAM visual, incluido SuMa, Elastic-LiDAR Fusion aproxima la forma de los datos de la nube de puntos lidar como un contenedor y utiliza las características del contenedor para realizar la odometría láser. El diagrama de bloques del sistema de software del algoritmo SuMa se muestra en la Figura 4.

Figura 4 Diagrama de bloques del sistema del algoritmo SuMa

3) Algoritmo de coincidencia basado en características matemáticas

El algoritmo de coincidencia basado en características matemáticas es un método de coincidencia de escaneo que utiliza varias propiedades matemáticas para caracterizar los cambios de actitud de los datos escaneados y los marcos de datos. El más representativo es el algoritmo de coincidencia basado en la transformación de distribución normal (NDT). una rápida tecnología de modelado espacial para construir un modelo de nube de puntos 3D optimizado.

En 2003, BIBER et al.propusieron un algoritmo 2D-NDT (END de 2 dimensiones) de registro de nube de puntos basado en una función de transformación de distribución normal y lo aplicaron con éxito a SLAM. Utiliza una distribución normal para representar fotogramas clave en el proceso de registro y obtiene una colección de poses globales. Para una gran cantidad de datos de nubes de puntos, el algoritmo NDT es más rápido que el algoritmo ICP para el registro, pero la precisión del registro no es tan alta como la del algoritmo ICP. En 2006, MAGNUSSON y otros propusieron el algoritmo 3D-NDT (END de 3 dimensiones) y lo mejoraron continuamente para hacerlo más adecuado para el registro de datos de nubes de puntos lidar. El algoritmo ONDT (NDT de ocupación) estudia la representación cartográfica de la transformación de distribución normal multidimensional. En comparación con OctoMap y NDT-OM (mapeo de ocupación transformada de distribuciones normales) y otras representaciones de mapas 3D, tiene mayor precisión y menor consumo de memoria. Se ejecuta rápido. El algoritmo RGC-NDT (transformación de distribución normal de agrupamiento de crecimiento regional) utiliza un algoritmo de agrupamiento para capturar características naturales detalladas. En comparación con el algoritmo NDT tradicional, la precisión de coincidencia aumenta en 1,18 veces y el tiempo de coincidencia es solo 1/3. 2021, combinando las ventajas de los algoritmos NDT y similares a ICP, KOIDE y otros propusieron el algoritmo VGICP (GICP voxelizado), que expande el algoritmo GICP mediante voxelización, evita la costosa búsqueda del vecino más cercano y puede realizar de manera rápida y precisa una nube de puntos láser 3D. registro.

2.2 Detección de circuito cerrado

Tanto el cálculo aproximado del front-end de SLAM como el mapeo asintótico del back-end generarán errores de cálculo debido a la desviación de información del sensor y continuarán acumulándose. La detección de circuito cerrado es un módulo clave para evitar la acumulación excesiva de errores. Si el circuito cerrado real se detecta correctamente, puede reducir en gran medida el error de estimación de la pose y otra información en los dos momentos correspondientes, y luego corregir los errores de la pose y la información del mapa en el momento global relevante; Si los dos conjuntos de nubes de puntos obtenidos al juzgar erróneamente la distancia real entre sí son bucles cerrados, puede llevar a una gran desviación en el cálculo aproximado de la pose global y la información del mapa, e incluso hacer que la información de restricción sea inconsistente e irresoluble. Con el tiempo, restricciones de circuito cerrado más compactas y precisas pueden formar un mapa de trayectoria topológicamente consistente, y su precisión y eficiencia son fundamentales para SLAM. El proceso se muestra en la Figura 5. Dado que la información de los datos de la nube de puntos del láser 3D es única, desordenada y escasa, a medida que aumenta el tiempo de coincidencia de la nube de puntos, SLAM a menudo tiene problemas como trayectorias inexactas y mapas de construcción superpuestos. Pero en la actualidad, todavía no existe una solución óptima ampliamente reconocida para la detección de cierre de bucle.

Figura 5 Detección de cierre de bucle (el verde es la nube de puntos del cuadro actual, el rojo es la nube de puntos del cuadro de bucle histórico)

OLSON juzga la similitud de dos cuadros de datos láser mediante rotación y traslación, y adopta el método de coincidencia de escaneo de correlación para lograr el efecto de detección de circuito cerrado. LeGO-LOAM utiliza el algoritmo ICP combinado con la distancia euclidiana para la detección del cierre del bucle. Sin embargo, estrategias tan simples que utilizan estimación geométrica pueden no ser efectivas para la detección de cierre de bucle en entornos a gran escala debido al gran error de deriva acumulativo de la odometría frontal.

Además de la coincidencia directa punto a punto de dos conjuntos de nubes de puntos, otro método consiste en utilizar información geométrica, información de intensidad u otros métodos para construir descriptores y luego comparar los descriptores para medir la similitud. sobre diseño manual y aprendizaje profundo. El primero puede procesar directamente nubes de puntos 3D, incluidos descriptores locales, descriptores globales y descriptores híbridos; el segundo necesita expresar nubes de puntos 3D en un formato que pueda procesarse mediante aprendizaje profundo, como el preprocesamiento en estructuras. Representación optimizada de tamaño fijo. La extracción eficaz de descriptores de características con capacidad discriminativa y solidez es también uno de los problemas al que los académicos prestan atención y estudian.

El descriptor local se extrae de cada posición de punto clave y la coincidencia de escenas se realiza de acuerdo con el modelo de bolsa de palabras, lo que mejora la capacidad de coincidencia y la solidez. Se han propuesto muchos métodos de detección de puntos clave, como 3DSift (tamiz tridimensional), 3DHarris (Harris tridimensional), 3D-SURF, ISS (firmas de formas intrínsecas) y descriptores locales como SHOT (firma de histograma de orientación) , B-SHOT (firma binaria del histograma de orientación), ISHOT (firma de intensidad del histograma de orientación) y FPFH (histograma de característica de punto rápido).

Los descriptores locales son menos robustos a las características dispersas y discontinuas de las nubes de puntos láser, ignorando la relación entre las características locales; generalmente requieren muchos cálculos geométricos locales, mientras que los descriptores globales son mejores para detectar puntos clave con alta repetibilidad. La coincidencia se realiza a nivel global. punto de nube. M2DP (proyección 2D multivista) proyecta la nube de puntos en múltiples planos 2D y genera una firma de densidad para los puntos de cada plano, y los vectores singulares izquierdo y derecho de estas firmas se utilizan como descriptores globales. Basado en el descriptor 3D invariante de traslación y rotación de relaciones geométricas, GLAROT-3D (relaciones de hitos geométricos 3D invariante de rotación) codifica las posiciones geométricas relativas de pares de puntos clave en un histograma. El método Scan Context utiliza datos en un formato de matriz bidimensional que almacena valores de altura como descriptor; también propone una fusión de puntuación de similitud y búsqueda del vecino más cercano para lograr una búsqueda rápida y un algoritmo de búsqueda de dos etapas para detectar bucles.

Al integrar características de geometría e intensidad, WANG et al.propusieron una estrategia de reidentificación de ubicación jerárquica de dos etapas ISC (contexto de escaneo de intensidad) para mejorar la eficiencia, incluida la recuperación rápida de la geometría y la coincidencia de la estructura de intensidad basada en operaciones binarias. Inspirándose en el iris humano, LiDAR Iris codifica la información de altura del entorno en intensidad de píxeles y extrae una imagen característica binaria para discriminar, y utiliza la distancia de Hamming de la imagen correspondiente para calcular la similitud. Para segmentar la nube de puntos en diferentes objetos, Seed codifica la información topológica de los objetos segmentados en un descriptor global. Estos métodos codifican estructuras geométricas en descriptores y han logrado buenos resultados. Sin embargo, aún faltan la capacidad de descripción y el rendimiento de invariancia de rotación de los descriptores globales o locales de láseres. La integración de características más avanzadas puede mejorar aún más la capacidad de identificación de descriptores.

Basado en descriptores mixtos como SegMatch (coincidencia de segmentos) y SegMap (mapeo de segmentos), se agrega una nube de puntos en múltiples segmentos, se extraen las características del segmento y se utiliza el algoritmo KNN (K-vecino más cercano) para identificar los objetos correspondientes. , Combinado con local Las ventajas de la descripción y la descripción global resuelven el problema de los datos de nubes de puntos escasos y de forma única. Los descriptores SegMap abordan los requisitos de compresión de datos de sistemas de uno o varios robots en tiempo real, y también se pueden utilizar para la reconstrucción de mapas 3D y la extracción de información semántica de entornos densos para tareas de navegación y retroalimentación visual para usuarios finales, como operadores de robots. SegGraph (gráfico de segmentos) utiliza la coincidencia de bordes como base principal después de segmentar la nube de puntos y realiza una detección de circuito cerrado basada en el método de determinación de subgrafo común K.

03 backend de SLAM

En el algoritmo SLAM láser 3D, el propósito de la optimización de back-end es combinar las restricciones de pose y movimiento entre fotogramas de cada fotograma del radar para lograr una optimización general, a fin de eliminar los errores acumulativos locales y generar una estimación del mapa ambiental basada en Según los datos proporcionados por el front-end, incluye principalmente el filtrado Hay dos formas de pensar: filtro de Kalman extendido y optimización no lineal. El filtrado utiliza principalmente el filtrado de Kalman extendido para obtener la estimación óptima, que tiene problemas como mala adaptabilidad y falta de bucle. detección y eficiencia de actualización lenta. Es difícil de aplicar en entornos a gran escala con muchos bucles y largas distancias; no lineal El esquema de optimización está representado por la optimización de gráficos, que realiza una optimización global y toma todos los datos en consideración. Aunque aumentará la cantidad de cálculo, la precisión de la fusión es mayor. La comparación antes y después de la optimización de back-end se muestra en la Figura 6. Cómo corregir eficientemente la postura del movimiento y mejorar la precisión del mapa a través de la optimización de back-end es un punto importante de investigación del algoritmo SLAM.

Figura 6 Comparación antes y después de la optimización de backend

3.1 Algoritmo SLAM basado en estimación de filtro

El algoritmo SLAM basado en la teoría del filtrado utiliza principalmente el principio de estimación bayesiana, que se puede dividir en algoritmo SLAM basado en filtro de Kalman y algoritmo SLAM basado en filtro de partículas.

El algoritmo SLAM basado en el filtro de Kalman extendido logra SLAM linealizando el modelo de movimiento no lineal y el modelo de observación, lo que introducirá errores de linealización, poca robustez y baja eficiencia computacional. JULIER et al estudiaron el método del filtro Kalman sin aroma, que realiza una transformación sin aroma en el sistema no lineal, y su precisión es mayor que la del método de filtro Kalman extendido.

El método de filtro de partículas utiliza una cierta cantidad de partículas ponderadas para representar la distribución de probabilidad posterior del estado, que puede usarse para sistemas no lineales y no gaussianos. MURPHY y otros propusieron el algoritmo RBPF (filtro de partículas Rao-Blackwellized), que utiliza el algoritmo de filtro de Kalman extendido y el algoritmo de filtro de partículas para resolver los problemas de corrección y estimación de la posición del robot, lo que reduce en gran medida la complejidad computacional del algoritmo. Fast-SLAM es un algoritmo SLAM basado en RBPF que mejora la precisión del mapa. GRISETTI et al. consideraron el modelo de información del sensor y utilizaron tecnología de remuestreo adaptativo para mantener un tipo de partícula razonable, y propusieron gmapping para mejorar el problema de degradación de partículas, lo que generó un mapa de alta precisión utilizando un número de partículas de un orden de magnitud menor que el método anterior. Es un hito en el SLAM láser.

3.2 Algoritmo SLAM basado en optimización no lineal

El marco del algoritmo de optimización de gráficos fue propuesto por LU et al., y es uno de los marcos SLAM más utilizados en la actualidad. El marco del algoritmo de optimización de gráficos logra el propósito de optimización manteniendo los nodos clave, lo que reduce en gran medida la cantidad de cálculo y garantiza la precisión, como se muestra en la Figura 7. Los algoritmos basados ​​en la optimización de gráficos se pueden dividir en cuatro tipos: optimización basada en mínimos cuadrados, optimización basada en relajación, optimización basada en descenso de gradiente estocástico y optimización múltiple. KONOLIGE y otros propusieron la solución de código abierto Karto SLAM para gráficos de actitud 2D, que hasta cierto punto reemplazó la solución SLAM basada en la teoría de filtrado, pero el rendimiento en tiempo real es deficiente. Cartographer fusiona datos de múltiples sensores para crear submapas locales y utiliza algoritmos de coincidencia de submapas para la optimización global. Puede construir mapas de nubes de puntos 2D y 3D con alta eficiencia y buena robustez. La desventaja es que consume muchos recursos informáticos. Los recursos son insuficientes, es posible que el loopback normal no sea posible.

Figura 7 Marco del algoritmo de optimización de gráficos

Ya existen bibliotecas maduras de código abierto de C ++ para problemas de optimización no lineal, como: la biblioteca de código abierto de Goole, Ceres Solver, las bibliotecas de optimización de código abierto basadas en la optimización de gráficos incluyen iSAM (suavizado y mapeo incremental), GTSAM (suavizado y mapeo tecnológico de Georgia), G20 (optimización general de gráficos), BA (ajuste de paquete), etc., con la ayuda de estas bibliotecas de optimización, puede ahorrar el tiempo de resolver iterativamente el valor de optimización en el back-end.

04  Algoritmo SLAM láser 3D basado en aprendizaje profundo

El método basado en el aprendizaje profundo aprende basándose en datos y puede obtener un modelo más preciso que el diseño manual. La combinación de SLAM y aprendizaje profundo consiste principalmente en aplicar el aprendizaje profundo a uno o varios enlaces del marco SLAM tradicional, como la estimación entre cuadros, la detección de bucle cerrado, etc., para mejorar la eficiencia, precisión y solidez de SLAM. algoritmo.La Tabla 1 enumera algunos algoritmos de aprendizaje de funciones que realizan estimaciones entre cuadros y detección de bucle cerrado, o utilizan el aprendizaje profundo para extraer información semántica y construir mapas semánticos en SLAM semántico para mejorar la capacidad de comprensión autónoma de los robots.

El algoritmo de fondo se ha desarrollado gradualmente desde el filtrado lineal hasta la optimización no lineal. Entre ellos, la combinación de optimización de gráfico de factores y ventana deslizante se usa ampliamente en varios sistemas de mapeo y posicionamiento de fusión debido a su buen tiempo real y robustez.

Tabla 1 Algoritmo de aprendizaje de características para la estimación entre cuadros y la detección de cierre de bucle

4.1 Estimación entre cuadros

En comparación con el algoritmo de coincidencia de escaneo anterior basado en la estrategia de proximidad de información geométrica, el método de estimación entre cuadros basado en el aprendizaje profundo tiene un rendimiento excelente. Sin embargo, debido a la escasez de datos y al alto costo computacional, los modelos convolucionales tradicionales no se pueden aplicar directamente a las nubes de puntos. En general, hay dos formas de implementar la estimación entre cuadros utilizando el aprendizaje profundo:

1) Método de registro de nube de puntos basado en el aprendizaje de funciones

如GMM(modelo mixto gaussiano)、3DFeat-Net、FCGF(características geométricas totalmente convolucionales)、Siamese-PointNet(red de puntos siamesa)、UGMMReg(registro de modelo mixto gaussiano unificado);

2) Método de registro de nube de puntos basado en un modelo de red profunda de un extremo a otro

如DeepGMR(registro de mezcla gaussiana profunda)、3DRegNet(red de registro 3D)、MLP_GCN(redes convolucionales de gráfico de perceptrón multicapa)、IPCR(registro iterativo de nube de puntos)。

Muchos experimentos existentes muestran que la aplicación directa de la teoría matemática del registro requiere un tiempo de cálculo enorme, y la aplicación directa del aprendizaje profundo no puede garantizar la precisión. La combinación directa del aprendizaje profundo y el ICP aún requiere un tiempo de cálculo elevado. La integración de la teoría matemática tradicional y las redes neuronales profundas en un marco de un extremo a otro para lograr una alta precisión y eficiencia es una dirección de investigación futura.

4.2 Detección de circuito cerrado

La detección de circuito cerrado tradicional utiliza principalmente funciones seleccionadas manualmente, lo que tiene baja precisión y una gran cantidad de cálculos. En comparación con las características tradicionales diseñadas artificialmente, el aprendizaje profundo puede extraer de manera eficiente características que no son sensibles a factores independientes de la clasificación y tienen una alta discriminación a través de una gran cantidad de capacitación en aprendizaje y una construcción de red razonable.

En los últimos años se han desarrollado paulatinamente algoritmos de detección de cierre de bucles basados ​​en aprendizaje profundo. PointNetVLAD (PointNet y NetVLAD) usa PointNet para extraer características locales, usa NetVLAD para agregar características globales y extrae descriptores globales de la nube de puntos 3D de un extremo a otro. DH3D (3D jerárquico profundo) aprende características locales de la nube de puntos 3D original y luego utiliza un mecanismo de atención para agregar estas características en un descriptor de características global. KOMOROWSKI propuso un método de extracción de descriptores de nubes de puntos global basado en una representación de nube de puntos alternativa y una arquitectura de red: MinkLoc3D. propuso una red de transformadores de nube de puntos piramidales PPT-Net (red de transformadores de nubes de puntos piramidales), utilizando el módulo Transformador de puntos piramidales para mejorar la distinción de características locales y generar descriptores globales. FastLCD (método de detección de cierre de bucle rápido y compacto) extrae directamente características multimodales de escaneos de nubes de puntos sin procesar y las codifica en descriptores integrales globales, que son invariantes a la rotación. NDT-Transformer realiza la detección de cierre de bucle aprendiendo los descriptores globales de unidades END procesadas livianas para nubes de puntos a gran escala. ZHOU et al.propusieron un método de detección de bucle cerrado basado en descriptores de profundidad 3D locales, que detecta bucles cerrados a través de un nuevo método de cálculo de superposición y logra una mayor precisión. Overlap-Transformer es una red neuronal Transformer liviana que construye descriptores globales basados ​​en imágenes de profundidad para la detección de cierre de bucle.

Debido al sorprendente rendimiento y la alta madurez de los descriptores de características de imágenes (como SIFT (transformación de características invariantes de escala)), la detección de cierre de bucle basada en imágenes se ha desarrollado rápidamente. Sin embargo, no existe un método maduro similar para datos de nubes de puntos 3D. Los descriptores se extraen en la nube y luego se codifican como descriptores globales para tareas de recuperación. Aunque también ha habido resultados revolucionarios para los descriptores basados ​​en el aprendizaje profundo, su grave limitación es la gran cantidad de datos de entrenamiento requeridos, lo que hace que estos métodos no sean aplicables cuando se entrenan y se aplican a datos obtenidos en diferentes terrenos o bajo diferentes condiciones; y generalmente requieren GPU, manteniendo la precisión, la exploración de estructuras de red livianas y la búsqueda de rendimiento en tiempo real son puntos de investigación actuales.

Es difícil garantizar una detección precisa de circuito cerrado con características geométricas en entornos hostiles, mientras que la información semántica no se ve afectada fácilmente por factores ambientales y es una característica estable a largo plazo. El método basado en información semántica puede construir un sistema de posicionamiento estable a largo plazo y realizar una detección de circuito cerrado. GOSMatch (coincidencia de gráfico de semántica) utiliza objetos semánticos en la escena para detectar bucles cerrados y construye descriptores globales y locales codificando la relación espacial entre objetos semánticos para realizar la detección de bucle cerrado. propuso un descriptor global SSC (contexto de escaneo semántico) basado en datos láser 3D que combina información semántica y contexto de escaneo, y utiliza un método de recuperación de tres etapas para lograr la detección de cierre de bucle. Zhang Jianhua et al.propusieron un método basado en restricciones de coincidencia de segmentos de nubes de puntos para mejorar la eficiencia de la detección de cierre de bucle. RINet (red neuronal invariante de rotación) diseñó un descriptor global equivariante de rotación que combina características semánticas y geométricas, lo que mejora la capacidad de descripción y predice la similitud de pares de descriptores a través de una red neuronal gemela invariante de rotación.

4.3 Segmentación semántica y mapa semántico

A diferencia del método SLAM tradicional que supone un entorno estático, Semantic SLAM puede predecir las propiedades móviles de los objetos; compartir representaciones de objetos similares y mejorar la escalabilidad y eficiencia de almacenamiento del sistema SLAM manteniendo una base de conocimiento compartida; puede hacer frente a escenarios complejos. y realizar una planificación de ruta inteligente. La clave del SLAM semántico radica en el reconocimiento preciso de los objetos de destino, y la tecnología de aprendizaje profundo resulta ser el método de reconocimiento de objetos más potencial y ventajoso en la actualidad, por lo que la combinación de aprendizaje profundo y SLAM semántico ha atraído una atención generalizada. La investigación semántica de SLAM utiliza principalmente información semántica para ayudar al posicionamiento y construir mapas semánticos, mejorar la solidez y precisión del posicionamiento de los algoritmos SLAM mediante la extracción de características semánticas y la eliminación dinámica de objetos; proporcionar semántica de alto nivel para la interacción robot humano-computadora a través de mapas de información semántica avanzada para mejorar la comprensión autónoma de los robots.

La comprensión de la escena semántica de la nube de puntos 3D tiene una amplia gama de requisitos de aplicación en el campo de los robots y la conducción no tripulada, y también es un problema urgente que debe resolverse. Se han propuesto muchos métodos de detección de objetos y segmentación semántica basados ​​en la nube de puntos 3D. . Para la clasificación geométrica de la nube de puntos 3D, la detección y el seguimiento de objetivos y la segmentación de la nube de puntos, incluida la segmentación semántica y la segmentación de instancias, etc., GUO et al. han realizado una revisión exhaustiva.

Debido a las características desordenadas, escasas y no estructuradas de las nubes de puntos 3D, para procesar dichos datos no estructurados, las nubes de puntos generalmente se convierten en formas estructuradas de cuadrículas de vóxeles 3D o proyecciones 2D, o se aplican directamente a La nube de puntos de entrada define una nueva operación. El trabajo pionero PointNet utiliza la transformación de escala para unificar la entrada de la nube de puntos 3D y luego resuelve el problema del desorden de la nube de puntos mediante la operación Max Pooling. Puede utilizar directamente la red neuronal convolucional 3D para realizar la extracción de características y la segmentación semántica en la nube de puntos 3D. En base a esto, se proponen PointNet ++ y PointCNN para aprender características profundas de forma jerárquica y mejorar la capacidad de la estructura del modelo local. La red de convolución de atención de gráficos GACNet (red de convolución de atención de gráficos) propuesta por WANG et al.Puede realizar un aprendizaje de características estructurado en la nube de puntos de un extremo a otro. Para nubes de puntos 3D a gran escala, HU et al. propusieron una arquitectura de red neuronal eficiente y liviana, RandLA-Net (red de agregación de características locales de muestreo aleatorio), FAN et al. propusieron un módulo de aprendizaje de características de contexto espacial para lograr una red de segmentación semántica de nubes de puntos. arquitectura SCF-Net (red de características contextuales espaciales). LAF-Net (red de fusión de atención local) es un modelo de fusión de atención local que puede fusionar de forma adaptativa características de baja dimensión e información semántica de alta dimensión. Sobre la base de PointNet ++, DSPNet ++ (red de purificación de escala profunda ++) es un módulo de extracción de características basado en el mecanismo de autoatención, que procesa directamente la nube de puntos original para la segmentación de la nube de puntos de un extremo a otro.

Aunque estos métodos basados ​​en puntos se aplican directamente a la nube de puntos original sin pérdida de información, la mayoría de los métodos requieren un mecanismo de búsqueda de proximidad, que inherentemente limita la eficiencia de estos métodos y es computacionalmente intensivo, lo que hace imposible su implementación en entornos con recursos limitados. entornos en el dispositivo.

Basado en imágenes de distancia, RangeNet ++ logra la segmentación semántica a través de una red neuronal convolucional (CNN); RangeSeg (segmentación en tiempo real con reconocimiento de rango) obtiene resultados precisos de segmentación a nivel de instancia. Para manejar mejor las nubes de puntos 3D y superar limitaciones como la falta de homogeneidad de la densidad de puntos y la pérdida de información en el paso de voxelización, (AF)2-S3Net diseña una CNN dispersa 3D codificadora-decodificadora de extremo a extremo. FIDNet (red de decodificación totalmente interpolada) diseñó una nueva red neuronal para la segmentación semántica de nubes de puntos lidar basada en proyecciones. Para aprovechar diferentes vistas, basándose en el método de fusión de múltiples vistas, RPVNet (red de fusión de vóxel de punto de rango) diseñó una novedosa red de fusión de vóxel de punto de distancia: CNN-LSTM híbrida (red neuronal convolucional híbrida y de larga duración). memoria a corto plazo) combina contexto espacial e información de series de tiempo para resolver las deficiencias de la pérdida de detalles de la capa de agrupación de la red CNN, y consta de un método eficiente de procesamiento de características de nube de puntos y una nueva estructura de red neuronal. LIU y otros propusieron WeakLabel3D-Net, un marco unificado para la comprensión de nubes de puntos 3D multitarea débilmente supervisadas, la generación no supervisada de conglomerados basada en características geométricas locales de las nubes de puntos y una red de predicción de similitudes a nivel de conglomerados basada en el aprendizaje.

Aunque estos métodos logran un rendimiento de última generación, existe una pérdida inevitable de información geométrica debido a la cuantificación de la conversión de nubes de puntos en formas estructuradas, lo que resultará en un alto consumo de recursos cuando se trata de nubes de puntos a gran escala. Cómo diseñar un modelo que pueda lograr de manera confiable y rápida la segmentación semántica de nubes de puntos LIDAR sigue siendo un problema abierto.

En términos de construcción de mapas semánticos, el algoritmo Recurrent-OctoMap es un método de mapeo semántico que integra características semánticas y utiliza redes neuronales recurrentes y detección semántica de cuadro único para mantener mapas semánticos a largo plazo de manera flexible. SuMa ++ es un método de extensión del algoritmo SuMa, que utiliza redes neuronales totalmente convolucionales para extraer información semántica de manera efectiva e integrar información semántica en representaciones de mapas basadas en elementos de superficie. SA-LOAM (LOAM con ayuda semántica) es un algoritmo SLAM láser con ayuda semántica basado en LOAM. Utiliza la información semántica en el odómetro y la detección de cierre de bucle para mejorar la precisión del posicionamiento y puede realizar de manera efectiva la detección de cierre de bucle. Puede construir global Datos en escenas a gran escala. Mapa semántico consistente, sus resultados de segmentación semántica en la secuencia KITTI 13 se muestran en la Figura 8. El actual sistema completo SLAM láser asistido por semántica merece una mayor exploración e intento.

Figura 8 Resultados de la segmentación semántica de SA-LOAM en la secuencia 13 de KITTI, cada color representa una categoría semántica diferente

05  Algoritmo SLAM láser 3D basado en fusión multisensor

Diferentes sensores adquieren información de observación ambiental de diferentes maneras y un solo sensor tiene limitaciones. La Tabla 2 compara las ventajas y desventajas de un solo sensor.

Un solo sensor no puede completar de forma independiente la construcción del mapa global en todos los escenarios, y la fusión de múltiples sensores puede resolver las limitaciones de un solo sensor y obtener efectos SLAM más precisos, eficientes y adaptables. Debido a los datos adquiridos por diferentes sensores modales, el formato es diferente. El procesamiento y la mejora de datos multimodales siguen siendo la clave para las tareas actuales de láser 3D basadas en fusión multisensor.

Tabla 2 Comparación de ventajas y desventajas de un solo sensor

5.1 Fusión de unidad de medida lidar y inercial

La fusión de lidar y unidad de medida inercial (IMU) puede superar los problemas de baja resolución vertical del lidar, baja tasa de actualización y distorsión causada por el movimiento en el proceso de SLAM láser. La fusión de lidar e IMU tiene dos métodos: acoplamiento estrecho y acoplamiento flexible. El acoplamiento estrecho consiste en obtener una estimación precisa de la pose en un entorno complejo y cambiante optimizando conjuntamente todos los datos de medición, pero existen problemas como una gran cantidad de cálculos y un rendimiento deficiente en tiempo real. El acoplamiento flojo es una forma de procesar los datos de medición de cada sensor por separado y luego fusionarlos. La cantidad de cálculo es pequeña y fácil de implementar, pero existen limitaciones en la precisión del posicionamiento.

El algoritmo HDL-Graph-SLAM combina una variedad de entradas, incluidas IMU, sensores LiDAR e información GPS (sistema de posicionamiento global), con un bajo consumo de recursos y una alta precisión. Li Shuixin y otros propusieron un método de posicionamiento en tiempo real estrechamente acoplado LiDAR/IMU, Inertial-LOAM, que reduce significativamente la acumulación de errores causada por errores de registro continuo y mejora la precisión del posicionamiento y el rendimiento en tiempo real. YE y otros estudiaron el algoritmo de mapeo LIO estrechamente acoplado LiDAR-IMU, que mejoró la precisión del mapeo, pero la complejidad del algoritmo estrechamente acoplado es alta y es difícil fusionar otros sensores en la etapa posterior. ZHAO y otros estudiaron el algoritmo LIOM (odometría y mapeo inercial por láser) estrechamente acoplado, que logró una deriva baja y una estimación de postura robusta. Basado en LeGO-LOAM, el marco de gráficos de factores de aplicación LIO-SAM (odometría inercial LiDAR mediante suavizado y mapeo) integra factores de preintegración de IMU, factores de odómetro láser, factores de GPS y factores de detección de circuito cerrado para obtener una mejor precisión y real. tiempo, baja deriva. Li y otros estudiaron el esquema de acoplamiento de lidar de estado sólido e IMU, y propusieron un nuevo método de fusión de sensores LiLi-OM (odometría y mapeo LiDAR de livox) para odometría y mapeo inercial láser en tiempo real.

FAST-LIO (odometría inercial LiDAR rápida) mide medidas LIDAR e IMU estrechamente acopladas y utiliza la fórmula de ganancia rápida de Kalman para reducir la complejidad computacional desde la dimensión de medición a la dimensión estatal, y la eficiencia computacional se mejora significativamente, pero el sistema solo puede ser Se utiliza en entornos de trabajo pequeños. FAST-LIO2 hereda el marco de fusión estrechamente acoplado de FAST-LIO. A través de la estructura de datos desarrollada de ikd-tree (árbol kd incremental), la cantidad de cálculo se reduce significativamente y se mejora la precisión y robustez del odómetro y el dibujo de mapas. algoritmo El diagrama de bloques se muestra en la Figura 9. Sobre la base de FAST-LIO2, Faster-LIO utiliza vóxeles incrementales como estructura de datos espaciales de nube de puntos y realiza una odometría inercial lidar liviana y estrechamente acoplada, que se puede usar para lidar de estado sólido. El algoritmo LINS (LiDAR-inercial-SLAM) es diferente del método estrechamente acoplado que utiliza el estimador de estado del marco global fijo centrado en el mundo, pero usa la fórmula del centro del robot para representar el estimador de estado del marco local en movimiento, y diseña un estado de error iterativo Los filtros Kalman permiten un acoplamiento estrecho de lidar e IMU. Este método también puede lograr un rendimiento de algoritmo sólido y eficiente en varios escenarios desafiantes, como escenarios sin características, y el diagrama de bloques del algoritmo se muestra en la Figura 10. La Figura 11 muestra los resultados representativos de SLAM acoplado inercialmente por láser.

En resumen, la investigación sobre el acoplamiento estrecho láser-inercial mejora principalmente la precisión, la eficiencia y la solidez del mapeo mediante el acoplamiento estrecho de lidar e IMU. Sin embargo, el método actual de calibración conjunta para lidar e IMU aún está inmaduro.

Figura 9 Diagrama de bloques del sistema del algoritmo FAST-LIO2
Figura 10 Diagrama de bloques del sistema del algoritmo LINS
Figura 11 Resultados representativos de SLAM acoplado inercialmente por láser

5.2 LiDAR y fusión de visión

El SLAM láser tiene una alta precisión de posicionamiento local pero una capacidad de posicionamiento global deficiente y es insensible a las características ambientales, mientras que el SLAM visual tiene una buena capacidad de posicionamiento global pero un posicionamiento local deficiente en comparación con el lidar. La fusión de los dos puede mejorar la precisión y robustez del sistema SLAM. .

ZHANG et al., estudiaron el marco general V-LOAM (LOAM visual) que combina visión y odometría lidar. Como se muestra en la Figura 12, la odometría visual se utiliza para manejar movimientos rápidos, mientras que la odometría lidar garantiza una baja deriva en condiciones de poca iluminación. Y robustez, Los resultados del algoritmo son de baja deriva, robustos y rápidos. Durante mucho tiempo ha ocupado el primer lugar en la prueba comparativa de error de traducción y rotación promedio del conjunto de datos KITTI, pero no considera la detección de bucle cerrado y la consistencia general del Seguimiento de posturas y mapeo en el entorno de larga distancia al aire libre. LVI-SAM (LiDAR-visual-inercialodometría mediante suavizado y mapeo) es un marco SLAM de odómetro lidar-visual-inercial estrechamente acoplado, que consta de un sistema visual-inercial y un sistema lidar-inercial. Puede construir un sistema completo y de alta Mapa de precisión, en tiempo real. Alta precisión y alta robustez. SuperOdometry es un marco de fusión de sensores multimodales de alta precisión que utiliza una tubería de procesamiento de datos centrada en IMU que combina las ventajas de métodos débilmente acoplados y estrechamente acoplados para lograr una estimación de estado sólida incluso en entornos perceptivamente degradados. R2 LIVE (estimador y mapeo de estado estrechamente acoplado LiDAR-inercial-visual, robusto, en tiempo real), R3 LIVE (estimación y mapeo de estado estrechamente acoplado, LiDAR-inercial-visual, robusto, en tiempo real, de color RGB) fusión Las mediciones de LiDAR, IMU y sensores de visión se utilizan para lograr una estimación de estado sólida y precisa en una variedad de situaciones desafiantes, incluso en entornos estrechos similares a túneles con una gran cantidad de objetos en movimiento y un pequeño campo de visión LiDAR. La Tabla 3 enumera algunos algoritmos para la fusión de lidar con unidad de medición inercial y sensor de visión.

Figura 12 Diagrama de bloques del sistema del algoritmo V-LOAM
Tabla 3 Algunos algoritmos para acoplamiento estrecho multisensor

5.3 Fusión de lidar y otros radares

FRITSCHE y otros combinaron radar de ondas milimétricas y lidar para hacer frente a entornos hostiles de baja visibilidad causados ​​por smog, niebla o polvo, estudiaron el método de fusión de decisión binaria y el método de fusión ponderada de datos de radar de ondas milimétricas y lidar, y exploraron el escaneo Viabilidad de la fusión de datos a nivel y nivel de mapa. CHAVEZ-GARCIA et al., estudiaron un esquema de fusión multisensor basado en cámaras, radares de ondas milimétricas y lidars. Primero, la información de la imagen del lidar y la cámara se utilizó para detectar personas y vehículos, y luego la información de detección del radar se fusionó para Distinga entre objetivos estacionarios y objetivos en movimiento para lograr la detección de objetivos. Con el seguimiento, se reduce la probabilidad de detección falsa. KIM et al. propusieron un esquema de fusión basado en cámara, radar de ondas milimétricas, lidar y GPS. Primero, la cámara y el lidar se utilizan para construir un mapa, y luego el GPS se utiliza para determinar la posición del vehículo. Al mismo tiempo, los datos de movimiento del objetivo detectados por el radar se utilizan para actualizar la información del entorno en el mapa. Cui Weijie eligió el marco del algoritmo Cartographer de Google como el marco principal del algoritmo, consideró de manera integral las ventajas y desventajas de los datos de radar y lidar de ondas milimétricas e integró los datos de los dos para lograr un algoritmo SLAM con mayor adaptabilidad ambiental.

06 Tendencia de desarrollo del algoritmo SLAM láser 3D

6.1 Fusión de información de múltiples fuentes

Como se mencionó anteriormente, un solo sensor tiene ciertas limitaciones y no puede satisfacer el algoritmo SLAM en todos los escenarios. Para compensar las deficiencias de un solo sensor, académicos nacionales y extranjeros han estudiado una variedad de esquemas de fusión de múltiples sensores para obtener mapas de alta precisión y alta robustez, algunos de los cuales están fusionados con IMU, otros están fusionados. con visión, y algunos se fusionan con otros tipos como el radar de onda milimétrica. ; También existe la fusión de múltiples lidars, como M-LOAM (multi-LiDAR LOAM), se han propuesto muchos algoritmos SLAM basados ​​en varios esquemas de fusión, con muchos logros. Sin embargo, la investigación relacionada sigue siendo uno de los puntos críticos de investigación y las tendencias de desarrollo de los algoritmos SLAM láser 3D, incluida la exploración de niveles de fusión, una adaptabilidad robusta y una calibración integral de múltiples sensores en línea en tiempo real, el desarrollo de métodos de sincronización de tiempo y una geometría robusta en general. extracción de características, asociación de datos, métodos de acoplamiento, etc. Al mismo tiempo, los métodos de aprendizaje profundo basados ​​en nubes de puntos y algoritmos basados ​​en optimización conjunta no lineal acelerarán el desarrollo de la tecnología de fusión de información de múltiples fuentes.

6.2 Combinación con aprendizaje profundo

La combinación del algoritmo SLAM láser 3D y el aprendizaje profundo puede mejorar la eficiencia operativa y la solidez, y sus direcciones de investigación incluyen extracción y coincidencia de características, SLAM semántico, estimación de profundidad y relocalización, etc., que siguen siendo puntos críticos de investigación. Aunque se han aplicado cada vez más tecnologías y logros de aprendizaje profundo en el campo de SLAM, ha habido muchos trabajos de investigación relacionados, pero en esta etapa, SLAM basado en aprendizaje profundo tiene limitaciones obvias, y el modelo construido a través del aprendizaje profundo carece de física intuitiva. es decir; En segundo lugar, la tecnología de aprendizaje profundo a menudo requiere una gran cantidad de datos de entrenamiento y el período de entrenamiento inicial es largo; SLAM combinado con aprendizaje profundo generalmente requiere GPU, que no se puede aplicar bajo la condición de recursos informáticos limitados.

6.3 Solidez de los escenarios de aplicación

Con el rápido desarrollo de la tecnología robótica y la continua profundización de los campos de aplicación, los escenarios de aplicación correspondientes también se enriquecen y amplían constantemente, como escenas abiertas, complejas y dinámicas, incluidos robots terrestres/aéreos, conducción automática de automóviles/AGV y otros campos. por lo que aún quedan por explotar más y más subdivisiones del entorno de aplicaciones. Los algoritmos SLAM funcionan de manera diferente en diferentes escenarios de aplicación. Por ejemplo, para ambientes interiores, el algoritmo LOAM carece de optimización conjunta y el error de estimación de actitud en tiempo real es grande. π-LSAM (suavizado y mapeo LiDAR con planos) mejora LOAM, introduce conjuntos optimización en el back-end y pantallas Para reducir la complejidad computacional del algoritmo de optimización.

Frente a algunos escenarios de aplicación desafiantes, complejos y cambiantes, como cambios de iluminación, movimientos extenuantes, espacios abiertos o escenas sin textura, etc., es necesario desarrollar algoritmos robustos y seguros a largo plazo para mejorar la solidez del algoritmo. Es necesario mejorar muchos aspectos, como los métodos de posicionamiento global y detección de objetivos multirobot, la optimización de trayectorias y la creación de mapas consistentes globales en el sistema, así como el método de construcción de mapas ambientales de escenas dinámicas o escenas grandes. Al mismo tiempo, el algoritmo SLAM láser 3D también puede desempeñar un papel clave en aplicaciones informáticas de vanguardia, como la coincidencia estéreo, la reconstrucción de escenas 3D y la realidad virtual.

6.4 Exploración de marcos comunes y representaciones de mapas

Explorar la versatilidad del marco SLAM láser 3D también es un punto de investigación. Muchos algoritmos SLAM láser 3D existentes siguen el marco LOAM; el algoritmo IMLS-SLAM describe el marco de coincidencia entre marco y modelo; F-LOAM (odometría y mapeo LiDAR rápidos) ) propone un marco general que combina extracción de características, compensación de distorsión, optimización de pose y mapeo. Mejores representaciones de mapas, como mapas semánticos, pueden mejorar en gran medida la comprensión autónoma de los robots y también pueden mejorar la solidez y precisión de los algoritmos SLAM láser 3D.

6.5 Influencia de la tecnología de sensores y sistemas de señales inalámbricas

El LiDAR de estado sólido, con su alto rendimiento y costo extremadamente bajo, tiene el potencial de facilitar o revolucionar la industria de la robótica y está ganando terreno. Por ejemplo, LIN y ZHANG estudiaron Loam Livox, un marco de algoritmo SLAM adecuado para campos de visión pequeños y lidar de estado sólido de muestreo irregular, que es robusto y se ejecuta en tiempo real. Con la mejora continua del rendimiento del hardware y las funciones de comunicación, la implementación integrada de la tecnología SLAM, la participación de sensores de dispositivos móviles y la tecnología de sistemas de señales inalámbricas afectarán inevitablemente el desarrollo de algoritmos SLAM láser 3D. Por ejemplo, los procesadores dedicados (como HoloLens HPU) y los módulos funcionales integrados (como los módulos Tango) reducirán en gran medida el cuello de botella de la potencia informática y el umbral de depuración de algoritmos de las plataformas de hardware existentes.

07 Conclusión

El algoritmo SLAM es un medio eficaz para que el robot móvil construya un mapa de entorno desconocido y obtenga información de su postura para realizar un movimiento autónomo. Puede ayudar al robot a realizar tareas como la planificación de rutas, la exploración autónoma y la navegación. Con el desarrollo de lidar 3D para aplicaciones de bajo costo, bajo consumo de energía y alta confiabilidad, la investigación del algoritmo SLAM lidar 3D ha logrado resultados y casos de aplicación ricos. A partir del marco clásico del algoritmo SLAM, este artículo resume y analiza el estado de la investigación de su front-end, back-end, aprendizaje profundo y fusión multisensor en SLAM láser, y expone sistemáticamente el principio del láser 3D convencional actual. Algoritmo SLAM y sus problemas y deficiencias existentes.Se analizan los puntos críticos de investigación y las tendencias de desarrollo de los algoritmos SLAM láser 3D.

SLAM es una combinación de algoritmos multidisciplinarios e ingeniería de sistemas, que incluye la construcción de modelos de hardware para la integración de sistemas, así como la asignación de recursos, la optimización de datos y la precisión del mapeo y posicionamiento en cada enlace de ejecución multiproceso. Se requiere equilibrio e integración; la clave módulos y La actualización de la combinación de hardware, el enriquecimiento y la expansión de escenarios o aplicaciones afectarán el desarrollo de algoritmos SLAM láser 3D. La investigación sobre la fusión de información de múltiples fuentes, la combinación con el aprendizaje profundo, la aplicación y expansión de escenarios dinámicos y otros, el marco general del algoritmo SLAM, la implementación integrada del algoritmo SLAM, la participación técnica del sensor móvil y el sistema de señal inalámbrica es la investigación del lidar SLAM 3D. puntos críticos de algoritmos y tendencias de desarrollo.

1.  Nueve algoritmos de fusión de sensores en conducción autónoma

2.  Método de detección de cierre de bucle SLAM láser basado en un descriptor de características global

3.  Recomendación de libro: "UAV Swarm Network: modelos, protocolos y sistemas"

4.  Recomendación de libro - "Aplicación de la tecnología SLAM en robots móviles en terrenos complejos"

5.  Recomendación de libro: "Robots móviles autónomos y sistemas multirrobots: planificación de movimiento, comunicación y enjambre"

Supongo que te gusta

Origin blog.csdn.net/weixin_40359938/article/details/130388814
Recomendado
Clasificación