20,000 palabras | Revisión de la investigación de Visual SLAM y discusión de tendencias futuras

Título: Visual SLAM: ¿Cuáles son las tendencias actuales y qué esperar?

Dirección: Revisión de la investigación de Visual SLAM y discusión sobre tendencias futuras

Traducido por: Dong Yawei

Recordatorio especial: este artículo tiene un total de 24,000 palabras, incluidos todos los aspectos de SLAM visual. Si necesita leer en detalle, la respuesta en segundo plano [ 221101 ] , puede descargar los documentos originales y traducidos.

Resumen: En los últimos años, los sensores basados ​​en visión han demostrado un rendimiento, precisión y eficiencia notables en sistemas de localización y mapeo simultáneos (SLAM). Aquí, los métodos de mapeo y localización visual simultáneo (VSLAM) se refieren a métodos SLAM que utilizan cámaras para la estimación de pose y la generación de mapas.

Podemos ver que muchos estudios han demostrado que a pesar del menor costo del SLAM visual, VSLAM puede superar a los métodos tradicionales que solo dependen de sensores específicos. Los métodos VSLAM utilizan diferentes tipos de cámaras (p. ej., monocular, estéreo y RGB-D), se realizan en varios conjuntos de datos (p. ej., KITTI, TUM RGB-D y EuRoC) y en diferentes entornos (p. ej., interiores y exteriores). se prueba y emplea varios algoritmos y métodos para comprender mejor el entorno.

Los cambios anteriores han hecho que este tema de investigación sea una gran preocupación para los investigadores y se han producido muchos métodos VSLAM. Con base en esto, el objetivo principal de este artículo es presentar los últimos avances en sistemas VSLAM y discutir los desafíos y tendencias existentes. Realizamos una encuesta bibliográfica en profundidad sobre 45 artículos influyentes publicados en el campo de VSLAM, y clasificamos estos artículos según diferentes características, incluida la innovación de métodos, la novedad de la aplicación de dominio, la optimización de algoritmos y el nivel semántico, y también discutimos las tendencias actuales y las direcciones futuras. se identifican, lo que puede ayudar a los investigadores en sus estudios.

01  Introducción

La localización y mapeo simultáneos (SLAM) se refiere al proceso de construir un mapa de un entorno desconocido mientras se localiza la ubicación de un agente [1]. En este caso, el agente puede ser un robot doméstico [2], un vehículo autónomo [3], un rover planetario [4] o incluso un vehículo aéreo no tripulado (UAV) [5], [6] o un vehículo no tripulado (UGV). [7]. En entornos donde no hay mapas disponibles o donde se desconoce la posición del robot, SLAM tiene una amplia gama de aplicaciones. En los últimos años, con la mejora continua de la aplicación de la tecnología robótica, SLAM ha ganado gran atención en los círculos industriales y de investigación científica [8], [9].

Los sistemas SLAM pueden recopilar datos del medio ambiente utilizando una variedad de sensores, basados ​​en láser, acústicos y visuales [10]. Existe una variedad de sensores basados ​​en visión, incluidas cámaras monoculares, estéreo, basadas en eventos, omnidireccionales y de profundidad RGB (RGB-D). Los robots con sensores de visión utilizan los datos visuales proporcionados por las cámaras para estimar la posición y orientación del robot en relación con su entorno [11]. El proceso de utilizar sensores visuales para SLAM es SLAM visual (VSLAM).

El uso de datos visuales en SLAM tiene las ventajas de un hardware más económico, una detección y seguimiento de objetos más intuitivo y la capacidad de proporcionar información visual y semántica rica [12]. Sus imágenes capturadas (o fotogramas de vídeo) también se pueden utilizar en aplicaciones basadas en visión, incluida la segmentación semántica y la detección de objetos. Las características anteriores hacen de VSLAM una dirección popular en robótica y han provocado muchas investigaciones y encuestas por parte de expertos en robótica y visión por computadora (CV) en las últimas décadas. Por lo tanto, VSLAM ya existe en diversas aplicaciones que requieren reconstruir modelos 3D del entorno, tales como: conducción autónoma, realidad aumentada (AR) y robótica de servicios [13].

Como método general introducido en [14] para resolver el alto costo computacional, el método SLAM incluye principalmente dos subprocesos paralelos, a saber, seguimiento y mapeo. Por tanto, la taxonomía de algoritmos utilizados en VSLAM es representar cómo los investigadores utilizan diferentes métodos y estrategias en cada hilo. Según el tipo de datos utilizados por el sistema SLAM, los métodos SLAM se pueden dividir en dos categorías: métodos directos y métodos indirectos (basados ​​en características) [15].

En escenarios de uso, los métodos indirectos extraen puntos característicos (es decir, puntos clave) de las texturas de los objetos y los rastrean haciendo coincidir descriptores en fotogramas consecutivos. A pesar del costo computacional de las etapas de extracción y coincidencia de características, estos métodos son precisos y robustos ante los cambios en la intensidad de la luz en cada cuadro. Por otro lado, los métodos directos estiman el movimiento de la cámara directamente a partir de datos a nivel de píxeles y los optimizan para minimizar los errores fotométricos. Basándose en técnicas de fotogrametría, estos métodos explotan todos los píxeles de salida de la cámara y rastrean lo que reemplazan en cuadros sucesivos de acuerdo con sus aspectos restringidos, como el brillo y el color. Estas características permiten que el método directo modele más información de la imagen que el método indirecto y logre una reconstrucción 3D de mayor precisión. Sin embargo, aunque los métodos directos funcionan mejor en entornos con menos textura y no requieren más cálculos para la extracción de características, a menudo enfrentan problemas de optimización a gran escala [16]. Los pros y los contras de cada enfoque alientan a los investigadores a considerar el desarrollo de soluciones híbridas, considerando combinaciones de ambos enfoques. Los métodos híbridos suelen combinar etapas de detección directa e indirecta, donde una inicializa y corrige la otra.

Figura 1 Canalización Visual SLAM estándar. En cuanto a los métodos directos/indirectos utilizados, la funcionalidad de algunos de estos módulos puede cambiarse u omitirse.

Además, dado que VSLAM incluye principalmente un front-end de odometría visual (VO) (para estimar localmente la trayectoria de la cámara) y un back-end de SLAM (para optimizar el mapa creado), la diversidad de módulos utilizados en cada parte conduce a una diferencia observada. . VO proporciona una estimación inicial de la pose del robot basada en la coherencia local, que se envía al backend para su optimización. Por lo tanto, la principal diferencia entre VSLAM y VO es si se debe considerar la consistencia global de los mapas y las trayectorias predichas. Algunas aplicaciones VSLAM de última generación también incluyen dos módulos adicionales: detección y mapeo de cierre de bucle [15]. Son responsables de detectar ubicaciones visitadas previamente para un seguimiento y mapeo más precisos según la pose de la cámara.

La Figura 1 muestra la arquitectura general del enfoque VSLAM estándar. Por lo tanto, la entrada del sistema también se puede integrar con otros datos de sensores, como unidades de medición inercial (IMU) y lidar, para proporcionar más información que solo datos visuales. Además, con respecto al método directo o método indirecto utilizado en VSLAM Pipeline, la función del módulo de procesamiento de características visuales puede cambiarse o ignorarse. Por ejemplo, la etapa de procesamiento de características utiliza solo métodos indirectos. Otro factor es el uso de módulos específicos, como la detección de cierre de bucle y el ajuste de paquetes, para mejorar la ejecución.

Este artículo resume 45 artículos de VSLAM y los clasifica en diferentes categorías según diferentes aspectos. Esperamos que nuestro trabajo sirva como referencia para los investigadores en robótica que trabajan para optimizar las técnicas VSLAM.

El resto de este artículo está estructurado de la siguiente manera:

La Sección II revisa la evolución de los algoritmos VSLAM.

La Sección III presenta y analiza otras encuestas en el campo de VSLAM.

La Sección IV presenta brevemente cada módulo de VSLAM.

La Sección V analiza la clasificación de VSLAM según diferentes objetivos de aplicación.

La Sección VI analiza cuestiones no resueltas y posibles tendencias de investigación en esta área.

02   Evolución de Visual SLAM

Los sistemas VSLAM han madurado en los últimos años y varios marcos han jugado un papel importante en este proceso de desarrollo. Para presentar claramente la situación general, la Figura 2 presenta los métodos VSLAM ampliamente utilizados que han influido en el desarrollo del círculo SLAM y se utilizan como referencias estándar para otros marcos.

Figura 2 El método SLAM visual de gran influencia

El primer intento en la literatura de implementar un sistema VSLAM monocular en tiempo real fue desarrollado por Davison et al., en 2007, quienes introdujeron un marco llamado Mono-SLAM [17]. El marco de su método indirecto puede estimar el movimiento de la cámara del mundo real y los objetos 3D utilizando el algoritmo del filtro de Kalman extendido (EKF) [18]. A pesar de la falta de módulos de optimización global y detección de cierre de bucle, Mono-SLAM comienza a desempeñar un papel importante en el dominio VSLAM. Sin embargo, los mapas reconstruidos de esta manera sólo incluían puntos de referencia y no proporcionaban más detalles sobre el área.

Klein y otros [14] propusieron el seguimiento y mapeo paralelo (PTAM) el mismo año y dividieron todo el sistema VSLAM en dos subprocesos principales: seguimiento y mapeo. Este estándar de subprocesos múltiples fue respaldado por muchos trabajos posteriores, que se analizan en este artículo. La idea principal de su enfoque es reducir el costo computacional y aplicar procesamiento paralelo para lograr un rendimiento en tiempo real. Mientras que el hilo de seguimiento estima el movimiento de la cámara en tiempo real, el hilo de mapeo predice las ubicaciones 3D de los puntos característicos. PTAM también es el primero en optimizar conjuntamente las poses de la cámara y crear mapas 3D mediante el ajuste de paquete (BA). Utiliza el algoritmo de detección de esquinas FAST [19] para la coincidencia y el seguimiento de puntos clave. Aunque el rendimiento de este algoritmo es mejor que el de Mono-SLAM, su diseño es complejo y requiere configuración manual por parte del usuario en la primera etapa.

En 2011, Newcombe y otros introdujeron un método directo para medir valores de profundidad y parámetros de movimiento para construir mapas, a saber, Dense Tracking and Mapping (DTAM). DTAM es un marco en tiempo real equipado con módulos de seguimiento y mapeo denso, que pueden determinar la pose de la cámara alineando todo el marco con un mapa de profundidad determinado. Para construir el mapa ambiental, las etapas anteriores estiman los parámetros de profundidad y movimiento de la escena por separado. Si bien DTAM puede proporcionar una representación detallada de mapas, la ejecución en tiempo real requiere un alto costo computacional.

Como otro enfoque indirecto al campo del mapeo 3D y la optimización basada en píxeles, Endres et al. propusieron un enfoque basado en cámaras RGB-D en 2013. Su enfoque funciona en tiempo real y se centra en sistemas integrados de bajo costo y pequeños robots, pero no logra producir resultados precisos en escenarios desafiantes o sin características. Ese mismo año, Salas Moreno y otros [22] propusieron el primer intento de explotar información semántica en un marco SLAM en tiempo real, denominado SLAM++. Su sistema toma la salida del sensor RGB-D y realiza una estimación y seguimiento de la pose de la cámara 3D para formar un gráfico de pose. Los nodos en un gráfico de pose representan estimaciones de pose y están conectados por bordes que representan poses relativas entre nodos con incertidumbre de medición [23]. Luego, la pose predicha se refinará incorporando poses 3D relativas obtenidas de objetos semánticos en la escena.

A medida que maduró el marco básico de VSLAM, los investigadores se centraron en mejorar el rendimiento y la precisión de estos sistemas. En este sentido, Forster et al.propusieron un enfoque híbrido de VO en 2014 como parte de la arquitectura VSLAM, llamado odometría visual semidirecta (SVO) [24]. Su enfoque puede combinar métodos directos y basados ​​en características para tareas de mapeo y estimación de movimiento basadas en sensores. SVO puede funcionar con cámaras monoculares y estéreo y está equipado con un módulo de refinamiento de pose que minimiza los errores de reproyección. Sin embargo, la principal desventaja de SVO es que adopta una asociación de datos a corto plazo y no puede realizar la detección de cierre de bucle ni la optimización global.

LSD-SLAM [25] es otro método VSLAM influyente introducido por Engel et al. en 2014, que incluye seguimiento, estimación de mapas de profundidad y optimización de mapas. El método puede reconstruir mapas a gran escala utilizando su módulo de estimación de gráficos de pose, con optimización global y detección de cierre de bucle. La debilidad de LSD-SLAM es que su fase de inicialización es desafiante y requiere todos los puntos del plano, lo que lo convierte en un método computacionalmente intensivo.

Mur Artal y otros propusieron dos métodos VSLAM indirectos precisos que han atraído la atención de muchos investigadores hasta ahora: ORB-SLAM [26] y ORB-SLAM 2.0 [27]. Estos métodos pueden lograr la localización y el mapeo en secuencias con buena textura y realizar una detección de pose de alto rendimiento utilizando las funciones RÁPIDO orientado y BREVE rotado (ORB). La primera versión de ORB-SLAM pudo utilizar fotogramas clave recopilados de las posiciones de la cámara para calcular la posición de la cámara y la estructura del entorno. La segunda versión es una extensión de ORB-SLAM con tres subprocesos paralelos, que incluyen seguimiento para encontrar correspondencias de características, mapeo local para operaciones de administración de mapas y cierre de bucles para detectar nuevos bucles y corregir errores de deriva. Aunque ORB-SLAM 2.0 se puede utilizar con configuraciones de cámara monocular y estéreo, no se puede utilizar directamente para navegación autónoma debido a la escala desconocida de los datos del mapa reconstruido. Otra desventaja de este método es que no funcionará en áreas sin textura o en entornos con patrones repetidos. La última versión de este marco, denominada ORB-SLAM 3.0, se propuso en 2021 [28]. Funciona con varios tipos de cámaras, como monocular, RGB-D y visión estéreo, y proporciona resultados de estimación de pose mejorados.

En los últimos años, con el notable impacto del aprendizaje profundo en diversos campos, los métodos basados ​​en redes neuronales profundas pueden resolver muchos problemas al proporcionar mayores tasas de reconocimiento y coincidencia. De manera similar, reemplazar funciones hechas a mano con funciones aprendidas en VSLAM es una de las soluciones propuestas por muchos métodos recientes basados ​​en aprendizaje profundo.

En este sentido, Tateno y otros propusieron un enfoque basado en redes neuronales convolucionales (CNN) que procesa fotogramas de entrada para la estimación de la pose de la cámara y utiliza fotogramas clave para la estimación de profundidad, denominado CNN-SLAM [29]. Segmentar los fotogramas de la cámara en partes más pequeñas para comprender mejor el entorno es una de las ideas de CNN-SLAM para proporcionar procesamiento paralelo y rendimiento en tiempo real.

Como enfoque diferente, Engel et al. también introdujeron una nueva tendencia en el algoritmo VSLAM directo llamado Odometría dispersa directa (DSO) [30], que combina el método directo y la reconstrucción dispersa para extraer el punto de mayor intensidad. Tiene en cuenta los parámetros de formación de imágenes y utiliza un método de seguimiento indirecto mediante el seguimiento de un conjunto disperso de píxeles. Cabe señalar que DSO solo puede obtener una precisión perfecta al calibrar fotométricamente la cámara y no puede obtener resultados de alta precisión con cámaras convencionales.

En resumen, durante la evolución de los sistemas VSLAM, los enfoques recientes se han centrado en el paralelismo de múltiples módulos especializados. Estos módulos forman una tecnología y un marco común compatible con una amplia variedad de sensores y entornos. Las propiedades anteriores les permiten ejecutarse en tiempo real y ser más flexibles en términos de mejora del rendimiento.

03   descripción general relacionada

Existen varios artículos de revisión en el campo de VSLAM que proporcionan un análisis completo de los diferentes métodos existentes. Cada artículo revisa las principales ventajas y desventajas de adoptar un enfoque VSLAM.

Macario Barros y otros [31] clasifican los esquemas SLAM visuales en tres categorías distintas: visión pura (monocular), visual-inercial (estereoscópica) y RGB-D. También propusieron varios criterios para simplificar el análisis de VSLAM. Sin embargo, no incluyen otros sensores de visión, como los sensores basados ​​en eventos, que analizamos más adelante en la Sección 1 del Capítulo 4.

Chen y otros [32] recopilaron una gran cantidad de literatura VSLAM tradicional y semántica. Dividieron la era del desarrollo de SLAM en etapas clásicas, de análisis de algoritmos y de percepción robusta, e introdujeron los temas candentes en ese momento. También resumen marcos clásicos con enfoques directos/indirectos e investigan el impacto de los algoritmos de aprendizaje profundo en la segmentación semántica. Aunque su trabajo proporciona una exposición completa de soluciones de alto nivel en este campo, la taxonomía de los métodos se limita a los tipos de características utilizadas en VSLAM basado en características.

Jia y otros [33] examinaron una gran cantidad de artículos e hicieron una comparación simple entre métodos basados ​​en optimización de gráficos y métodos que utilizan aprendizaje profundo. Sin embargo, a pesar de las comparaciones apropiadas, sus conclusiones no pueden generalizarse adecuadamente debido al número limitado de artículos analizados.

En otro trabajo, Abaspur Kazerouni y otros [34] cubrieron varios métodos VSLAM, explotaron dispositivos, conjuntos de datos y módulos sensoriales, y simularon varios métodos indirectos para comparación y análisis. Sin embargo, solo abordan algoritmos basados ​​en funciones como HOG, Scale-Invariant Feature Transform (SIFT), Speeded Up Robust Features (SURF) y soluciones basadas en aprendizaje profundo. Bavle y otros [35] analizan aspectos de la percepción de pose en varias aplicaciones SLAM y VSLAM y discuten sus deficiencias. Pueden concluir que manipular características que carecen de escenas semánticas puede mejorar los resultados del trabajo de investigación actual.

Otras encuestas han estudiado métodos VSLAM de última generación para temas o tendencias específicas. Por ejemplo, Duan y otros [15] estudiaron el progreso del aprendizaje profundo en sistemas visuales SLAM para robots de transporte. En el artículo, los autores resumen las ventajas y desventajas de utilizar varios métodos basados ​​en el aprendizaje profundo en tareas de detección de cierre de bucle y VO. Una ventaja significativa de utilizar métodos de aprendizaje profundo en VSLAM es la extracción precisa de características en la estimación de pose y el cálculo del rendimiento general.

En otro trabajo en el mismo campo, Arshad y Kim [36] se centraron en el impacto de los algoritmos de aprendizaje profundo en la detección de cierre de bucles utilizando datos visuales. Revisaron varios artículos de VSLAM y analizaron la autonomía a largo plazo del robot en diferentes condiciones.

Singandhupe y La [37] resumieron el impacto de VO y VSLAM en vehículos no tripulados. Recopilaron los métodos evaluados en el conjunto de datos KITTI, lo que les permitió describir brevemente las fortalezas y debilidades de cada sistema.

En un artículo similar, Cheng y otros [32] revisaron los sistemas de conducción autónoma basados ​​en VSLAM y propusieron tendencias de desarrollo futuras para dichos sistemas.

Varios otros investigadores han investigado la capacidad de VSLAM para funcionar en condiciones del mundo real. Por ejemplo, Saputra y otros [38] analizan la reconstrucción, división, seguimiento y ejecución paralela de subprocesos para variaciones de técnicas VSLAM que operan en entornos dinámicos y hostiles.

Esta revisión se diferencia de otras realizadas hasta la fecha al proporcionar un análisis exhaustivo de VSLAM en diferentes lugares. En comparación con otras encuestas VSLAM, las principales contribuciones de este artículo son:

  • Categorizar diversas publicaciones recientes en VSLAM según las principales aportaciones, criterios y objetivos de los investigadores que proponen nuevas soluciones.

  • Analizar las tendencias actuales en VSLAM profundizando en diferentes enfoques en diferentes aspectos.

  • Introducir problemas potenciales de VSLAM

04   Cada módulo de SLAM visual

Combinando varios métodos visuales de SLAM, dividimos los requisitos de diferentes etapas en los siguientes módulos:

4.1 Sensores y adquisición de datos

Las primeras implementaciones del algoritmo VSLAM introducido por Davison y otros [17] estaban equipadas con una cámara monocular para la recuperación de la trayectoria. Las cámaras monoculares también son los sensores de visión más comunes utilizados para diversas tareas, como la detección y el seguimiento de objetos [39]. Por otro lado, una cámara estéreo contiene dos o más sensores de imagen, lo que le permite percibir información de profundidad en las imágenes capturadas, logrando así un mejor rendimiento en aplicaciones VSLAM. Estas configuraciones de cámara son útiles para proporcionar percepción de información para requisitos de mayor precisión. Las cámaras RGB-D son otras variantes de sensores de visión utilizados en VSLAM que pueden proporcionar información de profundidad y color en una escena. Con la iluminación y la velocidad de movimiento adecuadas, los sensores de visión antes mencionados pueden proporcionar información valiosa sobre el entorno en un entorno intuitivo, pero a menudo tienen problemas con condiciones de iluminación deficientes o escenas con un gran rango dinámico.

En los últimos años, las cámaras de eventos también se han utilizado en diversas aplicaciones VSLAM. Cuando se detecta movimiento, estos sensores de visión bioinspirados de baja latencia pueden producir cambios de brillo a nivel de píxeles en lugar de fotogramas de intensidad estándar, lo que permite una salida de alto rango dinámico sin efectos de desenfoque de movimiento [40]. En comparación con las cámaras estándar, los sensores basados ​​en eventos pueden proporcionar información visual precisa en movimientos de alta velocidad y escenas dinámicas a gran escala, pero no pueden proporcionar suficiente información cuando la velocidad de movimiento es baja. Aunque las cámaras para eventos pueden superar a los sensores de visión estándar en condiciones de iluminación adversas y rango dinámico, principalmente brindan información asincrónica sobre el entorno. Esto hace que los algoritmos de visión tradicionales no puedan procesar la salida de estos sensores [41]. Además, el uso de ventanas espacio-temporales de eventos junto con datos obtenidos de otros sensores puede proporcionar una rica información de seguimiento y estimación de postura.

Además, algunos métodos utilizan configuraciones multicámara para resolver problemas comunes de trabajo en entornos reales para mejorar la precisión de la localización. El uso de múltiples sensores de visión puede ayudar a resolver problemas complejos como oclusión, camuflaje, fallas de sensores o texturas rastreables escasas, proporcionando a las cámaras campos de visión superpuestos. Aunque las configuraciones de múltiples cámaras pueden resolver algunos problemas de adquisición de datos, VSLAM solo con cámara puede enfrentar varios problemas, como desenfoque de movimiento al encontrar objetos que se mueven rápidamente, falta de coincidencia de características en condiciones de poca o mucha luz, escenas que cambian a alta velocidad, etc. omisión, etcétera. Por lo tanto, algunas aplicaciones VSLAM pueden estar equipadas con múltiples sensores junto a la cámara. Fusionar eventos y fotogramas estándar [42] o integrar otros sensores como LiDAR [43] e IMU en VSLAM son algunas de las soluciones existentes.

4.2 Escenarios de aplicación

Una suposición fuerte en muchas prácticas tradicionales de VSLAM es que los robots trabajan en un mundo relativamente estático sin cambios inesperados. Por lo tanto, aunque muchos sistemas pueden aplicarse con éxito en entornos específicos, algunos cambios inesperados en el entorno (por ejemplo, la presencia de objetos en movimiento) pueden complicar el sistema y degradar en gran medida la calidad de la estimación del estado. Los sistemas que funcionan en entornos dinámicos suelen utilizar algoritmos como el flujo óptico o el consenso de muestreo aleatorio (RANSAC) [44] para detectar movimiento en la escena, clasificar los objetos en movimiento como valores atípicos y omitirlos. Dichos sistemas explotan información geométrica, información semántica o una combinación de ambas para mejorar los esquemas de localización [45].

Además, podemos dividir los ambientes en categorías interiores y exteriores a modo de clasificación general. Los entornos exteriores pueden ser áreas urbanas con puntos de referencia estructurales y cambios de movimiento a gran escala (como edificios y texturas de carreteras), o áreas todoterreno con estados de movimiento débiles (como nubes y vegetación en movimiento, texturas de arena, etc.), que mejoran El riesgo de localización y detección de bucles. Los ambientes interiores, por otro lado, contienen escenas con propiedades espaciales globales completamente diferentes, como pasillos, paredes y habitaciones. Podemos imaginar que, si bien un sistema VSLAM podría funcionar bien en una de las regiones antes mencionadas, es posible que no muestre el mismo rendimiento en otros entornos.

4.3 Procesamiento de características visuales

Como se mencionó en el Capítulo 1, la detección de características visuales y la explotación de la información de los descriptores de características para la estimación de la pose es una etapa inevitable de los métodos VSLAM indirectos. Estos métodos utilizan varios algoritmos de extracción de características para comprender mejor el entorno y rastrear puntos de características en fotogramas consecutivos. Hay muchos algoritmos en la etapa de extracción de características, incluidos SIFT [46], SURF [47], FAST [19], BRIEF [48], ORB [49], etc. Entre ellas, en comparación con SIFT y SURF [50], las funciones ORB tienen la ventaja de una extracción y coincidencia rápidas sin perder mucha precisión.

El problema con algunos de los métodos anteriores es que no pueden adaptarse eficazmente a diversas situaciones complejas e imprevistas. Por lo tanto, muchos investigadores utilizan CNN para extraer características profundas de imágenes en diferentes etapas, incluido VO, estimación de pose y detección de cierre de bucle. Dependiendo de las características de diseño de estos métodos, estas técnicas pueden representar marcos supervisados ​​​​o no supervisados.

4.4 Evaluación del programa

Si bien algunos métodos VSLAM, especialmente aquellos capaces de funcionar en entornos dinámicos y desafiantes, se han probado en robots en condiciones del mundo real, muchos trabajos de investigación han utilizado conjuntos de datos disponibles públicamente para demostrar su aplicabilidad.

El conjunto de datos RAWSEEDS de Bonarini y otros [51] es una conocida herramienta de prueba estándar de sensores múltiples que contiene datos reales sobre el terreno y la trayectoria del robot en interiores, exteriores y mixtos. Es una de las primeras herramientas de prueba estándar disponibles públicamente para fines de robótica y SLAM.

Scenenet RGB-D de McCormac et al.[52] es otro conjunto de datos popular para problemas de comprensión de escenas, como la segmentación semántica y la detección de objetos, que contiene 5 millones de imágenes RGB-D renderizadas a gran escala. El conjunto de datos también contiene etiquetas de verdad del terreno con píxeles completos y datos precisos de profundidad y postura de la cámara, lo que lo convierte en una herramienta poderosa para aplicaciones VSLAM.

Muchos trabajos recientes en el campo de VSLAM y VO han probado sus métodos en el conjunto de datos TUM RGB-D [53]. El conjunto de datos y el arnés de prueba de referencia antes mencionados contienen imágenes de color y profundidad capturadas por un sensor Microsoft Kinect y sus correspondientes pistas del sensor de verdad del terreno.

Alternativamente, NTU VIRAL de Nguyen y otros [54] es un conjunto de datos recopilado por un dron equipado con lidar 3D, cámara, IMU y banda ultraancha múltiple (UWB). Este conjunto de datos contiene instancias de interiores y exteriores y está diseñado para evaluar el rendimiento de la conducción autónoma y la manipulación aérea.

Además, EuRoC MAV [55] de Burri et al. es otro conjunto de datos popular que contiene imágenes capturadas por una cámara estéreo junto con mediciones IMU sincronizadas y datos reales de movimiento del terreno. Según las condiciones ambientales, los datos recopilados en EuRoC MAV se dividen en tres categorías: fácil, medio y difícil.

OpenLORIS Scene [56] de Shi et al. es otro conjunto de datos disponible públicamente para el trabajo VSLAM, que contiene una gran cantidad de datos recopilados por robots con ruedas equipados con varios sensores. Proporciona datos apropiados para algoritmos monoculares y RGB-D, así como datos de odometría de codificadores de ruedas.

Como conjunto de datos más general utilizado en VSLAM, KITTI [57] es un conjunto de datos capturado por dos cámaras RGB y en escala de grises de alta resolución en un vehículo en movimiento. KITTI utiliza sensores láser y GPS para proporcionar información precisa sobre el terreno, lo que lo convierte en un conjunto de datos muy popular en robótica móvil y conducción autónoma.

TartanAir [58] es otro conjunto de datos estándar para evaluar algoritmos SLAM en escenas complejas.

Además, el conjunto de datos del Imperial College London y la Universidad Nacional de Irlanda Maynooth (ICL-NUIM) [59] es otro conjunto de datos VO que contiene secuencias de cámaras RGB-D portátiles, que se ha utilizado como punto de referencia para muchos SLAM.

A diferencia de los conjuntos de datos anteriores, algunos otros conjuntos de datos contienen datos adquiridos con cámaras específicas en lugar de cámaras normales. Por ejemplo, el conjunto de datos de cámaras de eventos presentado por Mueggler y otros [60] es un conjunto de datos que utiliza muestras recopiladas de cámaras basadas en eventos para la evaluación de robots de alta velocidad. La instancia del conjunto de datos contiene mediciones inerciales e imágenes de intensidad capturadas por un sistema de captura de movimiento, lo que la convierte en un punto de referencia adecuado para VSLAM equipado con cámaras de eventos.

Los conjuntos de datos anteriores se utilizan en varios métodos VSLAM según la configuración del sensor, la aplicación y el entorno de destino. Estos conjuntos de datos contienen principalmente parámetros de calibración de la cámara, así como datos reales del terreno. La Tabla 1 y la Fig. 3 muestran las características resumidas de los conjuntos de datos y algunos ejemplos de cada conjunto de datos, respectivamente.

Tabla 1 Conjuntos de datos VSLAM de uso común; GT en la tabla se refiere a la disponibilidad de valores verdaderos
Fig. 3 Ejemplos de algunos conjuntos de datos SLAM visuales convencionales utilizados para la evaluación en varios artículos. Las características de estos conjuntos de datos se enumeran en la Tabla 1.

4.5 Capa semántica

Los robots necesitan información semántica para comprender la escena circundante y tomar decisiones más favorables. En muchos trabajos recientes de VSLAM, agregar información semántica a los datos basados ​​en geometría es mejor que los enfoques puramente basados ​​en geometría, lo que le permite proporcionar más información sobre el entorno circundante [61]. En este sentido, los módulos de reconocimiento de objetos previamente entrenados pueden agregar información semántica a los modelos VSLAM [62]. Uno de los enfoques más recientes es utilizar CNN en aplicaciones VSLAM. En general, los métodos semánticos VSLAM constan de los siguientes cuatro componentes principales [43]:

Seguimiento: utiliza puntos característicos 2D extraídos de cuadros de video consecutivos para estimar la pose de la cámara y construir una nube de puntos de mapa 3D. El cálculo de la pose de la cámara y la construcción de la nube de puntos del mapa 3D establecen los datos de referencia para el proceso de localización y mapeo, respectivamente.

Mapeo local: al procesar dos cuadros de video consecutivos, se crea un nuevo punto de mapeo 3D, que se usa junto con el módulo BA para optimizar la pose de la cámara.

Detección de cierre de bucle: ajusta la pose de la cámara y optimiza el mapa creado comparando fotogramas clave con características visuales extraídas y evaluando la similitud entre ellos.

Selección de contexto no rígido (NRCC): el objetivo principal del uso de NRCC es filtrar objetos temporales de fotogramas de vídeo para reducir sus efectos adversos en las etapas de localización y mapeo. Consiste principalmente en un proceso de enmascaramiento/segmentación para separar varias instancias inestables en marcos, como personas. Dado que NRCC puede reducir la cantidad de puntos característicos a procesar, la parte de cálculo se simplifica y se obtiene un rendimiento más sólido.

Por lo tanto, la utilización de capas semánticas en los métodos VSLAM puede optimizar la incertidumbre de la estimación de pose y la construcción de mapas. Sin embargo, ahora es un desafío utilizar correctamente la información semántica extraída sin afectar en gran medida el costo computacional.

05   Clasificación de métodos VSLAM según los objetivos de la aplicación.

Para encontrar con precisión los métodos VSLAM que puedan lograr excelentes resultados y tener una arquitectura estable, recopilamos y seleccionamos publicaciones muy citadas publicadas en los principales sitios web en los últimos años de Google Scholar y las famosas bases de datos bibliográficas de informática Scopus y DBLP. También estudiamos los artículos mencionados en las publicaciones anteriores y seleccionamos los más relevantes para el campo de VSLAM. Después de investigar los artículos, podemos clasificar los artículos recopilados según los problemas específicos que abordan principalmente, de la siguiente manera:

5.1 Objetivo 1: Procesamiento multisensor

Esta categoría cubre los métodos VSLAM que utilizan varios sensores para comprender mejor el medio ambiente. Mientras que algunas tecnologías simplemente utilizan cámaras como sensores, otras combinan varios sensores para mejorar la precisión de los algoritmos.

1) Usando múltiples cámaras:

Dado que es difícil reconstruir la trayectoria 3D de un objeto en movimiento con una sola cámara, algunos investigadores sugieren utilizar varias cámaras. Por ejemplo, CoSLAM 4 es un sistema VSLAM introducido por Zou y Tan [63] que utiliza cámaras individuales implementadas en diferentes plataformas para reconstruir mapas robustos. Su sistema integra múltiples cámaras que se mueven de forma independiente en un entorno dinámico y reconstruye un mapa a partir de sus campos de visión superpuestos. Este proceso facilita la reconstrucción de nubes de puntos dinámicas en 3D mediante la integración de estimación y mapeo de posturas dentro y entre cámaras. CoSLAM utiliza el algoritmo KanadeLucas-Tomasi (KLT) para rastrear características visuales y opera en entornos estáticos y dinámicos interiores/exteriores donde las posiciones y orientaciones relativas pueden cambiar con el tiempo. La principal desventaja de este enfoque es que se requiere hardware complejo para analizar la salida de datos de una gran cantidad de cámaras, y el costo computacional aumenta debido a la adición de más cámaras.

Para escenarios desafiantes en la naturaleza, Yang y otros [64] desarrollaron un método VSLAM panorámico colaborativo multicámara. Su enfoque requiere que cada cámara sea independiente para mejorar el rendimiento de los sistemas VSLAM en condiciones difíciles, como oclusiones y entornos con escasa textura. Para determinar el rango coincidente, extraen características ORB de los campos de visión superpuestos de las cámaras. Además, adoptaron técnicas de aprendizaje profundo basadas en CNN para identificar características similares para la detección de cierre de bucle. En los experimentos, los autores utilizaron un conjunto de datos generado por una cámara panorámica y un sistema de navegación integrado.

MultiCol SLAM es otro marco VSLAM de código abierto de Urban y Hinz que utiliza una configuración multicámara [65]. Utilizando su modelo creado previamente, MultiCol, aumentan ORB-SLAM con un proceso basado en fotogramas clave que admite múltiples cámaras de ojo de pez. Agregaron un módulo de procesamiento de fotogramas clave múltiples (MKF) a ORB-SLAM, que recopila imágenes que las convierten en fotogramas clave. El autor también propone la idea del cierre de bucle multicámara, donde el cierre de bucle se detecta desde MKF. Aunque su método se ejecuta en tiempo real, requiere mucha potencia informática ya que varios subprocesos deben ejecutarse simultáneamente.

2) Emplear múltiples sensores (usando múltiples sensores)

Algunos otros enfoques recomiendan fusionar múltiples sensores y utilizar salidas de sensores basadas en visión e inercia para un mejor rendimiento. En este sentido, Zhu et al.66 propusieron un VSLAM indirecto asistido por lidar de bajo costo llamado CamVox 5 y demostraron su rendimiento y precisión confiables. Su enfoque utiliza ORB-SLAM 2.0, que combina Livox lidar como un sensor de profundidad avanzado con la salida de una cámara RGB-D. Los autores utilizaron una IMU para sincronizar y corregir posiciones de escaneo no repetitivas. Su contribución es un método para la calibración de cámaras lidar autónomas que funcionan en un entorno no controlado. Las pruebas del mundo real en plataformas robóticas han demostrado que CamVox opera en tiempo real mientras procesa su entorno.

Los autores en [67] propusieron un sistema multimodal llamado VIRAL (Visual Inertial Ranging LiDAR) SLAM, que combina una cámara, LiDAR, IMU y UWB. También propusieron un mapa de características visuales que coincide con el esquema de marginación basado en mapas locales construidos a partir de nubes de puntos LIDAR. Los componentes visuales se extraen y rastrean mediante el algoritmo BRIEF. El marco también contiene esquemas de sincronización y activadores para los sensores utilizados. Probaron su método en un entorno simulado y un conjunto de datos generado llamado NTU VIRAL [54], que contiene datos capturados por cámaras, sensores LiDAR, IMU y UWB. Sin embargo, su método es computacionalmente costoso debido a que tiene que lidiar con conflictos de sincronización, subprocesos múltiples y sensores.

Vidal y otros [42] proponen integrar cámaras de eventos, marcos de cámara e IMU en una configuración paralela para una estimación confiable de la pose en entornos de alta velocidad. Su sistema Ultimate SLAM 6 se basa en cámaras de eventos y un hilo de optimización no lineal basado en fotogramas clave introducido en [68]. Utilizan el detector de esquinas FAST y el algoritmo de seguimiento de Lucas Kanade para la detección y el seguimiento de características, respectivamente. Ultimate SLAM evita los problemas de desenfoque de movimiento que surgen con las actividades de alta velocidad y funciona en entornos dinámicos con diferentes condiciones de iluminación. La eficiencia de esta técnica en el "Conjunto de datos de cámaras de eventos" es evidente en comparación con otras configuraciones de cámaras de eventos puras y cámaras normales. Los autores también probaron Ultimate SLAM en un dron quadrotor autónomo equipado con una cámara de eventos para demostrar cómo su sistema maneja condiciones de vuelo que las plataformas VO convencionales no pueden manejar. El principal problema al que se enfrenta Ultimate SLAM es la sincronización de eventos y la salida de fotogramas estándar.

Nguyen y otros [69] propusieron una cámara monocular estrechamente acoplada y un sensor de distancia UWB para VSLAM. Crean mapas utilizando una combinación de puntos de referencia basados ​​en características (visibles) y sin características (UWB). Puede funcionar eficazmente cuando UWB sufre efectos de múltiples rutas en entornos concurridos. Construyeron un método indirecto sobre la base de ORB-SLAM y utilizaron características de ORB para estimar la pose. Probaron su sistema en un conjunto de datos que simula la recopilación de datos por parte de un robot aéreo utilizando medios portátiles. La sincronización de la cámara y el sensor UWB es una gran dificultad en este caso, pero se ha superado mediante el uso de una nueva pose de cámara con una marca de tiempo asociada para cada nueva imagen.

5.2 Objetivo 2: Estimación de pose

Este tipo de método se centra en cómo optimizar la estimación de pose de VSLAM utilizando varios algoritmos.

1) Usando datos de línea/punto:

En este sentido, Zhou y otros [70] proponen utilizar las líneas de la estructura del edificio como características útiles para determinar la pose de la cámara. Las líneas estructurales están asociadas con direcciones dominantes y codifican información de dirección global, mejorando las trayectorias previstas. StructSLAM mencionado anteriormente es una tecnología VSLAM de 6 grados de libertad (DoF) que puede funcionar en condiciones bajas y sin funciones. Utiliza EKF para estimar variables en función de la orientación actual de la escena. Para la evaluación, se utilizan el conjunto de datos de escenas interiores de RAWSEEDS 2009 y un conjunto de conjuntos de datos de imágenes de secuencia generadas.

Point and Line SLAM (PL-SLAM) es un sistema VSLAM basado en ORB-SLAM propuesto por Pumarola et al.[71], que está optimizado para escenas no dinámicas y de baja textura. El sistema fusiona características de líneas y puntos simultáneamente para mejorar la estimación de pose y ayudar a operar con menos puntos de características. Los autores probaron PL-SLAM en el conjunto de datos generado y TUM RGB-D. La desventaja de este enfoque es que es costoso desde el punto de vista computacional, mientras que se utilizan otros elementos geométricos, como los planos, para lograr una mayor precisión.

Gómez-Ojeda y otros [72] introdujeron PL-SLAM (diferente del marco del mismo nombre en Pumarola y otros [71]), una técnica VSLAM indirecta que utiliza puntos y líneas de cámaras de visión estéreo para reconstruir mapas invisibles. Fusionan segmentos obtenidos de puntos y líneas en todos los módulos VSLAM con información visual obtenida de fotogramas consecutivos en su método. Los puntos y líneas se recuperan y rastrean en fotogramas estéreo posteriores en PL-SLAM utilizando algoritmos ORB y Detector de líneas (LSD). Los autores probaron PL-SLAM en los conjuntos de datos EuRoC y KITTI, que pueden superar a la versión estéreo de ORB-SLAM 2.0 en términos de rendimiento. Una de las principales desventajas de PL-SLAM es el tiempo de cálculo requerido por el módulo de seguimiento de características, y para extraer más información ambiental, se deben cubrir casi todas las líneas de la estructura.

Lim y otros [73] introdujeron una técnica para evitar la degradación para VSLAM basado en líneas de puntos monopropósito. Otra contribución de su método es un potente módulo de seguimiento de líneas basado en flujo óptico para extraer características de líneas, filtrar líneas cortas en cada cuadro y hacer coincidir características de líneas previamente identificadas. Para demostrar la eficacia de su técnica y demostrar su superioridad sobre los métodos establecidos basados ​​en puntos, probaron su sistema en el conjunto de datos EuRoC MAV. A pesar de numerosos hallazgos, este sistema carece de un método adaptativo para identificar los parámetros de optimización correctos.

2) Utilice otros rasgos:

En [74] se propone un marco para cámaras de visión estéreo: Dual Quaternion Visual SLAM (DQV-SLAM), que utiliza un marco bayesiano para la estimación de pose de 6 DoF. Para evitar la linealización de grupos de transformaciones espaciales no lineales, su método utiliza una actualización bayesiana progresiva. Para nubes de puntos de mapas y flujo óptico, DQVSLAM utiliza funciones ORB para lograr una asociación de datos confiable en entornos dinámicos. En los conjuntos de datos KITTI y EuRoC, el método puede estimar de forma fiable los resultados experimentales. Sin embargo, carece de una interpretación probabilística para el modelado estocástico de poses y es computacionalmente exigente para el filtrado basado en aproximaciones de muestreo.

[75] desarrollaron una técnica para reconstruir mapas de ambientes interiores a gran escala utilizando marcadores planos cuadrados artificiales. Su sistema SPM-SLAM en tiempo real puede usar los marcadores para resolver la ambigüedad en la estimación de la pose si se pueden observar al menos dos marcadores en cada cuadro de video. Crearon un conjunto de datos que contenía secuencias de vídeo de marcadores colocados en dos habitaciones unidas por una puerta. Aunque SPM-SLAM tiene un buen valor, solo es efectivo cuando hay múltiples marcadores planos dispersos por la región y al menos dos marcadores están disponibles para el reconocimiento de conexiones de marcadores. Además, no se juzga la capacidad de su marco para manejar cambios dinámicos en la escena.

3) Método de aprendizaje profundo

Bruno y Colombini [76] propusieron LIFT-SLAM, que combina descriptores de características basados ​​en aprendizaje profundo con sistemas tradicionales basados ​​en geometría. Ampliaron el Pipeline del sistema ORB-SLAM y utilizaron CNN para extraer características de las imágenes, utilizando las características aprendidas para proporcionar coincidencias más densas y precisas. Para la detección, descripción y estimación de la orientación, LIFT-SLAM afina la red neuronal profunda LIFT. Los estudios que utilizan instancias interiores y exteriores de conjuntos de datos KITTI y EuRoC MAV muestran que LIFT-SLAM supera a los esquemas VSLAM tradicionales basados ​​en funciones y aprendizaje profundo en términos de precisión. Sin embargo, la desventaja de este método es su uso intensivo de subprocesos computacionales y su diseño de CNN no optimizado, lo que, por supuesto, también contribuye a su rendimiento casi en tiempo real.

Naveed y otros [77] propusieron un esquema VSLAM basado en aprendizaje profundo con módulos confiables y consistentes incluso en problemas extremadamente complejos. Su método supera a varios VSLAM y utiliza redes de aprendizaje por refuerzo profundo entrenadas en simuladores reales. Además, proporcionan una base para la evaluación VSLAM activa y pueden generalizarse adecuadamente en entornos interiores y exteriores reales. El planificador de rutas de red proporciona datos de rutas ideales, que son recibidos por su sistema subyacente ORB-SLAM. Produjeron un conjunto de datos que contiene problemas de navegación del mundo real en entornos desafiantes y sin texturas para su evaluación.

RWT-SLAM es un marco VSLAM basado en la coincidencia profunda de características propuesta por el autor en [78] para situaciones de textura débil. Su enfoque se basa en ORB-SLAM, utilizando máscaras de características del algoritmo mejorado LoFTR [79] para la coincidencia de características de imágenes locales. Los descriptores de nivel grueso y fino de la escena se extraen utilizando la arquitectura CNN y el algoritmo LoFTR, respectivamente. RWT-SLAM se prueba en conjuntos de datos de escenas TUM RGB-D y OpenLORIS, así como en conjuntos de datos del mundo real recopilados por los autores. Sin embargo, a pesar de la sólida característica que combina resultados y rendimiento, su sistema todavía requiere un uso intensivo de computación.

5.3 Meta tres: Viabilidad en el mundo real

El objetivo principal de estos métodos es utilizarlos en diversos entornos y funcionar en múltiples escenarios. Observamos que todos los métodos que acabamos de mencionar integran en gran medida la información semántica del entorno y presentan un VSLAM de un extremo a otro.

1) entorno dinámico

En este sentido, Yu et al.61 introdujeron un sistema VSLAM llamado DS-SLAM, que puede usarse en entornos dinámicos y proporciona información semántica para la construcción de mapas. El sistema se basa en ORB-SLAM 2.0 e incluye cinco subprocesos: seguimiento, segmentación semántica, mapeo local, cierre de bucle y construcción de mapas semánticos densos. Para excluir elementos dinámicos y mejorar la precisión de la localización antes del proceso de estimación de pose, DS-SLAM emplea el algoritmo de flujo óptico [80] con una red de segmentación semántica en tiempo real SegNet. DS-SLAM se ha probado en entornos reales, cámaras RGB-D y el conjunto de datos TUM RGB-D. Sin embargo, a pesar de su alta precisión de localización, todavía enfrenta las limitaciones de la segmentación semántica y las características de la computación intensa.

Semantic Optical Flow SLAM (SOF-SLAM) es un sistema VSLAM indirecto basado en el modo RGB-D de ORBSLAM 2.0, que es otro método para entornos altamente dinámicos propuesto por Cui y Ma [45]. Su método utiliza un módulo de detección de características dinámicas de flujo óptico semántico que extrae y omite características dinámicas ocultas en la información semántica y geométrica proporcionada por la extracción de características ORB. Para proporcionar información precisa sobre la pose y el entorno de la cámara, SOF-SLAM utiliza el módulo de segmentación semántica a nivel de píxeles de SegNet. En situaciones altamente dinámicas, los resultados experimentales en el conjunto de datos TUM RGB-D y entornos reales muestran que SOF-SLAM supera a ORB-SLAM 2.0. Sin embargo, los métodos ineficaces para el reconocimiento de características no estáticas y los métodos que solo se basan en dos fotogramas consecutivos son las debilidades de SOF-SLAM.

Cheng y otros [81] propusieron un sistema VSLAM para entornos dinámicos utilizando métodos de flujo óptico para separar y eliminar puntos característicos dinámicos. Explotan la estructura de ORB-SLAM y le proporcionan puntos característicos fijos generados a partir de la salida típica de una cámara monocular para una estimación precisa de la pose. En ausencia de características, el sistema funciona clasificando los valores del flujo óptico y utilizándolos para el reconocimiento de características. Según los resultados experimentales del conjunto de datos TUM RGB-D, el sistema funciona bien en entornos interiores dinámicos.

Yang y otros [82] publicaron otro esquema VSLAM que utiliza datos de red segmentados semánticamente, técnicas de detección de consistencia de movimiento y restricciones geométricas para reconstruir mapas ambientales. Su método, basado en la variante RGB-D de ORB-SLAM 2.0, funciona bien en entornos interiores y dinámicos. Utilice la técnica mejorada de extracción de características ORB para mantener solo las características estables en la escena, ignorando las características dinámicas. Luego, la característica y los datos semánticos se combinan para crear un mapa semántico estático. Los resultados de la evaluación de los conjuntos de datos Oxford y TUM RGB-D demuestran la eficacia de su método para mejorar la precisión de la localización y crear mapas semánticos con grandes cantidades de datos. Sin embargo, su sistema puede tener problemas en pasillos o lugares con menos información.

2) Soluciones basadas en aprendizaje profundo

En otro trabajo llamado DXSLAM de Li et al., [83], se utiliza el aprendizaje profundo para encontrar puntos clave similares a los SuperPoints y generar descriptores genéricos y puntos clave para imágenes. Entrenaron una CNN HF-NET más potente para extraer información local y global de cada cuadro y generar información de descripción basada en cuadros y puntos clave. También utilizan el método de bolsa de palabras (BoW) fuera de línea para entrenar un diccionario visual de características locales (vocabulario visual) para lograr una detección precisa del cierre del bucle. DXSLAM puede ejecutarse en tiempo real sin el uso de unidades de procesamiento de gráficos (GPU) y es compatible con CPU. Aunque no se enfatiza particularmente, tiene una gran capacidad para resistir cambios dinámicos en entornos dinámicos. DXSLAM se ha probado en conjuntos de datos de escenas TUM RGB-D y OpenLORIS, así como en imágenes de interiores y exteriores, y puede obtener resultados más precisos que ORBSLAM 2.0 y DS-SLAM. Sin embargo, las principales desventajas de este enfoque son la complicada arquitectura de extracción de características y el problema de fusionar características profundas con marcos SLAM antiguos.

Li y otros [84] desarrollaron una técnica VSLAM en tiempo real para extraer puntos característicos basándose en el aprendizaje profundo en situaciones complejas. El método es una CNN multitarea autosupervisada para la extracción de características que puede ejecutarse en una GPU y admite la creación de mapas densos en 3D. La salida de CNN es una cadena de código binario con una longitud fija de 256, lo que permite que sea reemplazada por detectores de puntos característicos más tradicionales, como ORB. Incluye tres subprocesos para un rendimiento preciso y oportuno en escenas dinámicas: seguimiento, mapeo local y detección de cierre de bucle. Este esquema es compatible con ORB-SLAM 2.0 utilizando cámaras monoculares y RGB-D como base. Los autores lo probaron en el conjunto de datos TUM y dos conjuntos de datos recopilados por ellos mismos (conjuntos de datos de pasillos y oficinas recopilados con cámaras Kinect).

Steenbeek y Nex en [85] introdujeron una técnica VSLAM en tiempo real que utiliza CNN para un análisis preciso de escenas y reconstrucción de mapas. Su solución utiliza la transmisión de la cámara monocular de un dron durante el vuelo, empleando una red neuronal de estimación de profundidad para un rendimiento estable. El método anterior se basa en ORB-SLAM 2.0 y utiliza la información visual recopilada del ambiente interior. Además, la CNN está entrenada en más de 48.000 casos interiores y manipula la pose, la profundidad espacial y las entradas RGB para estimar la escala y la profundidad. La evaluación del sistema utilizando el conjunto de datos TUM RGB-D y las pruebas del mundo real con drones demuestran una mayor precisión en la estimación de la postura. Sin embargo, el sistema tendría problemas sin texturas, ya que requeriría recursos de CPU y GPU para un rendimiento en tiempo real.

3) Uso de puntos de referencia artificiales

y Medina Carnicer desarrollaron una técnica llamada UcoSLAM11] que supera a los sistemas VSLAM tradicionales al combinar puntos de referencia naturales y artificiales y utilizar marcadores fiduciales para calcular automáticamente la escala del entorno circundante. El objetivo principal de UcoSLAM es solucionar la inestabilidad, repetibilidad y mala calidad de seguimiento de puntos de referencia naturales. Puede ejecutarse en entornos sin indicadores de funciones, ya que puede ejecutarse en modo solo claves, solo indicadores o mixto. Para conocer la correspondencia del mapa, optimizar el error de reproyección y reubicarse cuando falla el seguimiento, UcoSLAM configura el modo de seguimiento. Además, tiene un sistema de detección de cierre de bucle basado en marcadores que se puede caracterizar mediante cualquier descriptor, incluidos ORB y FAST. Aunque UcoSLAM tiene muchas ventajas, el sistema ejecuta muchos subprocesos, lo que lo convierte en un método que requiere mucho tiempo.

4) Amplia gama de configuraciones

Otra estrategia VSLAM para entornos dinámicos interiores y exteriores es DMS-SLAM [87], que admite sensores de visión monoculares, estéreo y RGB-D. El sistema emplea una ventana deslizante y un método de coincidencia de características con estadísticas de movimiento basadas en cuadrículas (GMS) [88] para encontrar ubicaciones de características estáticas. Basado en el sistema ORB-SLAM 2.0, DMS-SLAM rastrea las características estáticas identificadas por el algoritmo ORB. Los autores probaron el método propuesto en los conjuntos de datos TUM RGB-D y KITTI y los resultados fueron mejores que los del algoritmo VSLAM, que siempre ha funcionado bien. Además, DMS-SLAM funciona más rápido que el ORB-SLAM 2.0 original debido a la eliminación de puntos característicos en objetos dinámicos en el paso de seguimiento. A pesar de las ventajas anteriores, este esquema adolece de dificultades en entornos menos texturizados, de movimiento rápido y altamente dinámicos.

5.4 Meta 4: Restricción de recursos

Algunos métodos VSLAM están diseñados para dispositivos con recursos computacionales limitados en comparación con dispositivos con condiciones ideales. Este es el caso, por ejemplo, de VSLAM diseñado para dispositivos móviles y robots con sistemas integrados.

1) Dispositivos con potencia informática limitada:

EdgeSLAM es un sistema VSLAM semántico asistido en tiempo real para dispositivos móviles y con recursos limitados propuesto por Xu y otros [89]. Emplea una serie de módulos detallados que utilizan servidores perimetrales y dispositivos móviles relacionados sin subprocesos complejos. EdgeSLAM también incluye un módulo de segmentación semántica basado en la tecnología de máscara RCNN para optimizar el efecto de la segmentación y el seguimiento de objetivos. Los autores ponen su método en práctica instalando algunos dispositivos móviles disponibles comercialmente, como teléfonos móviles y placas de desarrollo, en un servidor perimetral. Al reutilizar los resultados de la segmentación de objetos, adaptan los parámetros del sistema a diferentes anchos de banda de la red y situaciones de latencia para evitar procesamientos repetidos. EdgeSLAM se evaluó en TUM RGB-D, la instancia de visión monocular de KITTI, y los conjuntos de datos creados para la configuración experimental.

Para cámaras estéreo, Schlegel, Colosi y Grisetti [90] propusieron un marco VSLAM liviano basado en funciones, llamado ProSLAM, con resultados comparables a marcos bien recibidos. Su enfoque consta de cuatro módulos: un módulo de triangulación, que crea una nube de puntos 3D y descriptores de características asociados; un módulo de estimación de movimiento incremental, que procesa dos fotogramas para determinar la posición actual; un módulo de gestión de mapas, que crea un mapa local; el El módulo de localización actualiza el mapa global en función de la similitud de los mapas locales. ProSLAM recupera la pose 3D de un punto utilizando un solo hilo y aprovecha una pequeña cantidad de bibliotecas conocidas para crear un sistema simple. Según experimentos con conjuntos de datos KITTI y EuRoC, su método puede lograr buenos resultados. Sin embargo, es débil en la estimación de rotación y no contiene ningún módulo BA.

Bavle y otros [91] propusieron VPS-SLAM, un marco VSLAM ligero basado en gráficos para robots aéreos. Su sistema en tiempo real integra datos geométricos, técnicas de detección de múltiples objetos y VO/VIO para facilitar la estimación de pose y construir un mapa semántico del entorno. VPS-SLAM utiliza funciones de bajo nivel, mediciones IMU e información plana de alto nivel para reconstruir mapas semánticos dispersos y estimar los estados del robot. El sistema utiliza You Only Look Once v2.0 (YOLO2) [92], una versión ligera basada en el conjunto de datos COCO [93], para la detección de objetos debido a su eficiencia computacional y en tiempo real. Utilizaron una cámara de mano y un robot aéreo equipado con una cámara RGB-D para realizar las pruebas. Se utilizaron ejemplos de interiores del conjunto de datos TUM RGB-D para probar su método y pudieron proporcionar los mismos resultados que los métodos VSLAM conocidos. Sin embargo, su sistema VSLAM solo puede utilizar una pequeña cantidad de objetos (como sillas, libros y computadoras portátiles) para construir un mapa semántico del área circundante.

Tseng y otros [94] propusieron otro método VSLAM interior en tiempo real que satisface la condición de asignación baja. Los autores también proponen una técnica para estimar el número de fotogramas y elementos visuales necesarios para una precisión de localización plausible. Su esquema se basa en el marco OpenVSLAM [95] y lo utiliza para situaciones emergentes que surgen en el mundo real, como el acceso a objetos específicos. El sistema adquiere mapas de características de la escena aplicando algoritmos Efficient Perspective Point (EPnP) y RANSAC para una estimación precisa de la pose. Según los resultados de las pruebas en interiores, su dispositivo puede obtener resultados precisos en condiciones de poca iluminación.

2) Descarga de Computación

Ben Ali y otros [96] propusieron utilizar la computación perimetral para migrar operaciones que requieren un uso intensivo de recursos a la nube para reducir la carga computacional de los robots. Modificaron la arquitectura de ORB-SLAM 2.0 en el marco indirecto Edge SLAM 14, ejecutaron el módulo de seguimiento en el robot y migraron el resto al dispositivo informático de borde. Al dividir la canalización VSLAM entre robots y dispositivos perimetrales, el sistema puede mantener mapas tanto locales como globales. Con menos recursos, aún pueden funcionar correctamente sin sacrificar la precisión. Realizaron evaluaciones utilizando el conjunto de datos TUM RGB-D y dos conjuntos de datos de entornos interiores específicos recopilados utilizando diferentes dispositivos móviles equipados con cámaras RGB-D. Sin embargo, una de las desventajas de su enfoque es la mayor complejidad arquitectónica debido al desacoplamiento de varios módulos SLAM. Otro problema es que sus sistemas funcionan bien durante períodos cortos de tiempo y se degradan cuando se usa Edge SLAM en escenarios a largo plazo (por ejemplo, varios días).

5.5 Objetivo Cinco: Versatilidad

El trabajo de VSLAM en esta categoría se centra en la explotación, explotación, adaptación y extensión directas.

Sumikura y otros [95] propusieron OpenVSLAM, que es un marco VSLAM de código abierto adaptable, que se utiliza principalmente para un desarrollo rápido y también puede ser invocado por programas de terceros. Su enfoque basado en funciones es compatible con múltiples tipos de cámaras, incluidas monocular, estéreo y RGB-D, y los mapas reconstruidos se pueden almacenar o reutilizar para su uso posterior. Debido a su potente módulo extractor de funciones ORB, OpenVSLAM supera a ORB-SLAM y ORB-SLAM2.0 en términos de precisión y eficiencia de seguimiento. Sin embargo, el código abierto del sistema se suspendió debido a preocupaciones sobre la similitud del código que infringe ORB-SLAM 2.0.

Para cerrar la brecha entre tiempo real, precisión y elasticidad, Ferrera y otros [97] desarrollaron un método que OV^2 LODOSfunciona con cámaras de visión monocular y estéreo. Esto reduce el cálculo al restringir la extracción de características a fotogramas clave y monitorearlos en fotogramas posteriores eliminando errores fotométricos. En este sentido, se trata de un esquema híbrido que combina las ventajas del método directo y el método indirecto del algoritmo VSLAM. Utilizando conjuntos de datos de referencia conocidos, incluidos EuRoC, KITTI y TartanAir, en experimentos en interiores y exteriores, se demuestra que supera a varios esquemas convencionales en términos de rendimiento y precisión.

Teed y Deng propusieron otro método llamado DROID-SLAM, que es un SLAM visual basado en aprendizaje profundo para cámaras monoculares, estéreo y RGB-D [98]. Pueden lograr mayor precisión y robustez que los métodos de seguimiento monocular y estéreo conocidos. Su esquema puede ejecutarse en tiempo real, incluidos los subprocesos de backend (para BA) y frontend (para recopilación de fotogramas clave y optimización de gráficos). DROID-SLAM ya ha sido entrenado con instancias de cámara monocular, por lo que no es necesario volver a entrenar con entradas estéreo y RGB-D. Al igual que el método indirecto, este método minimiza los errores de proyección sin requerir ningún procesamiento previo para el reconocimiento y coincidencia de características. Una red de extracción de características que incluye capas de reducción de resolución y bloques residuales procesa cada imagen de entrada para crear características densas. DROID-SLAM se ha probado en conjuntos de datos conocidos, incluidos TartanAir, EuRoC y TUM RGB-D, y logra resultados aceptables.

Bonetto y otros [99] propusieron iRotate, una técnica activa para robots omnidireccionales basada en cámaras RGB-D. Además, en su método se incluye un módulo para encontrar obstáculos dentro del campo de visión de la cámara. El objetivo principal de iRotate es reducir la distancia requerida para que los robots mapeen sus entornos proporcionando resultados de estudios de ubicaciones inexploradas, así como de ubicaciones visitadas previamente. El método anterior utiliza un marco VSLAM con características gráficas como backend. Al comparar robots omnidireccionales de tres ruedas reales y simulados, los autores pueden lograr los mismos resultados que los métodos VSLAM convencionales. La principal desventaja de este enfoque es que el robot puede enfrentarse a una situación de arranque y parada para una replanificación parcial de la ruta.

5.6 Meta Seis: Odómetro Visual

Estos métodos pretenden obtener la mayor precisión posible a la hora de determinar la postura del robot.

1) Red neuronal profunda

En [100] se propuso un marco SLAM dinámico, que utiliza el aprendizaje profundo para una estimación precisa de la pose y una comprensión adecuada del entorno. Como parte de la optimización del módulo de nivel semántico de VO, los autores utilizan CNN para reconocer objetos en movimiento en el entorno, lo que les ayuda a reducir el error de estimación de pose causado por una coincidencia incorrecta de características. Además, Dynamic SLAM utiliza un módulo de seguimiento selectivo para ignorar las posiciones dinámicas en la escena y un algoritmo de corrección de características faltantes para lograr la invariancia de velocidad en fotogramas adyacentes. Aunque los resultados son buenos, debido al número limitado de clases semánticas definidas, el sistema requiere un costo computacional enorme y enfrenta el riesgo de clasificar erróneamente objetos dinámicos/estáticos.

Bloesch y otros [101] propusieron la técnica directa Code-SLAM, que proporciona una representación condensada y densa de la geometría de la escena. Su sistema VSLAM es una versión mejorada de PTAM [14], que solo depende de una cámara monocular para funcionar. Dividieron la imagen de intensidad en características convolucionales y la alimentaron a un codificador automático profundo utilizando una CNN entrenada en imágenes de intensidad del conjunto de datos SceneNet RGB-D. Se han utilizado instancias interiores del conjunto de datos EuRoC para probar Code-SLAM y los resultados son prometedores en términos de precisión y rendimiento.

Wang y otros propusieron DeepVO, un marco de VO de extremo a extremo que utiliza una arquitectura de red neuronal convolucional recurrente profunda (RCNN) para la configuración monocular. Su método utiliza el aprendizaje profundo para aprender automáticamente las características apropiadas, modelar dinámicas y relaciones secuenciales e inferir poses directamente a partir de marcos de color. La arquitectura DeepVO consta de una CNN llamada FlowNet (que puede calcular el flujo óptico en fotogramas sucesivos) y dos capas de memoria a corto plazo (LSTM) (utilizadas para estimar los cambios temporales en función de las fuentes proporcionadas por la CNN). Este marco puede extraer simultáneamente características visuales y realizar modelado secuencial combinando CNN y redes neuronales recurrentes (RNN). DeepVO puede combinar información geométrica con modelos de conocimiento aprendidos para mejorar el VO. Sin embargo, no se puede utilizar para reemplazar los métodos tradicionales de VO basados ​​en geometría.

Parisotto y otros [103] propusieron un sistema de extremo a extremo similar a DeepVO, utilizando un paso de optimización de gráficos neuronales (NGO) en lugar de LSTM. Su enfoque realiza la detección y corrección del cierre del bucle basándose en diferentes posturas en un tiempo uniforme. NGO utiliza dos métodos de optimización de la atención para optimizar conjuntamente las estimaciones agregadas realizadas por las capas convolucionales del módulo de estimación de pose local y proporcionar una estimación de pose global. Experimentaron con su técnica en laberintos 2D y 3D y superaron los niveles de rendimiento y precisión de DeepVO. El método anterior debe estar conectado al marco SLAM para proporcionar la señal de relocalización.

En otro trabajo, Czarnowski y otros [104] introdujeron el marco VSLAM más común llamado DeepFactors, que se utiliza principalmente para la reconstrucción densa de mapas ambientales desde cámaras monoculares. Para reconstruir el mapa de manera más estable, su solución en tiempo real utiliza datos probabilísticos combinados con métodos de aprendizaje y basados ​​en modelos para la optimización conjunta de la pose y la profundidad. Los autores modificaron el marco CodeSLAM y agregaron componentes faltantes, como la detección de cierre de bucle local/global. Después de entrenar con aproximadamente 1,4 millones de imágenes ScanNet [105], el sistema se evalúa en los conjuntos de datos ICL-NUIM y TUM RGB-D. DeepFactors mejora la idea del marco CodeSLAM y se centra en la optimización del código en SLAM Pipeline tradicional. Sin embargo, debido al coste computacional de los módulos, este enfoque requiere el uso de GPU para garantizar el rendimiento en tiempo real.

2) Procesamiento profundo entre cuadros

En otro trabajo, los autores de [106] desarrollaron un método SLAM denso en tiempo real para cámaras RGB-D al reducir los errores fotométricos y geométricos entre dos imágenes para la detección de movimiento de la cámara, mejorando sus métodos existentes. Su solución basada en fotogramas clave aumenta Pose SLAM (que solo conserva poses no redundantes para generar mapas densos), agrega características de odometría visual densa y utiliza eficientemente la información de los fotogramas de la cámara para una estimación estable del movimiento de la cámara. Los autores también emplean una técnica basada en entropía para calcular la similitud de fotogramas clave para la detección de cierre de bucle y la prevención de deriva. Sin embargo, su enfoque aún necesita trabajo en la detección de cierre de bucle y la calidad de la selección de fotogramas clave.

En otro trabajo presentado por Li et al., se utiliza un método VSLAM basado en funciones (llamado DP-SLAM) para lograr la eliminación dinámica de objetos en tiempo real. El método utiliza un modelo de propagación bayesiano que se basa en la probabilidad de que los puntos clave se deriven de objetos en movimiento. DP-SLAM puede utilizar un algoritmo de propagación de probabilidad móvil y una actualización de probabilidad iterativa para superar restricciones geométricas y cambios de datos semánticos. Está integrado con ORB-SLAM 2.0 y probado en el conjunto de datos TUM RGB-D. A pesar de los resultados precisos, el sistema solo funciona en VSLAM escaso y enfrenta un alto costo computacional debido a los módulos de actualización probabilística iterativa.

El sistema de navegación interior Pair Navi propuesto por Dong et al., reutiliza las rutas previamente seguidas por un agente para uso futuro por otros agentes. Entonces, el robot móvil anterior, llamado líder, captura información de seguimiento, como giros e información específica del entorno, y se la proporciona al siguiente robot móvil (seguidor) que necesita ir al mismo destino. Mientras que el seguidor utiliza el módulo de relocalización para determinar su posición con respecto a la trayectoria de referencia, el líder combina los módulos de odometría visual y creación de trayectoria. Para identificar y eliminar objetos dinámicos del conjunto de funciones de vídeo, el sistema emplea una CNN basada en regiones enmascaradas (Mask R-CNN). Probaron Pair-Navi en un conjunto de datos recopilados de varios teléfonos inteligentes.

3) Procesamiento de varias funciones

Otro enfoque en esta categoría es un sistema VSLAM basado en texto llamado TextSLAM, propuesto por Li et al. Incorpora elementos de texto recuperados de la escena utilizando la técnica de detección de esquinas FAST en SLAM Pipeline. Los elementos de texto incluyen varias texturas, patrones y semánticas, lo que hace que el método los utilice de manera más efectiva para crear mapas de texto 3D de alta calidad. TextSLAM utiliza elementos de texto como marcadores fiduciales visuales estables, los parametriza después del primer cuadro donde se encuentran los elementos de texto y luego proyecta los objetos de texto 3D en la imagen de destino para su localización nuevamente. También proponen una nueva técnica de parametrización de tres variables para inicializar características instantáneas de elementos de texto. Utilizando una cámara monocular y un conjunto de datos creado por los autores, se realizaron experimentos tanto en ambientes interiores como exteriores, y los resultados fueron muy precisos. Operar en un entorno sin texto, interpretar letras cortas y necesitar almacenar diccionarios de texto grandes son los tres desafíos fundamentales de TextSLAM.

Xu y otros [43] propusieron un sistema VSLAM indirecto basado en ORB-SLAM mejorado, que utiliza un método de mapeo de cuadrícula de ocupación (OGM) y un nuevo módulo de mapeo 2D para lograr una localización e interacción del usuario de alta precisión. Su sistema puede utilizar OGM para reconstruir un mapa del entorno, mostrando la presencia de obstáculos como campos variables igualmente espaciados, lo que permite una navegación continua en tiempo real mientras se planifica una ruta. La inspección experimental de los conjuntos de datos generados muestra su función de proximidad con GPS denegado. Sin embargo, su técnica tiene dificultades para funcionar bien en entornos dinámicos y complejos, y le cuesta igualar adecuadamente las características en corredores y condiciones sin características.

Ma y otros propusieron el método CPA-SLAM, un método VSLAM directo para cámaras RGB-D que utiliza planos para seguimiento y optimización de gráficos. La alineación de fotograma a fotograma clave y de fotograma a plano se integra periódicamente en su tecnología. También introducen un algoritmo de alineación de imágenes para rastrear la alineación del fotograma clave de referencia de la cámara y la imagen plana. CPA-SLAM utiliza los datos de fotogramas clave para encontrar el tiempo y la distancia geográfica más cortos para realizar el seguimiento. El rendimiento en tiempo real del sistema de seguimiento del sistema se prueba con y sin una configuración plana y se analiza en los conjuntos de datos TUM RGB-D e ICL-NUIM, así como en escenas interiores y exteriores. Sin embargo, sólo admite una pequeña cantidad de geometrías, concretamente planos.

06   Tendencias de investigación

6.1 Estadísticas

Con respecto a la clasificación de varios artículos de revisión mencionados anteriormente, visualizamos los datos procesados ​​en la Fig. 4 para descubrir la tendencia actual de VSLAM. En la subfigura "a", podemos ver que la mayoría de los sistemas VSLAM propuestos son aplicaciones independientes que implementan todo el proceso de localización y mapeo desde cero utilizando sensores de visión. Si bien ORB-SLAM 2.0 y ORB-SLAM son las plataformas base utilizadas para construir el nuevo marco, el método de minimización se basa en otros sistemas VSLAM, como PTAM y PoseSLAM. Además, en términos de objetivos de VSLAM, lo más importante en la subfigura "b" es el módulo de odometría visual mejorado. Por lo tanto, la mayoría de los VSLAM recientes intentan resolver los problemas de los algoritmos actuales para determinar la posición y orientación del robot. La estimación de la pose y la capacidad de supervivencia en el mundo real son otros objetivos fundamentales para la presentación de nuevos artículos sobre VSLAM. Con respecto a los conjuntos de datos utilizados para la evaluación en los artículos encuestados, el subtrama "c" ilustra que la mayor parte del trabajo se probó en el conjunto de datos TUM RGB-D. Este conjunto de datos se ha utilizado como línea de base principal o como una de varias líneas de base evaluadas en artículos de investigación. Además, muchos investigadores tienden a realizar experimentos con los conjuntos de datos que generan. Podemos suponer que la principal motivación para generar el conjunto de datos es demostrar cómo funciona el método VSLAM en escenarios reales y si se puede utilizar como una aplicación de un extremo a otro. EuRoC MAV y KITTI son los siguientes conjuntos de datos de evaluación populares en el trabajo de VSLAM, respectivamente. Otra información interesante extraída de la subfigura "d" se refiere al impacto del uso de datos semánticos cuando se utiliza un sistema VSLAM. Podemos ver que la mayoría de los artículos encuestados no incluyen datos semánticos cuando tratan sobre entornos. Nuestra hipótesis es que las razones para no utilizar datos semánticos son:

  • En muchos casos, entrenar un modelo para que reconozca objetos y lo utilice para la segmentación semántica es computacionalmente costoso, lo que puede aumentar el tiempo de procesamiento.

  • La mayoría de los esquemas VSLAM basados ​​en geometría están diseñados como dispositivos plug-and-play, por lo que pueden utilizar la menor cantidad posible de datos de cámara para localización y mapeo.

  • La información errónea extraída de la escena también puede añadir más ruido al proceso.

Al considerar el entorno, podemos ver en la subfigura "e" que más de la mitad de los métodos también pueden funcionar en entornos dinámicos con condiciones desafiantes, mientras que el resto de los sistemas solo se centran en entornos sin cambios dinámicos. Asimismo, en la subfigura "f", la mayoría de los métodos son aplicables a "ambiente interior" o "ambiente interior y exterior", mientras que el resto de los papeles sólo se ensayan en condiciones exteriores. Cabe mencionar que los métodos que sólo funcionan en casos específicos pueden no producir la misma precisión si se utilizan en otros escenarios. Esta es una de las principales razones por las que algunos métodos sólo se centran en casos específicos.

Fig. 4 Tendencias actuales de investigación en VSLAM: a) el sistema SLAM básico utilizado para implementar el nuevo método; b) el propósito principal del método; c) los diversos conjuntos de datos en los que se está probando el método propuesto; d) el uso de semántica en el método propuesto El impacto en los datos; e) el número de objetos dinámicos presentes en el entorno; f) los diversos entornos en los que se probó el esquema.

6.2 Análisis de tendencias

La encuesta actual revisa los últimos métodos SLAM visuales ampliamente atraídos e ilustra sus principales contribuciones en este campo. Aunque ha habido una amplia gama de soluciones estables y mejoras en los distintos módulos del sistema VSLAM en los últimos años, todavía quedan muchas áreas de alto potencial y problemas sin resolver, y la investigación en estas áreas traerá más beneficios para el futuro. desarrollo de SLAM método estable. Dada la gran cantidad de métodos SLAM visuales, aquí analizamos las áreas de tendencia actuales e introducimos las siguientes direcciones de investigación abiertas:

Aprendizaje profundo: las redes neuronales profundas han mostrado resultados interesantes en diversas aplicaciones, incluido VSLAM [15], lo que las convierte en una tendencia importante en varios campos de investigación. Debido a su capacidad de aprendizaje, estas arquitecturas han demostrado un potencial considerable para ser utilizadas como extractores de características decentes para problemas en VO y detección de cierre de bucle. CNN puede ayudar a VSLAM a lograr una detección precisa de objetos y una segmentación semántica, y puede superar a los algoritmos tradicionales de extracción y comparación de características en la identificación correcta de características creadas a mano. Cabe mencionar que, dado que los métodos basados ​​en el aprendizaje profundo se entrenan en conjuntos de datos con una gran cantidad de datos diversos y clases de objetos limitadas, siempre existe el riesgo de clasificar erróneamente los puntos dinámicos y provocar una segmentación errónea. Por lo tanto, puede provocar una menor precisión de segmentación y un error de estimación de postura.

Equilibrio entre recuperación de información y costo computacional: en general, el costo de procesamiento y la cantidad de información en una escena siempre deben estar en equilibrio. Desde esta perspectiva, los mapas densos permiten que las aplicaciones VSLAM registren información de escena completa de alta dimensión, pero la ejecución en tiempo real sería computacionalmente intensiva. Por otro lado, a pesar de ser menos costosas desde el punto de vista computacional, las representaciones escasas no podrán capturar toda la información necesaria. También se debe tener en cuenta que el rendimiento en tiempo real está directamente relacionado con la velocidad de fotogramas de la cámara, y la pérdida de fotogramas en el tiempo máximo de procesamiento puede afectar negativamente el rendimiento de un sistema VSLAM independientemente del rendimiento del algoritmo. Además, VSLAM generalmente utiliza módulos estrechamente acoplados y la modificación de un módulo puede afectar negativamente a otros módulos, lo que hace que la tarea de equilibrio sea más desafiante.

Segmentación semántica: proporcionar información semántica mientras se crea un mapa del entorno puede aportar información muy útil a los robots. Reconocer objetos (por ejemplo, puertas, ventanas, personas, etc.) en el campo de visión de la cámara es un tema candente en el trabajo actual y futuro de VSLAM, ya que la información semántica se puede utilizar en módulos de estimación de pose, planificación de trayectorias y detección de cierre de bucle. Con el uso generalizado de algoritmos de seguimiento y detección de objetos, Semantic VSLAM será sin duda una de las soluciones futuras en este campo.

Detección de cierre de bucle: Cualquier sistema SLAM tiene un problema clave: deriva y pérdida de trayectorias características debido a errores de localización acumulados . La detección de deriva y la detección de cierre de bucle necesitan identificar información de ubicación visitada previamente, lo que genera un alto retraso computacional y un alto costo para VSLAM [89]. La razón principal es que la complejidad de la detección del cierre del bucle aumenta con el tamaño de la reconstrucción del mapa. Además, combinar datos de mapas recopilados de diferentes ubicaciones y refinar la pose estimada es una tarea muy compleja. Por lo tanto, la optimización y el equilibrio del módulo de detección de cierre de bucle tienen un gran potencial de optimización. Uno de los enfoques comunes para la detección de cierre de bucle es optimizar la recuperación de imágenes entrenando un diccionario visual basado en características locales y luego agregándolas.

Problemas especiales de la escena: trabajar en un entorno sin texturas, con pocos puntos característicos distintos, lo que a menudo conduce a errores de deriva en la posición y orientación del robot. Como uno de los principales desafíos de VSLAM, este error puede provocar una falla del sistema. Por lo tanto, será un tema candente considerar métodos complementarios de comprensión de escenas, como la detección de objetos o características de líneas, dentro de los enfoques basados ​​en características.

07   Conclusión

Este artículo presenta una familia de esfuerzos SLAM en los que los datos visuales recopilados por las cámaras juegan un papel importante. Clasificamos el trabajo reciente sobre enfoques de sistemas VSLAM según varias propiedades, como configuración experimental, dominio innovador, algoritmo de seguimiento y detección de objetos, capa semántica, rendimiento, etc. También revisamos las contribuciones clave del trabajo relacionado, así como los obstáculos y desafíos existentes en términos de perspectivas de los autores, optimizaciones para versiones futuras y problemas abordados en otros métodos relacionados. Otra contribución del artículo es la discusión de las tendencias actuales en los sistemas VSLAM y los temas abiertos que los investigadores investigarán más a fondo.

—— Maravillosa recomendación——

  1.  【Literatura】Revisión de Laser SLAM

  2. Descripción general 4D | Percepción de fusión multisensor para conducción autónoma

  3. Estoy estudiando al final de 985 y no puedo ceñirme a la dirección de SLAM visual. ¿Puedes darme algún consejo?

  4. Todo el proceso de posicionamiento y navegación autónomo del robot basado en SLAM.

  5. 17 revisiones del procesamiento de nubes de puntos: segmentación semántica de nubes de puntos, detección de objetos de nubes de puntos, procesamiento de nubes de puntos en conducción autónoma...

Supongo que te gusta

Origin blog.csdn.net/weixin_40359938/article/details/127633508
Recomendado
Clasificación