Visual SLAM: introducción del modelo, marco de algoritmos y escenarios de aplicación

Autor: Universidad Zhang Changhong Hunan

Prueba: Dong Yawei

Editor: Zheng Xinxin @一点Inteligencia Artificial

Dirección original: Visual SLAM: Introducción al modelo, marco de algoritmos y escenarios de aplicación

Tabla de contenido

01 ¿Qué es SLAM?

 1.1 modelo de cámara

1.2 Movimiento de la cámara

1.3 Mapeo

02 marco del algoritmo SLAM

03 escenarios de aplicación SLAM

3.1 Posicionamiento de alta precisión para conducción autónoma

3.2 Robots móviles autónomos

Ampliación del conocimiento:

Navegación integrada (GNSS/INS)

Navegación con código QR/navegación magnética

3.3 Reconstrucción 3D de escenas interiores: AR (tecnología de realidad aumentada), etc.

04 Epílogo

referencias:


Este artículo principalmente quiere utilizar la menor cantidad de vocabulario profesional posible para explicar cómo se posiciona Visual SLAM (algunas expresiones pueden no ser rigurosas). Espero que los socios que estén interesados ​​en Visual SLAM puedan tener una comprensión básica cuando entren en contacto por primera vez. SLAM, este artículo también presenta el marco clásico y los escenarios de aplicación de visual SLAM. Los socios que quieran aprender más, consulten también libros y literatura más profesionales y sistemáticos.

01 ¿Qué es SLAM?

SLAM (Simultaneous Localization and Mapping), es decir, posicionamiento y construcción de mapas simultáneos, se refiere a robots móviles como vehículos y drones equipados con sensores específicos, sin información ambiental previa (¿qué es información previa? Puedes comprobarlo tú mismo) En el caso del movimiento, es una serie de tareas para estimar el propio estado de movimiento mientras se construye un modelo del entorno.

En la actualidad, las personas que tienen más contacto entre sí y han aplicado la tecnología SLAM a la vida real son robots de barrido. Pensemos en ello: después de que el robot barredor llega a un entorno desconocido, ¿cómo limpia la basura? Una idea intuitiva es que el robot primero determina su propia posición y luego determina la posición de la basura en relación con él mismo, de modo que hay un punto inicial y un punto final, y el robot solo necesita moverse desde el punto inicial hasta el punto final para limpiar la basura. Pero esta es una idea muy intuitiva, y la premisa de esta idea es: conocemos la estructura del mapa de la habitación, para que podamos completar mejor la tarea de limpieza de basura. Por lo tanto, el proceso que el robot de barrido debe completar debe ser: comprender el entorno que lo rodea, construir un mapa de la habitación, confirmar su ubicación y la de la basura, luego planificar la ruta, moverse y completar la limpieza. En todo este proceso, construir mapas y posicionarnos son las principales tareas de nuestro SLAM.

A través de un ejemplo tan pequeño se puede reflejar el papel de SLAM. En general, SLAM necesita resolver principalmente dos problemas:

1. ¿Dónde estoy? ----posición

2. ¿Cómo es el entorno que nos rodea? ---- Mapeo

Según los diferentes tipos de sensores, SLAM se puede dividir en diferentes tipos, como se muestra en la Tabla 1

Tabla 1 tipos de SLAM

Este artículo presenta principalmente el SLAM visual con la cámara como sensor. Visual SLAM consiste en inferir el movimiento de la cámara y el entorno circundante en función de imágenes de entrada continua. A continuación, presentaremos el modelo de cámara y el movimiento de la cámara. Veremos cómo el modelo de cámara utiliza la información de la imagen conocida para construir la ecuación de observación y resolveremos el movimiento de la cámara a partir de la ecuación de observación. Después de obtener el movimiento de la cámara, se completa el posicionamiento. aquí. Comencemos con el modelo de cámara y lo deduzcamos paso a paso para completar el posicionamiento al final.

 1.1 modelo de cámara

El modelo de imagen de la cámara representa la relación correspondiente entre un punto 3D en el mundo real y un punto de píxel 2D en la imagen, es decir, el punto 3D en el campo de visión de la cámara puede encontrar el punto de píxel correspondiente en la imagen, y sin considerar la distorsión, un solo El modelo ideal de imágenes de cámara es el modelo estenopeico, como se muestra en la Figura 1, el centro óptico O es el centro de la lente, el eje óptico es una línea recta que pasa por el centro óptico y el físico Plano de imagen, f representa la distancia focal, es decir, el orificio al plano de imagen física. La distancia representa cualquier punto en el espacio tridimensional en el sistema de coordenadas de la cámara, pasa por el centro óptico y se proyecta al punto medio de la Plano de imagen física bidimensional, y cada punto espacial tridimensional corresponde a un píxel en el plano de imagen física.

El modelo estenopeico establece la relación de mapeo desde el mundo tridimensional al plano de píxeles bidimensional a través de la relación geométrica en el proceso de imagen. La descripción matemática es una relación funcional, es decir

, también conocida como ecuación de observación. Entre ellos, las coordenadas de píxeles bidimensionales y las coordenadas de puntos espaciales tridimensionales P y K son la matriz de referencia interna de la cámara, que están determinadas por las características de la propia cámara.

Figura 1 Modelo de imágenes de cámara
Fig.2 Transformación de coordenadas en un espacio tridimensional.

1.2 Movimiento de la cámara

Antes de comprender el movimiento de la cámara, es necesario comprender algunos conceptos básicos:

Sistema de coordenadas mundial: en SLAM visual, el sistema de coordenadas de la cámara cuando se toma la primera imagen generalmente se especifica como el sistema de coordenadas mundial, que no cambia y es único después de ser especificado. El sistema de coordenadas mundial puede entenderse como el origen en la coordenada cartesiana. sistema.

Sistema de coordenadas de la cámara: el sistema de coordenadas con el centro óptico (pequeño orificio) de la cámara como origen, que cambia con el movimiento de la cámara.

El movimiento de la cámara es un movimiento de cuerpo rígido. La transformación de coordenadas del movimiento de cuerpo rígido se puede representar mediante una matriz de rotación (R) y un vector de traslación (t). Considere un punto P en un espacio tridimensional. El valor del punto P en el sistema de coordenadas mundial es, en las coordenadas de la cámara, el valor observado bajo el sistema de coordenadas, la relación de conversión del valor observado del punto P en diferentes sistemas de coordenadas es la siguiente:

A través de la introducción del contenido anterior, podemos seguir los siguientes pasos para comprender cómo se completa el posicionamiento:

(1) La información de entrada del sistema visual SLAM es la imagen de la cámara en diferentes momentos. Lo que queremos usar es la información de píxeles de la imagen. Suponiendo que en el sistema de coordenadas del primer cuadro se conoce un determinado punto espacial, la imagen en el primer cuadro y el P(X,Y,Z)segundo PAGcuadro Los puntos de imagen en la imagen del cuadro son respectivamente p_1,p_2.

(2) A través del modelo de cámara, se pueden obtener las siguientes dos ecuaciones de observación, Rque trepresentan la rotación y la traslación del primer sistema de coordenadas del cuadro al segundo sistema de coordenadas del cuadro p_1=\frac{1}{Z_1}KP,\ \ p_2=\frac{1}{Z_2}K(RP+t).

(3) Basado en 8 pares de puntos coincidentes (p_1,p_2), la ecuación anterior se puede resolver para obtener (Rt).

(4) (Rt)Representa la relación de conversión entre los dos sistemas de coordenadas. Normalmente, el sistema de coordenadas del primer cuadro se definirá como el sistema de coordenadas mundial. Dado que el sistema de coordenadas mundial es fijo, se pueden obtener las coordenadas de la cámara del segundo cuadro. posición y actitud del sistema de coordenadas de la cámara, es decir, el posicionamiento se completa, y el posicionamiento es para obtener la posición y actitud del sistema de coordenadas de la cámara en relación con el sistema de coordenadas mundial en cualquier momento.

Los pasos anteriores se obtienen después de una gran simplificación del problema. En la situación real, hay muchos más factores a considerar, como las diferencias en los tipos de cámaras, los diferentes métodos de representación del movimiento de la cámara y los procesos de solución específicos correspondientes. , necesita más investigación y estudio en profundidad.

1.3 Mapeo

El mapeo se refiere al proceso de construcción de un mapa. Un mapa es una descripción del entorno. Hay muchas formas de esta descripción. Los mapas correspondientes deben construirse de acuerdo con diferentes requisitos. Las formas de representación de los mapas se dividen principalmente en dos tipos: mapas métricos y mapas topológicos. En el campo de SLAM, los investigadores prestan más atención a los mapas métricos.

Los mapas métricos enfatizan la representación precisa de la relación posicional de los objetos en el mapa. Los mapas métricos se dividen a su vez en mapas densos y mapas dispersos. Entre ellos, los mapas dispersos solo representan puntos espaciales representativos del entorno, como el borde de una mesa, que son más fáciles de identificar en la imagen, mientras que otros puntos que no son representativos Se ignora y el mapa disperso se utiliza principalmente para el posicionamiento SLAM. En comparación con el mapa disperso, el mapa denso reconstruye todos los puntos espaciales del entorno, como todo el plano de la mesa. El mapa denso bidimensional se compone de cuadrículas cuadradas y el mapa denso tridimensional se compone de cuadrículas cúbicas. rejillas. Por lo general, un bloque pequeño contiene tres estados: ocupación, inactivo y desconocido para expresar si hay un objeto en la cuadrícula. El mapa denso se utiliza principalmente para la navegación y la evitación de obstáculos de robots o automóviles inteligentes.

02 marco del algoritmo SLAM

El marco del algoritmo visual SLAM clásico se muestra en la Figura 3, que incluye principalmente: lectura de información del sensor, front-end (odómetro), back-end, detección de bucle y mapeo. Cabe señalar que los diferentes tipos de tecnologías SLAM solo son diferentes en el procesamiento front-end y los algoritmos de optimización utilizados en el back-end son comunes. Habrá términos un poco más profesionales en esta sección. Si no lo tiene claro, debe leerlo varias veces con paciencia. Si está interesado en direcciones de investigación de vanguardia, puede encontrar el texto original para comprenderlo.

Figura 3 Marco del algoritmo Visual SLAM

Entrada: recopile imágenes de la cámara y preproceselas.

Parte frontal (odómetro visual): de acuerdo con la imagen de la cámara recopilada en un corto período de tiempo, calcule la posición y actitud de la cámara en el sistema de coordenadas del robot móvil, es decir, la pose, y construya un mapa local.

Los métodos principales de front-end incluyen el método de punto característico (método indirecto) y el método directo. El punto característico se compone de puntos clave y descriptores. El punto clave se refiere a la posición del punto característico en la imagen. Se puede detectar en múltiples fotogramas de imágenes y la relación de emparejamiento se establece comparando los descriptores. Minimizando el repetición Error de proyección para optimizar la pose de la cámara, el método indirecto más clásico es orb-SLAM2. El método directo no tiene un paso de extracción de características y utiliza directamente la información en escala de grises del píxel para optimizar la pose minimizando el error fotométrico del píxel. El método directo más clásico es DSO.

La base teórica del método indirecto y el método directo ha sido relativamente completa, y la dirección actual de mejora es agregar restricciones previas al marco teórico existente, como: restricciones de escala, restricciones de características planas, restricciones de características de líneas paralelas , etc. El trabajo "EDPLVO: Odometría visual punto-línea directa eficiente" publicado en la conferencia mejoró la interfaz y amplió la función de línea al método directo, y ganó el premio al mejor artículo de navegación.

Backend: de acuerdo con la pose de la cámara calculada por el odómetro visual en diferentes momentos, los puntos del mapa 3D y la información de detección de bucle, la pose y los puntos del mapa 3D se optimizan globalmente. El backend se ocupa del problema de ruido en el proceso SLAM. Matemáticamente, es Modelado como un problema de estimación de probabilidad máxima a posteriori a resolver. Los métodos principales incluyen métodos de filtrado representados por filtrado de Kalman extendido y métodos de optimización no lineal. El método de filtrado es más compacto y adecuado para escenarios con recursos informáticos limitados. El método de optimización no lineal puede optimizar la pose de la cámara y la posición del punto del mapa con mayor precisión, pero el tiempo de cálculo es más largo y se requieren más recursos informáticos.

Detección de bucle invertido: juzgue si el robot ha alcanzado la posición anterior. Si se detecta un bucle invertido, puede proporcionar restricciones de tiempo más largas y eliminar errores acumulativos. Se juzga principalmente por la similitud entre imágenes. El método más clásico es el modelo de bolsa de palabras. . Con el rápido desarrollo del aprendizaje profundo, los métodos basados ​​​​en CNN (red neuronal convolucional) y RNN (red neuronal recurrente) pueden mejorar efectivamente la eficiencia de la detección de cierre de bucle.

Mapeo: basándose en la trayectoria estimada, cree un mapa correspondiente a los requisitos de la tarea. Para SLAM, el mapa se utiliza para ayudar al posicionamiento, pero para tareas como navegación, evitación de obstáculos y reconstrucción 3D, el mapa juega un papel más importante. Para completar diferentes tareas, la forma del mapa también es diferente. Los tipos de mapas comunes incluyen mapas de cuadrícula de ocupación, mapas de octree, mapas semánticos, etc.

Lo anterior es el marco clásico formado por el desarrollo de SLAM visual en los últimos 20 años. Es la cristalización de años de trabajo de los investigadores y la base de nuestra propia investigación. Para el campo de SLAM visual, actualmente se están realizando cada vez más trabajos. combinado con aprendizaje profundo Desarrollado, incluida la red de segmentación semántica, la red de estimación de profundidad, el mecanismo de atención, etc. Estas redes se pueden combinar con muchos enlaces de SLAM visual, como extracción y coincidencia de características, estimación de profundidad, estimación de pose y reubicación, etc. , Para mejorar el rendimiento de Visual SLAM. El rendimiento general, por supuesto, la tecnología Visual SLAM combinada con el aprendizaje profundo aún no está lo suficientemente madura. Si está seguro de ser socio de Visual SLAM, también puede intentarlo ~

03 escenarios de aplicación SLAM

Esta parte presentará principalmente los tres escenarios de aplicación principales de SLAM: posicionamiento de alta precisión de conducción autónoma, robots móviles autónomos y reconstrucción 3D de escenas interiores. En diferentes escenarios, los requisitos de precisión del algoritmo, recursos informáticos y velocidad informática son diferentes. Para diferentes escenarios, se debe seleccionar un algoritmo apropiado.

3.1 Posicionamiento de alta precisión para conducción autónoma

El posicionamiento es una parte clave de la conducción autónoma de alto nivel. En la actualidad, el posicionamiento de la conducción autónoma en escenarios de alta velocidad se basa principalmente en la tecnología de navegación integrada. En escenarios de alta velocidad, las condiciones de la carretera son simples y hay poca interacción del vehículo. y no hay necesidad de cambiar de carril con frecuencia. En este escenario, la precisión de posicionamiento a nivel de carril/nivel de decímetro es suficiente, y la tecnología de navegación integrada (GNSS/INS) puede cumplir con los requisitos de precisión en este escenario.

En escenas urbanas de baja velocidad, los carriles son estrechos y el volumen de tráfico es pesado. Especialmente en escenas complejas como intersecciones, se producirán cambios de carril. Para evitar cambios de carril o colisiones de vehículos, los vehículos deben alcanzar niveles de centímetros. En este escenario, generalmente se requieren múltiples tecnologías, como navegación integrada, SLAM visual y SLAM láser, para que el posicionamiento integrado logre una precisión de posicionamiento a nivel de centímetros.

En escenarios como garajes subterráneos y túneles sin señales GNSS, el algoritmo de navegación integrada (GNSS/INS) falla en este momento y debe depender de SLAM visual o SLAM láser para el posicionamiento.

Figura 4 Posicionamiento de alta precisión

3.2 Robots móviles autónomos

Con la mejora paulatina de la inteligencia de los robots móviles, los robots móviles automáticos han comenzado a aparecer en los campos de servicios domésticos, almacenamiento y manipulación logística, detección de fallos, etc. Los robots móviles que antes sólo existían en escenarios industriales especiales están entrando poco a poco en nuestro mundo. vida diaria.

Los robots en diferentes escenarios necesitan realizar diferentes tareas complejas, pero una buena navegación autónoma es un requisito previo para completar las tareas más complejas. La navegación significa que el robot puede conducir desde la posición actual hasta el punto objetivo designado, y el posicionamiento preciso es la clave para la navegación autónoma. La clave es que si se estima incorrectamente su propia posición, el resultado final de la navegación puede estar muy lejos y, naturalmente, es imposible que el robot complete la tarea asignada.

La tecnología SLAM puede satisfacer las necesidades de posicionamiento del robot. Puede permitir que el robot complete su propio posicionamiento y construcción de mapas mientras se mueve en un entorno desconocido. Cuando se determina la posición del robot en el mapa y el entorno circundante, la planificación de la ruta puede ser diseñado El algoritmo calcula la trayectoria del robot para alcanzar la posición especificada y luego controla el robot para que se mueva a lo largo de la trayectoria especificada, es decir, se completa la tarea de navegación. En la actualidad, las tecnologías SLAM visual y SLAM láser se aplican a robots móviles. Dado que los sensores láser se ven menos afectados por el medio ambiente y la tecnología SLAM láser se desarrolló antes, ahora está disponible comercialmente a gran escala. En comparación con el algoritmo SLAM láser, la robustez del algoritmo SLAM visual no puede alcanzar el mismo nivel que el SLAM láser porque la cámara es susceptible a la influencia de la luz y la estructura ambiental, por lo que es necesario combinarlo con la IMU para lograr mejores robustez y mayor precisión.

Para la tecnología SLAM, para completar la tarea de navegación, es necesario construir un mapa. El mapa puede realizar la visualización de las señales de tráfico y el entorno. Además, el mapa puede ayudar al robot a posicionarse y reposicionarse mejor después de perder su posición. Lo que los robots móviles necesitan es un mapa denso en 3D, y la escala del mapa aumenta con el aumento de la escena. Cuanto más grande es el mapa, más recursos de memoria necesitamos para almacenar el mapa, entonces, ¿cómo juzgar si actualizar el mapa y cómo? Vale la pena investigar para almacenar, representar y actualizar el mapa de manera eficiente.

Figura 5 Posicionamiento y mapeo de robots móviles

Ampliación del conocimiento:

Además de SLAM, las principales tecnologías actuales de posicionamiento de robots móviles incluyen navegación integrada (GPS/INS), navegación por código bidimensional/navegación magnética.

Navegación integrada (GNSS/INS)

La tecnología GNSS se refiere a la tecnología de medición que obtiene coordenadas de posicionamiento absolutas en el sistema de coordenadas mediante la observación de satélites GNSS. El sistema de navegación Beidou de China y el GPS estadounidense son tecnologías GNSS. El error de posicionamiento de un solo GNSS en un espacio abierto es inferior a 5 metros. En un entorno urbano, las señales GNSS se bloquean fácilmente y el error de posicionamiento del GNSS puede alcanzar decenas de metros en este momento. Por lo tanto, la navegación integrada (GNSS/INS) se utiliza principalmente en la actualidad, lo que puede mejorar en gran medida la solidez de la navegación integrada. Por supuesto, sus escenarios de aplicación se encuentran principalmente al aire libre.

Navegación con código QR/navegación magnética

AGV se utilizó originalmente para transportar contenedores en el puerto. AGV inicialmente utilizó navegación magnética. Este método necesita enterrar clavos magnéticos con anticipación en la carretera por donde circula el robot a un cierto intervalo. El automóvil AGV recibe los clavos magnéticos a través de su propio sistema magnético. Sensor de navegación. La información para completar su propio posicionamiento y su trayectoria de movimiento está determinada por la disposición de los clavos magnéticos, lo que reduce los requisitos de tecnología de planificación de trayectoria. Esta tecnología es adecuada para puertos y fábricas que manejan automáticamente dichos robots cerrados. con rutas de viaje fijas. La desventaja de esta tecnología es que los clavos magnéticos tendrán problemas de envejecimiento, el costo de reemplazar los clavos magnéticos es muy alto y la ruta de operación del robot no se puede cambiar fácilmente, lo que restringe en gran medida la aplicación más amplia de la tecnología AGV. Por supuesto, AGV se ha desarrollado hasta el presente y también ha aparecido el método de navegación con código QR. La información de ubicación actual se obtiene escaneando el código QR en el techo o el piso con el automóvil AGV, que se utiliza en el almacenamiento. Industria logística y robots de prestación de servicios.

Figura 6 AGV de muelle no tripulado de posicionamiento GNSS (izquierda) (derecha)

3.3 Reconstrucción 3D de escenas interiores: AR (tecnología de realidad aumentada), etc.

AR puede entenderse como una tecnología que calcula la posición de la cámara y la estructura del entorno tridimensional a través de imágenes y otra información del sensor, y la combina con la representación 3D para proporcionar capacidades de interacción humano-computadora más naturales. Para dar un escenario simple, puedes tener un gatito virtual en un dispositivo de realidad virtual, que una tarde de fin de semana se tumbará perezosamente a tus pies y bostezará de vez en cuando. Para realizar tal escenario, los dispositivos AR deben tener las siguientes tres funciones:

· Autoposicionamiento: especifique la posición del dispositivo AR en el espacio, para que el dispositivo AR pueda representar el objeto virtual en una posición adecuada. Para representar el "gatito" al pie, necesita conocer su posición en el espacio.

Percepción ambiental: se refiere a la percepción de la información geométrica tridimensional del entorno circundante, para que los objetos virtuales puedan interactuar con el mundo real. Si quieres que el "gatito" salte sobre la mesa, debes conocer la posición espacial y forma de la mesa.

· Interacción persona-computadora: comprender las aportaciones del entorno circundante, como el lenguaje humano, los gestos y dar retroalimentación.

Para lograr funciones de autoposicionamiento y percepción ambiental se requiere tecnología SLAM. Específicamente, se necesita tecnología SLAM de navegación visual inercial. La navegación visual inercial SLAM también es la solución principal para AR en la actualidad. En comparación con la visión pura que depende únicamente de la solución SLAM de cámaras, la solución visual inercial SLAM de navegación completa un posicionamiento más preciso a través de la entrada de información de imagen de la cámara y la información de velocidad y aceleración de la IMU. Además, debido a la madurez del proceso de fabricación, la MIU y el equipo de cámara son más pequeños y livianos, y el precio es relativamente barato. Teniendo en cuenta los factores anteriores, la tecnología SLAM de navegación visual inercial debería satisfacer mejor las necesidades de los equipos AR. Entonces, el algoritmo SLAM de navegación inercial visual más clásico es el algoritmo vins-mono.

Figura 7 Diagrama esquemático de AR

Por supuesto, solo se puede decir que el actual algoritmo SLAM de navegación visual inercial satisface básicamente las necesidades de los dispositivos AR, pero para permitir a los consumidores obtener una mejor experiencia, los dispositivos AR inevitablemente se desarrollarán en una dirección más pequeña y liviana. hardware La miniaturización y el peso ligero de la máquina son, de hecho, necesidades más urgentes. Por supuesto, esto no significa que el algoritmo no sea importante: en comparación con los automóviles autónomos y los robots móviles, los dispositivos AR tienen mayores requisitos para los algoritmos SLAM.

En primer lugar, la eficiencia computacional del algoritmo SLAM es mayor. Los dispositivos más pequeños a menudo significan menos recursos informáticos. Cómo lograr el mismo efecto con menos potencia informática es una dirección de investigación a largo plazo;

En segundo lugar, en comparación con los automóviles y robots autónomos, los dispositivos AR son más propensos a algunas situaciones extremas, como que su cuerpo gire repentinamente 180°, lo cual es normal si usa dispositivos AR, pero los dispositivos AR pueden deberse a esta rotación intensa. provocar fallos de posicionamiento, lo que plantea mayores requisitos para la solidez del algoritmo SLAM;

Finalmente, también es muy importante cómo completar la inicialización rápidamente con menos tiempo y menos acciones, al igual que desea que su computadora portátil se inicie lo más rápido posible y no desea tener que esperar a que se encienda el dispositivo AR. encendido después de usar el dispositivo AR. Espere 30 segundos y realice ciertas acciones antes de usar su dispositivo.

04  Epílogo

En general, SLAM implica mucho conocimiento: el front-end incluye procesamiento de imágenes de cámara, procesamiento de nubes de puntos LIDAR y procesamiento de datos IMU, y el algoritmo de optimización de back-end incluye filtrado de Kalman, optimización no lineal y detección de bucle que pertenece a la categoría de máquina. aprendizaje: Además de varios algoritmos de mapeo, se requiere un mayor conocimiento del aprendizaje profundo. Si desea comprender o involucrarse en SLAM, primero recomiende la Conferencia 14 del Dr. Gao Xiang sobre Visual SLAM. Durante el primer proceso de aprendizaje, podrá comprender rápidamente en qué partes consta SLAM y cuál es el propósito de cada parte. Primero Después de terminar En el estudio, puede combinar los artículos de resumen, los artículos clásicos, el código y el conocimiento teórico de las catorce conferencias. Una vez sentadas las bases, puede leer los artículos académicos de vanguardia y elegir una de las direcciones de investigación. Cabe señalar aquí que si la dirección de la investigación está sesgada hacia el empleo o lo académico depende de las circunstancias individuales. Al mismo tiempo, no desaproveche todas las oportunidades para comunicarse con sus compañeros, como personas mayores, foros, grupos de comunicación, etc. SLAM implica demasiadas tecnologías, por lo que debe ampliar sus horizontes y actualizar constantemente su ruta de aprendizaje.

referencias:

[1] Conferencia Visual SLAM14: De la teoría a la práctica, segunda edición

[2] Una descripción general de Visual SLAM: de la tradición a la semántica

[3]  https://mp.weixin.qq.com/s/3YRQMAk6eaqBCQSLkxWjKQ

[4] Un estudio completo de los algoritmos SLAM visuales

Supongo que te gusta

Origin blog.csdn.net/weixin_40359938/article/details/130275299
Recomendado
Clasificación