0. Introducción

Para la conducción autónoma y los robots, además del SLAM, otra parte importante es la planificación de la trayectoria. Recientemente, el autor ha visto varios buenos artículos, a saber, " Una revisión de las técnicas de planificación de movimiento para vehículos automatizados ", " Una revisión de los algoritmos de planificación de movimiento para robots inteligentes ", " Una revisión de la planificación de movimiento para la conducción autónoma en carretera " Aquí Combinando los principales puntos explicados en cada artículo, les daré una ciencia popular sobre la planificación de trayectorias, para que comprendan las brechas y los desafíos que deben resolverse en los próximos años.

1. Algoritmos tradicionales en el campo de la robótica

Los algoritmos de planificación de robots se pueden dividir en dos categorías según sus principios y la edad de su invención: algoritmos tradicionales y algoritmos basados en ML. Los algoritmos tradicionales constan de cuatro grupos, incluidos los algoritmos de búsqueda de gráficos (como A*), los algoritmos basados en muestreo, como la exploración rápida de árboles aleatorios (RRT), los algoritmos de curva de interpolación (como Línea y Círculo) y los algoritmos basados en reacciones (como como DWA). Los algoritmos de planificación basados en ML incluyen algoritmos de ML clásicos, como máquinas de vectores de soporte (SVM), RL de valor óptimo, como redes profundas de Q-learning (DQN), y RL de gradiente de políticas, como el algoritmo actor-crítico. La siguiente figura resume las categorías de algoritmos de planificación.
inserte la descripción de la imagen aquí

2. Algoritmos de aprendizaje automático y de refuerzo en robótica

La otra parte es el desarrollo de algoritmos basados en ML. Por ejemplo, ML clásico, como SVM, se usó para lograr una planificación de movimiento simple en la etapa inicial, pero su rendimiento es deficiente porque la predicción de SVM en un solo paso es corta. -de vista normal. Requiere vectores cuidadosamente preparados como entrada, que no pueden representar completamente las características de los conjuntos de datos basados en imágenes. Después de la invención de las redes neuronales convolucionales (CNN), el trabajo de extracción de características de alto nivel de las imágenes ha mejorado mucho (Lecun et al., 1998). CNN se usa ampliamente en muchas tareas relacionadas con imágenes, incluida la planificación de movimiento, pero no puede manejar problemas complejos de planificación de movimiento de series temporales. Estos son más adecuados para las cadenas de Markov (Chan et al., 2012) y la memoria a largo plazo (LSTM) (Inoue et al., 2019). Luego, la red neuronal se combina con LSTM o algoritmos basados en cadenas de Markov (p. ej., Q-learning (Smart & Kaelbling, 2002)) para la planificación de movimiento de series temporales. Sin embargo, su eficiencia es limitada (p. ej., rendimiento deficiente en la convergencia de red). Se hizo un gran avance cuando Google DeepMind introdujo DQN natural (Mnih et al., 2013, 2015), donde el búfer de respuesta es para reutilizar datos antiguos para mayor eficiencia. Sin embargo, el rendimiento está limitado en términos de robustez debido al ruido que afecta la estimación del valor de estado-acción (valor Q). Por lo tanto, se inventaron el doble DQN (Hasselt et al., 2016; Sui et al., 2018) y el duelo DQN (Wang et al., 2015) para hacer frente al problema causado por el ruido. Dual DQN utiliza otra red para evaluar la estimación del valor Q en DQN para reducir el ruido, mientras que en duelo DQN utiliza el valor dominante (valor A) para obtener un mejor valor Q, el ruido se reduce principalmente. Q-learning, DQN, dual-DQN y duel-DQN se basan en valores óptimos (valor Q y valor A) para seleccionar la mejor acción secuencial en el tiempo.

Posteriormente, el algoritmo de valor óptimo fue reemplazado por el método de gradiente de políticas (Sutton et al., 1999), donde el método de gradiente (Zhang, 2019) se explotó directamente para actualizar la política para generar acciones óptimas. El método de gradiente de políticas es relativamente estable en términos de convergencia de red, pero carece de eficiencia en términos de velocidad de convergencia de red. El algoritmo actor-crítico ((Cormen et al., 2009; Konda & Tsitsiklis, 2001)) mejora la velocidad de convergencia a través de la arquitectura actor-crítico. Sin embargo, el aumento de la velocidad de convergencia se produce a expensas de la estabilidad de la convergencia, por lo que la red del algoritmo actor-crítico tiene dificultades para converger en las primeras etapas del entrenamiento. Por lo tanto, inventaron la crítica asincrónica del actor de ventajas (A3C) (Gilhyun, 2018; Mnih et al., 2016), la crítica del actor de ventajas (A2C) Football Agent 1 (Babaeizadeh et al., 2016), la optimización de políticas de la región de confianza (TRPO) (Schulman et al. al., 2017a) y algoritmos de optimización de políticas aproximadas (PPO) (Schulman et al., 2017b) para abordar esta deficiencia. A3C y A2C utilizan tecnología de subprocesos múltiples (Mnih et al., 2016) para acelerar la convergencia, mientras que TRPO y PPO mejoran el rendimiento de los algoritmos de crítica del comportamiento mediante la introducción de restricciones de región de confianza en TRPO y la introducción de sanciones "sustitutas" y adaptativas en Estrategia PPO para mejorar la velocidad y estabilidad de la convergencia. Sin embargo, los datos se descartan después del entrenamiento, por lo que se deben recopilar nuevos datos para entrenar la red hasta que la red converja.

Se inventaron algoritmos de gradiente que no son de política, incluido el gradiente de política determinista (DPG) (Silver et al., 2014) y DPG profundo ((Lillicrap et al., 2019; Munos et al., 2016)) para reutilizar los datos. DDPG incorpora arquitecturas de comportamiento crítico y estrategias deterministas para mejorar la velocidad de convergencia. En resumen, el ML clásico, el RL de valor óptimo y el RL de gradiente de política son algoritmos de ML típicos en la planificación de movimiento de robots, y el desarrollo de estos algoritmos de planificación de movimiento basados en ML se muestra en la Figura 5.
inserte la descripción de la imagen aquí

3. Algoritmos tradicionales en el campo de la conducción autónoma

La aplicación de sistemas de transporte inteligentes ha ayudado significativamente a los conductores a reducir algunas de las tediosas tareas asociadas con la conducción. Específicamente, la conducción en carretera se ha vuelto mucho más segura gracias al desarrollo del control de crucero (CC), el control de crucero adaptativo (ACC) y, más recientemente, el ACC cooperativo (CACC), donde se predefinió el espaciado para controlar los actuadores longitudinales, el acelerador y los pedales de freno. Para mejorar la seguridad general, la comodidad, el tiempo de tránsito y el consumo de energía del vehículo. Este tipo de sistema se denomina sistema avanzado de asistencia al conductor (ADAS).La siguiente figura muestra el marco general de un vehículo autónomo.Para la conducción autónoma, la percepción, la toma de decisiones y el control son los más importantes. La planificación de la que hablamos principalmente es a nivel de toma de decisiones.

inserte la descripción de la imagen aquí
De manera similar a la robótica, esta parte del trabajo es igualmente aplicable a aspectos clave de la navegación de robots, ya que proporciona una planificación de trayectoria global y local para describir el comportamiento del robot. Considera el modelo de dinámica y cinemática del robot desde la posición inicial hasta la posición final. La principal diferencia a la hora de realizar la planificación de movimiento entre un vehículo y un robot es que el primero resuelve una red de carreteras en la que se deben obedecer las normas de tráfico, mientras que el segundo tiene que lidiar con un entorno abierto en el que no hay muchas normas a seguir, solo necesita para llegar al destino final.

Para la conducción automática, solo necesita las siguientes funciones, las dos primeras partes no pertenecen a la planificación de movimiento, por lo que están fuera del alcance de este artículo. Los siguientes tres puntos se discuten principalmente

Planificación de rutas: Planificación de largo recorrido desde el origen hasta el destino.
Predicción: prediga el movimiento de los objetos circundantes a través de la información dinámica actual e histórica almacenada. Por ejemplo: información vial, cambios en las líneas de carril, normas de tránsito y el comportamiento de los vehículos circundantes.
Toma de decisiones:
generación:
Deformación:

La planificación de rutas en robots móviles se ha convertido en un tema de investigación en las últimas décadas. La mayoría de los autores dividen el problema en planificación global y planificación local.
inserte la descripción de la imagen aquí
Gran parte de la tecnología de navegación proviene de robots móviles, solo que la conducción autónoma se modificará de acuerdo con las reglas. Estas técnicas de planificación se clasifican en cuatro grupos según su aplicación en la conducción autónoma: búsqueda de gráficos, muestreo, interpolación y optimización numérica (ver Tabla I). A continuación se describen los algoritmos de planificación de rutas más relevantes implementados en la planificación de movimiento para la conducción autónoma. Describamos brevemente cada modelo.
inserte la descripción de la imagen aquí

2.1 Planificador basado en búsqueda de gráficos

Algoritmo de Dijkstra : es un algoritmo de búsqueda de gráficos que encuentra la ruta más corta de una sola fuente en un gráfico. El espacio de configuración se aproxima como un espacio de celda de cuadrícula discreta, celosía, etc.

Algoritmo A-star (A ) *: Es un algoritmo de búsqueda de gráficos que es capaz de realizar búsquedas rápidas de nodos debido a la implementación de una función heurística (es una extensión del algoritmo de búsqueda de gráficos de Dijkstra). Su diseño más importante es la determinación de la función de costo. Algunas aplicaciones en robots móviles se han utilizado como base de mejora, como Dynamic A* (D*), Field D*, Theta*, Anytime repairing (ARA*) y Anytime D* (AD*), etc.

Algoritmo de celosía de estado : este algoritmo utiliza una representación discreta de la región de planificación con un estado de cuadrícula (generalmente un estado hiperdimensional). Esta cuadrícula se denomina red de estado, en la que se aplica la búsqueda de planificación de movimiento. Pathfinding en este algoritmo se basa en una consulta local de un conjunto de redes o primitivas que contienen todas las características factibles, lo que permite que el vehículo viaje desde un estado inicial a otro estado. La función de costo determina el mejor camino entre celosías precalculadas. Aplicar el algoritmo de búsqueda de nodos a través de diferentes implementaciones (por ejemplo, A o D ).

2.2 Planificador basado en muestreo

Árboles aleatorios de exploración rápida (RRT) : pertenece a los algoritmos basados en muestreo, que son adecuados para la planificación de rutas en línea. Permite una planificación rápida en espacios semiestructurados mediante la realización de una búsqueda aleatoria en el área de navegación, y también puede tener en cuenta las restricciones no holonómicas, como el radio de giro máximo y el impulso del vehículo. Sin embargo, el camino generado no es óptimo, su camino tiene cambios bruscos y no es de curvatura continua. Esta nueva implementación de RRT* converge en una solución óptima.

2.3 Planificador de curvas de interpolación

Las técnicas como el diseño geométrico asistido por computadora (CAGD) se utilizan a menudo como soluciones de suavizado de rutas para un conjunto determinado de puntos de carretera. Estos permiten que un planificador de movimiento se ajuste a una descripción de carretera determinada teniendo en cuenta la viabilidad, la comodidad, la dinámica del vehículo y otros parámetros para trazar trayectorias.

Líneas y círculos : los diferentes segmentos de una red de carreteras se pueden representar mediante la interpolación de waypoints conocidos mediante líneas y círculos.

Curva Espiral : Este tipo de curva se define en términos de integrales de Fresnel. El uso de curvas helicoidales permite la definición de trayectorias con curvaturas que varían continuamente, ya que su curvatura es equivalente a su longitud de arco, lo que permite transiciones suaves entre segmentos rectos y curvos y viceversa. Las hélices se han utilizado en el diseño de carreteras y vías férreas, así como en robots similares a vehículos.

Curvas polinómicas : estas curvas generalmente se implementan para satisfacer las restricciones necesarias para interpolar puntos, es decir, son útiles para ajustar restricciones de posición, ángulo y curvatura, etc.

Curvas Bezier : estas son curvas paramétricas que se basan en puntos de control para definir su forma. En el corazón de las curvas de Bezier se encuentran los polinomios de Bernstein. Estas curvas se han utilizado ampliamente en aplicaciones CAGD, dibujo técnico, diseño aeroespacial y automotriz.

Curva spline : una curva spline es una curva parametrizada polinomial dividida en un subintervalo, que se puede definir como una curva polinomial, una curva b-spline (que también se puede representar mediante una curva Bezier) o una curva espiral. Las conexiones entre cada subsegmento se denominan nodos y, por lo general, tienen restricciones muy suaves en la unión de las splines.

2.4 Optimización numérica

Optimización de funciones : esta técnica encuentra las raíces reales de una función (minimizando una salida variable). Se ha implementado para mejorar el Método de campo potencial (PFM) para obstáculos y pasajes estrechos en robots móviles.

4. Algoritmos inteligentes en el campo de la conducción autónoma

La planificación de movimiento generalmente se divide en planificación de alto nivel y planificación de bajo nivel:

Predicción avanzada: Lo que hay que hacer es tomar decisiones y generar una serie de comportamientos candidatos a través del análisis del entorno y la valoración de los riesgos deportivos. Similar al cerebro humano, produce instrucciones para el comportamiento.
Respuestas de bajo nivel: movimiento generado por transformación a partir de una planificación de alto nivel. Similar al cerebelo, no requiere casi ningún pensamiento para generar movimiento, y habrá una respuesta de emergencia, lo que hace que la trayectoria real y el camino sean diferentes.

En este apartado realizaremos una división más detallada del contenido del apartado anterior.
inserte la descripción de la imagen aquí

4.1 Análisis de configuración espacial (es decir, cómo representamos el mapa)

El análisis de configuración espacial es una descomposición de espacios de evolución alternativos. Es un algoritmo de conjunto utilizado principalmente para la generación de movimiento o deformación al especificar. Estos métodos se basan en aspectos geométricos, se refieren a métodos predictivos con descomposiciones más gruesas para limitar el tiempo de cálculo, o distribuciones más finas para obtener respuestas más precisas. La principal dificultad es encontrar los parámetros de configuración espacial correctos para una buena representación del movimiento y el entorno [41]. Si la discretización es demasiado gruesa, el riesgo de colisión estará bien considerado y es imposible respetar las restricciones cinemáticas entre dos descomposiciones consecutivas; sin embargo, si la discretización es demasiado fina, el rendimiento en tiempo real del algoritmo será deficiente. Dividimos la descomposición espacial en tres subfamilias principales, como se muestra en la siguiente figura: Puntos de muestreo, Unidades conectadas y Celosía.

inserte la descripción de la imagen aquí
Descomposición basada en muestreo : El enfoque estocástico más popular es el Probabilistic Road Map (PRM) [41]. Utiliza muestreo aleatorio elegido en el espacio de evolución durante la fase de construcción. Estos puntos muestreados se conectan con sus vecinos para formar una hoja de ruta libre de obstáculos, que luego se resuelve en la segunda fase de consulta mediante un algoritmo de búsqueda de rutas, como Dijkstra (ver III-B2) [42]. En [33], los autores primero muestrean el espacio de configuración de acuerdo con una ruta de referencia, como la línea central de un carril pequeño, luego seleccionan el mejor conjunto de puntos de muestreo de acuerdo con una función objetivo y finalmente asignan un perfil de velocidad a la ruta. respetar los criterios de seguridad y confort.

Descomposición de celdas basada en conectividad : estos métodos primero usan geometría para descomponer el espacio en celdas y luego construyen una cuadrícula de ocupación y/o un gráfico de conectividad de celdas, como se muestra en la figura a continuación para un ejemplo de aplicación. En el método de ocupación de la cuadrícula, se genera una cuadrícula alrededor del automóvil. La información de detección de obstáculos se superpone a la cuadrícula. En el enfoque de gráfico conectado, los nodos representan unidades y los bordes son las adyacencias entre unidades. El gráfico se puede interpretar como caminos a lo largo de los bordes de las celdas o caminos buscados dentro de las celdas conectadas.
inserte la descripción de la imagen aquí
Los métodos principales son la descomposición de visibilidad, la descomposición de Voronoi, el corredor de conducción, los histogramas de campo vectorial (VFH), la descomposición exacta, la ventana dinámica (DW). ]. Las primitivas de movimiento se pueden definir para conectar exactamente un estado de un Lattice a otro. Todas las evoluciones de estado factibles resultantes de la cuadrícula se representan como gráficos de accesibilidad maniobrables. Las representaciones de celosía compilan tanto los límites de la carretera como las restricciones cinemáticas, y se pueden volver a planificar rápidamente, lo que resulta útil para la planificación de carreteras.

4.2 Algoritmo de búsqueda de caminos

La familia de algoritmos de búsqueda de rutas es una rama de la teoría de grafos en la investigación de operaciones, que se utiliza para resolver problemas de probabilidad combinatoria bajo representación gráfica. El gráfico se puede ponderar o dirigir con puntos de muestreo, celdas o nodos de manipulación. La razón es encontrar caminos en un gráfico para optimizar una función de costo. Como Dijkstra, A*, Anytime Weighted A* (AWA*), estado híbrido A*, D*, RRT, RRT*, etc. Los detalles ya han sido mencionados anteriormente.

Al igual que la descomposición basada en muestreo, la búsqueda de gráficos probabilísticos no es adecuada para el entorno estructurado de las carreteras. Además, la carretera suele ser un entorno conocido. En este sentido, se favorece la orientación determinista en la planificación del movimiento de carreteras para vehículos autónomos.
inserte la descripción de la imagen aquí

4.3 Fuerzas de atracción y repulsión

El método de atracción y repulsión es un método de biomimética. El signo del espacio de evolución es la atracción significada en el movimiento deseado (por ejemplo, la velocidad legal). Fuerzas repulsivas de obstáculos (por ejemplo, límites de carreteras, marcas de carriles, barreras). marcas, obstáculos). Por lo tanto, su principal ventaja es reaccionar a la evolución dinámica de la representación de la escena. Entonces, el movimiento del vehículo personal es guiado por los vectores de fuerza resultantes, por lo que no hay una guía de vector de fuerza espacial explícita, por lo que no se requiere una descomposición espacial explícita. Los métodos comunes incluyen el campo potencial artificial (APF), el campo vectorial de velocidad (VVF) y el algoritmo de banda elástica.
inserte la descripción de la imagen aquí

4.4 Curvas paramétricas y semiparamétricas

Las curvas paramétricas y semiparamétricas son los principales métodos geométricos de los algoritmos de planificación de caminos en carreteras por al menos dos razones:

(1) El camino de la carretera está construido por una serie de curvas simples y predefinidas (líneas, círculos y palos [105]); (2) El conjunto predefinido
de curvas es fácil de implementar y probar como un conjunto de soluciones candidatas .

Lectura de literatura clásica: una revisión de la planificación del movimiento (revisión de la planificación de la trayectoria)