Predicción de la trayectoria del peatón SOTA! ¿Cómo garantizar la seguridad de la conducción autónoma?

Haga clic en la tarjeta a continuación para prestar atención a la cuenta pública " Automatic Driving Heart "

Productos secos ADAS Jumbo, puedes conseguirlo

Hoy, Heart of Autopilot compartirá con usted los últimos avances en la predicción de la trayectoria de los peatones: pensando en la seguridad de la conducción autónoma. Si tiene algún trabajo relacionado que compartir, contáctenos al final del artículo.

>>Haga clic para ingresar → El corazón del piloto automático 【Predicción de trayectoria】Grupo de intercambio técnico

b91601865f285df4a12852096405399a.png

Para garantizar una conducción autónoma segura en entornos urbanos con interacciones complejas entre vehículos y personas, es crucial que los vehículos autónomos tengan la capacidad de predecir las acciones inmediatas y a corto plazo de los peatones en tiempo real. En los últimos años se han desarrollado varios métodos para estudiar la estimación del comportamiento de los peatones en escenarios de conducción autónoma, pero el comportamiento de los peatones carece de una definición clara. En este trabajo se investigan lagunas en la literatura y se propone una taxonomía de las características del comportamiento de los peatones. Además, se propone una novedosa arquitectura de codificador-decodificador de transformador de secuencia a secuencia multitarea (TF-ed) para la acción de los peatones y la predicción de la trayectoria utilizando solo las observaciones de la cámara del ego-vehículo como entrada. El método propuesto se compara con las arquitecturas existentes de codificador-decodificador LSTM (LSTM-ed) para la predicción de acciones y trayectorias. El rendimiento de los dos modelos se evalúa en el conjunto de datos de conducción autónoma de atención conjunta (JAAD) disponible públicamente, los datos de simulación de CARLA y los datos de conexión de conducción autónoma en tiempo real recopilados en los campus universitarios. Los resultados de la evaluación muestran que en los datos de prueba de JAAD, la precisión del método en la tarea de predicción de acción alcanza el 81 %, que es un 7,4 % más alta que la del algoritmo LSTM, mientras que el algoritmo LSTM se desempeña mejor en la tarea de predicción de trayectoria con un longitud de la secuencia de predicción de 25 fotogramas.

Introducción

La interacción segura con otros usuarios de la carretera es un desafío clave en el desarrollo e implementación de vehículos inteligentes totalmente autónomos. Los entornos de conducción urbanos son más propensos a los accidentes de peatones, por lo que la predicción y estimación del comportamiento de los peatones en la calle y las decisiones de maniobra oportunas son uno de los requisitos clave para la adopción de vehículos autónomos en tráfico mixto, como escenarios de conducción urbana o en campus universitarios. Pequeños transbordadores autónomos para la conectividad de última milla en entornos de conducción no estructurados, como ciudades y pueblos.

Una gran cantidad de literatura se centra en el modelado de peatones a través de la detección y el seguimiento de peatones puramente basados ​​en la visión o la predicción de la trayectoria. Aunque estos métodos han mostrado resultados prometedores, no son suficientes para la conducción autónoma consciente de los peatones, ya que los patrones de comportamiento de los peatones son muy dinámicos (cambios repentinos en el plan de movimiento y la orientación) y los efectos, incluso pequeños, también son sensibles a los cambios ambientales.

Como modelo de comportamiento de nivel superior, uno de los problemas más críticos y estudiados con frecuencia es predecir el comportamiento de cruce de peatones/vehículos que no cruzan/calle. Esto a menudo se denomina intención peatonal en la literatura. Varios trabajos exploran la predicción de la intención utilizando entidades medibles u observables, como trayectorias a partir de datos visuales, acciones de peatones, señales espaciotemporales y de pose humana, y datos de pose. También se explora la clasificación de acciones basada en la predicción de escenas futuras y la intención predicha utilizando las propiedades de Markov, donde el estado oculto es la intención de los peatones. Los métodos de aprendizaje automático también se han utilizado para modelar la intención como un problema de clasificación binaria, donde el resultado es cruzar/no cruzar, y estos métodos se han validado en conjuntos de datos de comportamiento de peatones de última generación.

En este trabajo, los autores discuten brevemente los vacíos en la literatura con respecto a la definición del comportamiento de los peatones y proponen una taxonomía para describir varios niveles de comportamiento relevantes para los escenarios de conducción autónoma. Los autores proponen una arquitectura de codificador-decodificador de transformador de secuencia a secuencia multitarea para la predicción de la trayectoria y la acción de los peatones, y la comparan con el modelo PV-LSTM de última generación propuesto utilizando la misma entrada y las mismas tareas. La efectividad de nuestro método en conjuntos de datos simulados (CARLA), JAAD, se evalúa utilizando información de verdad sobre el terreno. Finalmente, los autores recopilan datos de la cámara en un transbordador autónomo en un campus universitario y evalúan los dos modelos de extremo a extremo utilizando información de seguimiento de peatones basada en la visión como entrada. El detector YOLOv5 y DeepSORT se utilizan para la detección y el seguimiento de peatones, respectivamente.

Clasificación

A pesar de la abundancia de trabajo en la literatura, el comportamiento de los peatones carece de una definición y taxonomía coherentes. Además, el trabajo existente utiliza el reconocimiento de acciones, la estimación de trayectorias y la predicción de movimiento basada en poses como indicadores de las intenciones reales de los peatones. Con este fin, los autores proponen y discuten en este trabajo una taxonomía de las características del comportamiento de los peatones. La Figura 1 a continuación muestra un diagrama de flujo de alto nivel de esta taxonomía:

7e3e10a69a5f4de2acbfc980a4c518f1.png

En escenarios de tráfico, los peatones pueden tener objetivos o destinos a largo plazo, objetivos/acciones a corto plazo (como cruzar intersecciones o calles) y acciones inmediatas (como cruzar cerca de vehículos en la calle). Por lo general, las características de comportamiento incluyen respuestas a preguntas sobre qué planean hacer los peatones o cuáles son sus objetivos (intención), qué van a hacer los peatones (acciones) y qué trayectorias seguirán los peatones (movimiento). Existe una relación causal jerárquica entre estos, los peatones toman acciones de acuerdo con sus planes o intenciones de alto nivel, y las características de movimiento de estas acciones pueden cambiar a medida que cambian las condiciones del tráfico/carretera. La necesidad de información ambiental/de la escena del tráfico aumenta proporcionalmente con el nivel requerido de estimación del comportamiento. Según la taxonomía de los autores, la predicción de la intención real (cruzar/no cruzar la calle) requiere un contexto de escena local. Sin esta información, no es claro distinguir la intención de un peatón de cruzar del comportamiento del peatón de cruzar frente a un vehículo. Dado que el comportamiento de los peatones depende de muchos factores, como el tráfico, el entorno y las características individuales de los peatones, los autores sugieren que las estimaciones de comportamiento deben indicar claramente el rango al que se aplican estas estimaciones. Por ejemplo, supongamos que un peatón espera en una parada de autobús. Si se sube a la carretera para comprobar si está el autobús, esto puede interpretarse como el comportamiento de cruce de un ego-car que se aproxima siguiendo un enfoque basado en la trayectoria, pero esto no refleja la meta o intención general del peatón. Por lo tanto, los autores definen las acciones con características de movimiento como comportamientos de bajo nivel en relación con el ego del vehículo, cuyas características pueden determinarse en la medida en que solo son observadas por peatones, y son cruciales para la planificación y navegación segura de los vehículos autónomos. La intención es una representación de comportamiento de alto nivel, que no se puede observar directamente, ni se puede estimar simplemente utilizando las trayectorias de los peatones, sino que requiere una inferencia más profunda a partir de comportamientos pasados, acciones pasadas, información contextual de la escena, etc. En este artículo, los autores se centran en la representación del comportamiento de bajo nivel de los peatones (cruzar/no cruzar) frente a las bicicletas, ya que la información contextual de la escena y las inferencias de acciones pasadas no se conocen de antemano ni se estiman.

método

formulación del problema

Los autores formulan la acción de los peatones y la predicción de la trayectoria como un problema de aprendizaje con múltiples objetivos. Denotemos la posición y la velocidad del peatón en el tiempo t como pt y st, respectivamente. Deje que la acción del peatón en el tiempo t se exprese como,

8ed93992e9e5131183af3000fbdde71d.png

En el tiempo t, dada una posición histórica y una trayectoria de velocidad de longitud m+1, denotada como,

67bf37b206707de39297c161e4fc2397.png

La distribución de probabilidad aprendida es:

d7724c67b8f8260e4d0e26a479ce507f.png

$\hat P^{t+n},\hatA^{t+n}P_t, S_t predice las próximas n posiciones y acciones.

A continuación, los autores analizan los detalles arquitectónicos de alto nivel de los modelos TF-ed y PV-LSTM propuestos, incluidas las entradas y salidas del modelo, y luego describen las dos arquitecturas por separado.

arquitectura

En este trabajo, los autores proponen una arquitectura de codificador-decodificador de transformador multitarea (TF-ed) y comparan su rendimiento con la arquitectura de codificador-decodificador LSTM (LSTM-ed) del modelo PV-LSTM. Un diagrama de alto nivel de todo el marco TF-ed se muestra en la Figura 2a a continuación.

fd5dc6de8e568fc8edf0ac5bccb8cf5b.png

Para LSTM-ed y TF-ed, las secuencias observadas de velocidades y posiciones de peatones son codificadas por los codificadores correspondientes. Las características ocultas de alta dimensión se concatenan en la salida de los dos codificadores y se pasan a los decodificadores de velocidad y movimiento. Finalmente, la salida del decodificador se retroproyecta en secuencias de velocidades y acciones predichas de las dimensiones 4 y 2, respectivamente.

1) Entrada y salida del modelo:

Las coordenadas del cuadro delimitador espacial alrededor del peatón se utilizan para codificar la posición del peatón. Las coordenadas de bbox generalmente están disponibles en forma de verdad en el terreno a partir de conjuntos de datos de trayectoria de última generación, o como salida de algoritmos de seguimiento de múltiples objetos en tiempo real. Además, la velocidad del peatón es otra característica de entrada, que se obtiene restando las coordenadas bbox de dos fotogramas consecutivos del mismo peatón. Formalmente, para el peatón i, dada una serie de observaciones históricas de posición y velocidad (ecuaciones (2) y (3)), donde es la coordenada del centro de bbox (x, y, ancho, alto) y es la velocidad correspondiente.

94bf6721186555960e721cf710a9dca4.png

Para instancias de tiempo t+1 a t+n, el autor predice la velocidad del peatón y la secuencia de acciones futuras, y la posición futura se puede calcular en función de la velocidad pronosticada.

2) Decodificador de codificador de transformador (TF-ed):

La red TF se propuso por primera vez en [23] para el procesamiento del lenguaje natural. A diferencia de LSTM, que procesa la secuencia de entrada paso a paso, TF procesa la secuencia de incrustación completa a la vez, lo que permite el entrenamiento en paralelo, consulte la Figura 2b anterior. TF consta de un codificador y un decodificador. Las incrustaciones de secuencia de origen y destino se codifican posicionalmente antes de alimentarse al codificador y decodificador basado en el módulo de apilamiento de autoatención.

a) Incrustación de entrada : las entradas de fuente y destino de velocidad y posición se incrustan primero en un espacio D-dimensional superior a través de una capa completamente conectada.

b) Codificación posicional : al agregar una máscara de codificación posicional PE al mismo tiempo, cada incrustación de entrada tiene una marca de tiempo, PE se calcula como:

0c3544b11e8997b3ba558b8b7792c5f2.png

donde d denota la dimensionalidad de toda la incrustación d-dimensional.

c) Autoatención multicabezal : La capacidad de la red para capturar la no linealidad secuencial radica principalmente en el modelo de atención. Las entradas están incrustadas en los vectores de consulta (Q), clave (K) y valor (V). Q y K se utilizan para calcular una matriz de atención que refleja la correlación entre las secuencias de entrada a través de capas escaladas de productos escalares y softmax. Luego, V se pondera utilizando una matriz de atención para garantizar que cada parte de la salida se fusione con información temporal de otras partes de la secuencia, de la siguiente manera:

5ca844c97d0ff2e77a3774c4cf8f5554.png

Específicamente, en la capa de atención del codificador-decodificador, Q proviene de la salida de la capa decodificadora anterior, y K y V provienen de la salida del codificador. En la autoatención del decodificador, Q, K y V provienen de la salida de la capa del decodificador anterior. Sin embargo, cada posición en el decodificador puede enfocarse solo en todas las posiciones en el decodificador hasta esa posición, lo que garantiza que las predicciones solo dependan de las predicciones de salida que ya se han generado. Durante la evaluación, dado que no hay un objetivo de verdad en el suelo a diferencia del entrenamiento con datos de verdad en el suelo, la salida predicha anterior del decodificador se usa iterativamente como nueva entrada de objetivo.

La arquitectura general de TF-ed propuesta por el autor se muestra en la Figura 2a anterior. Dos codificadores TF procesan las entradas de velocidad y posición en paralelo, y las salidas K y V de los dos codificadores se fusionan en cascada y luego pasan a un decodificador separado para la predicción de la velocidad y la predicción de la acción. La salida de velocidad pronosticada se extiende como una secuencia de salida para calcular la trayectoria futura del peatón.

3) Codificador-decodificador LSTM (LSTM-ed):

Los LSTM son capaces de aprender correlaciones a largo plazo a partir de datos de series temporales. Además de tener las características de una red neuronal recurrente, LSTM también incluye una unidad de memoria especialmente diseñada, que consta de una puerta de entrada, una puerta de olvido y una puerta de salida, consulte la Figura 3 a continuación.

c5e183a276d2363298b0584969717165.png

Estas puertas controlan y protegen el flujo de información en cada celda de memoria. Dado un vector de entrada.

e97c878faf39e36aa8f171f5a12dd20e.png

La salida de capa oculta ht de cada celda de memoria LSTM se calcula y actualiza en cada paso de tiempo t de t = 1 a t = t de acuerdo con las siguientes ecuaciones:

72e35fe7becc70eec6baa43ef1fa801d.png

donde W y b son las matrices de peso y sesgos de las tres puertas y celdas de memoria, σ(x) es la función sigmoidea,

fbcd5edb4640a2b15539364bc2dfb24f.png

La arquitectura general de LSTM ed utilizada para la comparación proviene del artículo [12]. Dada una secuencia de entrada de velocidades y posiciones observadas, el codificador de velocidad y el codificador de posición generan estados ocultos de velocidad y pose correspondientes en el paso de tiempo t, que se concatenan en un solo estado oculto que contiene todas las características y luego se pasan por separado El decodificador se usa para la trayectoria y tareas de predicción de acciones.

Evaluación experimental

Los autores evalúan el método descrito en la Sección III, las arquitecturas LSTM-ed y TF-ed, cubriendo tres escenarios de acción y predicción de trayectoria: (1) el escenario simulado en el simulador CARLA (2) el estado del arte Conjunto de datos JAAD (3 ) datos recopilados en un autobús de enlace en un escenario de conducción en un campus universitario. Con los conjuntos de datos CARLA y JAAD, los autores tienen como objetivo evaluar el rendimiento de la acción y la predicción de la trayectoria de forma independiente, utilizando así datos de la realidad del terreno (GT) como entrada para ambos modelos.

Luego, los autores realizaron una evaluación de los datos recopilados en un transbordador autónomo, donde los datos de los peatones obtenidos a través de un algoritmo de seguimiento basado en la visión se utilizaron como entrada para el modelo. La evaluación de extremo a extremo (entrada de imagen para acción y predicción de trayectoria) es fundamental para verificar la efectividad del método para soluciones de navegación del mundo real para vehículos autónomos en presencia de condiciones ruidosas y posibles errores/fallas de seguimiento.

Configuraciones de evaluación

a) CARLA : CARLA es un simulador de código abierto para la investigación de conducción autónoma. En el trabajo de los autores, el entorno de conducción urbana en CARLA (Town10HD) se utiliza como entorno de simulación. La figura 4b a continuación muestra una vista de pájaro de dicho entorno.

b9b00293a894c1f73a030fb9e1248ae1.png

La cámara a bordo del vehículo ego, con una resolución de 1920x1080 y un campo de visión de 90°, se extiende cerca del cruce de peatones (la vista de la cámara que se muestra en la Figura 4a), y un peatón y su controlador se extienden juntos en la acera derecha. Los peatones conducen por la acera, se detienen cerca del paso de peatones por un momento y luego comienzan a cruzar hasta llegar al otro lado de la calle. Durante la simulación, las casillas GT y las etiquetas de acción correspondientes (como cruzar/no cruzar) se programaron para generarse automáticamente. Toda la secuencia contiene 145 fotogramas anotados con cajas GT y acciones de peatones.

b) Conjunto de datos de atención conjunta para la conducción autónoma (JAAD) : se centra en la atención conjunta en el contexto de la conducción autónoma en entornos de conducción urbanos. Este conjunto de datos tiene como objetivo estudiar el comportamiento de los peatones y conductores, como cuando los peatones cruzan/no cruzan. JAAD contiene videos capturados por la cámara frontal a 30 FPS con una resolución de 1920x1080 píxeles en varias escenas naturales y condiciones de iluminación. Hay un total de 346 videos con 82032 cuadros, y la duración del video varía de 60 cuadros a 930 cuadros. 2793 peatones están anotados como bboxes, y 686 de ellos tienen etiquetas de comportamiento, incluidas acciones como caminar, pararse, cruzar la calle y mirar (tráfico). En el conjunto de datos, la anotación del comportamiento de caminar incluye subcomportamientos: "caminar al pasar" o "no caminar mientras camina". Para esta evaluación, los autores solo usan etiquetas relacionadas con el comportamiento de atravesar, un subconjunto de caminar utilizado para la predicción de acciones, a fin de mantener el mismo procesamiento de datos que en [12] para la consistencia del sexo de comparación.

c) Datos en tiempo real : el vehículo utilizado para la recopilación de datos en tiempo real es un Polaris GEM e6 adquirido de Autonomous Stuff, como se muestra en la Figura 5a a continuación. El vehículo está equipado con GPS, lidar y una cámara montada en el centro de la parte delantera del techo. Todo el software de control y detección se integró mediante el sistema operativo de robot (ROS), y los datos se recopilaron a una velocidad de fotogramas de 15 FPS en el campus de la Universidad de Texas A&M. Los transbordadores se conducen manualmente a una velocidad promedio de 10 millas por hora. Los datos consisten en 298 fotogramas con una resolución de 1296x728 píxeles, que cubren escenas típicas de pasos de peatones/cruces en el campus. Los datos se recopilaron deliberadamente por la noche en condiciones de iluminación menos que ideales para realizar pruebas realistas.

2ed6c2a1c92a5bb50d1f907f12236eca.png

detalles de implementacion

1) Preprocesamiento de datos : la entrada del modelo para la predicción de acciones existe en forma de coordenadas de píxeles bbox (x, y, w, h) de peatones. Para las evaluaciones de JAAD y CARLA, se utiliza la realidad del terreno de las coordenadas bbox. Además, las identificaciones de peatones y las etiquetas de comportamiento se extraen de las anotaciones de datos. Una vez que se obtiene la secuencia completa de coordenadas de bbox y las clases de acción correspondientes para cada peatón en todos los marcos, la secuencia se divide en subsecuencias, cada subsecuencia contiene una secuencia de observación de longitud O y una correspondiente secuencia de datos reales de longitud T.

Para la evaluación de los datos del transbordador de conducción autónoma, el algoritmo de seguimiento/detección basado en la visión se integra en la canalización, y la salida del seguimiento se utiliza como entrada del modelo de predicción de acción, como se muestra en la Figura 6 a continuación.

183db2bfcf3ea172365366fa34030f44.png

Los algoritmos YOLOv5 y DeepSORT se utilizan para detectar y rastrear múltiples peatones en secuencias de video. Dado que en el estudio solo se necesita la información del buzón de correo de los peatones, la categoría de objeto que se detectará se establece en 0 (humano) cuando se realiza una inferencia basada en pesos crowdhuman-yolov5m preentrenados en el conjunto de datos MS COCO de YOLOv5 y osnet x1 0 de DeepSORT.

2) Entrenamiento y pruebas : los modelos LSTM-ed y TF-ed se entrenan en los conjuntos de entrenamiento y validación JAAD, y luego se evalúan en la simulación CARLA, el conjunto de prueba JAAD y los datos del transbordador autónomo, respectivamente. Sin embargo, la evaluación de los datos del transbordador autónomo solo puede proporcionar resultados cualitativos debido a la falta de anotaciones de verdad en el terreno. El conjunto de datos JAAD se divide en entrenamiento, validación y prueba con una proporción de 0,7:0,1:0,2. Para el entrenamiento de LSTM, los autores adoptaron los parámetros de [12] con una dimensión de estado oculto de 256 y una capa de codificador-decodificador de 1. Los parámetros adicionales de la arquitectura TF-ed junto con las especificaciones de entrenamiento para todos los conjuntos de datos se resumen en la Tabla I a continuación. La biblioteca Pytorch se utiliza para la implementación.

c7011a1bf29b71bbda6560dc0af71d71.png

métricas de evaluación

El error de desplazamiento promedio (ADE) y el error de desplazamiento final (FDE) de las coordenadas del centro de bbox se utilizan como métricas de parámetros del modelo para evaluar lotes para la predicción de trayectoria (Ec. (17), (18)), mientras que la precisión (Ec. (19) )) se utiliza como métrica para la predicción de acciones. ADE mide el ajuste general de las predicciones a la verdad del terreno, promediando la diferencia en cada paso de tiempo.

07467ad9c1dbbdc919ed5a4421facb0f.png

ADE es el error cuadrático medio (RMSE) de todos los pronósticos y el valor verdadero durante el período de pronóstico, mientras que FDE es el RMSE entre el pronóstico final y el valor verdadero correspondiente al final de la secuencia de pronóstico. En los ejemplos de este artículo, tanto ADE como FDE están en píxeles.

Resultados y discusión

detección y seguimiento

El marco de salida de muestra de detección y seguimiento de peatones de datos de alimentación de conducción autónoma se muestra en la Figura 5 anterior, donde todos los peatones en el marco de la imagen se detectan y rastrean con éxito, como se muestra en la Figura 5b. La figura 5c muestra un escenario de falla en el que no se detectan peatones en medio de la carretera (el recuadro muestra una vista de primer plano de los peatones). Las fallas de detección intermitentes descritas anteriormente se observaron especialmente en carreteras con lados muy cubiertos de árboles, lo que afectó aún más las condiciones de iluminación nocturna que ya eran subóptimas.

Predicción de acción y trayectoria

Los resultados de precisión de predicción de acción en los conjuntos de prueba JAAD y CARLA, así como los resultados de ADE y FDE para la predicción de trayectoria se resumen en la Tabla II a continuación, donde ADE y FDE se calculan por lotes.

a9caae47be9db7aa7beca2183b483364.png

También se informa que el tiempo de ejecución de inferencia solo incluye LSTM-ed y TF-ed en la evaluación, porque otros modelos no se pueden comparar directamente debido a diferentes definiciones de acción, datos usados, canalización, etc. Dadas las observaciones de longitud O, los autores predicen acciones y trayectorias para los siguientes fotogramas T y llaman a esto una secuencia de predicción de longitud T. Se informan los resultados para O=16, T=1, O=T=16 y O=T=25. En particular, el modelo TF-ed (T=1) se entrena con 1 capa con 1 cabeza, mientras que los otros modelos usan 3 capas con 8 cabezas. Para el conjunto de pruebas JAAD, cuando solo se realiza una predicción, el modelo TF-ed supera al modelo LSTM-ed en ambas tareas, donde ADE y FDE se reducen en un 14,4 % y la precisión se mejora en casi un 4 %. A medida que la longitud de secuencia predicha aumenta a 16 y 25, LSTM ed tiene un ADE y FDE más bajos, pero no es tan preciso como TF ed en la predicción de acción. En particular, con TF-ed, la precisión de la predicción de acciones mejora en un 7,4 % cuando T = 25. Para la evaluación de datos CARLA, LSTM-ed tiene un mejor rendimiento en todos los casos. En general, el tiempo de ejecución de LSTM-ed es mucho más corto que el de TF-ed. La Figura 8 a continuación muestra 5 ejemplos de predicciones de acción y trayectoria en tres escenarios de evaluación del modelo TF-ed, con pasos de tiempo de izquierda a derecha.

80e6165174a9473804a0e2c7ead71390.png

En la Figura 8a, un peatón primero espera al costado de la carretera durante unos segundos y luego comienza a cruzar en el segundo cuadro, con el vehículo acercándose al mismo tiempo. La figura 8b simula un paso de peatones más distante, mientras que el vehículo ego se detiene detrás de un paso de peatones a cierta distancia. A partir de los resultados, se puede ver que aunque la predicción de la acción es correcta, el ADE y el FDE aumentan gradualmente proporcionalmente con los pasos de tiempo de la secuencia predicha. Esto también se observa en los resultados de los datos de empalme de accionamiento automático que se muestran en la Fig. 8e. Esto puede explicarse por la tendencia que se muestra en la Figura 7 a continuación, que muestra que el error acumulativo aumenta a medida que aumenta el paso de tiempo de pronóstico.

7fc9a0f038242ae08fd874a6fbda8aa2.png

En otras palabras, los primeros y últimos fotogramas predichos de cada secuencia predicha tienen el ADE/FDE más bajo y más alto, respectivamente. Cabe señalar que el cambio de error es más pronunciado en la figura 8e en comparación con las figuras 8a y 8d. Esto se debe a que solo la Fig. 8e incluye fotogramas muestreados de la misma secuencia de predicción, lo que refleja el efecto más pronunciado del aumento progresivo de los errores, mientras que los fotogramas de imagen de los otros ejemplos son las primeras muestras de predicción de cuatro secuencias de predicción diferentes que incluyen las trayectorias más largas. de los peatones y por lo tanto no muestran un aumento gradual en el error. Además, los autores observan que para la Figura 8e, los peatones no son detectados ni rastreados de manera sólida durante los primeros segundos de movimiento, lo que explica el retraso en la predicción de la acción.

En resumen, con solo las coordenadas de bboxes como entrada, el modelo LSTM ed se desempeña mejor en la tarea de predicción de la trayectoria de los peatones cuando aumenta la longitud de la secuencia pronosticada, mientras que el modelo TF ed se desempeña mejor en la tarea de predicción de la acción de caminar. Además, los autores observan algunos escenarios interesantes que merecen discusión para investigar la efectividad y las limitaciones de los métodos de predicción del comportamiento de los peatones para la conducción autónoma segura. Por ejemplo, en la Figura 9a a continuación, hay dos peatones cruzando a la derecha del vehículo del ego, en lugar de en el camino del vehículo. Este suele ser el caso de los vehículos que giran a la derecha en las intersecciones. En la Figura 9b, el peatón cruza en diagonal (sin paso de peatones) cuando se acerca el vehículo. En ambos casos, el algoritmo no pudo predecir la acción correcta. Además, el seguimiento del cambio de ID es un desafío importante en la evaluación de extremo a extremo en tiempo real que afecta negativamente la acción de los peatones aguas abajo y las tareas de predicción de la trayectoria. Con un campo de visión limitado de la cámara, hay un tiempo de amortiguación limitado para que el vehículo reaccione de manera oportuna antes de que el peatón entre en el encuadre y comience a cruzar, ya que las observaciones tardan en acumularse.

16a8881a05f0c055d0b62f58b532cbd3.png

Estos desafíos y escenarios subrayan la necesidad de pruebas y recopilación de datos más exhaustivas de las interacciones entre vehículos y humanos, especialmente en áreas como campus universitarios y áreas residenciales con y sin cruces de señales. Para una conducción autónoma segura, es fundamental contar con una evaluación integral en tiempo real de los métodos de predicción del comportamiento de los peatones (p. ej., el seguimiento de fallas y el impacto de la precisión en la precisión de la predicción de acciones) para que los transbordadores o vehículos autónomos puedan predecir acciones a corto plazo. , incluso en situaciones no triviales en las que los peatones pueden no estar directamente frente al vehículo, pueden tener perfiles de trayectoria ligeramente diferentes a los que normalmente se observan en los cruces peatonales.

en conclusión

Los autores proponen un modelo multitarea de codificador-decodificador de transformador para la predicción de la acción de la trayectoria de los peatones en escenarios de conducción urbana para una conducción autónoma segura. El método se compara con un modelo de codificador-decodificador LSTM y se evalúa en el conjunto de datos JAAD simulado y disponible públicamente utilizando datos reales. Esto se complementa con una evaluación de canal de extremo a extremo sobre los datos del alimentador para la conducción autónoma, donde el marco se integra con algoritmos de seguimiento y detección de peatones basados ​​en la visión. También se proporciona una taxonomía de las características del comportamiento de los peatones y se analiza la causalidad jerárquica entre los diferentes niveles de comportamiento. A través de los resultados experimentales, los autores concluyen que los métodos de predicción de acciones a corto plazo que se basan únicamente en las observaciones del vehículo autónomo tienen limitaciones cuando se trata de la conducción autónoma que conecta escenarios de conducción conectados en la última milla. El cambio de ID de seguimiento también es un desafío al rastrear y predecir las acciones de varios peatones, lo que deja al vehículo con poco tiempo para tomar decisiones de seguridad. Con este fin, una dirección interesante para el trabajo futuro es explorar las acciones grupales frente a las acciones individuales de los peatones, y estudiar las ventajas y desventajas de la predicción de acciones grupales frente a la identificación y predicción de acciones solo para peatones clave.

referencia

[1].Aprender las acciones de los peatones para garantizar una conducción autónoma segura

(1) ¡El video curso está aquí!

El corazón de la conducción autónoma reúne fusión de visión de radar de ondas milimétricas, mapas de alta precisión, percepción BEV, calibración de sensores, despliegue de sensores, percepción cooperativa de conducción autónoma, segmentación semántica, simulación de conducción autónoma, percepción L4, planificación de decisiones, predicción de trayectoria, etc. Video de aprendizaje de dirección, bienvenido a tomarlo usted mismo (escanee el código para ingresar al aprendizaje)

c248d3e16a7229b3e5d1ac025e57f6cd.png

(Escanea el código para conocer el último video)

Sitio web oficial del vídeo: www.zdjszx.com

(2) La primera comunidad de aprendizaje de conducción autónoma en China

Una comunidad de comunicación de casi 1,000 personas y más de 20 rutas de aprendizaje de pila de tecnología de conducción autónoma, desea obtener más información sobre la percepción de conducción autónoma (clasificación, detección, segmentación, puntos clave, líneas de carril, detección de objetos 3D, Ocupación, fusión de sensores múltiples, seguimiento de objetos, estimación de flujo óptico, predicción de trayectoria), posicionamiento y mapeo de conducción automática (SLAM, mapa de alta precisión), planificación y control de conducción automática, soluciones técnicas de campo, implementación de implementación de modelos de IA, tendencias de la industria, publicaciones de trabajo, bienvenido a escanear el Código QR a continuación, Únase al planeta del conocimiento del corazón de la conducción autónoma, este es un lugar con productos secos reales, intercambie varios problemas para comenzar, estudiar, trabajar y cambiar de trabajo con los grandes en el campo, comparta papeles + códigos + videos diarios , esperamos el intercambio!

5f937cbedf1e0ac83682f1b07fb4a0c9.jpeg

(3) [ Corazón de la conducción automatizada ] Grupo de intercambio de tecnología de pila completa

El corazón de la conducción autónoma es la primera comunidad de desarrolladores para la conducción autónoma, que se centra en la detección de objetos, la segmentación semántica, la segmentación panorámica, la segmentación de instancias, la detección de puntos clave, las líneas de carril, el seguimiento de objetos, la detección de objetos en 3D, la percepción de BEV, la fusión de sensores múltiples, SLAM, estimación de flujo de luz, estimación de profundidad, predicción de trayectoria, mapa de alta precisión, NeRF, control de planificación, implementación de modelos, prueba de simulación de conducción automática, administrador de productos, configuración de hardware, búsqueda de trabajo y comunicación de IA, etc.;

132348fa71d001f6b41c85fc1bb649ec.jpeg

Agregue la invitación de Autobot Assistant Wechat para unirse al grupo

Observaciones: escuela/empresa + dirección + apodo

Supongo que te gusta

Origin blog.csdn.net/CV_Autobot/article/details/131318762
Recomendado
Clasificación