【Artículo】MVSTT: Una red transformadora espacial-temporal de múltiples vistas para la previsión del flujo de tráfico

Abstracto

Muchos métodos actuales se centran en el aprendizaje de vista única o doble, lo que limita el aprendizaje de características espaciotemporales complejas. En este trabajo, se propone una nueva red de transformadores de vista múltiple (MVSTT), que puede aprender de manera efectiva características espaciotemporales complejas desde la perspectiva de vista múltiple. Correlaciones de dominio y patrones subyacentes.

  • ¿Qué es la vista dual de vista única?
  • ¿Qué es multiview?
    Las tareas principales incluyen:
  • Al examinar la perspectiva del tiempo, diseñamos un componente de convolución controlado de corto alcance y un componente de convolución controlado de largo alcance.
  • Desde una perspectiva espacial, un módulo de aprendizaje espacial de gráfico dual está diseñado para extraer dependencias espaciales de nodos fijos y dinámicos.
  • Un transformador espacio-temporal está diseñado para extraer diferentes niveles de información espaciotemporal a través de la fusión de conocimientos de múltiples vistas.

Código: https://github.com/JianSoL/MVSTT

Introducción

La predicción del flujo de tráfico es muy importante para los sistemas de transporte inteligentes. En el caso de cambios dinámicos en tiempo real, es difícil capturar correlaciones espaciotemporales complejas. Estas correlaciones son causadas por factores internos (hábitos de viaje de las personas) y factores externos (condiciones climáticas). Por lo tanto, predecir con precisión el flujo de tráfico suele ser un gran desafío. Muchos métodos actuales se centran en el aprendizaje de vista única o dual, lo que limita el aprendizaje de características espaciotemporales complejas, como: Por ejemplo, el modelo DCRNN [8] se centra en extraer correlaciones de larga distancia de la vista temporal e ignora las variables de larga distancia. correlaciones de distancia de otras vistas Información importante como la fusión espacio-tiempo y vistas de corto alcance. Como se informa en [9], aprender desde múltiples perspectivas puede capturar conocimientos de diferentes dominios, lo que a menudo resulta en un mejor desempeño.
Como se muestra en la Figura 1, existe un rico conocimiento relacionado con el espacio-tiempo en las redes de transporte del mundo real, incluidos patrones temporales, dependencias espaciales y correlaciones espacio-temporales. Como se informa en [10] y [11], capturar estos tres tipos de correlaciones puede lograr un rendimiento satisfactorio de predicción del flujo de tráfico. Para extraer mejor información de estas tres áreas, aquí hay un análisis de algunas observaciones:

  • En primer lugar, los patrones temporales de corto alcance [12] y largo alcance [13] reflejan diferentes influencias en las regiones temporales locales [14]. Por ejemplo, algunas áreas de parques inducen congestión a corto plazo durante los días festivos, mientras que algunas áreas de la ciudad inducen congestión durante las horas pico diarias, creando patrones de largo alcance. Por lo tanto, la modelización en términos de información tanto de corto como de largo plazo captura patrones temporales más sólidos.
  • Además, la estructura espacial de las redes de transporte reales es muy diferente de los gráficos predefinidos en estudios anteriores, incluidos eventos más inciertos y comportamientos de evolución dinámica [15]. Por ejemplo, los gráficos predefinidos generalmente se construyen basándose en la topología de la carretera y obtienen una matriz de adyacencia fija (AM), mientras que las conexiones entre nodos en las redes de transporte reales pueden cambiar dinámicamente. Los gráficos estáticos y dinámicos pueden simular eficazmente diferentes estructuras espaciales. Además, las dependencias de tiempo y espacio no existen de forma independiente, sino que están interrelacionadas y son intrincadas [11]. Una buena fusión de información espacio-temporal puede revelar correlaciones complejas y dependencias ocultas. Por lo tanto, es fundamental profundizar en las características del tráfico desde múltiples perspectivas y explorar posibles correlaciones entre estas perspectivas para proporcionar predicciones precisas y sólidas.

Insertar descripción de la imagen aquí
Fig. 1. Ejemplo de correlación espacio-temporal de múltiples vistas en una red de transporte. Cada línea discontinua representa una correlación. En la vista espacial, existen ricas dependencias de dominio espacial entre diferentes nodos y bordes. En la vista temporal, el estado del tráfico de cada nodo vi en el momento anterior t tiene efectos diferentes sobre sí mismo y los nodos adyacentes en el momento posterior t + n. Además, el flujo de tráfico de cada nodo vi no sólo se ve afectado por otros nodos al mismo tiempo, sino también por nodos con diferentes pesos en pasos de tiempo adyacentes. Por lo tanto, la red de carreteras contiene un rico conocimiento espacio-temporal. La estructura espacial de las redes de carreteras (por ejemplo, la distancia entre los nodos v1 y v3) no es euclidiana en el ámbito del transporte.

Para abordar los desafíos y limitaciones anteriores, consideramos la correlación espaciotemporal en tres perspectivas, a saber, la perspectiva temporal, la perspectiva espacial y la perspectiva de fusión espaciotemporal, y proponemos una novedosa red de transformadores espaciotemporales de múltiples vistas (MVSTT) para la predicción del tráfico. MVSTT aprende características espaciotemporales desde estas tres perspectivas y combina módulos y transformadores basados ​​​​en redes neuronales gráficas (GNN) para la fusión de información espaciotemporal. Además, dividimos la perspectiva temporal en dos subperspectivas y la perspectiva espacial en dos subperspectivas. Las principales contribuciones de este estudio se resumen a continuación:
1): Proponemos un módulo espacial de gráfico dual (DGSM) en vista espacial, que puede capturar simultáneamente dependencias espaciales estáticas y dinámicas. Los gráficos estáticos y dinámicos pueden capturar dependencias topológicas fijas y relaciones espaciales que cambian dinámicamente en cada paso del procesamiento de datos espacio-temporales.
2): También incluimos una vista temporal y diseñamos componentes de convolución cerrada de corto alcance (SGC) y componentes de convolución cerrada de largo alcance (LGC). El primero aprende patrones de tráfico a corto plazo con diferentes granularidades, mientras que el segundo extrae dependencias temporales a largo plazo en múltiples pasos de tiempo.
3): Para lograr de manera efectiva la fusión de características del espacio-tiempo, proponemos además un módulo transformador de espacio-tiempo (STT), en el que la representación espacial y la representación temporal están profundamente fusionadas a través de múltiples mecanismos de autoatención.
4): Realizamos experimentos extensos en cuatro conjuntos de datos de tráfico del mundo real para evaluar el modelo propuesto. Tanto nuestro análisis teórico como los resultados experimentales muestran que nuestro método supera a los métodos de última generación actuales.
El resto de este artículo está organizado de la siguiente manera. La sección 2 revisa técnicas avanzadas relacionadas, como las redes neuronales gráficas (GNN), los mecanismos de atención y la predicción del flujo de tráfico. La Sección 3 describe nuestra metodología en detalle. La Sección 4 presenta la configuración experimental, los resultados experimentales y la discusión. En la Sección V, concluimos el documento y discutimos los planes futuros.

Trabajo relacionado

En esta sección, revisamos los métodos tradicionales de predicción del flujo de tráfico, así como la popular tecnología de red neuronal gráfica (GNN). También proporcionamos una breve descripción general del mecanismo de atención por separado, ya que es una base importante para la tecnología de transformadores.

Predicción de datos espaciotemporales

La predicción de datos espacio-temporales ha pasado aproximadamente por cinco etapas. Algunos estudios previos tratan la tarea de predicción espacio-temporal como un problema de series de tiempo, como ARIMA [16] y sus variantes [17], [18]. Como se informó en [18], Wang et al.combinaron el modelo ARIMA estacional y el método Holt-Winters para lograr las ventajas del pronóstico del flujo de vehículos a corto plazo basado en series correlacionadas en el tiempo. Guo y otros [19] propusieron un filtro de Kalman adaptativo para implementar un proceso estocástico estacional ARIMA más heterocedasticidad condicional autorregresiva generalizada (SARIMA + GARCH), que realiza predicciones de tráfico en tiempo real a intervalos de 15 minutos. Los métodos basados ​​en ARIMA son eficaces para capturar la variabilidad de las series temporales del flujo de tráfico, pero no son lo suficientemente sólidos para extraer las características dinámicas de las redes de tráfico, como incertidumbres y no linealidades complejas. Dado que existe una cierta incertidumbre en la predicción del flujo de tráfico, algunos estudios se inspiran en capturar esta incertidumbre no lineal para obtener un mejor rendimiento de predicción. Sun y otros [20] diseñaron un modelo para capturar la correlación no lineal entre carreteras adyacentes utilizando una red bayesiana. Como se informa en [21] y [22], la regresión de vectores de soporte se ha utilizado con éxito para predecir las condiciones del tráfico, como los flujos horarios y los tiempos de viaje, y para predecir los flujos de tráfico en carreteras a corto plazo en condiciones típicas y atípicas. Por lo tanto, el desarrollo de la predicción espacio-temporal mediante redes neuronales profundas ha atraído una atención generalizada. propuso una red de creencia profunda [23] y un modelo de codificador automático apilado [24] para mejorar la capacidad de capturar características no lineales en la predicción del flujo de tráfico.

Recientemente, Zhang y otros [25] fueron pioneros en un método llamado DeepST para predecir datos de flujo de tráfico. Dividieron la ciudad en cuadrículas geográficas y, al contar los flujos de tráfico durante un período de tiempo fijo, se pudo generar una matriz de flujo de tráfico. Específicamente, el método DeepST consta de un componente espacio-temporal y un componente global para extraer información espacio-temporal y factores globales entre diferentes grillas (como días laborables y fines de semana). Basándose en investigaciones anteriores [25], Zhang et al.[26] propusieron otro ST-ResNet clásico basado en las características de los datos espacio-temporales y el aprendizaje residual (como la proximidad y la tendencia). Lo más destacado es tener en cuenta factores medioambientales externos, como las condiciones meteorológicas, para hacer las previsiones más razonables. Zonoozi y otros [27] diseñaron una red convolucional recurrente que se centra en capturar explícitamente patrones repetidos periódicos y predicciones de varios pasos. Teniendo en cuenta la gran escala del modelo de predicción y el largo tiempo de inferencia, Pu et al.desarrollaron un marco de codificación y decodificación liviano para la predicción del flujo de tráfico, que mejoró la velocidad de predicción y al mismo tiempo garantizó la precisión [28]. Sin embargo, estos estudios [25], [26], [27], [28], [29] no consideran las dependencias espacio-temporales de los gráficos estáticos y dinámicos, ni la fusión profunda de la información espacio-temporal. Aunque se han logrado algunos resultados, los métodos basados ​​​​en CNN solo son adecuados para el espacio euclidiano y no para el espacio no euclidiano de la red de tráfico.

Recientemente, los métodos de predicción espacio-temporal basados ​​en gráficos se han convertido en un tema candente [1], [14], [30], [31]. Yu y otros [30] propusieron por primera vez una red convolucional de gráficos espacio-temporales (GCN) llamada STGCN, que reemplaza la convolución convencional y las unidades recurrentes y construye predicciones espacio-temporales más rápidas en secuencias gráficas. Teniendo en cuenta las características dinámicas del flujo de tráfico y las dependencias de largo alcance de que CNN o RNN no pueden capturar la tendencia temporal, Wu et al.[15] diseñaron un método llamado Graph WaveNet, que utiliza una novedosa AM adaptativa y pasa nodos Las incrustaciones aprenden a capturar dependencias espaciales ocultas. Sin embargo, si la tasa de expansión aumenta, este método perderá información de corto alcance y no considera la fusión de información espacio-temporal profunda. Considerando que la mayoría de los métodos anteriores para extraer dependencias espaciales y temporales son módulos independientes y carecen de integración de información espacio-temporal. Para resolver este problema, Li y Zhu [10] diseñaron un GNN de fusión espacio-temporal para fusionar gráficos espacio-temporales en diferentes períodos de tiempo de manera paralela para aprender mejor las dependencias espacio-temporales en situaciones de tráfico complejas. Además, este método utiliza la función de pérdida de Huber [32] para aliviar el problema del valor faltante de los datos del flujo de tráfico.

Hoy en día, las redes Transformer han logrado un gran éxito en los campos del procesamiento del lenguaje natural y la visión por computadora [33], [34], y algunos académicos han comenzado a explorar el uso de las redes Transformer para la predicción del flujo de tráfico. Giuliari y otros [35] propusieron una nueva red Transformer para la predicción de trayectorias, considerando el Transformer original y un Transformer bidireccional más grande. Para mejorar la capacidad de aprender dependencias espacio-temporales dinámicas y altamente no lineales del flujo de tráfico, Xu y otros [36] diseñaron un nuevo paradigma de red STT, que incluye un componente transformador temporal y un componente transformador espacial, que puede percibir direcciones dinámicas. Dependencias espaciales, relaciones y dependencias temporales de largo alcance. Wang y otros [31] propusieron un método GNN espacio-temporal que resalta un mecanismo de atención de posición que se puede aprender para agregar de manera eficiente información de carreteras adyacentes. Inspirado en la tecnología Transformer y aprendiendo diferentes perspectivas de los datos de flujo de tráfico, el modelo MVSTT no solo considera características de corto y largo alcance en la perspectiva temporal, topología estática y dependencias de gráficos dinámicos en la perspectiva espacial, sino que también utiliza Transformer para lograr espacio. -tiempo Fusión profunda de características de perspectiva.

Convoluciones en gráficos

Las redes neuronales convolucionales (CNN) y sus variantes han logrado un rendimiento impresionante en diversas aplicaciones. Varios modelos basados ​​​​en redes neuronales de gráficos (GNN) han realizado contribuciones desde dos perspectivas: convolución de gráficos de dominio espectral y convolución de gráficos de dominio espacial. Los principales métodos de convolución de gráficos de dominio espectral incluyen SCNN [37], ChebNet [38] y GCN [39]. SCNN es una aplicación directa de la teoría de convolución del gráfico espectral. ChebNet utiliza polinomios de Chebyshev para reducir la complejidad computacional basada en SCNN, mientras que GCN simplifica aún más ChebNet y es adecuado para las tareas correspondientes. Los principales métodos de convolución de gráficos de dominio espacial incluyen GraphSAGE [40] y GAT [41]. GraphSAGE considera una combinación de muestreo ascendente convolucional y agregación de información. Muestra vecinos en cada etapa del gráfico y agrega información sobre sí mismo y sus vecinos. GAT introduce un mecanismo de atención en la operación de convolución y utiliza este mecanismo para ajustar dinámicamente la importancia de los nodos adyacentes.

Mecanismo de atención

Transformer es un modelo que se utilizó originalmente en el campo del procesamiento del lenguaje natural y ahora se usa ampliamente en diversas aplicaciones. Es una red neuronal profunda basada en el mecanismo de atención [42]. Existen varios métodos clásicos que utilizan mecanismos de atención para predecir mejor el flujo de tráfico. Liang y otros [43] propusieron una capa de atención multinivel para extraer dependencias espacio-temporales dinámicas, combinada con un módulo de fusión para capturar factores externos (como el clima). Zhang y otros [44] diseñaron un método de atención basado en gráficos para mejorar la capacidad de capturar correlaciones espaciales para predecir mejor el flujo de tráfico basándose en datos de múltiples sensores. En otra investigación popular, Guo y otros [14] diseñaron un nuevo mecanismo de atención y lo combinaron con GCN para resolver la tarea de predicción del flujo de tráfico, centrándose en la atención espacio-temporal y capturando la correlación dinámica espacio-temporal.

En este trabajo, construimos un STT para extraer características espacio-temporales y fusionar profundamente las características espacio-temporales de diferentes vistas utilizando un mecanismo de autoatención de múltiples cabezas [45]. La idea central de la estrategia de autoatención es la interrelación entre secuencias, que pueden autodeterminar el peso de los elementos de entrada asignados.

Supongo que te gusta

Origin blog.csdn.net/qq_30340349/article/details/131466963
Recomendado
Clasificación