Revisión de los pronósticos de series a largo plazo: una encuesta sobre mapas lineales

Resumen

El pronóstico de series a largo plazo ha recibido una gran atención en los últimos años. Si bien existen varios diseños especializados para capturar la dependencia del tiempo, estudios anteriores han demostrado que una sola capa lineal puede lograr un rendimiento predictivo competitivo en comparación con otras arquitecturas complejas. En este documento, investigamos a fondo la eficacia intrínseca de los métodos propuestos recientemente y hacemos 3 observaciones clave: 1)Los mapas lineales son fundamentales para el trabajo previo en el pronóstico de series temporales a largo plazo;2)RevIN (normalización reversible) y CI (independiente del canal) juegan un papel importante en la mejora del rendimiento general de la predicción;3)Los mapas lineales pueden capturar con eficacia características periódicas en series de tiempo y son resistentes a diferentes períodos de diferentes canales al aumentar la longitud de la serie de tiempo de entrada. Brindamos explicaciones teóricas y experimentales para respaldar nuestros hallazgos y también discutimos las limitaciones y el trabajo futuro.

introducción

En los últimos años, el pronóstico de series de tiempo se ha vuelto cada vez más popular debido a su aplicabilidad en varios dominios, como el pronóstico de energía, el pronóstico del tiempo y la estimación de flujo de CA. Con el avance de los recursos informáticos, el volumen de datos y la arquitectura de modelos, las técnicas de aprendizaje profundo, como los modelos basados ​​en RNN y los modelos basados ​​en CNN, han superado los métodos estadísticos tradicionales en términos de precisión y solidez.

Recientemente, ha habido un interés creciente en el uso de métodos basados ​​en transformadores para capturar dependencias temporales a largo plazo en el pronóstico de series de tiempo. Estos métodos han mostrado resultados prometedores con varios mecanismos de atención y técnicas generativas de no regresión. Sin embargo, un trabajo reciente (DLinear) sugiere que estos métodos basados ​​en transformadores pueden no ser tan efectivos como se pensaba anteriormente, y descubre que los resultados de predicción informados pueden basarse principalmente en predicciones de un solo canal en comparación con la generación autorregresiva. Por el contrario, DLinear que usa solo una capa lineal supera inesperadamente a las arquitecturas de replicación existentes por un amplio margen. Sobre la base de este trabajo, los enfoques posteriores abandonan la arquitectura de codificador-decodificador y se centran en desarrollar extractores de características temporales y modelar el mapeo entre entradas históricas y predicciones. Aunque estos métodos logran un mejor rendimiento predictivo, todavía no superan significativamente a los modelos lineales. Además, a menudo requieren una gran cantidad de hiperparámetros ajustables y trucos de entrenamiento específicos, como la normalización y el procesamiento de canales específicos, que pueden afectar potencialmente la imparcialidad de la comparación. Con base en estas observaciones, hacemos las siguientes preguntas: (1) ¿Son efectivos los extractores de características temporales para el pronóstico de series a largo plazo? (2) ¿Cuáles son los mecanismos subyacentes que explican la efectividad de los mapas lineales en el pronóstico de series de tiempo? (3) ¿Cuáles son las limitaciones de los modelos lineales y cómo podemos mejorarlos?

En las siguientes secciones, después de presentar la definición del problema y la configuración experimental, llevamos a cabo experimentos y análisis en profundidad sobre el funcionamiento interno de los modelos de pronóstico de series de tiempo recientes con el objetivo de responder las preguntas anteriores a través de un extenso análisis temporal y teórico. Las principales contribuciones de este trabajo son:

  • Estudiamos la eficacia de diferentes componentes en el modelo de pronóstico de series de tiempo a corto plazo, y el mapa lineal de retorno es fundamental para su rendimiento de pronóstico, como se muestra en la Sección 3
  • Demostramos la efectividad de los mapas lineales para aprender la periodicidad en tareas de pronóstico de series de tiempo a largo plazo con evidencia teórica y experimental, y proponemos líneas de base simples pero efectivas para comparaciones más justas en el futuro (que se muestran en la Tabla 3).
  • Investigamos las limitaciones de los mapas lineales cuando se trata de series de tiempo multivariantes con diferentes canales, y analizamos el impacto de los niveles de entrada y una técnica correctiva llamada independencia de canal, como se muestra en las Figuras 10 y 11.

Definición del problema y configuración experimental

Definición del problema . Dada una serie de tiempo histórica X = [ x 1 , x 2 , ⋯ , xn ] ∈ R c × n X = [x_1,x_2,\cdots,x_n] \in R^{c \times n}X=[ X1,X2,,Xn]Rc × n , conccc canales ynnPara n pasos de tiempo, la tarea de predicción tiene como objetivo predecir el futurommm pasos de tiempoY = [ xn + 1 , xn + 2 , . . . , xn + m ] ∈ R c × m Y = [x_{n+1}, x_{n+2},...,x_ { n+m}] \en R^{c \times m}Y=[ Xn + 1,Xnorte + 2,... ,Xn + m]Rc × m donde m representa el horizonte de pronóstico. Necesitamos aprender un mapeoF : X c × n ↦ Y c × n F:X^{c \times n} \mapsto Y^{c \times n}F:Xc × norteYc × n , donde X e Y son continuos en los datos de la serie temporal original.

Configuración experimental. Nuestros experimentos se llevan a cabo en series de tiempo simuladas y seis conjuntos de datos reales disponibles públicamente: (1) ETTH, con 4 conjuntos de datos de diferente granularidad, registrando 6 características de carga eléctrica y temperatura del aceite de los transformadores de potencia; (2) ) Weather contiene 21 indicadores meteorológicos durante casi 1600 ubicaciones en los Estados Unidos en 2020; (3) ECL registra el consumo de electricidad por hora de 321 clientes de 2012 a 2014. Para una comparación justa, seguimos el mismo protocolo de evaluación y dividimos todos los conjuntos de datos en conjuntos de entrenamiento, validación y prueba. Nuestra línea de base propuesta utiliza la pérdida de L2 y el optimizador de Adam para el entrenamiento. El proceso de entrenamiento se detiene temprano dentro de las 20 épocas. MSE y MAE se compararon como métricas de evaluación. El puntaje R-cuadrado se usa en estudios empíricos porque elimina el efecto del tamaño de los datos. Todos los modelos se implementan en Pytorch y se prueban tres veces en una sola GPU Nvidia V100 de 32 GB.

¿Son eficientes los extractores de características temporales?

Marco general . La Figura 1 ilustra el marco general del trabajo reciente sobre el pronóstico de series de tiempo, que consta de 3 partes principales: RevIN, una capa de normalización reversible; un extractor de características sensibles al ciclo, como atención, MLP o capa convolucional; y una capa de proyección lineal que predice la resultado final. Dado el impacto potencial del ajuste de hiperparámetros y varias técnicas de entrenamiento en la imparcialidad de la comparación, primero examinamos la efectividad de los extractores de características en diferentes momentos. Sin pérdida de generalidad, seleccionamos cuatro modelos óptimos notables: PatchTST (Asistir), MTS-Mixers (MLP), TimesNet y SCINet (Conv). Todos estos métodos siguen este marco común y han logrado un rendimiento predictivo de vanguardia como afirman. Teniendo en cuenta que sus precisiones predictivas informadas no son significativamente mejores que una sola capa lineal, usamos el punto de referencia ETT para nuevos experimentos para examinar la contribución de cada parte en ellos.
inserte la descripción de la imagen aquí
La figura 2 muestra el rendimiento de predicción de diferentes modelos en diferentes longitudes de predicción para ETTh1. La línea de base "RLinear" se refiere a la capa de proyección lineal con RevIN. Extractor aleatorio fijo (extractor aleatorio fijo) significa que solo inicializamos aleatoriamente el extractor de características temporales y no actualizamos sus parámetros durante la fase de entrenamiento. En particular, RevIN mejora significativamente la precisión de predicción de estos métodos. Por lo tanto, comparar un método con otros que no utilizan RevIN puede conducir a resultados injustos debido a su superioridad. Con la ayuda de RevIN, incluso una capa lineal simple puede superar al actual PatchTST de base de última generación.
inserte la descripción de la imagen aquí
En particular, nuestros hallazgos muestran que incluso los extractores de características temporales inicializados aleatoriamente, con parámetros no entrenados, pueden conducir a resultados de predicción competitivos, o incluso mejores. Es necesario considerar lo que estos extractores de características han aprendido de los datos de series temporales. La figura 3 ilustra los pesos de la capa de proyección lineal final y diferentes extractores de características temporales. Curiosamente, cuando el extractor de características temporales es un MLP, tanto el MLP como la capa de proyección aprenden pesos caóticos, mientras que el producto de los dos permanece consistente con los pesos aprendidos de una sola capa lineal. Por otro lado, cuando el extractor de características temporales es Atención. También aprende pesos caóticos, pero los pesos aprendidos por la capa de proyección son similares a los de una sola capa lineal, lo que implica la importancia de las proyecciones lineales en la serie temporal.
inserte la descripción de la imagen aquí
Para mitigar cualquier posible sesgo específico del conjunto de datos, realizamos experimentos adicionales en el punto de referencia ETT completo, utilizando el mismo protocolo de comparación. La Tabla 1 presenta los resultados de predicción de RLinear y modelos seleccionados. Curiosamente, la línea de base simple RLinear logra un rendimiento comparable o incluso mejor en la mayoría de los casos en comparación con los métodos bien diseñados. A veces, estos modelos refinados que utilizan extractores de características temporales incluso funcionan peor que sus prototipos no entrenados. Vale la pena señalar que los modelos que utilizan un extractor de características temporal aleatorio fijo generalmente exhiben un rendimiento predictivo similar y se acercan a una sola capa lineal. Estas intrigantes observaciones nos llevan a preguntarnos si los extractores de características temporales son necesarios y por qué los mapas lineales son tan efectivos en el pronóstico de series temporales a largo plazo.

Estudios teóricos y empíricos sobre mapas lineales

El papel de los mapas lineales en la previsión

Los mapas lineales aprenden periodicidad. Considere una sola capa lineal como:
Y = XW + b Y = XW + bY=X W+b
其中W ∈ R n × m W \in R^{n \times m}WRn × m es el peso, también conocido como matriz de transición,b ∈ R 1 × mb \in R^{1 \times m}bR1 × m es el sesgo.
inserte la descripción de la imagen aquí
**Supuesto 1.** Serie temporal generalx ( t ) x(t)x ( t ) se puede descomponer en componentes estacionaless ( t ) s(t)s ( t ) y parte de tendenciaf ( t ) f(t)f ( t ) , con ruido tolerable, expresado comox ( t ) = s ( t ) + f ( t ) + ϵ x(t) = s(t) + f(t) + \epsilonx ( t )=s ( t )+f ( t )+ϵ .

Se han desarrollado muchos métodos para descomponer series de tiempo en términos estacionales y de tendencia, utilizando redes neuronales para capturar la periodicidad y complementar el pronóstico de tendencias. Sin embargo, vale la pena señalar que una sola capa lineal también puede aprender patrones periódicos de manera efectiva.

**Definición 1.**Dada una satisfactoria x ( t ) = s ( t ) = s ( t − p ) x(t) = s(t) = s(tp)x ( t )=s ( t )=s ( tp ) serie de tiempo estacional, dondep ≤ np \leq npagn es el período, siempre hay una solución analítica para el modelo lineal:
[ x 1 , x 2 , ⋯ , xn ] ⋅ W + b = [ xn + 1 , xn + 2 , ⋯ , xn + m ] , W ij ( k ) = { 1 , si = norte - kp + ( j mod pags ) 1 ≤ k ∈ Z ≤ ⌊ norte / pags ⌋ , bi = ∑ l = 0 k - 1 al ⋅ C . 0 , de lo contrario [x_1,x_2, \ cdots,x_n] \cdot W + b = [x_{n+1},x_{n+2},\cdots,x_{n+ m}],\\ \ \\ W_{ij}^{(k) } = \begin{casos} 1,\ \ \ si i = n - kp + (j \ mod\ p)\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 1 \leq k \in Z \leq \lpiso n/p \rpiso,b_i = \sum^ {k-1}_{l = 0}a^l \cdot c.\\ 0, \ \ \ de lo contrario\\ \end{casos}[ X1,X2,,Xn]W+b=[ Xn + 1,Xnorte + 2,,Xn + m] , Wyo( k )= 1 ,   yo si yo=nortek pag+( j m o d p )                                                     1kZn / pag ,byo=l = 0k - 1ayodo .0 ,   de otro modo _ _ _ _
Las ecuaciones anteriores muestran que un mapa lineal puede predecir señales periódicas cuando la longitud de la secuencia histórica de entrada no es menor que el período, aunque esta no es la única solución. Dado que s ( t ) s(t)Los valores correspondientes a cada marca de tiempo en s ( t ) son casi imposibles de ser linealmente independientes, por lo que el espacio de solución de parámetros de w es muy amplio. En particular, cuandon ≫ pn \gg pnorteCuando p , es posible queW ( k ) W^{(k)}WMás valores potenciales de ( k ) con diferentes coeficienteskkk obtiene una solución de forma cerrada. [ W ( 1 ) , ⋯ , W ( k ) ] [W^{(1)},\cdots,W^{(k)}]con factores de escala apropiados[ W( 1 ) ,,W( k ) ]también satisfacen la solución de la ecuación anterior.

Corolario 1.1 Cuando una serie de tiempo dada satisface x ( t ) = ax ( t − p ) + cx(t) = ax(tp)+cx ( t )=una x ( tpag )+c dondea , ca, cun ,c es el factor de escala y traducción, el modelo lineal todavía tiene una solución de forma cerrada para la ecuación 2, a saber:
W ij ( k ) = { ak , ifi = n − kp + ( j mod p ) 1 ≤ k ∈ Z ≤ ⌊ norte / pags ⌋ , bi = ∑ l = 0 k − 1 al ⋅ c . 0 , de lo contrario W_{ij}^{(k)}= \begin{cases} a^k,\ \ \ if i = n - kp + ( j \ mod\ p)\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 1 \leq k \in Z \leq \lpiso n/p \rpiso,b_i = \sum^{k-1}_{l = 0}a^l \cdot c.\ \ 0, \ \ \ de lo contrario\\ \end{casos}Wyo( k )= ak ,   yo si yo=nortek pag+( j m o d p )                                                     1kZn / pag ,byo=l = 0k - 1ayodo .0 ,   de otro modo _ _ _ _
Ahora sabemos que una sola capa lineal puede capturar efectivamente la periodicidad en series de tiempo. Los pesos visualizados en la Fig. 3 también respaldan nuestro punto, la matriz de transición de entrada a salida muestra una periodicidad clara (24 pasos de tiempo por período). Sin embargo, en la práctica, las series temporales suelen seguir el Supuesto 1, por lo que el término de tendencia puede afectar el aprendizaje del modelo lineal. La Figura 4 ilustra los resultados de predicción de la capa lineal para señales estacionales y de tendencia simuladas, incluidas ondas sinusoidales, funciones lineales y sus sumas. Como era de esperar, el modelo lineal se ajusta bien a la estacionalidad, pero no a la tendencia, independientemente del término de sesgo en el algoritmo. Chen y otros también estudiaron un problema similar y proporcionaron un límite superior en el rendimiento de los modelos lineales para pronosticar series de tiempo con componentes estacionales y de tendencia. Sobre la base de su trabajo, adaptamos sus conclusiones y derivamos el siguiente teorema.

**Teorema 2.** Sea x ( t ) = s ( t ) + f ( t ) x(t) = s(t) + f(t)x ( t )=s ( t )+f ( t ) dondes ( t ) s(t)s ( t ) es un períodoppLa señal estacional de p ,f ( t ) f(t)f ( t ) satisface la continuidad de K-Lipschitz. Entonces, hay un modelo lineal como la ecuación 2, longitud de entradan = p + τ , τ ≥ 0 n = p + \tau,\tau \geq 0norte=pag+t ,t0 tal que∣ x ( x + j ) − x ^ ( n + j ) ∣ ≤ K ( p + j ) , j = 1 , . . . , m |x(x + j) - \hat{x}( n + j)| \leq K(p + j),j = 1,...,mx ( x+j )X^ (n+j ) k ( pag+j ) ,j=1 ,... ,metro

**Prueba.** Para simplificar el proceso de prueba, asumimos que la marca de tiempo de los datos históricos es de 1 a nnn , entonces para que se predigajjthj valores realesx ( n + j ) x(n + j)x ( n+j ),我们有:
x ( n + j ) = x ( p + τ + j ) = s ( τ + j ) + f ( p + τ + j ) x(n + j) = x(p + \year + j) = s(\año + j) + f(p + \año + j)x ( n+j )=x ( pag+t+j )=s ( t+j )+f ( pag+t+j )

Asumiendo que los modelos lineales solo pueden aprender patrones periódicos, podemos usar directamente la Ecuación 3 como una solución aproximada, donde elegimos k = 1 k = 1k=1 . Por lo tanto, parax ( n + j ) x(n + j)x ( n+j ) es:
x ^ ( norte + j ) = XW + segundo = x ( norte − pags + ( j mod pags ) ) = s ( τ + j ) + f ( τ + ( j mod pags ) ) \hat {x }(n + j) = XW+b =x(n - p + (j\ mod\ p)) = s(\tau + j) + f(\tau + (j\ mod\ p))X^ (n+j )=X W+b=x ( npag+( j m o d p ))  =s ( t+j )+f ( t+( j m o d p ))  

Usando la propiedad continua de K-Lipschitz, podemos obtener
∣ x ( n + j ) − x ^ ( n + j ) ∣ = ∣ f ( p + τ + j ) − f ( τ + ( j mod p ) ) ∣ ≤ K ∣ pags + j − ( j mod pags ) ∣ ≤ K ( pags + j ) \begin{align*} |x(n + j) - \hat{x}(n + j)| &= |f( p + \tau + j) - f(\tau + (j \ mod \ p))|\\ & \leq K|p + j - (j\ mod\ p)|\\ & \leq K(p + j ) \end{alinear*}x ( norte+j )X^ (n+j ) =f ( pag+t+j )f ( t+( j metro o re pags ))   K pag+j( j metro o re pags )   k ( pag+j )

Aunque el error de predicción de los modelos lineales para los elementos de tendencia está limitado, aún puede afectar los resultados del pronóstico a medida que se acumulan las marcas de tiempo o los elementos de tendencia se vuelven más significativos. Esta puede ser la razón por la que los modelos lineales tienden a funcionar mal en la previsión de tendencias.

inserte la descripción de la imagen aquí

Desenredo y Normalización

problemas en la separación . El rendimiento del pronóstico se puede mejorar si se elimina el término de tendencia o se separa el término estacional. El trabajo anterior se ha centrado en descomponer series de tiempo en componentes estacionales y de tendencia para pronosticarlos individualmente. En general, utilizan un promedio móvil implementado por una capa de agrupación promedio para obtener información de tendencia de la serie de tiempo de entrada a través de una ventana deslizante de tamaño adecuado. Luego identificaron las características estacionales a partir de la señal periódica obtenida al restar el término de tendencia de los datos sin procesar. Sin embargo, como se indica en la literatura, estos métodos tienen algunos problemas. Primero, el tamaño de la ventana deslizante debe ser mayor que el período máximo de la parte estacional, de lo contrario, el desacoplamiento será insuficiente. En segundo lugar, debido al uso de la capa de agrupación promedio, la alineación requiere relleno en ambos extremos de la serie temporal de entrada, lo que inevitablemente distorsiona la cabeza y la cola de la secuencia. Además, incluso si las señales están completamente descompuestas o solo tienen términos de tendencia, el problema del ajuste insuficiente del término de tendencia aún existe. Por lo tanto, si bien el desacoplamiento puede mejorar el rendimiento predictivo, aún está rezagado con respecto a algunos modelos recientes de última generación.
inserte la descripción de la imagen aquí

**Convierta las tendencias en estacionalidad. **La clave del desapego es restar la media móvil de la serie temporal original, que tiene que ver con la normalización. Kim y otros reconocieron que algunas estadísticas de series temporales, como la media y la varianza, cambian constantemente con el tiempo debido al problema del cambio de distribución. Para resolver este desafío, desarrollaron RevIN, que primero normaliza la serie de tiempo histórica de entrada y la introduce en el módulo de pronóstico, y luego desnormaliza los resultados pronosticados. El trabajo anterior confirmó que RevIN es más efectivo que la normalización en términos de compensación de distribución conjunta. Sin embargo, el rango y la magnitud de los valores en series de tiempo también tienen sentido en escenarios del mundo real. La normalización directa de los datos de entrada puede borrar estas estadísticas y dar lugar a predicciones deficientes. La Figura 5 ilustra los resultados de la predicción para una señal de tendencia simulada con dos canales usando diferentes métodos de normalización. Ajustar los cambios de tendencia usando solo capas lineales es un desafío. La aplicación de la normalización por lotes induce resultados aún peores, mientras que la normalización de capas conduce a predicciones sin sentido cercanas a cero. Desvincular la serie temporal simulada tampoco funciona. Sin embargo, con la ayuda de RevIN, una sola capa lineal puede predecir con precisión el término de la tendencia.
inserte la descripción de la imagen aquí
El núcleo de la normalización reversible es la reversibilidad. Elimina los cambios de tendencia causados ​​por las estadísticas del momento mientras conserva las estadísticas que se pueden usar para recuperar los resultados finales del pronóstico. La Figura 6 ilustra cómo RevIN afecta la estacionalidad y los términos de tendencia. Para señales estacionales, RevIN escala el rango pero no cambia la periodicidad. Para las señales de tendencia, RevIN extiende cada banda al mismo rango y exhibe un patrón cíclico. RevIN puede convertir algunas tendencias en estacionalidad, lo que hace que el modelo aprenda o memorice mejor los términos de tendencias. La Figura 7 muestra los resultados de pronóstico del modelo lineal con RevIN en series de tiempo simuladas con términos estacionales y de tendencia. RevIN convierte una tendencia que cambia continuamente en múltiples segmentos con tendencias fijas y similares, mostrando características periódicas. Por lo tanto, los errores de pronóstico de tendencia causados ​​por períodos de tiempo acumulados en el pasado pueden mitigarse, lo que lleva a resultados de pronóstico más precisos.
inserte la descripción de la imagen aquí

Evaluación experimental

En esta sección, primero evaluamos el rendimiento de diferentes modelos en conjuntos de datos del mundo real y luego examinamos escenarios de varias épocas entre varios canales.

Comparación en conjuntos de datos reales

La Tabla 2 proporciona las estadísticas de estos seis conjuntos de datos reales. Realizamos experimentos con tres líneas base competidoras de última generación: PatchTST, TimesNet y DLinear. Dado que RevIN mejora en gran medida el rendimiento de la predicción, agregamos dos límites simples, a saber, RLinear y RMLP con dos capas lineales y activaciones ReLU, para una comparación más justa. La Tabla 3 proporciona una descripción general de los resultados de predicción para todos los puntos de referencia.
inserte la descripción de la imagen aquí
Por favor agregue una descripción de la imagen
Sin embargo, estos modelos bien diseñados no son mejores que nuestras dos líneas de base simples propuestas. El éxito de estos modelos puede deberse a la eficiencia del aprendizaje de la periodicidad y la normalización reversible a través de mapas lineales. Curiosamente, notamos que RLinear no supera significativamente los modelos complejos en conjuntos de datos con una gran cantidad de canales, como el clima y ECL, que se estudiarán en la siguiente sección.
inserte la descripción de la imagen aquí

Cuando lo lineal se encuentra con el multiciclo entre canales

Aunque el mapeo lineal es capaz de aprender la periodicidad en series de tiempo, enfrenta desafíos cuando se trata de conjuntos de datos multicanal. Para abordar este problema, una posible solución es utilizar el modelado independiente del canal (CI), que trata cada canal en una serie temporal de forma independiente. Si bien este enfoque puede mejorar la precisión de la predicción, también aumenta significativamente la sobrecarga computacional. La Figura 8 muestra los resultados de pronóstico de diferentes modelos aplicados a series de tiempo simuladas con 3 canales periódicos diferentes. Se puede ver que RLinear-CI y RMLP pueden ajustarse a la curva, mientras que RLenar falla. Esto sugiere que puede ser difícil para una sola capa lineal aprender diferentes ciclos dentro de un canal. El modelado de unidades no lineales o CI puede ayudar a mejorar la solidez de los modelos de series temporales multivariantes con diferentes canales periódicos. La Tabla 4 presenta los resultados de predicción de RLinear usando CI para clima y ECL, que logra un rendimiento comparable al de RMLP, lo que confirma que una sola capa lineal puede ser susceptible a diferentes épocas en el canal.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Para investigar más a fondo el efecto del mapeo lineal en series temporales multivariadas, simulamos con una serie de ondas sinusoidales con una frecuencia angular entre 1/30 y 1/3 y una longitud de 3000. La figura 10 muestra los resultados de la predicción en diferentes entornos. Nuestros hallazgos muestran que los modelos lineales funcionan bien de manera constante en series temporales con dos canales, independientemente de las pequeñas o grandes diferencias en la periodicidad. Sin embargo, a medida que aumenta la cantidad de canales de diferentes períodos, el rendimiento de los modelos lineales se deteriora gradualmente, mientras que los modelos con unidades no lineales o IC continúan funcionando bien. Además, aumentar el rango de entrada puede aliviar de manera efectiva el rendimiento predictivo de los modelos lineales en conjuntos de datos multicanal. Estas observaciones sugieren que los modelos existentes pueden centrarse en el aprendizaje de la estacionalidad y que las diferencias periódicas entre diferentes canales en una serie temporal multivariada son un factor clave que limita el rendimiento de las previsiones. El teorema 3 explica el papel de los modelos lineales en la previsión de series temporales multivariadas.
inserte la descripción de la imagen aquí
Teorema 3.X = [ s 1 , s 2 , ⋯ , sc ] T ∈ R c × n X = [s_1,s_2,\cdots,s_c]^T \in R^{c \times n}X=[ s1,s2,,sdo]TRc × n es la serie temporal multivariada histórica de entrada con c canales y longitud n. Si cada señalsi s_isyoHay un período correspondiente pi p_ipagyo, debe existir un modelo lineal Y = XW + b Y = XW + bY=X W+b,当n ≫ mcm (p 1 , p 2 , . . . , pc ) n \gg lcm(p_1,p_2,...,p_c)nortel cm ( pag _1,pag2,... ,pagdo)

inserte la descripción de la imagen aquí
Como se muestra en la Figura 11, aumentar la zancada de entrada conduce a una mejora significativa en el rendimiento predictivo. Esto se debe a que los intervalos de entrada más largos cubren épocas más latentes, lo que minimiza la brecha de rendimiento entre los modelos lineales y los modelos con unidades no lineales. Sin embargo, vale la pena señalar que RLinear-CI y RMLP funcionan mal en el conjunto de datos ETTh1 cuando el horizonte de entrada es largo, lo que puede deberse a la pequeña capacidad de este conjunto de datos en particular. Además, debe tenerse en cuenta que existe un límite superior para la mejora del rendimiento que se logra al aumentar la ventana de entrada. Este límite puede depender en gran medida de los patrones periódicos presentes en el conjunto de datos.

Resumir

Este documento estudia sistemáticamente el papel de los mapas lineales en el pronóstico de series de tiempo a largo plazo y tiene las siguientes implicaciones importantes: (1) Los mapas lineales son cruciales para los métodos de pronóstico de series de tiempo periódicos a largo plazo y, por lo general, son fáciles de aprender afines similares. transformaciones, es decir, de La observación del historial de entrada corresponde a un patrón periódico específico en la predicción de salida; (2) RevIN (normalización reversible) y CI (canal independiente) mejoran el rendimiento de predicción general al simplificar el aprendizaje de la periodicidad; (3) cuando el rango de entrada aumenta, el mapa lineal es robusto para series de tiempo multivariadas con canales de diferentes períodos, mientras que puede causar un ajuste insuficiente de características de período corto. Brindamos explicaciones teóricas y realizamos extensos experimentos en conjuntos de datos simulados y del mundo real para respaldar nuestros hallazgos.

Limitaciones y trabajo futuro . Los puntos de referencia de series de tiempo a largo plazo tienden a mostrar patrones estacionales consistentes. Para mejorar la capacidad de generalización del modelo, vale la pena estudiar cómo se comporta bajo cambios estacionales. También sería valioso explorar la aplicabilidad de nuestra teoría a otras tareas, como el pronóstico de series de tiempo a corto plazo. Reconocemos que estas exploraciones se dejan para trabajos futuros.

Supongo que te gusta

Origin blog.csdn.net/qq_20144897/article/details/131270551
Recomendado
Clasificación