Serie de conceptos básicos de tecnología de inteligencia artificial: análisis de series temporales

Autor: Zen y el arte de la programación informática

1. Introducción a los antecedentes

¿Qué es el análisis de series de tiempo?

Los datos de series temporales se refieren a datos observados en determinados intervalos de tiempo, como precios de acciones, volumen de ventas, etc. Las características de los datos de series de tiempo son que cambian con el tiempo y, a menudo, hay tendencias obvias, periodicidades y otras estructuras especiales, por lo que el análisis de datos de series de tiempo es de gran importancia. El análisis de series de tiempo (TSA) es una disciplina que utiliza datos de series de tiempo para investigación, predicción y procesamiento. El análisis de series de tiempo es una rama importante de la minería de datos, que involucra muchos temas, que incluyen: reconocimiento de patrones de series de tiempo, predicción, análisis de correlación de series de tiempo, detección de anomalías, evaluación de la precisión de la predicción, clasificación de series de tiempo, control de anomalías, extracción de dimensiones, etc. Este artículo discutirá principalmente varios puntos de conocimiento básico del análisis de series de tiempo:

  • Distribución espaciotemporal: describe las características de distribución de los datos de series temporales en el tiempo.
  • Prueba de hipótesis básica: verificar la estacionariedad, la cuadratura y la cointegración de los datos de series temporales.
  • Estimación de parámetros: estimación de series temporales futuras basadas en datos históricos.
  • Selección de modelo: seleccione el modelo de serie temporal óptimo.
  • Previsión: Previsión de series temporales futuras.

    2. Conceptos centrales y conexiones

    datos de series de tiempo

    Los datos de series temporales se refieren a información digital observada o registrada en ciertos intervalos de tiempo, incluidos datos temporales y datos de indicadores.

Datos de series de tiempo

Los datos de series de tiempo pueden ser cualquier variable o fenómeno relacionado con el tiempo, por ejemplo, los ingresos de las empresas, la población regional, el cambio climático de la ciudad, los niveles de precios, el transporte de productos básicos, etc., son todos datos de series de tiempo. Estos datos suelen ser numéricos y cada dato representa un determinado tipo de valor de tiempo y el valor de ese tipo de variable.

Datos del indicador

Los datos de los indicadores también se denominan datos tabulares, que son ciertos hechos o eventos observados dentro de un cierto período de tiempo. Por ejemplo, los precios locales de la vivienda, el volumen de ventas de un determinado producto de marca, la satisfacción del consumidor con un determinado producto en una determinada región, los cambios en el precio de las acciones, etc., son todos datos indicadores. En términos generales, los datos de los indicadores se presentan generalmente en forma de tabla y existe una relación correspondiente entre varios datos.

distribución espaciotemporal

La distribución espacial temporal (STD) se utiliza para describir las características de distribución de datos de series de tiempo en el espacio y el tiempo. La distribución espaciotemporal puede estar compuesta de distribución estadística y distribución espacial. La distribución estadística incluye principalmente el coeficiente de variación, varianza, asimetría y curtosis de los indicadores estadísticos; la distribución espacial está representada por la función de densidad de ubicación, que refleja la densidad de diferentes ubicaciones en el área o campo donde se encuentra el objeto de observación. La distribución espaciotemporal también puede describir ciertas transformaciones espaciales y transformaciones temporales.

análisis relacionado

El análisis de correlación es un método de análisis de datos en el análisis de series de tiempo. Este método mide la correlación lineal, la correlación no lineal, la correlación de tendencias, etc. entre dos series de tiempo para descubrir su influencia mutua y los factores que influyen. El análisis de correlación es clave para el análisis de series temporales, ya que proporciona capacidades para el descubrimiento, modelado e interpretación de patrones complejos en datos de series temporales. El análisis de correlación puede ayudarnos a comprender mejor los datos de series temporales, descubrir posibles tendencias a largo plazo y hacer predicciones efectivas.

Análisis residual

El análisis residual es un método relativamente básico en el análisis de series de tiempo. Utiliza las propiedades estadísticas de los residuos en el análisis de regresión de series temporales para determinar si el modelo es adecuado para la predicción. Para los datos que contienen ruido, las propiedades estadísticas de los residuos (media cero, distribución normal de desviación estándar) se pueden utilizar como criterio de prueba natural para determinar si el modelo es adecuado para la predicción.

3. Explicación detallada de los principios básicos del algoritmo, pasos operativos específicos y fórmulas del modelo matemático.

Datos de series de tiempo

Introducción a los datos de series de tiempo.

Los datos de series de tiempo, también conocidos como datos históricos, registros históricos y series de tiempo, se refieren a información digital observada o registrada en determinados intervalos de tiempo. Se caracteriza por cambios en el tiempo y, a menudo, tiene tendencias obvias, periodicidades y otras estructuras especiales, por lo que el análisis de datos de series temporales es de gran importancia.

Por ejemplo, supongamos que tenemos datos de ventas y ventas de una fábrica de ropa, que incluyen ventas y ventas de ropa en cada trimestre, podemos mostrar estos datos visualmente a través de un gráfico de series de tiempo. El eje de tiempo representa cada trimestre, el eje vertical representa las ventas de ropa y el eje horizontal representa los precios de venta de ropa. Al observar aspectos como los cambios estacionales, los patrones cíclicos y los efectos acumulativos en los datos, podemos comprender mejor cómo se vende la ropa.

Gráfico de series temporales

El gráfico de series de tiempo es una herramienta muy importante que puede mostrar visualmente datos de series de tiempo.

Primero, dibuje los datos de cada paso de tiempo en una polilínea, es decir, el eje de tiempo está en la dirección X y el valor de los datos está en la dirección Y.

En segundo lugar, cada polilínea utiliza diferentes colores, anchos de línea y estilos para distinguir diferentes datos. Esto facilita ver las tendencias en los datos a lo largo del tiempo.

Además, además de los gráficos de líneas, existen muchos otros gráficos que se pueden utilizar para presentar datos de series de tiempo, como histogramas, gráficos de barras, gráficos circulares, gráficos de radar, etc. Estos gráficos pueden mostrar diversos datos, como tendencias generales, tendencias locales, rango de fluctuación, dispersión, etc. Al comparar estos gráficos, podemos descubrir algunos patrones ocultos en los datos.

Preprocesamiento de datos de series temporales

Limpieza de datos

Para los datos de series temporales, la limpieza de datos es una tarea muy importante. Primero, verifique la calidad de los datos (como valores faltantes, valores atípicos, valores duplicados, etc.), luego ocúpese de los valores faltantes y valores atípicos y, finalmente, alinee los datos (como completar los puntos de tiempo faltantes en los mismos datos de la serie de tiempo) . La limpieza de datos debe prestar atención a los siguientes puntos:

  1. Fusionar y recortar datos de períodos de tiempo discontinuos.
  2. Verifique la coherencia de la marca de tiempo.
  3. Determine la precisión de la marca de tiempo.
  4. Compruebe si las unidades de datos son uniformes.
  5. Convierta marcas de tiempo, como convertir fecha y hora en segundos y milisegundos.
  6. Eliminar o completar datos incompletos.
  7. Ordene las marcas de tiempo para facilitar los cálculos de interpolación.
Normalización de datos

En el caso de los datos de series temporales, si se expresan en diferentes unidades o escalas, puede haber valores extremos que provoquen distorsión de los datos. Por lo tanto, los datos generalmente se estandarizan y se dividen por su media y desviación estándar de modo que los datos se distribuyan entre 0 y 1. Es necesario tener en cuenta los siguientes puntos durante el proceso de estandarización:

  1. Utilice centrado medio o estandarización.
  2. Desviación de los datos de calibración.
  3. Normalice datos de forma independiente para diferentes atributos.
Extracción de características de datos de series temporales.

Los datos de series de tiempo generalmente contienen muchas características, como promedios móviles, ruido blanco gaussiano, detección de tendencias, detección de periodicidad, funciones de autocorrelación, funciones de autocorrelación parcial, etc. Al analizar estas características, puede comprender mejor las características de las series temporales de los datos. Es necesario tener en cuenta los siguientes puntos durante el proceso de extracción de características:

  1. Divida el conjunto de entrenamiento y el conjunto de prueba.
  2. Elija el modelo correcto.
  3. Utilice validación cruzada para evaluar el rendimiento del modelo.
  4. Entrene modelos en múltiples series temporales simultáneamente.
  5. Fusión utilizando múltiples algoritmos de aprendizaje automático.

Tendencia y estacionalidad

Antes de realizar el análisis de series de tiempo, debemos realizar algunos trabajos de preprocesamiento de los datos, como eliminar señales irrelevantes, completar valores faltantes, etc. A continuación, analizaremos la tendencia y la estacionalidad.

La tendencia se refiere a la tendencia de los cambios de datos a lo largo del tiempo. Una tendencia típica puede ser una regresión lineal que tiende a subir o bajar. Cuando hay un cambio de tendencia, podemos considerar establecer un modelo de tendencia para predecir la tendencia futura de los datos. La estacionalidad se refiere a las características estacionales del tiempo, es decir, los datos a menudo cambian con una periodicidad fija. Los cambios estacionales pueden hacer que los datos sean más complejos y difíciles de predecir. Los cambios estacionales suelen ocurrir a finales de año, principios de año, primera mitad del año y segunda mitad del año.

Tendencias

La tendencia se refiere al cambio de tendencia de los datos a lo largo del tiempo, que se puede dividir en tendencia ascendente, tendencia a la baja, tendencia irregular, etc. Una tendencia alcista se refiere a datos que cambian rápidamente y duran mucho tiempo. Por ejemplo, el precio de una acción aumenta más de un punto porcentual en un día. Una tendencia a la baja significa que los datos muestran una tendencia negativa a lo largo del tiempo y duran un corto período de tiempo. Por ejemplo, el precio de una acción cayó aproximadamente una décima parte en una semana. Las tendencias irregulares se producen cuando los datos cambian dramática y lentamente.

Para una tendencia ascendente, podemos utilizar una curva suave para ajustar los datos. Suavizar la curva puede debilitar la tendencia alcista hasta estabilizarla. Para una tendencia a la baja, podemos utilizar una función escalonada para ajustar los datos. Una función escalonada significa que los datos disminuyen gradualmente a un ritmo constante y luego saltan repentinamente. También se pueden predecir tendencias irregulares utilizando técnicas similares.

Estacional

La estacionalidad se refiere a características periódicas del tiempo que pueden hacer que los datos sean más complejos y difíciles de predecir. Los cambios estacionales generalmente ocurren al final del año, al comienzo del año, en la primera mitad del año y en la segunda mitad del año. Bajo la influencia de los cambios estacionales, la tendencia de los datos a lo largo del tiempo cambiará.

Los cambios estacionales comunes incluyen:

  1. Ajuste anual: los cambios estacionales provocan cambios en las condiciones económicas generales, como la oferta monetaria, las tasas de interés, los precios laborales, los aumentos de los precios de la vivienda, las actividades corporativas, los mercados de valores, etc.
  2. Ajuste mensual: El final del mes suele desencadenar un auge de la inversión, como por ejemplo la especulación en el mercado inmobiliario.
  3. Ajustes de vacaciones: festivales como el Festival de Primavera, el Festival del Bote del Dragón, el Festival de los Faroles y el Festival del Medio Otoño provocan un aumento en la demanda de los consumidores y también conducirán a un aumento de la prosperidad económica global.
  4. Ajuste de tiempo: algunos sistemas se comportan de manera dependiente del tiempo. Por ejemplo, las políticas del mercado de valores y las reglas de funcionamiento del mercado pueden verse afectadas por el tiempo.

Para detectar la estacionalidad, podemos realizar análisis utilizando ACF (función de autocorrelación) y PACF (función de autocorrelación parcial).

La función de autocorrelación (ACF) es una medida de la autocorrelación de una variable dentro de un período de tiempo determinado. Para los datos X (t), ACF representa el grado de correlación entre la situación de los datos después del tiempo t y la situación del momento pasado. Para los datos X (t + k), ACF (k) representa el grado de correlación entre los datos después de k unidades de tiempo y el momento pasado. Durante un cierto período de tiempo de la señal, la función ACF puede proporcionar el coeficiente de correlación en cada punto de tiempo para determinar la tendencia, periodicidad, punto de salto, etc. de la señal.

La función de autocorrelación parcial (PACF) es una función que se obtiene desplazando la función ACF. La función de autocorrelación parcial excluye el punto de observación y solo considera el lapso de tiempo anterior a sí mismo, describiendo el retraso de los datos.

A través de ACF y PACF, podemos detectar cambios estacionales y determinar tendencias.

modelo ARIMA

ARIMA (Promedio móvil integrado autorregresivo, media móvil integrada autorregresiva) es un modelo estadístico de uso común en el análisis de series de tiempo. Se basa en una combinación de modelo de media móvil (MA) y modelo de autorregresión. El propósito del modelo ARMA es encontrar un modelo matemático que permita predecir el valor y_(t+k) después del momento actual con la mayor precisión posible en la combinación lineal a(L) del valor de observación y_t en el momento actual. y el valor de observación anterior. Entre ellos, a (L) es el coeficiente autorregresivo y L es el orden de retraso. El coeficiente autorregresivo determina la sensibilidad del modelo ARMA. Cuanto mayor sea L, mayor será la capacidad de predicción del modelo.

El flujo de trabajo del modelo ARIMA es el siguiente:

  1. Primera diferencia. Diferenciar los datos originales en primer orden para encontrar la relación entre los datos en el momento actual y los datos rezagados de primer orden.
  2. Calcule la función de autocorrelación. La función de autocorrelación es un indicador que describe la relación entre procesos aleatorios. ARIMA utiliza la función de autocorrelación para identificar tendencias y estacionalidad en los datos.
  3. Determine p y q. p y q representan el número de parámetros en los modelos autorregresivo y de media móvil respectivamente.
  4. Calcule el término de error. ARIMA encuentra parámetros adecuados minimizando el error cuadrático medio del modelo.

Monitoreo de indicadores

El monitoreo de indicadores consiste en monitorear el rendimiento del modelo en tiempo real, comprender el estado de ejecución del modelo en cualquier momento, ajustar los parámetros del modelo, ajustar estrategias, analizar los resultados de la predicción, etc. El seguimiento de métricas puede ayudarnos a ajustar el rendimiento del modelo y evitar creer erróneamente que el modelo es totalmente predictivo.

Los indicadores de uso común incluyen RMSE (error cuadrático medio), MAPE (error porcentual absoluto medio), MSE (error cuadrático medio), R ^ 2 (R cuadrado), etc. RMSE significa Error cuadrático medio, que es la raíz cuadrada aritmética de la diferencia al cuadrado entre los valores previstos y reales. MAPE representa el error porcentual absoluto medio, MAPE = (|F - A| / |A|) * 100%, donde F es el valor previsto y A es el valor real. R ^ 2 representa la bondad de ajuste, que refleja la capacidad de ajuste del modelo.

Supongo que te gusta

Origin blog.csdn.net/universsky2015/article/details/133594330
Recomendado
Clasificación