Una encuesta de aprendizaje autosupervisado para series temporales

Una encuesta de aprendizaje autosupervisado para series temporales

Algoritmo original de pez nadador  avanzado  2023-08-15 00:02  Publicado en Fujian

Incluido en la colección #time series 13

El aprendizaje autosupervisado (SSL) es un enfoque de aprendizaje automático que recientemente ha logrado un rendimiento impresionante en una variedad de tareas de series temporales. La ventaja más notable de SSL es su menor dependencia de los datos etiquetados . Basado en estrategias de entrenamiento previo y ajuste fino , se puede lograr un alto rendimiento incluso con una pequeña cantidad de datos etiquetados.

Hoy, comparto un artículo de revisión de investigadores como la Universidad de Zhejiang y Ali sobre el aprendizaje autosupervisado para series temporales. El artículo revisa las investigaciones existentes relacionadas con SSL y las series temporales, y proporciona una descripción general de los métodos SSL de series temporales existentes. Un nuevo taxonomía (Figura 1). Generalizaron el análisis de series temporales de aprendizaje autosupervisado en tres categorías: basado en generativo, basado en contraste y basado en confrontación. Todos los métodos se pueden dividir en diez subclases. Para facilitar la experimentación y la validación de los métodos SSL de series temporales, el documento también resume los conjuntos de datos comúnmente utilizados en las tareas de predicción, clasificación, detección de anomalías y agrupamiento de series temporales.

Figura 1: Taxonomía SSL de serie temporal propuesta.

Los métodos de aprendizaje autosupervisado (SSL) de series temporales generalmente se pueden dividir en tres categorías, y las arquitecturas modelo de estas categorías se muestran en la Figura 2:

  1. Métodos basados ​​en generación: este enfoque primero usa un codificador para asignar una entrada x a una representación z, y luego usa un decodificador para reconstruir x a partir de z. El objetivo de entrenamiento es minimizar el error de reconstrucción entre la entrada x y la entrada ˆx reconstruida.

  2. Enfoque basado en el contraste: este enfoque es una de las estrategias SSL ( aprendizaje autosupervisado ) más utilizadas , que construye ejemplos positivos y negativos a través del aumento de datos o muestreo de contexto. Luego, el modelo se entrena maximizando la información mutua (MI) entre dos muestras positivas . Los métodos basados ​​en el contraste suelen utilizar medidas de similitud contrastivas como la pérdida de InfoNCE

  3. Métodos basados ​​en adversarios: este método generalmente consiste en un generador y un discriminador. El generador genera muestras falsas, mientras que el discriminador se utiliza para distinguirlas de las muestras reales.

Figura 2: Paradigma de aprendizaje para SSL.

1 Métodos basados ​​en generación

En esta categoría, la tarea de pretexto es generar datos esperados basados ​​en una vista de los datos dados. En el contexto del modelado de series de tiempo, las tareas de pretexto comúnmente utilizadas incluyen el uso de series pasadas para predecir ventanas de tiempo futuras o marcas de tiempo específicas, el uso de codificadores y decodificadores para reconstruir entradas y la predicción de series de tiempo enmascaradas.

Esta sección organiza los métodos de aprendizaje de representación autosupervisados ​​existentes en el modelado de series de tiempo desde tres perspectivas: pronóstico basado en autorregresión, reconstrucción basada en codificador automático y generación de modelo basada en difusión (Fig. 3). Cabe señalar que las tareas de reconstrucción basadas en autocodificadores también se consideran un marco no supervisado. En el contexto de SSL, utilizamos principalmente la tarea de reconstrucción como una tarea previa al texto, con el objetivo final de obtener representaciones a través de modelos de autocodificador.

imagen

Figura 3: Tres categorías basadas en SSL de series temporales generadas.

1.1 Predicción basada en autorregresiva

La tarea ARF es una tarea de pronóstico basada en series de tiempo cuyo objetivo es predecir una ventana de longitud K usando la secuencia anterior a la marca de tiempo t. En la tarea ARF , el modelo de predicción f() suele adoptar un modelo autorregresivo, es decir, la salida en el momento actual se utiliza como entrada en el momento siguiente, y así sucesivamente. Cuando K=1, la tarea ARF es un modelo de predicción de un solo paso, que sirve para predecir el valor del siguiente paso de tiempo; cuando K>1, la tarea ARF es un modelo de predicción de varios pasos, que sirve para predecir el valor de múltiples pasos de tiempo en el futuro. 

La expresión matemática de la tarea ARF es la fórmula (1),

imagen

donde X[1:t] representa la secuencia anterior a la marca de tiempo t, y ˆX[t+1:t+K] representa la ventana de destino predicha. El modelo de predicción f(·) suele adoptar un modelo autorregresivo, es decir, la salida en el momento actual se utiliza como entrada en el momento siguiente, y así sucesivamente. Los escenarios de aplicación de las tareas ARF incluyen la previsión del precio de las acciones, la previsión meteorológica, la previsión del flujo de tráfico, etc. 

Investigación relacionada y aplicación de tareas ARF. La tarea ARF se puede aprender sin la supervisión del modelo de codificador automático, lo que da como resultado una mejor representación de la serie temporal. Además, la tarea ARF también se puede combinar con otras tareas, como detección de anomalías, clasificación y agrupamiento, etc.

1.2 Reconstrucción basada en autoencoder

Un autocodificador es una red neuronal artificial de aprendizaje no supervisado que consta de dos partes: un codificador y un decodificador [56]. El codificador mapea los datos de entrada X a una representación Z de baja dimensión, y luego el decodificador mapea la representación Z de baja dimensión nuevamente al espacio de datos original para obtener los datos reconstruidos ˜X. La salida del decodificador se define como la entrada reconstruida ˜X. El proceso se puede expresar como:

imagen

El objetivo de un codificador automático es minimizar el error de reconstrucción, que es la diferencia entre los datos de entrada y los datos reconstruidos. En la aplicación de datos de series temporales, el codificador automático se puede utilizar para reconstruir y representar el aprendizaje de datos de series temporales, a fin de mejorar la capacidad de expresión y el rendimiento de predicción de los datos de series temporales.

Una variante del modelo de codificador automático. Por ejemplo, codificadores automáticos de eliminación de ruido, codificadores automáticos de análisis espectral, modelos de aprendizaje de representación amigables con el agrupamiento temporal, etc. Estos modelos variantes pueden mejorar el rendimiento y la aplicabilidad de los modelos de codificador automático al introducir restricciones adicionales y funciones de pérdida. Por ejemplo, un codificador automático de eliminación de ruido puede mejorar la solidez y la generalización del modelo al agregar ruido a los datos de entrada; un codificador automático de análisis espectral puede mejorar la capacidad de representación del modelo en el dominio de la frecuencia al introducir restricciones espectrales en la función de pérdida; Agrupamiento de series temporales Los modelos de aprendizaje de representación amigables pueden mejorar el rendimiento de agrupación del modelo mediante la introducción de restricciones de agrupación en la función de pérdida.

Escenarios de aplicación de modelos de autoencoder en datos de series temporales. Tales como procesamiento de señales, procesamiento de imágenes, reconocimiento de voz, procesamiento de lenguaje natural, etc. Los modelos de codificador automático han logrado cierto éxito en estos dominios y aún son una gran promesa para futuras investigaciones.

1.3 Generación de modelos basados ​​en difusión

El modelo de difusión es un modelo generativo basado en la probabilidad , y su idea central es realizar la generación de muestras a través de dos procesos inversos . Específicamente, el modelo de difusión contiene dos procesos : un proceso directo y un proceso inverso. El proceso directo consiste en inyectar ruido aleatorio en los datos, luego completar la transición paso a paso y finalmente obtener un estado. El proceso de inversión es para generar muestras a partir de la distribución del ruido, lo que se logra mediante el uso de la operación de transición de estado inversa. Los núcleos retrotransferidos son clave para el proceso de reversión, pero a menudo son difíciles de identificar. Por lo tanto, el modelo de difusión aprende a aproximarse al kernel de transferencia inversa a través de una red neuronal profunda para generar muestras de manera eficiente.

Actualmente, existen principalmente tres formas básicas de modelos de difusión: modelos de probabilidad de difusión sin ruido (DDPM ), modelos de difusión emparejados fraccionalmente y modelos de ecuaciones diferenciales estocásticas fraccionarias (SDE). El modelo DDPM se aproxima al kernel de retrotransferencia mediante la eliminación de ruido , el modelo de difusión de coincidencia fraccionaria se aproxima al kernel de backtransfer al hacer coincidir gradientes, y el modelo SDE se aproxima al kernel de backtransfer mediante ecuaciones diferenciales estocásticas. Todos estos modelos están diseñados para resolver el problema de los núcleos de transferencia inversa, lo que permite una generación de muestras eficiente.

Los modelos de difusión han logrado un gran éxito en áreas como la síntesis de imágenes, la generación de video, la generación de voz, la bioinformática y el procesamiento del lenguaje natural. Es un poderoso modelo generativo que se puede utilizar para la generación y el modelado de datos en varios campos. Las ventajas del modelo de difusión incluyen: buen efecto de generación, velocidad de generación rápida, gran escalabilidad y buena interpretabilidad. Por lo tanto, el modelo de difusión ha atraído mucha atención en el campo del aprendizaje profundo y se ha convertido en un importante modelo generativo.

2 métodos basados ​​en contraste

El aprendizaje contrastivo es una estrategia de aprendizaje autosupervisado que ha demostrado poderosas capacidades de aprendizaje en la visión artificial y el procesamiento del lenguaje natural. A diferencia de otros modelos, los métodos de aprendizaje contrastivos aprenden representaciones de datos comparando muestras positivas y negativas, donde las muestras positivas deben ser similares y las muestras negativas deben ser diferentes. Por lo tanto, la selección de muestras positivas y negativas es muy importante para los métodos de aprendizaje contrastivos. La figura 4 demuestra las cinco categorías de aprendizaje autosupervisado basado en contrastes de series temporales.

imagen

Figura 4: Cinco categorías de aprendizaje autosupervisado basado en contrastes de series temporales

2.1 Método de comparación de muestras

El método de comparación de muestras divide la serie temporal en múltiples subsecuencias de longitud fija y luego selecciona aleatoriamente dos puntos de muestreo diferentes de cada subsecuencia como muestras positivas y selecciona aleatoriamente un punto de muestreo de otras subsecuencias como muestras negativas. Al comparar muestras positivas y negativas, los métodos de comparación de muestras pueden aprender la representación de series temporales. El método sigue la suposición ampliamente utilizada en el análisis de series de tiempo de que las ventanas de tiempo adyacentes o las marcas de tiempo tienen un alto grado de similitud. Entonces, las muestras positivas y negativas se muestrean directamente de la serie temporal original.

El método de muestreo por contraste sigue los supuestos más utilizados en el análisis de series temporales. Tiene un principio simple y puede modelar bien las correlaciones locales, y para algunos conjuntos de datos de series temporales, los métodos de contraste de muestreo pueden lograr un buen rendimiento. Sin embargo, su desventaja es que se pueden introducir pares negativos espurios al analizar dependencias a largo plazo, lo que lleva a representaciones subóptimas. Por lo tanto, los métodos de contraste de muestreo pueden no ser óptimos cuando se trata de dependencias a largo plazo. Además, los métodos de contraste de muestreo requieren la selección de una longitud de subsecuencia y un número de puntos de muestreo apropiados, lo que puede requerir cierta experiencia y ajustes.

2.2 Método de predicción y comparación

El método de contraste predictivo se utiliza para aprender representaciones de series de tiempo. El método aprende representaciones significativas e informativas al predecir información futura en una serie de tiempo. Específicamente, el método divide la serie de tiempo en varias subsecuencias de longitud fija y luego toma el último paso de tiempo de cada subsecuencia como objetivo y los pasos de tiempo restantes como contexto. Luego, el modelo se entrena para predecir el valor en el paso de tiempo objetivo mientras usa los pasos de tiempo objetivo de otras subsecuencias como muestras negativas. Al comparar muestras positivas y negativas, los métodos de comparación predictiva pueden aprender la representación de series temporales.

La ventaja del enfoque de contraste predictivo es que puede aprender representaciones significativas e informativas en series de tiempo que capturan características y patrones importantes en los datos. Este método presta más atención a las tendencias que cambian lentamente en los datos de series temporales y puede extraer características lentas. Además, la implementación del método de comparación predictiva es muy simple, fácil de entender e implementar. Sin embargo, la desventaja del enfoque contrastivo de pronóstico es que se enfoca principalmente en la información local y es posible que no pueda modelar con precisión las dependencias a largo plazo en los datos de series de tiempo. Además, el método es sensible al ruido y los valores atípicos, lo que puede afectar la capacidad de representación y el rendimiento de generalización del modelo. Por lo tanto, el método de contraste de pronóstico puede no ser la mejor opción cuando se trata de datos de series de tiempo con dependencias complejas a largo plazo.

2.3 Método de contraste mejorado

El método contrastivo aumentado es un marco de aprendizaje contrastivo de uso común, que genera diferentes vistas de muestras de entrada a través de técnicas de aumento de datos y luego aprende representaciones maximizando la similitud de las vistas de la misma muestra y minimizando la similitud de las vistas de diferentes muestras. . Específicamente, el método divide cada muestra de entrada en dos vistas y luego usa una red neuronal para aprender a mapear estas dos vistas en el mismo espacio de representación. Luego, la red se entrena maximizando la similitud de vistas de la misma muestra y minimizando la similitud de vistas de diferentes muestras. Esto se puede lograr usando una función de pérdida contrastiva, donde para cada muestra la red aprende a distinguirla de otras muestras.

La ventaja del método de contraste mejorado es que es fácil de implementar y comprender, y es aplicable a varios tipos de tareas de modelado de series temporales. Además, este método puede aumentar la diversidad de datos mediante el uso de varias técnicas de aumento de datos, mejorando así el rendimiento de generalización del modelo. Sin embargo, la desventaja de este método es que es un desafío lidiar con las dependencias temporales, ya que la esencia de la mejora del contraste radica en distinguir las representaciones de características de pares de muestras positivas y negativas, en lugar de capturar explícitamente las dependencias temporales. Elegir un método de aumento apropiado para datos de series temporales también es un problema desafiante. Además, el sesgo de muestreo es otra preocupación, ya que puede dar lugar a la generación de muestras negativas falsas, lo que afectaría al rendimiento del modelo.

2.4 Método de comparación de prototipos

El enfoque contrastivo prototípico es un marco de aprendizaje contrastivo restringido por conglomerados que aprende representaciones de datos de series temporales comparando muestras con centros de conglomerados. Este método puede reducir la cantidad de cómputo y alentar a las muestras a presentar una distribución de clúster amigable en el espacio de características. Específicamente, el método de contraste de prototipos divide las muestras en diferentes grupos, toma los centros de los grupos como prototipos y luego compara las muestras con los prototipos para aprender la representación de datos de series temporales. Este enfoque se puede lograr mediante el uso de una función de pérdida contrastiva, donde para cada muestra la red aprende a distinguirla de otras muestras.

Los métodos de comparación de prototipos introducen el concepto de prototipos para que las muestras puedan asignarse a un número limitado de categorías. Este método explota la información semántica de alto nivel y anima a las muestras a presentar una distribución de grupos en el espacio de características en lugar de una distribución uniforme, que está más en línea con la distribución de datos reales. Sin embargo, el principal problema con este método es que la cantidad de prototipos debe determinarse de antemano, lo que aún requiere cierta información previa.

2.5 Método de comparación de conocimiento experto

El método de contraste de conocimiento experto es un marco de aprendizaje de representación relativamente nuevo, que puede introducir conocimiento previo en el marco de aprendizaje contrastivo para ayudar al modelo a elegir las muestras positivas y negativas correctas. Por ejemplo, durante el entrenamiento, se pueden seleccionar una muestra ancla y una muestra positiva, y algunas muestras negativas. Luego, la red aprenderá a identificar las muestras ancla como similares a las muestras positivas ya distinguir las muestras ancla de las muestras negativas. Esto se puede lograr usando una función de pérdida contrastiva, donde para cada muestra, la red aprende a distinguirla de otras muestras y asignarla a las muestras positivas y negativas correctas.

La característica del método de comparación de conocimiento experto es que el conocimiento previo o la información de los expertos del dominio se pueden introducir en la red neuronal profunda para guiar la selección de muestras positivas y negativas o la medición de la similitud. Su principal ventaja radica en la capacidad de seleccionar con precisión muestras positivas y negativas. Sin embargo, está limitada por la necesidad de proporcionar un conocimiento previo fiable. En la mayoría de los casos, no es fácil obtener un conocimiento previo fiable de los datos de series temporales. El conocimiento incorrecto o engañoso puede dar lugar a representaciones sesgadas.

3 Enfoques basados ​​en adversarios

Los métodos basados ​​en adversarios explotan las redes generativas de adversarios (GAN) para construir tareas de pretexto. GAN consta de un generador G y un discriminador D. El generador G se encarga de generar datos sintéticos similares a los datos reales, mientras que el discriminador D se encarga de determinar si los datos generados son reales o sintéticos. Por tanto, el objetivo del generador es maximizar la tasa de fallos de decisión del discriminador, mientras que el objetivo del discriminador es minimizar su tasa de fallos. El generador G y el discriminador D están en una relación de juego mutuo, por lo que el objetivo de aprendizaje es optimizar el rendimiento del generador y el discriminador minimizando la función de pérdida L.

imagen

De acuerdo con la tarea final, los métodos de aprendizaje de representación basados ​​en adversarios existentes se pueden dividir en generación e imputación de series temporales y aumento de representación auxiliar . La figura 5 muestra un diagrama esquemático del aprendizaje autosupervisado contradictorio de series temporales.

imagen

Figura 5: Tres categorías de aprendizaje autosupervisado contradictorio de series temporales

3.1 Generación e imputación de series temporales

En términos de generación de series de tiempo, el uso de Transformer en lugar de RNN puede manejar mejor las dependencias a largo plazo y mejorar la eficiencia. Li y otros propusieron Context-FID, una nueva métrica para evaluar la calidad de las secuencias generadas. Li y otros también exploraron la generación de datos de series temporales con relaciones espaciotemporales irregulares y propusieron TTS-GAN, que usa Transformer en lugar de RNN para construir discriminadores y generadores, y trata los datos de series temporales como datos de imagen de altura 1. 

en la imputación de series de tiempo. Luo y otros tratan la imputación de valores faltantes como una tarea de generación de datos y usan GAN para conocer la distribución del conjunto de datos de entrenamiento. Para captar mejor las características dinámicas de las series temporales, propusieron el módulo GRUI. Además, se introduce el aumento de representación auxiliar, que puede mejorar la solidez y la capacidad de generalización del modelo.

La ventaja de los métodos contradictorios es que se pueden generar muestras de series temporales de alta calidad y se pueden realizar tareas de imputación o generación de acuerdo con la estacionalidad y la tendencia de los diferentes datos de series temporales, mejorando así la coherencia y la racionalidad de los resultados. Además, en el campo de la generación de imágenes se han aplicado muchos métodos eficientes basados ​​en la confrontación, que pueden transferirse y aplicarse a tareas de generación o imputación de datos de series temporales. La desventaja es que el proceso de entrenamiento de GAN es relativamente complejo y requiere un compromiso entre el generador y el discriminador, lo que puede requerir más tiempo de entrenamiento y recursos informáticos, y puede conducir a un entrenamiento inestable.

3.2 Mejora de la representación auxiliar

Además de las tareas de generación e imputación, las estrategias de aprendizaje de representación basadas en adversarios también se pueden agregar a los marcos de aprendizaje existentes como un módulo de aprendizaje auxiliar adicional, al que nos referimos como aumento de representación auxiliar basado en adversarios. El aumento de la representación auxiliar tiene como objetivo facilitar que el modelo aprenda más representaciones informativas para las tareas posteriores al agregar una estrategia de aprendizaje basada en la confrontación. Normalmente se define como:

imagen

donde Lbase es el objetivo de aprendizaje base y Ladv es el objetivo de aprendizaje adicional basado en confrontación. Cabe señalar que cuando Ladv no está disponible, el modelo aún puede extraer representaciones de los datos, por lo que Ladv se considera como un objetivo de aprendizaje auxiliar.

USAD [63] es un marco de detección de anomalías de series temporales que incluye dos modelos BAE, que se definen como AE1 y AE2. La idea central detrás de USAD es amplificar el error de reconstrucción mediante el entrenamiento antagónico entre dos BAE. En USAD, AE1 se considera como generador y AE2 como discriminador. El objetivo auxiliar es utilizar AE2 para distinguir los datos reales de los datos reconstruidos AE1 y entrenar a AE1 para engañar a AE2. Todo el proceso se puede expresar como:

imagen

donde W es la secuencia de entrada real. Al igual que USAD, Anoma lyTrans [155] también utiliza una estrategia contradictoria para amplificar la puntuación de anomalía de una anomalía. Pero a diferencia de (30) que usa el error de reconstrucción, AnomalyTrans define la asociación anterior y la asociación de la serie, y luego usa la divergencia de Kulback-Leibler para medir el error de las dos asociaciones.

DUBCN [156] y CRLI [157] se utilizan para tareas de recuperación de secuencias y agrupación, respectivamente. Ambos métodos adoptan BAE basado en RNN como modelo y agregan pérdida basada en clúster y pérdida basada en confrontación a la pérdida de reconstrucción básica, a saber:

imagen

Entre ellos, λ1 y λ2 son los coeficientes de peso del objetivo auxiliar.

Los métodos basados ​​en adversarios también son efectivos en otras tareas de modelado de series temporales. Por ejemplo, la introducción de entrenamiento contradictorio en el pronóstico de series de tiempo puede mejorar la precisión y capturar patrones recurrentes a largo plazo, como AST [158] y ACT [159]. BeatGAN [160] introduce el aprendizaje de representación antagónica en la tarea de detección de latidos cardíacos anormales a partir de datos de ECG y proporciona un marco de detección interpretable. En el modelado de datos de comportamiento, Activity2vec [161] utiliza entrenamiento basado en adversarios para modelar la invariancia del objetivo y mejorar la capacidad de representación del modelo en diferentes etapas de comportamiento.

Los métodos adversarios pueden ayudar al modelo a aprender representaciones más sólidas, mejorando así la capacidad de generalización del modelo. Al introducir señales contradictorias, el modelo puede ajustarse mejor a los datos de entrenamiento y resistir perturbaciones o ataques. Sin embargo, la introducción de un método contradictorio como término de regularización en la función de pérdida aumenta la complejidad del proceso de entrenamiento. La competencia entre el entrenamiento del generador y el discriminador debe equilibrarse cuidadosamente, lo que puede requerir más tiempo de entrenamiento y recursos informáticos. Esto puede incluso conducir a un entrenamiento inestable.

4 Aplicaciones y conjuntos de datos

El aprendizaje autosupervisado (SSL) tiene amplias aplicaciones en diversas tareas de series temporales, como la detección de anomalías, la previsión, la clasificación y la agrupación.

Tabla 2: Resumen de aplicaciones de series temporales y conjuntos de datos ampliamente utilizados

imagen

detección anormal. La tarea principal de la detección de anomalías de series de tiempo es identificar puntos de tiempo anormales o series de tiempo anormales en función de normas dadas o señales comunes. Dado que es un desafío obtener etiquetas para datos anómalos, la mayoría de los métodos de detección de anomalías de series temporales emplean marcos de aprendizaje no supervisados. Entre las muchas estrategias de modelado, la predicción basada en autorregresión y la reconstrucción basada en codificador automático son los métodos más utilizados.

predecir _ El pronóstico de series de tiempo es una técnica estadística y de modelado utilizada para realizar análisis en datos de series de tiempo para predecir valores para ventanas de tiempo futuras o puntos en el tiempo. La tarea de pronóstico autorregresivo también es una tarea de pronóstico de series de tiempo.

clasificación y agrupamiento. El objetivo de la tarea de clasificación y agrupación es identificar la verdadera clase a la que pertenece una muestra de serie temporal particular. Dado que el núcleo del método de aprendizaje autosupervisado basado en contrastes es identificar muestras positivas y negativas, es la mejor opción para estas dos tareas.

En resumen, los métodos basados ​​en generación son más adecuados para tareas de detección y predicción de anomalías, mientras que los métodos basados ​​en contraste son más adecuados para tareas de clasificación y agrupación. Los métodos basados ​​en adversarios pueden ser útiles en varias tareas, pero en la mayoría de los casos, se utilizan como un término de regularización adicional para garantizar que las características extraídas por el modelo sean más sólidas e informativas. Por lo general, una combinación de múltiples métodos autosupervisados ​​es una mejor opción.

Supongo que te gusta

Origin blog.csdn.net/sinat_37574187/article/details/132296627
Recomendado
Clasificación