[Serie temporal] Red de descomposición wavelet multinivel interpretable para el análisis de series temporales

 1. Información del artículo

El artículo que leí esta semana es un artículo titulado "Red de descomposición de ondículas multinivel para el análisis de series de tiempo interpretables" publicado en "Actas de la 24.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos" en 2018

 2. Resumen

En los últimos años, las aplicaciones de series temporales han experimentado un aumento sin precedentes en casi todos los campos académicos e industriales. Se han introducido varios tipos de modelos de redes neuronales profundas en el análisis de series temporales, pero todavía falta un modelado eficaz de información de frecuencia importante. En base a esto, el artículo propone una estructura de red neuronal basada en ondículas llamada red de descomposición de ondículas multinivel (mWDN), que se utiliza para establecer un modelo de aprendizaje profundo consciente de la frecuencia para el análisis de series temporales. El modelo mWDN conserva las ventajas de la descomposición de ondículas discretas multinivel en el aprendizaje continuo, mientras que todos los parámetros se pueden ajustar en el marco de la red neuronal profunda. Sobre la base de mWDN, se proponen además dos modelos de aprendizaje profundo para la clasificación y predicción de series temporales: clasificación residual (Flujo de clasificación residual, RCF) y memoria a corto plazo a largo plazo multifrecuencia (Memoria a corto plazo a largo plazo multifrecuencia, mLSTM) . Estos dos modelos toman todas o parte de las subsecuencias descompuestas por mWDN en diferentes frecuencias como entrada y aprenden todos los parámetros globalmente a través del algoritmo de retropropagación, de modo que el análisis de frecuencia basado en wavelet se puede integrar sin problemas en el marco de aprendizaje profundo. Extensos experimentos en 40 conjuntos de datos UCR y conjuntos de datos de volumen de usuarios reales muestran que el modelo de serie temporal basado en mWDN tiene un buen rendimiento. En particular, el artículo propone un método de análisis de importancia basado en el modelo mWDN, que identifica con éxito elementos de series temporales y capas de mWDN que son fundamentales para el análisis de series temporales. En realidad, esto ilustra la ventaja de interpretabilidad de mWDN, que puede verse como una exploración en profundidad del aprendizaje profundo interpretable.

 3. Introducción

En los últimos años, con el rápido desarrollo del campo del aprendizaje profundo, diferentes tipos de modelos de redes neuronales profundas se han aplicado al procesamiento y análisis de series temporales y han logrado resultados satisfactorios en la vida real, como las redes neuronales recurrentes (RNN), que utilizan nodos de memoria para capturar la correlación de los nodos de secuencia, pero la mayoría de estos modelos no aprovechan la información de frecuencia de la serie temporal.

La descomposición de ondículas es un método común para caracterizar las características de las series temporales en el dominio del tiempo y el dominio de la frecuencia. En resumen, se puede usar como una herramienta de extracción de características para el preprocesamiento de datos antes del modelado profundo del modelo. Si bien este enfoque débilmente acoplado puede mejorar el rendimiento predictivo del modelo de red neuronal original, no emplea un proceso de inferencia paramétrica independiente para la optimización global. Cómo integrar la descomposición wavelet en modelos de aprendizaje profundo sigue siendo un desafío.

Este artículo propone un modelo de red neuronal basado en la descomposición de ondículas, denominado red de descomposición de ondículas multinivel (mWDN), que construye un modelo de aprendizaje profundo consciente de la frecuencia para el análisis de series temporales. Similar al modelo estándar de descomposición de ondículas discretas multinivel (MDWD), el modelo mWDN puede descomponer una serie temporal en un conjunto de subsecuencias con frecuencias que van de mayor a menor, que es la clave para que el modelo obtenga factores de frecuencia. Pero a diferencia del modelo MDWD con parámetros fijos, todos los parámetros en mWDN se pueden aprender para adaptarse a los datos de entrenamiento de diferentes tareas de aprendizaje. Es decir, el modelo mWDN no solo puede analizar series temporales mediante el uso de la descomposición wavelet, sino que también puede utilizar la capacidad de aprendizaje de la red neuronal profunda para aprender parámetros.

Basado en mWDN, el artículo diseña dos modelos de aprendizaje profundo para la clasificación de series temporales (TSC) y la previsión de series temporales (TSF), a saber, el flujo de clasificación residual (RCF) y la memoria a largo plazo a corto plazo (mLSTM) de múltiples frecuencias. La cuestión clave de TSC es extraer características representativas de los datos de series temporales tanto como sea posible. Por lo tanto, el modelo RCF utiliza los resultados de descomposición de diferentes niveles de mWDN como entrada y adopta el método de aprendizaje residual y la pila de clasificadores para extraer las características ocultas. en la subsecuencia. . En cuanto al problema TSF, la clave está en inferir el estado futuro de los datos de series temporales de acuerdo con las tendencias ocultas en diferentes frecuencias. Por lo tanto, el modelo mLSTM coloca todos los datos de subsecuencias de alta frecuencia descompuestos por mWDN en modelos LSTM independientes e integra los resultados de todos los modelos LSTM para la predicción final. Vale la pena señalar que todos los parámetros de los modelos RCF y mLSTM, incluidos los de mWDN, se entrenan mediante un algoritmo de retropropagación de extremo a extremo. De esta forma, el análisis de frecuencia basado en ondículas se puede integrar sin problemas en modelos de aprendizaje profundo.

 4. Modelo

1. Descomposición de wavelet discreta multinivel

La descomposición de wavelet discreta multinivel (como se muestra en la Figura 1) es un método de análisis de señal discreta basado en la transformada de wavelet.Este método divide la serie de tiempo en subsecuencias de baja y alta frecuencia paso a paso mediante la descomposición de la serie de tiempo, extrayendo así múltiples series temporales de nivel - Características de frecuencia.

Tomando la serie de tiempo e250df572e0fa46f4648d3918a28789f.pngcomo ejemplo, las subsecuencias de baja y alta frecuencia de la i-ésima capa descompuesta se denotan por cf1a9eb607053ccb89b4428550b57e4b.pngy respectivamente 7c00960357dd7bafb360af28df6d75b9.png. En la capa i+1, MDWD utiliza un filtro de baja frecuencia y un filtro de alta frecuencia para realizar una operación de convolución en la subsecuencia de baja frecuencia de la capa anterior, como sigue:

1a8c831080ceb35306b7ae035a55a1b2.png

donde, 035a1033ee6cdb65858b7156df2d068a.pngrepresenta el n-ésimo elemento de la subsecuencia de baja frecuencia en la i-ésima capa, y 038e13549408dd0492bd1691e855e27c.pngse establece como la secuencia de entrada. d6f8ffeedff4bca21f3f92a72173bfc7.pngLas sumas de subsecuencias de baja y alta frecuencia de la i-ésima capa se obtienen reduciendo la muestra b827db4da03bb3f17c2fc03321f9f78b.pngde las sumas de secuencias variables intermedias f41bf8a35c0f93a8f4efea206b4c7d04.pnga a848c2abd0c260a82aaca034e8af606e.pngla mitad.

La subsecuencia 59782f9405971813c52bdd7ecaf0cc0b.pngse denomina resultado de la descomposición del i-ésimo nivel de los datos de la serie temporal X. En particular, la secuencia satisface: 1) la secuencia original X puede reconstruirse completamente a partir de subsecuencias; 2) las secuencias en diferentes niveles tienen diferentes resoluciones de tiempo y frecuencia. A medida que aumenta el número de capas, la resolución de frecuencia continúa aumentando, mientras que la resolución de tiempo, especialmente para las subsecuencias de baja frecuencia, continúa disminuyendo.

5385ee15707f988060af3ba2f01e2bef.png

Figura 1 marco del modelo mWDN

2. Red de descomposición de ondículas multinivel

La figura 1 es el diagrama de marco del modelo mWDN. Como se muestra en la imagen, el modelo mWDN descompone los datos de series temporales jerárquicamente de acuerdo con las dos fórmulas siguientes:

7eb9501f104cce4a723c336c977a95b6.png

Representa la función de activación sigmoidea 6848c34fc18dcf1a3daac9017d163653.pngy 91ffd266a3f2dc10524b7e6ea3e789fe.pnges la matriz de sesgo entrenable, que inicialmente es un valor aleatorio cercano a cero. Se puede ver que la ecuación en la Ecuación (2) es muy similar a la ecuación en la Ecuación (1). d11d629730e76b2119399ee80e0dbe50.pngy 388f4d3054ac2b4c3dfc0303300ecedc.pngdenotan respectivamente las subsecuencias de baja y alta frecuencia generadas por la descomposición de la serie temporal X en el nivel i, que se obtienen por variables intermedias 65e1b233ce66bedb4b0870233a0d681d.pngy submuestreo b63677a903c41bbecc4287030e074af7.pngpor agrupación de promedios . 93d8758a5907e464d8b9ab7904a673ca.pngPara realizar la operación de convolución de la fórmula (1), establecemos la suma de la matriz de peso inicializada de la siguiente manera:

4419e7c67c2d700cf8caf6e7e628a5eb.png

Obviamente, bdfe4c1cdcbe0c388bffa4e9651232fa.pngy 8b386758c3a20e9ff8eca92b30cde959.png, donde P es 31f509fc7c8bd3dc39536f736f7e6e1c.pngel tamaño de . En la matriz de pesos se encuentran valores aleatorios c0e27a4cba2a8a9f544532cf0e9e0fd7.pngque satisfacen la suma. 579847016e54899eb675b5d0f7853b93.pngEl artículo utiliza los coeficientes wavelet 4 de Daubechies en el modelo, y sus coeficientes de filtro son los siguientes:

bbf92f3dd781e2ce031aabd85e37437f.png

De la fórmula (2) a la fórmula (3), el artículo utiliza el marco de la red neuronal profunda para realizar el modelo MDWD aproximado. Vale la pena señalar que, aunque la matriz de peso se inicializa como los coeficientes de filtro del modelo MDWD, la matriz aún se puede entrenar en la perturbación de datos reales.

3. Flujo de Clasificación Residual

La tarea de TRC es principalmente predecir y clasificar series temporales de etiquetas de clase desconocidas. La clave es extraer características distintas de los datos de series temporales. La característica natural de tiempo-frecuencia X obtenida de la descomposición del modelo mWDN se puede aplicar a TSC. En esta parte, el artículo propone la red Residual Classification Flow (RCF) para explotar la aplicación potencial de mWDN en la tarea TSC.

0cfe94b5e8a9da54ab19236992a15317.png

Figura 2 Marco del modelo RCF

El marco del modelo RCF se muestra en la Figura 2, que contiene muchos clasificadores independientes. 4aec9681a273fa1f61e970dbbd85f38f.pngEl modelo RCF conecta las subsecuencias generadas por la i-ésima capa mWDN a través de la red neuronal directa 9e78f4cac1175853aac2c29e66f751dd.png:

e4b677326e2dc368121670e20f22cf54.png

Puede representarse como un perceptrón multicapa, una red neuronal convolucional u otros tipos de redes neuronales y representar parámetros entrenables. Además, el modelo RCF utiliza una estructura de red residual que estará conectada a todos los clasificadores:

ddbeab016bd659302f3fd28f621089d6.png

Representa un clasificador softmax que representa los predictores codificados one-hot de las etiquetas de clase de la serie temporal. 429631494014fe2cdd5445ece5fc5822.pngEl modelo RCF evoluciona los resultados de descomposición de mWDN en cada nivel . Debido a que los resultados de la descomposición en diferentes niveles de mWDN tienen diferentes resoluciones de tiempo y frecuencia, el modelo RCF puede capturar completamente los patrones de las series de tiempo de entrada con diferentes resoluciones de tiempo y frecuencia. En otras palabras, RCF adopta un método de aprendizaje de múltiples vistas para lograr una clasificación de series temporales de alto rendimiento. Además, se proponen redes residuales profundas para resolver el problema que puede causar dificultades de entrenamiento cuando se utilizan estructuras de red más profundas. RCF también hereda esta ventaja. En la Ecuación (6), el clasificador del nivel i toma una decisión basada en la decisión del clasificador del nivel i-1. Por lo tanto, los usuarios pueden agregar clasificadores residuales hasta que el rendimiento de clasificación del modelo ya no mejore.

4. Memoria a corto plazo de frecuencia múltiple

El artículo propone una red neuronal de memoria de largo a corto plazo basada en mWDN multifrecuencia para resolver el problema TSF. El diseño del modelo mLSTM se basa en el reconocimiento de que la correlación temporal de los nodos ocultos en una serie temporal está estrechamente relacionada con la frecuencia. Por ejemplo, las dependencias temporales a gran escala, como las tendencias a largo plazo, suelen ser de baja frecuencia, mientras que las dependencias temporales de pequeña escala, como las perturbaciones y los eventos a corto plazo, suelen ser de alta frecuencia. Por lo tanto, el artículo divide el complejo problema TSF en muchos subproblemas para predecir la subsecuencia descompuesta por mWDN, lo que hará que el problema sea relativamente más simple porque la composición de frecuencia de la subsecuencia es más simplificada. Dada una serie de tiempo de longitud infinita, se da una ventana deslizante de tamaño T desde el pasado hasta el tiempo t en la serie de la siguiente manera:

d7c69f835412031d2c552b93a4db5d6b.png

Use mWDN para descomponer X para obtener datos de secuencia de baja y alta frecuencia en el nivel i de la siguiente manera:

d0e55e2efb0037ad8aebe7dd1b59ee66.png

Como se muestra en la Figura 3, el modelo mLSTM utiliza los resultados de descomposición de la última capa como entrada para N+1 subredes LSTM independientes. Cada red sub-LSTM predice el estado futuro de cada subsecuencia en la red. Finalmente, los valores de predicción de cada red sub-LSTM se fusionan a través de una red neuronal completamente conectada para obtener el resultado de predicción final.

488cea9c63ea11cb8ef5394a639577db.png

Figura 3 Marco mLSTM

 5. Estudios de casos

En esta parte, el documento evalúa el rendimiento del modelo basado en mWDN para resolver problemas de TSC y TSF.

1. Tarea 1: Clasificación de series temporales

Configuración experimental : En 40 conjuntos de datos de la biblioteca de series temporales de la UCR, se probó el rendimiento de clasificación de diferentes modelos.Los modelos principales son los siguientes:

  • RNN y LSTM: la red neuronal recurrente y la red neuronal de memoria a corto plazo son dos modelos clásicos de redes neuronales profundas, que se utilizan ampliamente en el análisis de series temporales.

  • MLP, FCN y ResNet: estos tres modelos se proponen como líneas de base sólidas para la biblioteca de series temporales de UCR. Tienen el mismo marco: una capa de entrada, seguida de tres bloques de polarización ocultos y, finalmente, una función de activación de softmax como capa de salida. MLP usa una capa completamente conectada como su bloque de polarización, mientras que FCN y ResNet usan una capa convolucional y una red convolucional residual como su bloque de polarización, respectivamente.

  • MLP-RCF, FCN-RCF y ResNet-RCF: Estos tres modelos utilizan el bloque de polarización de MLP/FCN/ResNet como fórmula (5) en el modelo RCF. Comparamos el efecto de clasificación del modelo RCF y MLP/FCN/ResNet para verificar la efectividad de RCF.

  • Wavelet-RCF: este modelo tiene los mismos resultados que el modelo ResNet-RCF, pero utiliza mWDN para reemplazar parcialmente el MDWD estándar con parámetros fijos. Lo comparamos con el modelo ResNet-RCF para verificar la efectividad de los parámetros entrenables en mWDM.

Para cada conjunto de datos, ejecutamos cada modelo diez veces y devolvimos el error de clasificación promedio como la métrica de evaluación. Para comparar el rendimiento del rendimiento en todos los conjuntos de datos, el artículo propone además el error medio por clase (MPCE) como índice de evaluación de cada modelo. Sea el número de categorías del k-ésimo conjunto de datos y represente la tasa de error de cada modelo en este conjunto de datos, entonces el cálculo de MPCE de cada modelo es el siguiente:

de467f56ea160d3aa4e4315bff3a0c1e.png

Tenga en cuenta que el factor del número de categorías se borra en MPCE. Cuanto menor sea el valor de MPCE, mejor será el rendimiento general.

Resultados y análisis : la tabla 1 presenta los resultados experimentales y la información resumida se enumera en las siguientes dos líneas. Tenga en cuenta que el mejor rendimiento en cada conjunto de datos está en negrita y el segundo mejor en cursiva. Entre todas las líneas de base, FCN-RCF logra el mejor rendimiento, tiene el valor MACE más bajo y logra el mejor rendimiento en 19 de los 40 conjuntos de datos. El FCN también ha logrado un desempeño relativamente satisfactorio. Tiene el mejor desempeño en los 9 conjuntos de datos y tiene un MPCE relativamente pequeño: 0.023, pero la brecha con el FCM-RCF aún es relativamente grande. También se puede ver en la Tabla 1 que MLP-RCF funciona mejor que MLP en 37 conjuntos de datos, y ResNet-RCF funciona mejor que ResNet en 27 conjuntos de datos. Esto muestra que el marco RCF es, de hecho, un marco general compatible con diferentes tipos de clasificadores de aprendizaje profundo, lo que puede mejorar significativamente el rendimiento de clasificación de las tareas de TSC.

Además, la Tabla 1 muestra que Wavelet-RCF ha logrado el segundo mejor desempeño en las clasificaciones de MPCE y AVG, lo que demuestra que la información de frecuencia obtenida por la descomposición de wavelet es muy útil para los problemas de series de tiempo. Además, se puede ver claramente en la tabla que el modelo ResNet-RCF supera a Wavelet-RCF en la mayoría de los conjuntos de datos, lo que demuestra contundentemente que nuestro marco RCF adopta mWDN entrenable con parámetros bajo aprendizaje profundo en lugar de usar directamente las ventajas de la descomposición wavelet tradicional como un herramienta de extracción de características. Más técnicamente hablando, en comparación con Wavelet-RCF, el modelo ResNet-RCF basado en mWND puede lograr un mejor compromiso entre el dominio de frecuencia anterior y la posibilidad de entrenar datos. Esto también explica por qué el modelo basado en RCF puede lograr mejores resultados de predicción en observaciones experimentales anteriores.

表1 Comparación del rendimiento de la clasificación en 40 conjuntos de datos de series temporales UCR

3efe8a74c867ebf01b36b8f2a2b7bb00.png

2. Tarea Ⅱ: Pronóstico de series de tiempo

Configuración experimental : el artículo prueba la capacidad predictiva del modelo mLSTM para un escenario de pronóstico de tráfico. El experimento utiliza un conjunto de datos reales llamado WuxiCellPhone, que contiene los datos de la serie temporal del volumen de usuarios de 20 estaciones base de telefonía móvil ubicadas en el centro de Wuxi en dos semanas, y la granularidad temporal estadística de la serie temporal del volumen de usuarios es de 5 minutos. En este experimento, los siguientes modelos fueron seleccionados como líneas de base:

  • SAE (Codificadores automáticos apilados), se usa ampliamente en varias tareas de TSF;

  • RNN (Recurrent Neural Networks) y LSTM (Long Short-Term Memory), modelos especialmente propuestos para el análisis de series temporales;

  • wLSTM, que tiene la misma estructura que mLSTM, pero reemplaza la parte mWDM con la MDWD estándar.

Esta parte utiliza dos indicadores de uso común para evaluar el rendimiento del modelo, incluido el error porcentual absoluto medio (MAPE) y el error cuadrático medio (RMSE), que se definen de la siguiente manera:

bd7f87a3d004ba22d29ac3792b671e17.png

Resultados y análisis : Comparamos el desempeño de todos los modelos en dos escenarios TSF (ver el texto original para escenarios específicos). En el primer escenario, el artículo predice el promedio de usuarios de la estación base durante la subsecuencia, cuya duración varía de 5 a 30 minutos. La Figura 4 compara el desempeño promedio de 20 estaciones base durante un período de una semana. En la imagen se puede ver que, aunque los errores de predicción de todos los modelos disminuyen gradualmente a medida que aumenta el tiempo, mLSTM aún logra el mejor rendimiento. Específicamente, el modelo mLSTM es consistentemente mejor que el modelo wLSTM, verificando nuevamente la viabilidad de mWDN para el pronóstico de series de tiempo.

En el segundo escenario, el artículo predice el número promedio de usuarios en los próximos 5 minutos después de un intervalo de tiempo dado de 0 a 30 minutos. La Figura 5 compara el rendimiento predictivo de mLSTM y otras líneas de base. A diferencia de la tendencia observada en el Escenario 1, el error de pronóstico aumenta gradualmente a medida que aumenta la escala de tiempo. Al mismo tiempo, se puede ver en la Figura 5 que los resultados de rendimiento de mLSTM son una vez más mejores que otras líneas de base, lo que también prueba los resultados observados en el Escenario 1.

4fe3b029ccb860b11624af3bd2c26bf8.png

图4 Comparación del rendimiento de la predicción con diferentes períodos de duración (Escenario Ⅰ)

ffba53d2e6ae30492972af357e855824.png

图5 Comparación del rendimiento de la predicción con longitudes de intervalo variables (Escenario Ⅱ)

3. Investigación de la interpretabilidad

En este capítulo, el artículo se centra en la ventaja única del modelo mWDN: la interpretabilidad. Dado que la mWDN incorpora una descomposición de wavelet discreta, la suma de salida de la capa intermedia de mWDN 03b4ab0bc3886a1ac6a0c0cca7f00ec9.pnghereda el significado físico de la descomposición de wavelet. El artículo utiliza dos conjuntos de datos para explicar esto: WuxiCellPhone y ECGFiveDays. La Figura 6(a) muestra los datos de secuencia del número de usuarios de una estación base de telefonía celular en un día, y la Figura 6(b) muestra una muestra de electrocardiograma (ECG).

d9383bfd83711937a17e8f7e51df2eec.png

Figura 6 Muestra de datos de serie temporal

1. Motivación para el experimento

La Figura 7 muestra el resultado de la capa mWDN después de ingresar las muestras de series temporales de la Figura 6 en los modelos mLSTM y RCF, respectivamente. La Figura 7(a) describe la subsecuencia después de la descomposición wavelet de tres capas en mLSTM Como se muestra en la imagen, la 1cc257a1ab78e701f538828a7a2c871a.pngsalida 2413a9c4fb79702aee99a6f1db3596ad.pngde la capa intermedia corresponde a los componentes de frecuencia de la secuencia de entrada de mayor a menor. La misma situación también se puede ver en la Fig. 7 (b), que representan respectivamente la salida de las primeras tres capas del modelo RCF, lo que indica que la capa intermedia de mWDN hereda la descomposición de frecuencia en la descomposición wavelet.

52ae75e46dd15ed16acf6fe32bf5c97b.png

Figura 7 Subsecuencia generada por el modelo mWDN

2. Análisis de materialidad

El artículo presenta un método para el análisis de la importancia del modelo mWDN, cuyo objetivo es cuantificar la importancia de cada capa oculta en el resultado final del modelo mWDN. Definimos el problema de clasificación o pronóstico de series de tiempo utilizando redes neuronales de la siguiente manera:

841a13dfb017cfcd9ccc6f6dd1731df8.png

donde M representa la red neuronal, x representa los datos de la secuencia de entrada y p representa el valor predicho. Dado un modelo M entrenado, si una pequeña perturbación del i-ésimo elemento provoca un gran cambio en la salida p, entonces M es muy sensible a p. Por lo tanto, la sensibilidad de la red neuronal M al i-ésimo elemento de la secuencia de entrada se define como la 38f0f18b06068ed4a0c7d8b34a193800.pngderivada parcial del par de la siguiente manera:

6e43320740a5b428a0f40960fdfe13e0.png

Obviamente, representa la función de un modelo dado M sobre. Dado un conjunto de datos de entrenamiento de J muestras de entrenamiento 33a872c65257f8a80dc0c89d2da0e721.png, la importancia del i-ésimo elemento de la secuencia de entrada x para el modelo M se puede definir como:

70e1c3dc8d4b8003b96fc939c46bc018.png

donde es el valor del i-ésimo elemento en la j-ésima muestra de entrenamiento.

La fórmula de cálculo de la importancia anterior se puede extender a la capa oculta del modelo mWDN. Suponiendo que a es una salida de la capa oculta a del modelo mWDN, la red neuronal M se puede reescribir como:

e73064346e16c8758ec6224ecc72dc4f.png

Y la sensibilidad de a al modelo M se define como:

777cf43657aa66d99c6fdec0385f9d47.png

Dado un conjunto de datos de entrenamiento 7ba4f956b59d0210e8c53904e5328e68.png, la importancia de a para el modelo M se calcula de la siguiente manera:

a0ccf5df491298281ceee8c69359d721.png

y denotan la importancia de un elemento de serie temporal y una capa mWDN para el modelo, respectivamente.

3. Resultados experimentales

Las Figuras 8 y 9 muestran los resultados del análisis de importancia, respectivamente. En la Figura 8, el modelo mLSTM se prueba en WuxiCellPhone. La Figura 8(b) muestra el mapa de importancia de todos los elementos, donde el eje x representa la marca de tiempo y el color del mapa representa la importancia de las características: cuanto más rojo, más importante. Se puede ver en el gráfico que los elementos más nuevos son más importantes que los elementos antiguos, lo cual es muy razonable en el escenario de análisis de series temporales y también demuestra el valor temporal de la información.

La Figura 8(a) muestra los mapas de importancia de las capas ocultas dispuestas de arriba a abajo en orden creciente de frecuencia. Para facilitar la comparación, la longitud de la salida se unifica en el artículo. Del gráfico, se puede observar que las capas superiores de baja frecuencia tienen mayor importancia y solo las capas ocultas con mayor importancia exhiben valores temporales consistentes con la Fig. 8(b). Todo esto indica que la capa de baja frecuencia en mWDN es más importante para la predicción exitosa de series temporales. Esto no es difícil de entender, porque la información capturada de la capa de baja frecuencia generalmente indica la tendencia básica de las actividades humanas y, por lo tanto, puede usarse bien para predecir el futuro.

La Figura 9 muestra el mapa de importancia del modelo RCF entrenado en el conjunto de datos ECGFiverDay. Como se muestra en la Figura 9(b), los elementos más importantes están aproximadamente ubicados en el eje de tiempo de 100 a 110, que es bastante diferente de la Figura 8(b). Para una mejor comprensión, recuerde que este rango corresponde a la onda T del ECG, que cubre el período de tiempo en que el corazón se relaja y se prepara para su próxima contracción. En general, se acepta que las anomalías de la onda T indican un deterioro grave de la función fisiológica. Por lo tanto, la descripción de los elementos de onda T es más importante para las tareas de clasificación.

La figura 9(a) es el espectrograma de importancia de las capas ocultas, que también están dispuestas de arriba a abajo en orden creciente de frecuencia. Uno de los fenómenos interesantes opuestos a la Fig. 8(a) es que la capa de alta frecuencia es más importante para la tarea de clasificación de ECGFiveDays. Para entender esto, debemos entender que la tendencia general de la curva de ECG capturada por la capa de baja frecuencia es muy similar para todos, mientras que las fluctuaciones anormales capturadas por la capa de alta frecuencia son la verdadera información distinguible para identificar enfermedades del corazón. Esto también revela la diferencia entre la clasificación de series de tiempo y el pronóstico de series de tiempo.

Los experimentos en esta sección prueban las ventajas de interpretabilidad del modelo mWDN generado al combinar la descomposición wavelet y el método de análisis de importancia propuesto en el artículo, y también pueden considerarse como una discusión del problema de la caja negra del aprendizaje profundo.

 6. Conclusión

El objetivo principal de esta publicación es construir modelos de aprendizaje profundo conscientes de la frecuencia para el análisis de series temporales. Para lograr este objetivo, primero diseñamos una nueva estructura de red neuronal mWDN basada en descomposición de ondículas para el aprendizaje de frecuencia de series temporales, que se puede integrar sin problemas en marcos de aprendizaje profundo al hacer que todos los parámetros se puedan entrenar. Basado en la estructura mWDN, el artículo diseña además dos modelos de aprendizaje profundo para tareas de clasificación y predicción de series temporales, y los experimentos en una gran cantidad de conjuntos de datos reales muestran que tienen más ventajas que los modelos más avanzados. Como un nuevo intento de aprendizaje profundo interpretable, el artículo propone además un método de análisis de importancia para identificar factores importantes que afectan el análisis de series temporales, verificando así las ventajas interpretables de mWDN.

推荐阅读:

我的2022届互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记

发送【AI四大名著】获取四本经典AI电子书

Supongo que te gusta

Origin blog.csdn.net/qq_33431368/article/details/130716694
Recomendado
Clasificación