Lectura de literatura (51) - Transformador para la detección de la calidad del aire en China

Lectura de literatura (51) - Transformador para la detección de la calidad del aire en China


AirFormer: predicción de la calidad del aire a nivel nacional en China con transformadores
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Este artículo todavía está en arxiv, pero ver el aaai a continuación me emociona mucho. Seamos saludables juntos~

Conocimientos previos/Desarrollo de conocimientos

  • Mecanismo de autoatención de cabezales múltiples (MSA)
  • Codificadores automáticos variacionales (VAEs)

Estructura del artículo

  • abstracto
  • introducción
  • preliminar
  • metodología★
  • experimentos
  • obras relacionadas
  • conclusión y futuro

fondo

  • Para probar la calidad del aire nacional, el país ha establecido estaciones en muchos lugares, y estas estaciones informarán la calidad del aire actual (incluidas varias emisiones de gases) hora por hora.
  • En los últimos años, la investigación establecida desde hace mucho tiempo sobre la predicción de la calidad del aire, desde los modelos clásicos de dispersión hasta los modelos basados ​​en datos
  • Sin embargo, debido a la cantidad de cálculos, gran parte de la investigación se concentra en un sitio o en algunos sitios de una ciudad.

Hacer una pregunta:

  • Prediga la calidad del aire en China continental utilizando el índice de contaminación espacial de todas las estaciones del país . Tales predicciones precisas que cubren una amplia gama no solo brindan al público información más útil, sino que también contienen más datos de muestra que conducen al entrenamiento del modelo. Pero la eficiencia del Transformador tradicional con tantos datos dificultará el modelado.
  • Las lecturas de la calidad del aire son intrínsecamente inciertas debido a: observaciones inexactas o definitivas y factores impredecibles: escape de vehículos, políticas y emisiones industriales.

Debido a que la contaminación del aire tendrá un impacto en el dominio, el autor propone AirFormer, que se combina ventajosamente con el modelado de información regional para lograr una mejor interpretabilidad. Hay principalmente dos etapas involucradas:

  • etapa 1: etapa determinista
    En esta etapa, se proponen dos nuevos MSA para capturar de manera efectiva las dependencias de espacio y tiempo (resolver Q1)
  • etapa 2: etapa estocástica
    En esta etapa, utilice la idea de VAE para explorar variables ocultas en Transformer. Estas variables latentes se muestrean a partir de la distribución de probabilidad aprendida en la etapa anterior, capturando así la incertidumbre de los datos de entrada. (resolver P2)

核心目的:使用之前时间的所有站点数据预测未来某时间的空气质量指数


método del artículo

AirFormer Framework
inserte la descripción de la imagen aquí

  • Etapa determinista ascendente

    • DS-MSA: aprendizaje de interacciones espaciales con complejidad lineal
    • CT-MSA: capturando la dependencia temporal de cada ubicación
  • Etapa estocástica de arriba hacia abajo

    • generación es usar la probabilidad previa del paso anterior para predecir el siguiente paso
    • la inferencia se utiliza para estimar la probabilidad posterior

1. MSA espacial de tablero de dardos (DS-MSA)

inserte la descripción de la imagen aquí
Diseño general
La calidad del aire de un lugar, además de las emisiones locales, también se verá afectada por los lugares vecinos. DS-MSA se propone para capturar la conexión de un lugar con otras regiones al mismo tiempo. DS-MSA tiene un campo receptivo más grande pero solo una complejidad computacional lineal. Se utiliza como entrada la variable oculta H obtenida del bloque anterior de DS-MSA, primero se LayerNormed para generar la matriz de consulta del sitio a través de la capa Lineal, y se proyecta el entorno circundante en el Dartboard para obtener la clave y valor Este método reduce la complejidad computacional. Finalmente, MSA se realiza para aprender la dependencia espacial y MLP se usa para generar el resultado H1.
diseño detallado

  • Para cada sitio, habrá una matriz de mapeo correspondiente A (M*N), donde M representa el número de regiones y N representa el número total de sitios. El valor a[i,j] en la matriz A indica la posibilidad de que el sitio j-ésimo pertenezca al área i, y la suma de una fila de valores en la matriz A sea 0 (similar a AVG)
  • Para la división de cada área del sitio, es un círculo concéntrico centrado en el sitio actual, como en el siguiente ejemplo, hay un total de 3*8+1=25 áreas (25<<1000+, lo que reduce en gran medida el cálculo complejidad)
  • Suponiendo que la entrada al mapeo de tablero de dardos es la matriz P (N C), a través de la matriz A, se puede obtener la representación del área de cada sitio R[i] = A[i] P (M C), y el área final la representación es R = [R1 ,R2,R3...Rn](N M*C), la representación del área de N estaciones se obtiene por concat.
  • Luego use la consulta obtenida y la clave y el valor obtenidos por R a través de lineal para ingresar la asociación de espacio de captura de MSA.
    inserte la descripción de la imagen aquí
  • B es un código de posición relativa que se puede aprender para aumentar la información de posición. Podemos introducir información externa como aduanas y dirección del viento como auxiliar.

DS-MSA模块考虑了空气污染分散的领域知识,由于将区域的个数从N个站点降低到M个region,计算复杂度降低,使用dartboard映射不会再MSA中引入额外的可学习变量,固模型是轻量级的。

2. CT-MSA

inserte la descripción de la imagen aquí
Diseño general
Los cambios de aire en un lugar no solo se ven afectados por el área circundante, sino también por el desplazamiento de aire anterior. Si MSA se usa directamente para aprender la dependencia del tiempo, habrá un costo cuadrático, así que use CT-MSA en lugar de MSA estándar
para el diseño detallado

  • Dado que la correlación es más fuerte más cerca de la hora actual, los autores usan ventanas que no se superponen dentro de las cuales se realiza MSA para capturar las interacciones locales entre los pasos de tiempo. Para no perder el campo receptivo de MSA tanto como sea posible, el autor aumentó gradualmente el tamaño de la ventana de arriba a abajo.
  • Causalidad temporal: dado que la calidad del aire en el momento actual no está condicionada a su futuro, seguir WaveNet para introducir la causalidad en MSA garantiza que el modelo no viole el orden cronológico de los datos de entrada. Esta relación de orden se puede realizar en las regiones del mapa de atención de la máscara.
  • Para lograr sensibilidad de posición en MSA, se agrega codificación de posición absoluta a la entrada de CT-MSA.

3. Fase aleatoria de arriba hacia abajo

inserte la descripción de la imagen aquí
Diseño general
Después de obtener certeza utilizando dos MSA de abajo hacia arriba, los autores usan una etapa de arriba hacia abajo para conocer la incertidumbre en los datos de calidad del aire usando una etapa de arriba hacia abajo para las variables aleatorias latentes en el diseño
detallado

  • generación: predecir el próximo paso de todos los pasos pasados
  • Fase de inferencia (inferencia): El modelo de inferencia se aplica para aproximar la distribución posterior de Z dados los pasos actuales y anteriores. Es decir, la función del modelo de inferencia es predecir la distribución de probabilidad de la variable desconocida Z en función de los datos actuales y anteriores. Este enfoque puede ayudarnos a extrapolar el valor de Z con mayor precisión, lo que da como resultado resultados más confiables.
    inserte la descripción de la imagen aquí

这个部分我没读懂,因为我对VAE的原理真的只懂浅显,数学渣渣搞不定这么多公式,我哭。所以我找来了我的好朋友ChatGPT帮我理解,它是这样解释的:

  • En el modelo AirFormer, la etapa estocástica descendente es un paso importante para predecir el índice de calidad del aire futuro. Este paso utiliza principalmente la aleatoriedad para mejorar la expresividad y la solidez del modelo .
  • Específicamente, la etapa estocástica de arriba hacia abajo incluye dos subpasos: muestreo de arriba hacia abajo y predicción estocástica.
  • En la etapa de muestreo de arriba hacia abajo, el modelo tomará datos de observación históricos y valores de índice de calidad del aire generados previamente como entrada, y utilizará Decoder para generar un conjunto de secuencias de calidad del aire candidatas para posibles momentos futuros. Cada secuencia candidata se genera a partir del marcador de "inicio" hasta que se alcanza una ventana de tiempo de predicción predeterminada.
  • En la etapa de predicción estocástica, el modelo evalúa todas las secuencias de índice de calidad del aire candidatas y selecciona la secuencia que mejor se ajusta al índice de calidad del aire futuro real como resultado final de la predicción. El proceso de evaluación se basa en una función de puntuación calculada mediante la combinación de datos observados en momentos históricos, valores AQI generados previamente y la distribución de probabilidad de cada secuencia candidata.
  • Cabe señalar que en la etapa estocástica descendente, cada secuencia AQI candidata se genera mediante un muestreo aleatorio . La introducción de esta aleatoriedad puede hacer que el modelo maneje mejor los datos desconocidos y ruidosos, mejorando así la capacidad de generalización y la solidez del modelo . Al mismo tiempo, usar múltiples secuencias candidatas y evaluarlas también puede mejorar la expresividad y la precisión predictiva del modelo.

resultados del articulo

1. Conjunto de datos

inserte la descripción de la imagen aquí

2. Comparación de líneas base

Selección de indicadores de evaluación: MAE y RMSE

  • método tradicional
  • variante STGNN
  • Modelos basados ​​en la atención
  • Modelo de predicción de la calidad del aire
    inserte la descripción de la imagen aquí
    这验证了空气污染的领域知识不仅有助于我们设计更多解释的模型,而且提高了预测的精度。

3. Experimento de ablación

(1) Desempeño de DS-MSA

En comparación con ningún DS-MSA, MSA estándar, MSA (50 km), DS-MSA (50-200), DS-MSA (50), DS-MSA (50-200-500). La línea gris representa el modelo final, la negrita es el mejor y la línea horizontal representa el segundo mejor rendimiento.
inserte la descripción de la imagen aquí
Además, para verificar el rendimiento de DS-MSA, se estudia el tablero de dardos 50-200 centrado en Xizhimen. Cuando no hay viento, los pesos se dispersan. Si hay viento del este o viento del suroeste, el peso de la atención será concentrarse en el correspondiente En términos de dirección, esto muestra que DS-MSA no solo es efectivo, sino también más interpretable para el modelo.(咱就是说真牛!)
inserte la descripción de la imagen aquí

(2) Desempeño de CT-MSA

En comparación con CT-MSA, WaveNet reemplaza CT-MSA, MSA estándar. En primer lugar, se puede ver que todos los modelos con variantes de módulo de tiempo funcionan mejor que aquellos sin CT-MSA. Este fenómeno muestra la necesidad de modelar de acuerdo con el tiempo . Además, el rendimiento de los dos modelos que utilizan el mecanismo de atención de bloqueo es mejor que el de WaveNet El rendimiento es bueno, lo que demuestra la superioridad de MSA en la predicción de la calidad del aire . Además, la integración de las relaciones con el Reino Unido y las ventanas parciales en el MSA proporciona mejoras de rendimiento consistentes.(看到这里我表示respect!)
inserte la descripción de la imagen aquí

(3) Desempeño de variables ocultas

inserte la descripción de la imagen aquí
Debido a la aleatoriedad de la difusión de gases, la captura de la incertidumbre en los datos de calidad del aire puede mejorar de manera efectiva el rendimiento y mejorar la solidez del modelo.

(4) Desempeño de la codificación de posición

Dado que MSA es invariable a la permutación, los autores integraron la codificación posicional en DS-MSA y CT-MSA para considerar la información del pedido.
inserte la descripción de la imagen aquí

Contribuciones

  1. Teniendo en cuenta que la correlación espacial del área cercana es mayor que la del área distante, el DS-MSA está diseñado para capturar de manera efectiva la relación espacial de la ubicación.
  2. Un módulo temporal causal, CT-MSA, está diseñado para aprender dependencias temporales, lo que garantiza que el resultado de cada paso provenga solo de los pasos anteriores. Introducir localidad para mejorar la eficiencia
  3. Utilizando la idea del modelo VAE, se mejora el transformador con variables ocultas para capturar la incertidumbre de los datos de calidad del aire.
  4. es el primer trabajo que predice de forma conjunta la calidad espacial de miles de ubicaciones, entre 4 y 8 puntos porcentuales por debajo de los errores SOTA existentes.

Resumir

Independientemente del contenido experimental o la escritura, vale la pena leer este artículo intensamente, lo he leído tres veces, pero creo que necesito leerlo de nuevo. No es irrazonable que otros envíen la mejor reunión y seleccionen una buena revista. Aunque el rendimiento de la predicción no es tan bueno como el de los modelos generales de clasificación y segmentación, es realmente raro que este tipo de bg con fuertes factores de incertidumbre pueda ser tan detallado. Hacía mucho tiempo que no leía un artículo tan nutritivo. tiempo. , respeto!

¿Qué se puede usar para referencia/aprendizaje?

都给我去看!

Supongo que te gusta

Origin blog.csdn.net/qq_43368987/article/details/130488580
Recomendado
Clasificación