基于时空注意力的图卷积网络在路段级交通预测中的应用

1.文章信息

《Spatiotemporal Attention-Based Graph Convolution Network for Segment-Level Traffic Prediction》是2021年4月被期刊IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTA TION SYSTEMS接收的文章。

2.摘要

交通预测作为智能交通系统(ITS)的核心组成部分,在文献中已经得到了充分的研究。然而,由于交通流的非线性和复杂模式,及时准确的交通预测仍然是一个公开的挑战。此外,大多数现有的交通预测方法集中于基于网格的计算问题(例如,人群进出流量预测)和基于点的计算问题(例如,交通检测器数据预测),而忽略了基于路段的交通预测任务。在这项研究中,提出了一个基于注意力的时空图注意力网络(ASTGAT)用于路段级别的交通速度预测。特别地,设计了多头图注意块来捕获路段之间的空间依赖性。然后,为速度、音量和天气信息集成构建组件融合块。最后,基于注意的长短时记忆(LSTM)块被构造用于时间依赖性学习以及基于片段的速度预测。在真实世界的英国高速公路数据集上的实验表明,所提出的AST-GAT模型优于最先进的基线,为基于路段的交通预测提供了一种有效的工具,从而填补了基于点和基于网格的预测之间的空白。

3.介绍

与采用基于注意力的时空深度学习框架的现有研究工作相比,贡献总结如下。

(1) 为了克服GCNS的上述局限性,采用了基于多头自我注意的图注意网络(GAT)来动态建模不同段之间的空间依赖关系。在之前一篇文献提出的基于GAT的模型中,只使用LSTM网络来提取时间域特征。该文章设计了一种基于注意力的LSTM结构来提取时间依赖。来自最近时间步长、前几天和前几周的信息被考虑以捕捉最近的、每日周期性的、以及每周周期性的时间特征。

(2) 将分段级别的流量预测描述为一个类似于图的计算问题。道路网络被建模为使用线段连通性而不是地理距离的有向图。此外,设计了一个分量融合块来吸收时变特征(交通量、速度和天气信息)和时不变特征(年平均日交通量和道路类型)。研究结果表明,天气和路况等外部特征有助于提高预测精度。然而,这些特征往往被以前的基于注意力的时空深度学习框架所忽略。

4.符号和问题描述

在AST-GA T中,具有N个路段的道路网络被建模为有向图G = (S,A),其中顶点集S代表不同的路段,邻接矩阵A ∈ RN×N描述了顶点之间的连通性。元素A(i,j)表示段I和j是否连接。

0b42cbc7d61aa453d091ffc14aea6473.png

上述邻接矩阵A是典型的单跳邻域矩阵。为了识别距离较远的片段之间的空间相关性,我们引入了K跳邻域矩阵。对于每个路段i ∈ S,其K跳邻域可以定义为:

e1542a999fa1345d2302277b73ee7d75.png

其中d(i,j)表示在段I和j之间移动所需的最小步数,K跳邻域矩阵AKnh可以通过下式获得

fb3c66b6d3a3a15fec1e29dddb7747e9.png

将时间步长为t的路段i的平均速度和平均体积分别定义为vi,t和fi,t。定义时间步t时路网的天气观测为天气。交通速度预测是一种典型的时间序列预测任务,即利用过去M个时间步的信息,预测每个路段在时间步t + p处的交通速度。

c97f10b060d64af6be16e54d48beacc1.png

其中,t+p为时间步长t+p时预测段速度集;V t为时间步长t时观测到的段速度集;Ft为时间步长t处观测到的段体积集;RP为道路属性,Pr(.|.)为条件概率函数。

5.AST-GAT深度学习架构

在本节中,将详细阐述提议的AST-GA T架构。AST-GAT模型由用于空间相关性提取的多头GA T块、用于组合来自不同源的特征的分量融合块和用于时间依赖性学习以及基于片段的速度预测的基于注意力的LSTM块组成。

空间依赖建模

先前基于GCN的模型假设空间依赖性是时不变的,即道路拓扑图中的空间依赖性被计算一次并一直使用,忽略了动态变化的交通模式。

为了解决这个问题,采用GATs,假设相邻段对中心段的贡献不是预先确定的。GCNs和GATs之间的主要区别在于相邻线段的特征表示是如何聚合的。对于GCN,图卷积运算会生成邻域要素的归一化总和。

2acc688a3f10fb34ec7690a19eadd6b2.png

其中,Si是与段i相邻的相邻段的集合;σ是激活函数;cij是基于图形结构的标准化常数;l是当前层;w1是用于分段特征变换的共享权重矩阵;而hl i是段I的层l的隐藏特征。

GATs通过采用注意机制来学习两个连接的片段之间的相对权重,从而扩展了GCNs。在GAT中,从特征h1i到更高层特征hl+1 i的转换是通过

85f71b8aa815dd0bd06e073dc4fabf91.png

Eq. 6使用可学习的权重矩阵wl对hli进行线性变换。在Eq. 7中,通过相加注意力计算段i和段j之间的成对非归一化注意评分elij。首先将zli和zlj连接起来,然后取连接的点积和一个可学习权向量al,最后应用一个Leaky整流线性单元(LeakyReLU)激活函数。Eq. 8应用一个softmax激活函数来归一化注意分数。在Eq. 9中,来自邻居的注意分数被聚合,以更新更高层的特征hl+1 i,类似于GCNs。

为了提高模型的能力和稳定自我注意的学习过程,采用了多头注意机制,使模型能够从多个表示子空间中联合学习注意分数。如图2a所示,Khead独立注意机制同时进行GAT卷积运算,然后对它们的特征进行串联(对于中间层)或平均(对于最终层),产生如下输出特征表示

d792e1f1e7e1ed7add4ad4efc97ea11b.png

23969c6297986d1fa7d64e5f74a498b1.png

本该构建GAT块,提取不同时间步长的不同路段速度之间的空间相关性。如图2b所示,每个块由两个GAT层组成。对于每个时间步长t,第一层的输入是一组速度V t = vt,1, vt,2,…, vt,N, vt,i∈RFeature, Feature表示每个段的特征个数。第一层生成一组新的分段特征(潜在的不同的基数特征),h1t = {h1t,1, h1t,2,…, h1t,N, h1t,i∈RFeature}。然后,将来自不同注意头的输出特征串联起来,作为第二层的输入。第二层生成另一组新的段特征h2t = h2t,1, h2t,2,…h2t,N, h2t,i∈RFeature,对不同注意头的输出特征取平均值。

组件融合

如导言所述,交通量与速度之间存在二元均衡关系。因此,有必要在分段速度预测中加入体积信息。类似于快速空间特征提取,使用构造的GAT块来建模不同路段的体积之间的空间依赖关系。对于每个时间步长t, GA t块的输入是Ft = {Ft,1, Ft,2,…, ft,N}, ft,i∈RFeature f,块的输出为h2f,t = {h2f,t,1, h2f,t,2,…, h2f,t,N}, h2f,t,i∈RFeature f,可表示为:

b42a7de1039b14fd4127ab661f193535.png

在得到空间表示h2f,t后,应用门控机制进行组件融合。具体地说,添加一个流门来调节所获得的体积信息。然后,速度空间表示h2v,t乘以门控体积信息,由

f8a2152b80da68726422157fd22b8e14.png

自20世纪50年代初以来,人们就认识到天气条件会影响交通流量和驾驶员行为。天气现象对自由流速度、通行能力等交通流相关参数有显著影响。因此,在车速预测中考虑天气条件的影响是合理的。此外,还包括两个与道路性质相关的静态特征,即道路类型(高速公路或a级道路,是否为路口)和年平均日交通量(AADT)。在每个时间步t上,将网络范围内的天气信息、路段属性特征和融合的空间表示hct连接为Xt,然后将Xt作为以下基于注意的LSTM块的输入。整个组件融合过程如图3所示。

0a32b690811fa34fcf5857ff6205fe3d.png

空间依赖建模

图4给出了所提出的基于注意的LSTM块的结构。该模型由三个部分组成:利用两个rnn分别对历史数据的短期和长期依赖关系进行建模,引入注意机制计算长期信息的加权表示。

284ea97365a9c368b93335943eea653b.png

以往的研究证明了长期依赖性对交通预测问题的重要性。然而,通过rnn处理长期信息是一项艰巨的任务。随着输入长度的增加,梯度逐渐消失,显著降低了周期性的影响。因此,显式构造输入时间序列以防止梯度消失是很重要的。沿着时间轴构建三种类型的时间序列X R、X D和X W,分别从前R个时间步、前D天和前W周收集信息。最近的时间序列X R = {Xt−R +1, Xt−R +2,…Xt}由比当前步骤早r个步骤的样本组成,这可能是未来流量的最重要贡献者。日周期时间序列X D = X dt−r+1,…X dt+r,…X d−1 t−r+1,…X 1t+r,由过去d天内当前步骤前后r步的样本组成,用于建模交通数据的每日周期性,如每日高峰时段。周周期时间序列X W = X wt−r+1,…X wt+r,…X w−1 t−r+1,…X 1t+r,由最近w周的当前步骤之前和之后的r个步骤组成,它们具有相同的周属性。这种时间序列的目的是提取每周的周期性特征,例如,周一的相似交通模式。图5给出了一个时间序列构建示例,其中interval=15min, r = 4, d = 2, w = 2。

219dc289f759d092f5473436315e964d.png

在本研究中,选择一个LSTM网络进行时间特征提取,旨在解决传统rnn的爆炸和消失梯度问题。对于每一段i, LSTM网络的计算过程如下所示:

e2b8fa1d3a520dec1723d8fbd1bcd085.png

对于每个分段i,使用最近时间序列X Ri作为短期特征提取LSTM的输入。将日周期时间序列X Di和周周期时间序列X Wi沿时间轴串联为Xlong i,作为长期特征提取LSTM的输入。这背后的原因是,长期特征的重要性可能在不同的时间步骤中有所不同。因此,将它们连接起来,并使用一个注意层来捕捉它们的动态重要性。然后,进行以下计算:

531b781812b7c4a3065d4e2d602a089b.png

采用注意机制捕获交通模式的时间异质性。通过将上式中的查询hshortt,i与一组键{hlong 1,i , . . . , hlong l,i , . . . , hlong L,i}进行比较,得到重要值αl,i。形式上,权值αl,i被定义为:

68aaa2076905727b82ecaf441f2efb6c.png

将上式中的分数函数视为基于内容的函数定义为:

3c3ae2c60161f6931873ec91db3fb1f8.png

其中,WL、WX、bX为可训练参数,qT为调整输出尺寸。注意向量At,i是通过键的加权和得到的。然后,将At,i和hshort t,i连接起来,以保持预测分段和时间步长的短期和长期依赖关系。最后,添加全连通层,得到预测速度vt+p,i。以上计算公式为:

8035a263135bf5babca9d8e5735b0bf2.png

提出的AST-GA T模型采用均方误差作为损失函数进行联合训练,其可写成:

e3c182a2a1cd448c3eb903c7f8571755.png

式中,N为路段总数,vt+p,i为时间步长t+p时路段i的观测速度,N d h h顶点集S表示路网内不同路段。

6.实验

在英国高速公路提供的大规模真实世界公共数据集上评估了所提出的模型。所有收集的数据都来自英国剑桥附近的路网,共有60个路段(见图6),其中包括四条道路,分别是A11(13英里,4个路口)、A14(18英里,7个路口)、A428(2.4英里)和M11(17英里,5个路口)。段的大小从200米到1300米不等,这是在原始数据集中预定义的。数据包含每隔15分钟每段道路的交通速度和运量信息。天气数据来自剑桥大学2号数字技术集团(DTG)的气象站。天气数据包含每隔30分钟的风速和降雨信息,为了与英国公路数据格式一致,每隔15分钟采样一次。

dd01e69e22db973765a3b0a5921182ef.png

推荐阅读:

我的2022届互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记

发送【AI四大名著】获取四本经典AI电子书

猜你喜欢

转载自blog.csdn.net/qq_33431368/article/details/128391905