基于时空动态图关系学习的地铁客流预测

导读

论文题目《Spatio-Temporal Dynamic Graph Relation Learning for Urban Metro Flow Prediction》。该论文于2023年发表于《IEEE Transactions on Knowledge and Data Engineering》,文章开发了一个时空动态图关系学习模型(STDGRL)来预测城市地铁站的流量。

摘要

城市地铁流量预测对于地铁运营调度、乘客流管理和个人出行规划具有巨大的价值。然而,它面临着两个主要挑战。首先,不同的地铁站,如换乘站和非换乘站,具有独特的交通模式。其次,模拟地铁站之间复杂的时空动态关系具有挑战性。为了解决这些挑战,文章开发了一个时空动态图关系学习模型(STDGRL)来预测城市地铁站的流量。首先,文章提出了一个时空节点嵌入表示模块,用于捕捉不同站点的交通模式。其次,文章使用了一个动态图关系学习模块,以学习地铁站之间的动态空间关系,而无需预先定义的图邻接矩阵。最后,文章提供了一个基于Transformer的长期关系预测模块,用于长期地铁流量预测。文章在北京、上海、重庆和杭州的地铁数据基础上进行了大量实验。实验结果显示,文章的方法在城市地铁流量预测方面优于11个基准方法。

介绍

城市地铁网络是一个具有显著时空特征的动态图,展示了一天内三个不同地铁站的乘客出站量的变化,如图1(a)所示。文章可以观察到,站点1的乘客出站量在早上7:00到9:00之间有一个小峰值,晚上17:00到19:00也有一个小的峰值期。而站点2只在早上7:00到9:00之间有相对较小的乘客流,晚上没有明显的高峰期,整天的乘客出站量也小于站点1。站点3在早上7:00到9:00之间有一个大的峰值,然后其他时段的乘客流量显著下降。但总体而言,站点3的乘客流量远大于站点1和站点2。文章可以看到这些站点有各自不同的站点交通模式,不仅仅是简单的固定的空间连接关系。不同地铁站相互连接并相互影响。正如图1(b)所示,这种空间依赖关系会随着时间和位置的变化而动态改变。

328d9beb4981a647de732b87063a7e8b.png

图1 时空动态图的关系

文章提出了一种适用于地铁流预测的时空动态图关系学习方法,可以建模不同站点的不同交通模式,并捕捉站点之间的动态空间依赖关系。同时,它可以进行长期预测,更好地支持地铁运营管理人员的交通管理和城市居民的出行决策。本文的贡献包括以下四个方面:

• 采用节点自适应参数学习

模块来学习不同站点特定的时空嵌入表示,以捕捉不同站点的流量模式。

• 提出了一种动态图关系学习模块,用于学习站点之间的动态空间依赖关系,不需要预定义站点连接的空间关系,并直接从时空图数据中学习站点之间的动态空间依赖关系。

• 利用Transformer基于长期时间关系预测模块来预测长期地铁流量。预测结果可以为城市地铁运营管理和个人出行规划提供有用的参考。

• 在北京、上海、重庆和杭州等4个不同城市的地铁数据集上进行了实验。与11种基准方法相比,实验结果显著改善了预测性能。

问题描述

本文提出了一个用于地铁站流量预测的时空动态图关系学习模型。文章的模型不需要预先确定的地铁网络拓扑图,可以直接从地铁流量数据中学习空间依赖性,具有广泛的适用性,适用于不同城市的地铁流量预测任务。

在详细介绍文章的模型之前,文章首先定义和表示地铁流量预测任务和相关概念符号。在第i站,时刻t的地铁流量可以表示721291cb6ed894192ae902bcd76e4031.png,包括乘客的进站和出站流量。本文中的地铁流量包括两个角度,即地铁站内的乘客进站和出站流量。地铁站流量预测任务可以定义为,给定历史流量序列,预测未来一段时间的流量序列。

09649145737255eb94349ae4ec12f278.png

其中θ表示STDGRL模型中的所有可学习参数,T是输入流量序列的长度,m表示预测流量序列的长度。

方法论

模型的整体架构如图2所示。它包括一个节点特定的时空嵌入模块、一个动态空间关系学习模块、一个长期时间关系预测模块和一个时空融合模块。首先,文章提出了一个节点特定的时空嵌入模块,用于嵌入和表示地铁时空图中的站点。然后,文章采用动态空间关系学习模块,直接从地铁流量数据中学习空间依赖关系,而不依赖于特定的地铁网络拓扑。最后,文章使用基于Transformer的长时间序列依赖预测模块来预测地铁流量的长期序列,使其预测更适用于实际的地铁调度管理和日常运营场景。

0e099ca0d1b33bd88dd641bb8269a6c3.png

图2 时空动态图关系学习(STDGRL)模型

4.1 节点特定的时空嵌入

采用了节点特定的自适应参数学习模块(NAPL)。经典的图卷积操作由以下公式计算:

e25fe1c48a54fca12974cb8ed7066350.png

其中A ∈ RN×N是图的邻接矩阵,D是度矩阵,IN是单位矩阵,X ∈ RN×C是图卷积网络层的输入,Z ∈ RN×F是图卷积网络层的输出,Θ ∈ RC×F和b ∈ RF表示可学习的权重和偏差。在这种方法中,图上的所有节点共享参数,如权重和偏差。根据的观点,不同的节点具有不同的交通流模式,如图1(a)所示,因为不同的节点具有不同的属性,如节点周围的POI分布、不同的天气条件,将形成不同的流模式。为了更准确地预测交通流,有必要学习不同节点的不同流模式,即使用不同的可学习参数而不是全局共享参数来学习节点特定的模式。

为了学习节点特定的模式,提出了一个节点特定的自适应参数学习模块,它学习节点嵌入矩阵EG ∈ RN×d和权重池WG ∈ Rd×C×F。公式2中的Θ可以通过节点嵌入矩阵和权重池计算,Θ = EG ·WG。这种计算可以解释为从所有站点的时间序列模式中学习节点特定的模式。偏差b也可以以相同的方式计算。最终节点适应的参数模块可以用公式3表示。

e62d6493519958c9e009f07b0c5cda38.png

4.2 动态空间关系学习

在地铁网络中,站点之间的连接关系是固定和静态的,如图3所示。

c9b89a9ab65134161079a008978c86c2.png

图3 地铁站之间的静态空间关系

然而,这种固定和静态的连接关系不能反映站点之间的动态空间依赖关系,随着时间的变化,站点的乘客进出流量也会发生变化,因此有必要从时空数据中学习这种动态空间依赖关系。因此,提出了一个动态空间关系学习模块(DSRL),这是一个具有自适应和空间结构意识的表示模型。受的启发,文章首先随机初始化一个可学习的节点嵌入字典EA ∈ RN×de,用于所有节点。在模型训练过程中,EA将被动态更新。EA的每一行表示节点的嵌入表示,de表示节点嵌入的维度。然后,通过将EA和ETA相乘计算节点之间的空间依赖性。最后,文章可以得到生成的图拉普拉斯矩阵,如下面的公式所示。

4f30d0a9efe781923ea568d15b77fb28.png

其中softmax函数用于归一化学习得到的自适应矩阵。GCN的计算公式如下:

9b9c510437a5b3b9e55a6c029bd50550.png

对于时刻t的节点,GRU模块的操作可以表示如下:

a92f420619178f4f333c3b2b0c369742.png

其中[·]表示连接操作,81288598b9967795ed5b7f02eace83c4.png表示逐元素相乘,E、Wz、Wr、Wˆh、bz、br、bˆh是待学习的参数,X:,t和ht是时刻t的输入和输出。最终通过一个全连接网络获得了该组件的输出YS。

4.3 长期时间预测

为了捕捉地铁流量序列的长期全局依赖性,文章提出了一个长期Transformer层(LTTL)。采用了基于Transformer的长期时间预测方法进行长期地铁流量预测。这一层包括多头自注意力层、前馈神经网络层和层归一化层。首先,引入了多头自注意力层。注意力计算公式如公式7所示。

b2c6ec83c0db4cbe399cc1f5ac23d13c.png

计算所有键和给定查询之间的点积,除以√dk,然后乘以V。最后,使用softmax函数计算每个位置的注意力分数。这些注意力分数将用作权重,以汇总不同部分的信息。其中,Q、K ∈ R、T ×dk 以及 V ∈ R、T ×dv 分别表示所有节点的查询、键和值。每个位置都添加了一个位置嵌入,以便LTTL层能够感知整个交通序列中的相对位置。位置编码 et 的公式如下:

e83905a527314072d3d673af4eddd17b.png

然后,多头自注意力层计算的输出传递到前馈神经网络层。最后,通过残差连接和层归一化,得到了LTTL网络的输出YT。

4.3.1 时空融合

为了有效利用捕获到的时空依赖关系,文章采用了时空融合模块,用于融合学习到的时空依赖关系。

bcb579e187649deefb9d17abf6597d58.png

其中YS是空间关系学习模块的输出,YT是时间关系学习模块的输出,2d3ce3bd01155a2005fcd9271fc39603.png表示Hadamard积,WS和WT是可学习的权重参数。

实验

在本节中,首先介绍了实验设置,包括数据集的描述、实验环境、实现细节和评估指标。接下来,文章将文章提出的STDGRL方法与11种代表性方法进行比较。最后,文章进行了广泛的实验并分析了文章模型和每个模块的有效性。

5.1 实验设置

1) 数据集描述:本文使用了1个私人地铁刷卡数据集:重庆地铁数据集和3个公共地铁刷卡数据集:上海地铁数据集,杭州地铁数据集和北京地铁数据集。关于这四个数据集的描述信息如表1所示。

CQMetro:该数据集是通过预处理重庆地铁刷卡数据获得的。文章将数据分成15分钟的时间片,以获取时间片内车站的进站和出站乘客数量。时间跨度从2019年3月1日到2019年3月31日。重庆地铁数据集共有170个车站。培训集、验证集和测试集按6:2:2的比例按时间顺序划分。

SHMetro:该数据集使用了发布的上海地铁数据集,数据集的格式与原始论文一致。时间片大小为15分钟,时间跨度从2016年7月1日到2016年9月30日。上海地铁数据集共有288个车站。数据集分为培训、验证和测试集。培训集的时间范围是从2016年7月1日到2016年8月31日,验证集的时间范围是从2016年9月1日到2016年9月9日。测试集的时间范围是从2016年9月10日到2016年9月30日。

HZMetro:该数据集使用了发布的杭州地铁数据集,数据集的格式与原始论文一致。时间片大小为15分钟,共包含80个车站。时间跨度为2019年1月,共25天。培训集的时间范围是从2019年1月1日到2019年1月18日,验证集的时间范围是从2019年1月19日到2019年1月20日,测试集的时间范围是从2019年1月21日到2019年1月25日。

BJMetro:该数据集收集了2016年2月29日至4月3日连续五周的北京地铁数据。它包括17条地铁线路和276个地铁车站,不包括机场线及其车站。

2) 实现细节:文章使用深度学习框架PyTorch来实现本文中的STDGRL模型以及比较方法中的深度学习模型。实验设备使用了NVIDIA Titan V的GPU卡。在重庆地铁数据集中,每天23:00-06:30之间的刷卡数据被直接删除。因为这个时间段不在地铁的运营时间范围内,所以没有乘客进出车站。文章对数据集进行了与AGCRN 中相同的归一化处理。文章使用Adam 优化器来优化文章的模型。文章将过去12个时间步的数据作为输入,将接下来12个时间步的数据作为输出。尽管文章提出的方法不需要预定义的邻接矩阵图,但文章使用预定义的邻接矩阵图方法作为对照方法。

3) 评估指标:文章使用在时空预测任务中常用的三个评估指标来评估该方法的性能,即平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。

5.1.1 基线模型

在这一部分,文章将提出的STDGRL模型与11种基线模型进行比较。这些模型可以分为五类,包括(1)两种传统的时间序列模型,(2)两种单一的深度学习模型,(3)近年来提出的用于交通预测的五个图时空网络模型,(4)基于Transformer的交通预测模型,以及(5)最近提出的用于地铁乘客流预测的图神经网络模型。

5.2 总体性能

表3到表6显示了文章的方法和11种比较方法在重庆、上海、杭州和北京地铁数据集上的总体预测性能。在下一个小时的预测间隔内,使用MAE、RMSE和MAPE三个评估指标进行评估。文章提出的STDGRL方法在短期和长期预测中都表现出色,如图4所示。

3f437351e0247e6b9518809b4dc61dc8.png

图4 在SHMetro数据集上的每个水平上的预测性能

随着预测间隔的扩大,AGCRN方法在MAE和MAPE评估指标上的表现逐渐恶化,变化范围大于STDGRL方法,表明文章的方法在长期预测间隔中性能更好。此外,与STTN和Multi-STGCnet方法相比,文章的方法在短期和长期预测间隔中都具有明显的性能优势。文章可以看到,传统的基于机器学习的时间序列预测方法的结果不如LSTM、GRU等基于深度学习的方法好,这表明在进行交通预测时,建模时空数据的非线性数据依赖关系至关重要。此外,文章还发现,近年来提出的基于图神经网络的交通预测模型的性能优于LSTM和GRU等方法。原因在于它们可以更好地捕捉时空图数据中的时空依赖关系,优于深度学习模型。文章观察到,AGCRN方法的性能优于其他基线模型。它明显改善了实验结果,仅次于文章的STDGRL方法。这表明,从时空数据中学到的空间关系能够更好地反映其空间依赖关系。此外,文章还对三个公共地铁数据集进行了实验,实验结果如表4、表5和表6所示。在上海地铁数据集上,STDGRL仍然具有明显的优势。图5显示了SHMetro数据集中一天内的进站和出站预测性能。这个数据集包含288个车站,比重庆、杭州等城市的车站多。它表明文章提出的方法在车站数量较少的情况下表现良好,也在车站数量较多的情况下取得了良好的实验结果。

cfef75855975a174abfb62a6d672af5c.png

图5 在SHMetro数据集上的流入和流出预测可视化

总之,实验结果表明STDGRL能够从不同尺度的地铁时空图中学习空间和时间关系,并取得了令人期待的预测性能。

9867837858fc8fc72500fde91c6b9c7b.png2f95a56fbf6bd726a941cd4ddf3e3aa6.png020818bed66699ad58792099ea4a262c.pnge76234455c4b9bba49d3903cd28dc004.pnga4b6790f69be91b0fa1319647c1cf6bd.png8fa70dced7fabba444bf934508fe3e35.png

表1-表6

5.3 消融研究

文章设计了一项全面的消融研究来评估STDGRL的性能。文章的消融研究的基线模型是GCGRU(T-GCN)。该模型是一种经典的交通预测方法,结合了GCN和GRU以捕捉时空依赖关系。文章从STDGRL模型中去除NAPL组件构建STDGRL-NAPL。STDGRL-Transformer和STDGRL-GRU Transformer分别是文章STDGRL的变体,它们分别从STDGRL模型中去除了GRU模块,GRU和Transformer模块。在四个数据集上的实验结果如表7、表8、表9和表10所示。文章可以观察到以下结果:1) 表中的结果显示,GCGRU(T-GCN)的性能不如其他三个比较模型,这可能是因为它使用了预定义的图,并且难以捕捉节点之间复杂的空间依赖关系。2) 与STDGRL模型相比,STDGR-NAPL模型的性能下降幅度较大,不如STDGR-Transformer和STDGR-GRU-Transformer,这表明在STDGRL模型中捕捉节点特定的交通模式是必要的。3) 在从STDGRL模型中去除Transformer和GRU模块后,性能低于STDGRL模型,但优于STDGRL-NAPL模型,表明在STDGRL模型中使用短期和长期时间序列预测模块是必要的。它还表明学习节点的特定交通模式比学习时间依赖性更重要。

e40d500643af6285781bd54c22ebfdeb.pngbabbd7a11b8db2110d5821f4b82cc2ac.pnge1a5260dfa11947a37a0bed0d75d4eb7.pnga3c3cef1d8f4dc7a2b72c5a813f70b12.png

表7-表10

Attention

欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

猜你喜欢

转载自blog.csdn.net/zuiyishihefang/article/details/135164039