基于深度学习的地铁客流预测架构

导读

论文题目为：《DeepPF: A deep learning based architecture for metro passenger flow prediction》。是一篇2019年发表于《Transportation Research Part C》的文章，介绍了一种新型的基于深度学习的地铁客流预测架构，通过采取模块化的方式，考虑不同因素对地铁客流预测的影响。

摘要

本研究旨在将深度学习的建模技巧与交通领域的领域知识结合起来，用于预测地铁乘客流量。本文提出了一个端到端的深度学习架构，称为Deep Passenger Flow（DeepPF），用于预测地铁的进站/出站乘客流量。该模型的架构高度灵活和可扩展，因此能够在短期地铁乘客流量预测中集成和建模外部环境因素、时间依赖性、空间特征和地铁运营特性。此外，提出的框架由于容易集成多源数据而实现了高度的预测准确性。数值实验表明，提出的DeepPF模型可以扩展到一般情况，以适应交通领域存在的各种约束。

引言

流量预测任务可以被视为时间序列预测问题，因为它随时间变化。因此，对感兴趣变量的时间依赖性进行分析至关重要。在这方面，现有方法（包括传统方法和新兴深度学习方法）通常使用最近时间间隔的数据进行预测。然而，时间序列的两个主要特征，即周期和趋势，在过去的研究中并未充分考虑。在此，周期反映了在时间序列不受任何极端影响因素的情况下存在的固定循环模式，而趋势反映了时间序列的长期变化（例如，上升趋势）。地铁乘客数据通常与在固定时间间隔内重复的时间特征相关联，例如，在某一时间间隔内的地铁乘客流量可能与前一天相同时间间隔的流量类似，表明应将24小时视为周期周期。

将上述两个特征适当集成到预测模型中，可以在现实应用中显着提高它们的性能。然而，对于不同的交通问题，这些特征具有不同的含义。此外，应注意的是，在解决多样化的交通流量预测问题时，不存在标准的常规/方法作为黄金法则。因此，有必要调查这些特征在地铁流量预测中的性质。

此外，地铁系统具有许多独特的运营特性（例如，与公交车不同，火车遵循更精确的时间表），在设计地铁乘客流量预测的MLA时也应予以整合。这种交通系统的内生特性/属性（也称为领域知识）应考虑在MLA的合理设计中。因此，本文旨在开发一种基于深度学习的端到端架构，用于短期地铁乘客流量预测，同时融入领域知识。

问题定义

本研究使用的数据是标准的地铁服务/交易数据，每当乘客使用IC卡进出地铁站时都会收集。类似的数据标签记录在城市地铁系统的中央计算机系统中，包括六个标签，即用户ID、进站、出站、进站时间、出站时间和卡类型。值得注意的是，数据集中的个人信息已匿名处理，以保护乘客的隐私。

在固定的时间间隔内（例如，10分钟间隔），可以基于地铁服务数据轻松计算总的进站（进站）和出站（出站）乘客流量。本文使用xt表示第t个时间间隔的出站或进站乘客流量。乘客流量预测显然是一个时间序列预测问题，因为连续时间间隔的值显示出时间依赖性。因此，本文所讨论的问题是使用历史乘客流量数据来预测xt。

通过这些数据，乘客流量预测的一个主要限制是现有的分析是在理想条件下进行的，没有考虑到在实际情况下存在的各种复杂情景。准确估计乘客流量非常具有挑战性，因为原始数据是在不同的情境中收集的。这种情景包括以下几种情况的组合：

1.没有详细的列车时刻表数据。列车时刻表指的是具有站点ID和特定列车到达时间的实时运行数据。

2.本文只拥有来自单个站点的数据。整个列车线路或整个地铁网络的数据缺失。

3.只有最近时间间隔内的历史乘客流量观测数据可供使用。

因此，本文旨在构建一个基于深度学习技术的纯数据驱动的MLA，以克服地铁流量预测中上述挑战。在提出的基于深度学习的架构中，本文考虑了多个可扩展组件，用于模拟短期地铁乘客流量预测中的外部环境因素、时间依赖性、空间特征和地铁运营属性。

模型架构

基于LSTM，本文提出了一种端到端的深度学习架构（如下图所示），可以合理地处理地铁乘客流量预测问题的输入特征。许多传统的机器学习系统由多个独立的模块组成。这些模块的训练通常是单独进行的，具有单独的目标函数。目标函数可能并不总是与系统的整体性能指标一致。因此，训练后网络的性能未必最优。端到端的目的是集成个体模块，这也是本文模型的重点。该架构包括多个可扩展组件，分别用于建模外部环境因素、时间依赖性、空间特征和地铁运营属性。

基于深度学习的客流架构

需要注意的是，神经网络架构可以是层特定的，即不同层可以采用不同的神经网络模型，例如LSTM和卷积神经网络的混合。在这里，本文使用了模块化设计，定义了一个包含多个LSTM层的LSTM模块来处理数据中的时间依赖性。当设计具有多源输入数据的深度学习架构时，为每种类型的数据设计了一个包含多层网络的单独模块，这些模块并行执行。对于每个模块，隐藏层是按顺序排列的。

1.外部因素

乘客流量可能受到各种外部因素的影响，如天气和节假日。为了分析这些因素的影响，对不同情况下的乘客流量进行了彻底的比较。研究获取的降水数据记录了降水等级。如下图(a)和(b)所示，与普通日相比，节假日和周末对乘客流量有明显影响。例如，如果星期一下大雨，那么本文将与前一个星期一的数据进行比较，以确保它们具有相同的特征。然而，在考虑整个地铁网络的流量时，天气（大雨）对流量的影响微乎其微，如下图(c)所示。然而，在某些站点上，与后几周的同一天相比，它会显着减少乘客流量，如下图(d)所示。需要注意的是，数据集中只有少数几天记录了大雨。图(c)和(d)显示了对比观察之一。

进站客流量

本文注意到，在分析乘客流量时，星期几和一天中的时间特征对预测的准确性有重要影响，因此应该考虑。例如，许多研究人员发现仅使用以前时间间隔的流量，即来预测xt。假设有两个样本和，即使它们的以前的交通量相同，xt1和xt2之间存在很大差异，例如，xt1在高峰时段，而xt2不在。这意味着即使特征相同，标签已经改变，因此，忽略星期几和一天中时间等特征可能是降低预测准确性的可能原因。如果模型的性能通过包括这些特征而未得到改善，这并不意味着它们不重要，而是需要进一步分析。需要进一步研究确定特定特征的适用条件以及如何改进训练以获得更好的结果。

在实际应用场景中，有许多特征不是连续数值变量，而是离散类别。一种常见的编码分类特征的方法是独热编码。例如，假设“5”表示星期五，一整个星期，其独热表示将是（0，0，0，0，1，0，0）。在独热表示中，每天都是独立的维度。然而，这与实际情况不一致（例如，工作日可能相似）。此外，当类别数目很多时，独热编码对于高维度特征来说太稀疏了。此外，深度学习模型对高度稀疏的维度特征效果不佳。

嵌入技术用于解决与独热编码相关的问题。嵌入技术是一种广泛用于自然语言处理的常见方法，可以将分类值映射为密集向量。嵌入可以表示为一个映射：因此，具有高维独热表示的分类值可以有效地输入模型并进行处理。通过嵌入方法，在上述情况下，星期五可以以（0.3，0.1）的形式表示。假设星期四的乘客流量与星期五相似；那么它们的表示也是相似的（通过神经网络学习）。在本文的模型中，本文使用此技术来查找不同天和小时之间的相似性。如下图所示，本文使用了三个嵌入层来嵌入特征，即一周的星期几、一天的时间和降水等级。然后，一个连接层将它们的输出连接在一起。第t个时间间隔的这个组件的连接输出表示为 Et。

外部环境因素组成示意图

2.时间依赖性

显然，当前时间间隔的流量与最近时间间隔的流量相比与远处的流量更相似。现有的研究通常使用最近时间间隔的流量来进行预测。时间依赖性表示为，其中c是依赖时间戳的数量。除了最近时间间隔的流量，本文还进一步考虑了建议模型的每日周期性和每周趋势。时间序列有两个关键特征，即（1）循环和（2）趋势。交通/乘客流量数据通常具有明显的周期模式，例如，一天内特定时间间隔的地铁乘客流量可能与前一天相似，意味着24小时的循环。另一个循环的含义可以在地铁通勤乘客的情况下观察到。地铁乘客流量数据相当合理地反映了乘客的固定行为模式。这是在考虑时间循环和趋势特征时提高预测准确性的原因之一。类似地，在道路网络的情况下，城市地区出租车的供求和城市道路的交通流量具有相似的时间特征（即循环和趋势）。因此，本文应用了每日周期性特征到本文的乘客流量预测模型中。本文将时间段用来描述上述每日周期性，它定义为，其中n是时间段部分中依赖时间戳的数量（即使用n天的数据），而d是固定的时间段（例如，一天的时间段，xt d表示前一天相同时间间隔的乘客流量）。在这里，趋势部分用于描述每周趋势，它定义为，其中m是趋势部分中依赖时间戳的数量，w是固定的趋势跨度（例如，一周的趋势跨度，xt w表示前一周相同时间间隔的乘客流量）。对于每个时间属性（即相邻时间间隔的乘客流量、每日周期性和每周趋势），本文堆叠了3个LSTM层，使模型能够学习更高级的时间表示。在这个组件中，本文使用上面定义的Nt、Dt和Lt来表示这三个时间属性。

3.空间特性

空间特征的提取可以分为两类，即手动特征设计和通过卷积神经网络进行自动提取。手动特征设计需要高水平的经验和领域知识，并且仍然可以应用于缺乏网格结构的数据。

卷积神经网络适用于具有网格结构的数据，例如可以分别转换为二维和一维网格的图像和音频。对于单一的地铁线路或道路，可以视为一维网格。因此，我们可以使用一维卷积神经网络自动提取空间特征，无需复杂的特征工程。在使用二维卷积神经网络时，通常通过将网络划分为网格来进行空间特征提取。如下图(a)所示，区域Z1的流入受到附近地区（例如Z2和Z3）以及远处地区（例如Z4）的流出影响。然后，可以根据网格来预测基于位置的数据（例如出租车服务数据和共享自行车服务数据）的流入和流出。从理论上讲，上述空间特征可以通过卷积神经网络更好地捕捉，如下图(b)所示。

空间特征示意图

上述方法（将网络划分为网格）不适用于地铁系统。这是因为在道路网络交通的情况下（私家车、出租车、自行车等），相邻的网格在地理上是相互连接的，因此流动具有相互作用。但是，对于地铁系统，相邻车站可能不直接连接（两个车站完全位于不同的地铁线上）。在本研究中，我们关注整个地铁网络，无法直接表示为网格状结构。因此，根据我们对轨道交通的领域知识，我们设计了一种手动设计高级特征以克服这个问题的方法。为了捕捉地铁站的空间特征，可以基于流量守恒原则构建新特征，即流出始终可以抵消流入。在此，平均旅行时间代替地理距离作为测量车站之间旅行阻力的指标。为了说明我们的方法，我们以一个简单的案例来阐述。假设列车在单向城市轨道线上运行，有M个车站，如下图所示。车站按顺序编号为1、2、...、M。

单向地铁路线的示意图

让表示乘客在车站u上车j次并前往车站v（流入）的乘客数量，表示在车站v下车j次的乘客数量（流出）。流入和流出守恒如下：

这里，K是在运营时间段内从起始站出发的列车总数。在时刻的将影响时刻的。例如，一旦增加，的相应时刻的将必然增加。让表示u和v之间的旅行时间：

乘客流量还受到车站拥挤度（欠饱和或过饱和条件）的影响。对于欠饱和条件，站台上所有等待的乘客都可以上车。对于过饱和条件，只有提前到达的乘客才能上车。

然而，在实践中，很难获得中的值。这是因为基于IC卡数据，我们只能知道乘客到达车站的时间，但无法确定他们上车列车的确切时间。因此，很难确定乘客的车内旅行时间，他们搭乘的列车以及每列车的乘客总数。请注意，对于乘客流量预测，使用乘客的目的地站作为特征是不合适的，因为这是未知的未来信息。

根据乘客流量守恒，本文提供以下方法来克服IC卡数据的不足：

第1步：对于任何目的地站v，我们对一整天的OD数据进行排序，并仅选择具有最大流入乘客流量的k个出发站，因为地铁网络相当庞大，某些站点的流入乘客流量相对较低。

第2步：计算车站v与之间的平均旅行时间。在这里，旅行时间是指出站时间减去入站时间。

平均旅行时间Tuvi可以如下计算：

其中是乘客i进入车站的时间，是乘客离开车站v的时间。这里的时间是指原始数据中以分钟为精度的时间戳，用于计算平均旅行时间。n是从车站到v的乘客数量。

第3步：在预测车站v的第m个时间间隔的出站乘客流量时，我们需要弄清楚车站的哪个时间间隔的入站乘客流量会直接影响它。根据平均旅行时间，可以获得车站u的这些时间间隔，如下所示：

其中T表示向上取整（向下取整）操作。

第4步：获取车站的的时间间隔的入站乘客流量数据。

与大多数现有研究只使用最近时间内的乘客流量来预测不同，考虑流入和流出守恒可以增强模型的预测能力。在一定时间段内（即滞后时间），上游站点流入的波动将影响下游站点的出站流量。我们方法的关键是通过相对贡献找到车站之间的关系，并使用平均旅行时间来估计滞后时间。可以由多个全连接层组成，也称为多层前馈神经网络，也称为多层感知器（MLP）。由于前馈神经网络在非线性问题上表现出优越的性能，因此对于此组件中的非时间序列特征，我们采用了全连接层。

4.地铁运营特点

地铁运营具有各种独特的特点，例如，与公交车相比，列车按更加精确的时间表运行。因此，在短时间间隔内的出站客流预测准确性将受到时间表的限制。例如，在早上8:01至8:10之间有3列火车到达一个车站，而在早上8:11至8:20之间有4列火车到达。图8显示了从早上8:00到9:00的出站客流情况（以1分钟为间隔汇总），其中客流高峰表示火车到达。

相关进站流示意图

可以通过热力图进行可视化解释，如下图所示。

出站客流的热力图（1分钟时间间隔，7点到20点）

水平轴表示每小时的60分钟，垂直轴表示地铁运营时间从早上7:00到晚上20:00。每个网格表示整天以1分钟为间隔汇总的出站客流。颜色较深的网格意味着出站客流较大（值在行方向上进行了缩放）。当火车到达时，乘客将开始下车，导致出站客流的脉冲。由于火车通常按照时间表运行，脉冲将呈现出规律性模式，被称为强烈的脉冲模式。热力图用于说明这种模式。本文可以观察到，出站客流的分布呈现出强烈的脉冲模式。

数据可视化有助于说明出站客流的时间模式，并详细展示出站客流模式之间的关系。在预测地铁出站客流时，必须充分考虑地铁系统的运营特点。

公交车到站时间受到各种因素的影响，如交通拥堵、信号定时等。然而，地铁不受这些因素的影响，火车按更加精确的时间表运行。但仍然存在一些问题，如下所列：

（1）地铁网络是一个庞大而复杂的系统。运营商不断优化某些线路、某些部分和某些时间段的运营图，例如，减少行车间隔以增加列车数量。

（2）在假期期间，临时增加列车数量。

（3）即使本文有火车j的精确到站时间，不同年龄组的乘客步行速度不同，不同时间的站台拥挤程度也不同，因此，由火车j带来的出站客流高峰会比火车的到站时间晚一些。

所有这些因素都表明，无法准确计算相应的滞后时间。例如，如下图所示，火车j的到站时间为t2，而相应的出站客流高峰出现在t1；然而，滞后时间t = t1 - t2无法准确计算。

1分钟时间间隔的出站客流量

因此，本文应该考虑由火车到站带来的出站客流高峰的时间，而不是时间表本身。因此，本文计算出所有局部最大值（峰值）的时间，而不是使用近似的火车到站时间。这有两个优点：首先，无需获取每个最新的详细时间表和调整。因为它完全是数据驱动的，最新的时间表可以从数据本身中学习到（解决了问题1和2）。其次，考虑了火车到站时间，该时间反映了出站客流的局部最大值的时间间隔、乘客行为和拥挤引起的滞后时间（解决了问题3）。

本文使用Mt来表示每个时间间隔t的出站客流高峰，其中mp = 1表示该时间间隔p的分钟存在出站客流高峰。mqp = 0表示相应时刻没有高峰。

5.融合

在本节中，本文描述了如何将上述组件组合以构建整体框架。对于不同的应用场景，本文可以选择不同的模块组合。然后，所选组件通过一个连接层融合，并附加一个全连接层，后跟一个单神经元输出层。连接层将不同的模块输出作为输入，然后将它们连接成一个单一的向量。单个神经元最终输出预测的出站客流，如下图所示。

融合组件示意图

6.训练算法

本文首先从原始数据构建训练样本。然后，使用反向传播和自适应矩估计（Adam）方法训练模型。培训过程总结如下：

训练算法

实验结果

从南京地铁系统收集的数据被用作验证提出的基于深度学习的架构的案例研究。该数据包括2016年3月18日至4月30日和8月1日至11月9日的工作日记录。地铁运营时间为上午6:00至晚上10:00。在构建最终数据集之前，已删除异常数据，其中包含103天（29664个样本）的记录。本文选择了最后的33个工作日作为测试集，而其余的样本作为训练集。在案例研究中用于预测乘客流的时间间隔为10分钟。需要注意的是，如果选择的时间间隔太小，预测就会缺乏准确性和显著性。此外，短时间间隔下的流量通常很微小（甚至为零），这对于预测方法来说是相当棘手的。本文使用最小-最大归一化方法来将乘客流数据缩放到[-1,1]范围内，用于训练集和测试集。在评估过程中，归一化的预测值会被重新缩放并与实际观测值进行比较。

提出的模型的性能与三个基准模型进行比较，如下所示；

1.历史数据：本文使用最近的历史观察结果作为基准，例如，当本文预测从星期一到星期五的乘客流时，前一周的乘客流被设置为预测结果。

2.ARIMA：ARIMA是一类用于时间序列预测的统计模型。本文采用了滚动预测的ARIMA模型进行性能比较。ARIMA模型的参数选择很关键，包括p（AR项）、d（差分阶数）和q（MA项）。在研究中选择的ARIMA参数分别为7、1和1。最佳参数可以通过网格搜索获得。

3.FNN：前馈神经网络可以捕捉不同变量之间的复杂非线性关系。

研究中使用的性能指标包括对称平均绝对百分比误差（SMAPE）、均方根误差（RMSE）、平均绝对误差（MAE）和平均相对误差（MRE）。

如前所述，某些模块已经具备了适用于不同应用场景的灵活性。然而，这些模块在某种程度上是相互依赖的。研究中提出的模型有多个变种，包括DL-N、DL-NC、DL-NCT等，它们利用了架构的不同组成部分。

DL-N表示该模型是基于深度学习的，利用了最近时间间隔内的乘客流的时间特征比远距离时间间隔的更相似（即架构中的最近部分）。DL-N是预测任务的基础，因为除了个别应用外，其他模块也依赖于DL-N。例如，DL-NC表示每日循环被纳入模型中，而DL-NCT模型还考虑了长期趋势。同样，DL-NCTE表示外部环境因素被添加到模型中。DL-NS表示扩展了DL-N模型，进一步捕捉了空间特征。DL-NM表示DL-N模型在预测出站乘客流时考虑了地铁运营的特点。

此外，还提出了一个模块化框架，包括三个基本模块设置，即模块DL-N、DL-C和DL-T。所有模块都包含三层LSTM，节点数分别为32、32和16。模块DL-S、DL-M和FNN-N包含三层全连接层，节点数分别为32、32和16。模块DL-E使用嵌入层和扁平化层。基本模块的输出首先合并（例如，DL-N和其他模块的组合）。最后，添加了两个节点数为16和1的全连接层。

在本研究中，在全连接层中使用了修正线性单元，而在LSTM层的门上使用了Sigmoid激活函数。细胞输入和输出的激活函数是tanh。此外，由于流量预测是一个回归问题，在最后一层中使用了线性激活函数。为了监测网络的内部状态和统计信息，定义了回调函数，这是一组在训练过程的给定阶段应用的函数。EarlyStopping被设置为在目标函数停止改进时终止训练。此外，可以通过用户定义的回调函数在每个时期结束时显示验证集的各种统计信息。

在本研究中，选择了3个代表性站点，分别是：1. 转乘站，2. 常规站，3. 乘客流量较低的常规站。使用SMAPE、RMSE、MAE和MRE对提出的基于深度学习的预测架构进行评估。结果列在下表中。

表1到表4

根据SMAPE、RMSE、MAE和MRE，测试了不同变体模型，并与基线结果进行比较，以确定模型的预测准确性。从表1和表2中，本文可以观察到，只考虑最近时间间隔的乘客流导致了较低的预测准确性，因为转乘站、常规站1和常规站2的DL-N模型的SMAPE分别为16.68%、18.07%和26.83%。DL-N模型的RMSE分别为65.38、37.90和10.64。关于这三个站点的DL-N模型的MAE和MRE也有类似的结果。当每日周期性特征纳入模型时，准确性显著提高，因为转乘站、常规站1和常规站2的DL-NC模型的SMAPE分别为14.48%、16.34%和24.78%，相比DL-N模型更好。

当将每周趋势特征纳入模型中时，SMAPE进一步改善，即从14.48％、16.34％和24.78％分别改善为13.61％、14.81％和22.42％。RMSE、MAE和MRE也发现有所改善。然而，应注意，所有交通时间序列数据都没有固定的模式或周期（例如，1天的周期）。由于地铁用户主要是通勤乘客，地铁客流数据相对合理地反映了乘客的固定行为模式。例如，今天在某个时间段内的客流变化与前一天的类似。这是考虑时间周期特征和时间趋势特征时结果改善的主要原因。同样，城市地区的出租车供需和城市道路上的交通流量也具有相同的特点（即周期和趋势）。交通流被视为非线性系统，因为它经常在自由流、拥堵、故障和恢复之间变化。为了有效地预测乘客流量的突然波动，本文从乘客流量保守的角度捕捉这些变化。从表1中可以看出，DL-NS模型的SMAPE在中转站、普通站1和普通站2方面的性能从DL-N的16.68％、18.07％和26.83％分别降低到16.58％、16.91％和25.43％。

同样，DL-NS模型的RMSE、MAE和MRE在中转站、普通站1和普通站2方面也相对于DL-N显示出显著的降低。此外，随着发生更多此类异常情况，包含这些特征的结果将越好。

地铁运营具有各种独特的特点，例如，列车按更加精确的时间表运行。在本文中，本文提出了一种完全数据驱动的方法，考虑到到站时间、乘客行为和拥堵引起的滞后时间。与DL-N模型相比，DL-NM模型的SMAPE、RMSE、MAE和MRE的性能指标均显著降低。例如，DL-NM模型对三个站点的SMAPE从DL-N的16.68％、18.07％和26.83％分别降低到16.45％、17.50％和26.07％。

基于网络性能的实时评估，地铁运营商不断优化某些线路、某些部分和某些时间段的运营图。当火车的时间表发生变化时，考虑此特征将产生更好的结果。此外，考虑到诸如一周中的日期或一天中的时间等身份特征，发现SMAPE分别降低到12.91％、14.59％和22.31％。其他三个指标也在一定程度上降低。值得注意的是，上表中显示的最佳结果是通过考虑所有可能的特征的组合模型实现的。最佳模型的性能指标值分别为12.85％、14.49％和22.12％（SMAPE）；48.31、28.29和8.19（RMSE）；31.19、18.06和5.59（MAE）；12.73％、15.24％和21.71％（MRE）。这些结果表明，需要考虑各种组件以获得优化的预测结果。

对于进站乘客流的预测，与出站流相比，仅有少量有用信息可用。与出站流结果（表1和表2）类似，将每日周期和趋势分量纳入模型中会提高预测性能。

该实验表明，所提出的模型在预测乘客流方面表现良好。在后续讨论中，本文将扩展模型以适应实际情况中的各种约束条件。

DL-N是基本模型，测试集对数据量要求较少。DL-C模块适用于具有明显周期模式的数据，例如地铁/公交客流、出租车供需、城市交通流量等。由于存在大量的通勤乘客，这些数据显示出明显的周期性。然而，测试集仅需要几天的数据，否则模块将无法使用。例如，在实际预测中，由于业务需求，本文可能只使用前一个小时的数据来预测所需的时间间隔。DL-T适用于具有上升或下降趋势的数据。同样，测试数据需要几周的时间跨度。DL-E可以提高数据分布不变的情况下的预测准确性。数据分布变化的原因有很多，例如，如果地铁线路的第一辆车的运营时间推迟了30分钟，相应时间的高峰也会发生变化。如果培训集和测试集中的第一辆车的时间不同，那么数据的分布明显会有所不同。在这种情况下，将星期几和一天中的时间纳入模型是无效的。

以上四个模块适用于进站和出站乘客流。如果流量数据缺乏周期和趋势，测试集的数据时间跨度太短，或数据分布发生变化，那么可能无法使用提高模型准确性的上述组件，而仅使用基本模块可能会无效。在这种情况下，在预测出站客流时，本文可以考虑尝试DL-S和DL-M组件以提高预测。在未来的研究中，本文计划为进站乘客流纳入相应的模块，以处理上述情况。DL-S模块不需要数据时间跨度，但需要整个网络的数据，该模块可以有效地预测乘客流的突然上升或下降。此外，火车时刻表经常发生变化，难以获取精确的更新时刻表数据。DL-M是基于原始细粒度乘客流数据的数据驱动模块，这是一种更实际和可靠的方法。

结论

本文提出了一种基于深度学习的架构，将交通建模中的领域知识整合在一起。首先，分析了在交通时间序列预测中，循环神经网络相对于前馈神经网络具有卓越性能的因素的理论方面。然后，分析了三个时间属性的影响，以促进一般应用场景。地铁网络具有独特的拓扑结构。因此，本文使用平均行驶时间来代替地理距离，并通过流入和流出守恒构建特征，以捕捉站点之间的空间特性。由于城市轨道交通时刻表的重要性，本文提出了一种完全数据驱动的方法，考虑了火车到站时间、乘客行为和拥堵引起的滞后时间。

对于流量预测问题，经典的交通模型与机器学习中的特征工程之间存在许多相似之处。因此，可以使用来自现有交通模型的领域知识来设计高级特征。这个想法的基础是实验证明了当每日周期性特征和每周趋势特征纳入模型中时，准确性可以得到提高，表明通勤者具有固定的行为模式。作为一种数据驱动的方法，进一步研究了数据的内生特性。与基本模型相比，当考虑到用于时刻表的定制设计特征时，所有度量都会下降。基于流量守恒原理，设计了高级特征，并观察到与基本模型相比误差减小。这个受控的实验验证了可以将领域知识与机器学习相结合，以获得重要的输入特征。

这项研究是探索使用新一代技术进行短期地铁客流预测的初步步骤。作为未来的工作，值得进一步研究特定特征有效性的根本原因，并使机器学习更好地理解特性，而不是将算法完全视为黑盒子。为了更好地利用多源数据并研究不同数据之间的因果关系，有必要从时间域和频率域的角度结合交通和数字信号处理理论，以消除其对结果的影响。

Attention

欢迎关注微信公众号《当交通遇上机器学习》！如果你和我一样是轨道交通、道路交通、城市规划相关领域的，也可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！

基于深度学习的地铁客流预测架构

猜你喜欢