【论文笔记】Deep Multi-View Spatial-Temporal Network for Taxi Demand Prediction

https://arxiv.org/pdf/1802.08714
本文的目的是出租车需求预测，特点在于结合了时间、空间、语义三方面的信息，深度学习模型

前言

简单来说，本文综合了时间、空间、语义三个方面预测需求量。

空间：local CNN，强调了邻近空间相似，较远的位置参与训练之间会有负作用
时间：使用比较传统LSTM来做
语义：使用“区域图”的边来表达区域对间需求模式的相似性，用graph embedding的方法作为环境特征参与训练

本文贡献

提出了一种综合多视角的模型，综合考虑空间、时间、语义关系
提出局部CNN模型，用于捕捉邻近区域间的局部特征
使用基于需求相似性的区域图结果建模相似但不相邻的区域
用滴滴出行的大数据做实验

参数定义

不重叠的区域： $L=\{l_1,l_2,...,l_i,,l_N\}$
时间间隔： $\mathcal{L}=\{I_0,I_1,...,I_t,...,I_T\}$ ，每段30min
出租车请求：一个请求为 $o，(o.t,o.l,o.u)$ ，分别表示时间、位置、用户id，并用用户id过滤重复请求
需求：定义为在一个位置、每个时间点对出租车的需求量。 $y_t^i=|\{o:o.t\in I_t \wedge o.l \in l_i\}|$ 。其中 $|\cdot |$ 表示集合，后续 $t$ 表示 $I_t$ ， $i$ 表示 $l_i$
需求预测问题：已知到t时刻的数据，预测t+1时刻的需求量

y_{t + 1}^{i} = F (Y_{t - h, . . ., t}^{L}, ε_{t - h, . . ., t}^{L})

$y_{t+1}^i=\mathcal{F}(\mathcal{Y}_{t-h,...,t}^L,\mathcal{\varepsilon}_{t-h,...,t}^L)$

e_{t}^{i} \in R^{r}

$e_t^i\in\mathbb{R}^r$ 表示位置i在时间t的特征向量，r是特征个数

Y_{t - h, . . ., t}^{L}

$\mathcal{Y}_{t-h,...,t}^L$ 表示历史的需求

ε_{t - h, . . ., t}^{L}

$\mathcal{\varepsilon}_{t-h,...,t}^L$ 表示所有位置L，在时间段[t-h,t]之间的环境特征

F (\cdot)

$\mathcal{F}(\cdot)$ 是预测函数，捕捉信息

DMVST-Net框架

Deep Multi-View Spatial-Temporal Network

空间视角：局部CNN

首先说明：图像范围太大的话，包含了弱相关区域，会有负效果；根据地理学第一定律，只取邻近区域作为空间表示。
取S*S大小图像表示空间特征，则维度为S*S*1，卷积过程为

Y_{t}^{i, k} = f (Y_{t}^{i, k - 1} * W_{t}^{k} + b_{t}^{k})

$Y_t^{i,k}=f(Y_t^{i,k-1}*W_t^k+b_t^k)$
为激活函数添加约束

f (z) = m a x (0, z)

$f(z)=max(0,z)$
K层卷积之后

Y_{t}^{i, K} \in R^{S \times S \times λ}

$Y_t^{i,K}\in \mathcal{R}^{S\times S\times\lambda}$ ，添加flatten层再全连接降维得到空间表示

{\hat{s}}_{t}^{i} = f (W_{t}^{f c} s_{t}^{f c} + b_{t}^{f c})

$\hat{s}_t^i=f(W_t^{fc}s_t^{fc}+b_t^{fc})$

时间视角：LSTM

一堆很复杂的描述，看不懂，大概意思就是把上述不同时序CNN出来的结果混上天气等特征一起时序LSTM

语义视角：结构嵌入

核心：相似的区域不一定相邻
定义一个位置图结构 $G=(V,E,D)$ ，每个位置作为结点，结点之间两两成边全连接，D是相似性， $V=L,E\in V\times V$ ，D由DTW加衰减计算得到，公式：

w_{i j} = e x p (- α D T W (i, j))

$w_{ij}=exp(-\alpha DTW(i,j))$
用周平均的小时需求序列作为需求模式。另外，用graph embedding的方法(LINE)为每个结点构建一个嵌入向量

m^{i}

$m^i$ ，再加入全连接层

{\hat{m}}^{i} = f (W_{f e} m^{i} + b_{f e})

$\hat{m}^i=f(W_{fe}m^i+b_{fe})$

损失函数

L (θ) = \sum_{i = 1}^{N} ((y_{t + 1}^{i} - {\hat{y}}_{t + 1}^{i})^{2} + γ (\frac{y_{t + 1}^{i} - {\hat{y}}_{t + 1}^{i}}{y_{t + 1}^{i}})^{2})

$\mathcal{L}(\theta)=\sum^{N}_{i=1} ( (y^i_{t+1}-\hat{y}_{t+1}^i)^2 +\gamma(\frac{y^i_{t+1}-\hat{y}_{t+1}^i}{y^i_{t+1}})^2)$
mean square error更倾向于较大数值的预测，为了解决这个问题，加入了“最小化mean absolute percentage loss

实验

2017年2月1日—2017年3月19日训练，3月20日—3月26日预测，取半小时/一小时时间间隔，预测时取前8小时数据预测后续几个时间片的数据

算法对比：

Historical average
ARIMA
LR
MLP
XGBoost
ST-ResNet

组合对比

Temporal view
Temporal view+Semantic view
Temporal view+Spatial(Neighbors) view
Temporal view+Spatial(LCNN) view
DMVST-Net

非常重要的一张图

这里写图片描述

就这上面概述的理解。a是空间，b是时间，c是语义。
空间部分，取邻域的需求情况用LCNN的方式“提特征”、“embedding”
时间部分，将每个时间片的空间特征和天气等其他特征LSTM，构成时空的Embedding
语义特征，表达不同空间区域的需求变化趋势一致性，进行graph embedding，得到空间不相邻的语义相似性
最后，基于上述三个部分给出的embedding向量，全连接输出

这里写图片描述