论文翻译:GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction(行人轨迹预测2020)

GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction

GraphTCN:用于人类轨迹预测的时空交互建模

作者:Chengxin Wang, Shaofeng Cai, and Gary Tan
论文地址:arXiv:2003.07167v3 [cs.CV]
发表时间:26 Mar 2020
备注:这篇文章作者还在不断修改,所以末尾内容仍是第一版的数据
论文解析
代码开源
代码解析

摘要

准确,及时地预测业务代表邻居的未来路径,对于避免冲突的自主应用至关重要。
常规方法,例如基于LSTM的模型,在预测中要花费相当大的计算成本,特别是对于长序列预测。
为了支持更有效和准确的轨迹预测,我们提出了一种基于CNN的新型时空图框架GraphTCN,该框架将空间相互作用建模为社交图,并使用经过改进的时间卷积网络捕获时空相互作用。
与传统模型相比,我们模型的空间和时间建模都是在每个本地时间窗口内计算的。
因此,它可以并行执行以实现更高的效率,同时其精度可与最佳方法相媲美。
实验结果证实,与各种轨迹预测基准数据集上的最新模型相比,我们的模型在效率和准确性上均达到了更好的性能。

1 引言

轨迹预测是自主应用程序的一项基本任务,如自主车辆、社交顺从机器人、模拟器中的代理,以便在共享环境中导航。
为了对环境作出及时和准确的反应,agent能够有效和准确地预测其邻居的未来路径是非常必要的。
虽然最近的研究[24,32,19]在建模复杂的社会互动之间的代理产生准确的未来路径方面取得了很大的进步,但轨迹预测仍然是一项具有挑战性的任务,其中预测模型在现实应用中的部署大多受到其高计算成本的限制。例如,某些小型机器人仅配备了有限的计算设备,无法承受现有解决方案的高推理成本。

特别地,轨迹预测通常在两个维度上建模,即时间维度和空间维度。时间维度为每个agent建模了历史运动动态。大多数最新技术[1,14,24,19]都专注于递归神经网络(RNN),例如长短期记忆(LSTM)[17]网络,以捕获此类序列动态因为RNN是专为序列建模而设计的。但是,**基于RNN的模型受到以下两个限制。
首先,在有效性方面,训练RNN模型由于梯度消失和爆炸问题而难以处理[28],尽管从理论上讲RNN在顺序数据建模中更具表现力,但实际上在很大程度上缺乏这种表现力[3]。 正如最近的发现所支持的那样,前馈网络(例如卷积神经网络(CNN))实际上可以在基准序列预测任务(例如语言建模[6]和机器翻译[10])上与RNN相媲美甚至更好。
其次,就效率而言,与前馈模型相比,RNN模型的训练和推理速度都非常慢。这是由于RNN的每个隐藏状态都依赖于先前的输入和隐藏状态这一事实。因此,RNN的预测是顺序生成的,因此无法并行化。

空间
空间维度模拟了agent与其邻居之间的相互作用。已经提出了三种捕获空间交互的方法,包括基于池的(pooling-based)[1,14],基于距离的[24]和基于注意力的(attention-based)[32,9,39,19]。基于池的方法采用基于网格的池[1]或对称函数[14]来汇总邻居的隐藏状态,而基于距离的方法则使用LSTM编码器对代理之间的几何关系进行编码。基于注意力的方法改为使用软注意力动态地产生邻居的重要性,这在建模复杂的社会互动中更为有效。但是,与基于池的方法和基于距离的方法相比,现有的基于注意力的方法过度依赖注意力,并且忽略了代理之间的几何距离。

为了解决上述在有效性和效率上的局限性,我们提出了一种基于CNN的新型时空图网络(STGNN),即GraphTCN,以捕获时空相互作用以进行轨迹预测。

时间
时间维度上,与基于RNN的方法相比,我们采用了**改进的门控卷积网络(TCN)**来捕获每个代理的时间动态。CNN引入门控式高速公路机制通过关注更显着的特征来动态地调节信息流,而CNN的前馈特性使其在训练中更易于处理,并且可并行化,从而在训练和推理上都具有更高的效率。
在空间维度上,我们为每个时刻提出了一个边缘图注意力神经网络(EGAT),以更好地捕获代理之间的空间交互作用。

图中的节点表示代理(agent),两个代理之间的边表示它们的几何关系。 EGAT然后自适应地学习图的邻接矩阵,即图的自适应空间交互作用。总之,GraphTCN的空间和时间模块支持对代理之间的每个时间步长内以及每个代理的整个时间步内交互进行更有效的建模。我们的主要贡献可以概括如下:

1.我们提出了一种边缘图注意力神经网络(EGAT),以利用自注意力机制更好地捕获空间相互作用
2.我们建议使用门控卷积网络(TCN)对时空相互作用进行建模,这被证明更加有效。
3.与最新方法相比,我们的时空框架实现了明显更好的性能。具体而言,我们将
平均位移误差降低了20.9%,将最终位移误差降低了31.3%
,并且与现有解决方案相比,可实现高达5.37倍wall-clock 的时间加速

我们将本文组织如下:
在第二部分,我们介绍了背景并详细讨论了相关工作。
我们的GraphTCN框架和实现细节将在第3节中介绍。
在第4节中,将以准确度和效率衡量的GraphTCN结果与最新方法进行比较。
第5节总结了论文。

2 相关工作

2.1 Human-Human Interactions(人-人互动)
人群交互模型的研究可以追溯到社会力量模型[16],该模型采用非线性耦合的Langevin方程来表示在拥挤的场景中人类运动的吸引力和排斥力。类似的手工方法已经尝试使用连续体动力学[37],离散选择框架[2],高斯过程[41],贝叶斯模型[42]来建模人群交互,并在人群模拟[18,31]、 人群行为检测[25]和轨迹预测[44]中被证明是成功的。

但是,这些方法仅基于心理或身体认识来对社会行为进行建模,仅靠心理或身体认识不足以捕获复杂的人群互动。最近的工作已经研究了深度学习技术,以捕获代理(agent)与邻居(neighbors)之间的交互。Social LSTM [1]引入了社交池层,以聚合代理本地社区内的社交隐藏状态。Social GAN [14]使用对称函数来总结人群的全局交互,这是通过仅将上下文合并一次而有效实现的。与这些基于池的方法不同,基于注意力的方法[32,39,9]通过软注意力来区分邻居的重要性。基于注意力的方案提供了更好的人群理解,因为它们在行人之间分配了自适应的重要性。与注意力方法类似,图注意力网络(GAT)通过与邻接矩阵自适应地聚集邻域特征来学习社会交互。近期作品STGAT[19]直接采用GAT对LSTM隐藏状态的捕捉,捕捉行人之间的空间互动;但它完全依赖于注意力,忽略了agent的距离特征。

为了更好地捕获距离特征,我们使用新颖的图神经网络EGAT对行人交互进行建模,该网络建议学习图的邻接矩阵。具体而言,距离特征用于为最显着的交互信息学习自适应邻接矩阵,然后将其集成到图卷积中。

2.2Sequence Prediction(序列预测)

序列预测是指利用历史序列信息预测未来序列的问题。序列预测主要有两种方法,即基于模式的方法和基于计划的方法
基于模式的方法总结序列的行为来生成序列,而基于计划的方法,如[21,22,30],通过学习概率分布来进行序列预测。最近,基于模式的方法已成为序列预测任务的主流,如速度识别[27,5,13]、活动识别[8,20]和自然语言处理[4,35,11]。具体来说,轨迹预测可以表示为序列预测任务,它利用agent的历史运动模式来生成序列中未来的路径。大多数轨迹预测方法采用递归神经网络(RNNs),例如长短期记忆(LSTM)网络[17],来捕捉序列中的时间运动,因为RNNs是为序列建模而设计的。然而,基于RNN的模型在训练过程中会遇到梯度消失和爆炸的问题,在预测过程中会过于关注最近的输入,尤其是对于长输入序列。

为了克服这些问题,许多序列预测工作[27,43]改为采用卷积神经网络(CNN),并取得了巨大的成功。卷积网络可以更好地捕获长期依赖性并大大提高预测效率。基于CNN的方法的优越性可以很大程度上归因于卷积运算,该运算独立于先前的时间步长,因此可以并行处理。最近的工作[26]提出了一个紧凑的CNN模型来捕获时间信息,并提出一个MLP层来同时生成未来序列。他们的结果证实,基于CNN的模型可以在轨迹预测中产生竞争性能。但是,它无法对行人之间的空间互动进行建模。

在这项工作中,我们建议捕获与EGAT的空间交互,并引入门控卷积网络以捕获每个行人的时间动态。具体来说,我们的CNN采用高速公路网络架构[34]来动态调节信息流,并跳过连接[15]以方便表征学习和训练。

2.3 Spatial-temporal Graph Networks for Trajectory Prediction(用于轨迹预测的时空图网络)

近年来,许多研究尝试将时空图神经网络(STGNN)用于序列预测任务,例如动作识别[45,33],出租车需求预测[47]和交通预测[46]。具体地,该序列可以被表述为节点和边缘的图的序列,其中节点对应于主体,边缘对应于它们的相互作用。因此,可以使用时空图网络对序列进行有效建模。

在轨迹预测中,可以在两个维度上对预测任务进行建模,即空间维度和时间维度。
具体而言,空间维度对主体及其邻居之间的交互进行建模,而时间维度对每个主体的历史轨迹进行建模
因此,在STGNN中,图中的每个节点代表一个场景中的一个行人,并且两个节点之间的每个边捕获了两个相应行人之间的交互。例如,social attention[39]用主体的位置对每个节点进行建模,并用行人之间的距离对边缘进行建模,其中空间关系用注意力模块进行建模,然后用RNN进行时间建模。同样,[40]根据位置,用Edge RNN和Node RNN构造STGNN。 STGAT [19]使用GAT通过为邻居分配不同的重要性来捕获空间交互,并采用额外的LSTM来捕获每个代理的时间信息。这些方法的主要局限性是难以捕获沿时间维度的空间交互作用。值得注意的是,代理商的未来之路不仅取决于当前位置,还取决于其邻居。但是,在使用基于RNN的模型沿时间维度聚合节点特征期间,此类空间交互的细节可能会丢失。

3 GraphTCN

轨迹预测的目标是共同预测场景中存在的所有代理的未来路径。
代理的未来路径取决于其历史轨迹,即时间相互作用
还受邻近代理的轨迹,即空间相互作用的影响。
因此,在为预测建模时空相互作用时,应该将轨迹预测模型考虑到这两个特征。

3.1. Problem Formulation

我们假设在场景中观察到的N个行人的Tobs(观察时间)的轨迹长。

单个行人的位置i∈{1,…, N}在时间步长t∈{1,…, Tobs}: X i t X_{i}^{t} Xit

行人Xi的观察位置: X i 1 : T o b s = X i 1 , X i 2 , … , X i T o b s X_{i}^{1: T_{o b s}}=X_{i}^{1}, X_{i}^{2}, \ldots, X_{i}^{T_{o b s}} Xi1:Tobs=Xi1,Xi2,,XiTobs
轨迹预测的目标是预测所有的未来位置: Y ^ i t ( t ∈ { T o b s + 1 , … , T pred  } ) \hat{Y}_{i}^{t}\left(t \in\left\{T_{o b s+1}, \ldots, T_{\text {pred }}\right\}\right) Y^it(t{ Tobs+1,,Tpred })

3.2. Overall Framework

在这里插入图片描述

图2:
(a)GraphTCN的概述:EFGAT基于历史轨迹嵌入,捕获每个时间步之间代理之间的空间交互。
TCN进一步捕获跨时间步长的时间交互。
解码器模块同时为所有代理生成多个社交可接受的轨迹。
(b)EFGAT通过图注意力层(GAL)和跳过连接来捕获空间显着信息。

如图2(a)所示:
GraphTCN包括三个关键模块:
1.边缘特征图关注度(EFGAT)模块
2.时间卷积(TCN)模块
3.解码器

首先,我们将每个行人的绝对位置和相对位置嵌入固定长度的隐藏空间中,并将这些轨迹特征输入到EFGAT模块中。

剩余的学习机制和跳过连接[13]被合并到网络中,以促进梯度反向传播并鼓励中间特征的重用。 TCN模块是具有门控激活单元[40]的前馈一维卷积网络,用于捕获最显着的特征。

最终,解码器模块产生所有行人的未来轨迹。在以下各节中,我们将详细介绍GraphTCN的每个模块。

3.2. EFGAT Module for Spatial Interaction(EFGAT空间互动模块)
图2(b)的EFGAT模块:用于对具有图注意力层图残差连接的行人之间的空间交互进行编码。
同一时间步长内的行人公式化为有向图 G = ( V t , E t ) \mathcal{G}=\left(\mathcal{V}^{t}, \mathcal{E}^{t}\right) G=(Vt,Et)
每个节点:对应第i个行人, v i t ∈ V t , i ∈ { 1 , … , N } v_{i}^{t} \in \mathcal{V}^{t}, i \in\{1, \ldots, N\} vitVt,i{ 1,,N}
加权边:表示行人i和j之间的人与人之间的相互作用, ( v i t , v j t ) ∈ E t \left(v_{i}^{t}, v_{j}^{t}\right) \in \mathcal{E}^{t} (vit,vjt)Et

g 的邻接矩阵:行人之间的空间关系, A t ∈ R N × N  of  G A^{t} \in \mathbb{R}^{N \times N} \text { of } \mathcal{G} AtRN×N of G
此任务中,将节点的空间关系表示为不对称,非负矩阵
因为行人之间的影响应基于它们的相对运动行为而有所不同。代替构造具有无向空间距离的图,我们引入相对空间位置作为邻接矩阵的先验边缘特征知识
A ^ i j t = ϕ s ( x i t − x j t , y i t − y j t ; W s ) \hat{A}_{i j}^{t}=\phi_{s}\left(x_{i}^{t}-x_{j}^{t}, y_{i}^{t}-y_{j}^{t} ; W_{s}\right) A^ijt=ϕs(xitxjt,yityjt;Ws)
φs(·):通过线性变换将相对距离特征嵌入到较高维度F1中
Wsis:嵌入权重

将边缘权重和节点特征输入图3,计算空间相互作用:

在这里插入图片描述
即通过自我关注机制动态地赋予邻居j对行人i的重要权重:
α i j t = exp ⁡ ( σ ( W 1 h ^ i t + W 2 h ^ j t + A ^ i j t ) ) ∑ k ∈ N i exp ⁡ ( σ ( W 1 h ^ i t + W 2 h ^ k t + A ^ i j t ) ) \alpha_{i j}^{t}=\frac{\exp \left(\sigma\left(\mathbf{W}_{1} \hat{h}_{i}^{t}+\mathbf{W}_{2} \hat{h}_{j}^{t}+\hat{A}_{i j}^{t}\right)\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(\sigma\left(\mathbf{W}_{1} \hat{h}_{i}^{t}+\mathbf{W}_{2} \hat{h}_{k}^{t}+\hat{A}_{i j}^{t}\right)\right)} αijt=kNiexp(σ(W1h^it+W2h^kt+A^ijt))exp(σ(W1h^it+W2h^jt+A^ijt))

h ^ i t ∈ R F 1 \hat{h}_{i}^{t} \in \mathbb{R}^{F_{1}} h^itRF1:行人i在时间步t的节点输入特征(即行人x,y坐标等)
F1:节点特征的维数,
Ni:图中节点i的邻居集,
σ(·):LeakyReLU激活,
W1,W2:可学习的权重

我们采用门控激活单元来动态调节信息流并选择显着特征:
g i t = g ( W h h ^ i t + b h ) ⊙ ( W h h ^ i t + b h ) g_{i}^{t}=g\left(\mathbf{W}_{h} \hat{h}_{i}^{t}+b_{h}\right) \odot\left(\mathbf{W}_{h} \hat{h}_{i}^{t}+b_{h}\right) git=g(Whh^it+bh)(Whh^it+bh)
g(·):tanh激活函数
Wh:仿射变换参数
bh:偏差
⚪:逐元素乘法,(可理解为乘法跳过连接,它有助于梯度流过图层[5])。

为了稳定自我注意过程[41,45],我们采用了多注意机制:
h i t = ∥ k = 1 K σ ( ∑ j ∈ N i α k i j t g j t ) + R ( h ^ i t ; W r ) h_{i}^{t}=\|_{k=1}^{K} \sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{k i j}^{t} g_{j}^{t}\right)+\mathbf{R}\left(\hat{h}_{i}^{t} ; \mathbf{W}_{\mathbf{r}}\right) hit=k=1KσjNiαkijtgjt+R(h^it;Wr)
Wr:可学习的参数
||:串联
K:关注头的数量。
R(·):图的残差项[40、41、45]

我们将提议的多头图注意层命名为GAL,可以将其堆叠多次以更好地建模空间关系(例如,图2(b)中的两倍)。
随后,我们可以获得h = {h1,h2,… ,hN}的最终节点表示
h i ∈ R T o b s × ( K ⋅ F 1 ) h_{i} \in \mathbb{R}^{T_{o b s} \times\left(K \cdot F_{1}\right)} hiRTobs×(KF1):捕获行人i与所有邻居在每个时间步长之间的聚合空间相互作用

EFGAT模块可以学习一个自适应邻接矩阵,该矩阵捕获不同行人的相对重要性。

3.3. TCN for Spatial and Temporal Interaction Modeling(TCN用于时空交互建模)

总结:
输入:EFGAT模块获得的空间嵌入方程8获得的时间上下文嵌入
输出:空间和时间的相互作用

行人的运动方式在很大程度上受历史轨迹邻近行人的运动方式影响。
因此,我们建议使用修改后的时间卷积网络(TCN)来捕获行人之间的时空交互,如图4所示。
在这里插入图片描述

图4(a):视为短期和长期编码器,其中较低的卷积层专注于本地短期交互,而在较高的层中,较大的捕获长期交互作用接受领域。

例如,如果TCNisk的内核大小,则第l层中的接收字段大小为 ( k − 1 ) ⋅ l + 1 (k-1) \cdot l+1 (k1)l+1,这会线性增加层。
因此,TCN的顶层捕获了较长时间范围内的交互。
由于输入的顺序在序列预测任务中很重要,因此我们对卷积采用大小为k − 1的左填充,而不是对称填充,其中每个卷积输出在相应时间步长和前一个k的输入上进行卷积− 1个时间步长。然后每个卷积的输出大小与输入相同。

在图4(b)中的TCN 的每一层中,门控激活单元利用两个非线性功能来动态调节信息流,形成为:
h ( l + 1 ) = g ( W g ( l ) ∗ h ( l ) ) ⊙ σ ( W f ( l ) ∗ h ( l ) ) \mathbf{h}^{(l+1)}=g\left(\mathbf{W}_{g}^{(l)} * \mathbf{h}^{(l)}\right) \odot \sigma\left(\mathbf{W}_{f}^{(l)} * \mathbf{h}^{(l)}\right) h(l+1)=g(Wg(l)h(l))σ(Wf(l)h(l))
h(0):是EFGAT模块的输出h
h(l)∈RN×Tobs×F2,Wg和Wf:可学习的一维卷积参数
σ(·):S型函数。

TCN模块的最终输出可以表示为 h → ∈ R N × T o b s × F ˉ 2 \overrightarrow{\mathbf{h}} \in \mathbb{R}^{N \times T_{o b_{s}} \times \bar{F}_{2}} h RN×Tobs×Fˉ2
这样,嵌入向量hi捕获了第i个行人及其邻居之间的所有时空交互。
我们注意到,TCN可以使用膨胀卷积处理更长的输入序列[40],这比基于RNN的方法更有效。

3.4. Future Trajectory Prediction(未来轨迹预测)

按照STGAT [17],解码器模块通过引入共享的随机噪声 : z ∈ R o b s ⊤ × F 3 : z \in \mathbb{R}^{\top}_{o b s} \times F_{3} :zRobs×F3
来产生多个社会可接受的轨迹,该噪声与时空嵌入h串联在一起,作为解码器输入的一部分。
具体地,解码器的输入可以被表示为 h ~ ∈ R N × T o b s × ( F 2 + F 3 ) \tilde{\mathbf{h}} \in \mathbb{R}^{N} \times T_{o b s} \times\left(F_{2}+F_{3}\right) h~RN×Tobs×(F2+F3)
我们采用规范的MLP层来生成相对未来位置 Δ Y ^ ∈ R N × T ˇ pred  × i \Delta \hat{Y} \in \mathbb{R}^{N \times \check{T}_{\text {pred }} \times i} ΔY^RN×Tˇpred ×i
并表示采用GraphTCN这样的MLP解码器的体系结构。
预测的相对位置ΔˆY是所有行人相对于原点的相对位置。
然后,我们将相对位置转换为绝对位置ˆY,并采用品种损失作为训练的损失函数,该函数计算出M条合理轨迹中的最小ADE损失:

在这里插入图片描述

我们进一步集成了在多模式预测中广泛采用的深度生成策略[36、19、26],以增强GraphTCN的解码器。
具体来说,在训练过程中,我们将→h与MLP层编码的地面未来轨迹连接,然后用MLP进一步编码这两个特征,以产生噪声分布的 z ^ = N ( μ , σ ) , z ^ ∈ R N × F 4 \hat{z}=\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\sigma}), \hat{\boldsymbol{z}} \in \mathbb{R}^{N \times F_{4}} z^=N(μ,σ),z^RN×F4
接着CVAE [36,26]。

在推断过程中,ˆ z是从分布N(0,I)中随机抽样的。对于最终的相对位置预测,我们再次将ˆ z与〜h连接起来,并将其馈入MLP层以产生∆ˆY。我们进一步引入KL散度正则化项[10,22]以稳定训练过程:

L = λ 1 L variety  + λ 2 D K L ( N ( μ , σ ) ∥ N ( 0 , I ) ) \mathcal{L}=\lambda_{1} \mathcal{L}_{\text {variety }}+\lambda_{2} D_{K L}(\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\sigma}) \| \mathcal{N}(\mathbf{0}, \mathbf{I})) L=λ1Lvariety +λ2DKL(N(μ,σ)N(0,I))

4 实验

遵循约定[1,14,39,24],我们在两个轨迹预测基准数据集ETH [29]和UCY [23]上评估GraphTCN,并使用最新方法比较GraphTCN的性能。

Datasets ETH和UCY数据集中的带注释的轨迹作为全局坐标提供。在这些数据集中,行人表现出复杂的行为,包括非线性轨迹,从不同方向移动,一起行走,不可预测地行走,避免碰撞,站立等。这些数据集包括从固定的俯视图记录的五个独特的室外环境。 ETH和Hotel属于ETH数据集,而UCY数据集由UNIV,ZARA1和ZARA2组成。每个环境中单个场景的人群密度是不同的,每帧的行人密度在0到51之间。所有视频的每秒帧数(FPS)为25,行人轨迹以2.5 FPS提取。

Implementation Details 我们训练Adam优化与学习率0.0003, 50 epochs。Ws的嵌入大小设置为16。EGAT模块包括F1= 16和K = 4,2个注意层,第一图注意层和第二图注意层分别有1个attention heads。EGAT的最后一个节点特征的维数是16,而我们的维数是32。 γ ( ⋅ ) \gamma(\cdot) γ()由3层组成,M设为20层。所有 LeakyReLU的斜率都是-0.2。

Evaluation Metrics(评价指标) 根据报告惯例[1,14,24],采用的评估指标包括平均位移误差(ADE)和最终位移误差(FDE)。方程12中定义了ADE,它是预测轨迹和地面真实总预测时间步长之间的平均欧几里得距离,而FDE是预测位置和最终时间步长Tpred处地面真实位置之间的欧几里得距离。该模型采用“留一法”策略进行训练,并相应地报告结果。根据3.2秒(即8个时间步长)的观察结果,在接下来的4.8秒(即12个时间步长)中产生预测。

Baselines 我们将我们的框架与以下基线方法进行比较:
Linear是一种线性回归模型,可以根据上一个输入点预测下一个坐标。
LSTM采用vanilla LSTM编解码器模型来预测每个行人的顺序。
Social LSTM [1]建立在LSTM之上,并引入了一个社交池层来捕获行人之间的空间互动。
我们进一步将GraphTCN与三种最先进的方法进行比较:
Social GAN [14]在Social LSTM和社交生成GAN的基础上进行了改进,以生成多个合理的轨迹。
Social Attention[39]为STGNN采用RNN混合模型来捕获空间互动和时间动态。
STGAT [19]还采用GAT对空间信息进行建模,并采用LSTM捕获时间相互作用。

4.1. Quantitive Analysis
Overall Results 我们将GraphTCN与表1中的最新基准进行了比较。结果表明,与这些基准数据集上的现有模型相比,GraphTCN始终具有更好的性能。具体来说,我们的GraphTCN的ADE和FDE平均达到0.25和0.48。特别是,与以前的最佳性能模型STGAT相比,GraphTCN分别平均平均降低了20.9%的ADE和31.3%的FDE。这些结果证实了我们的GraphTCN在预测准确性方面明显优于以前的方法,尤其是在更复杂的数据集ZARA1和ZARA2上。
在这里插入图片描述

Speed Comparison 我们比较了GraphTCN与基线模型(Social GAN [14], Social Attention [39], STGAT[19])的推理速度。表2中的结果报告了模型推理时间和加速因子与社会注意[39]在相同数据集上的时钟秒的比较。从结果中我们可以看到,与这些基线方法相比,GraphTCN实现了更快的推断。特别是,GraphTCN需要0.81秒的推断时间,比Social-GAN和最类似的之前方法STGAT分别快1.32和5.37。
在这里插入图片描述

4.2. Qualitative Evaluation
我们还通过可视化和比较预测的轨迹与图3中性能最佳的STGAT来研究GraphTCN的预测结果。我们选择发生复杂相互作用的三种独特情况。复杂的交互包括行人站立,行人合并,行人跟随,行人躲避等。
从图3(a)中,我们可以观察到GraphTCN在固定行人上具有更好的性能。具体而言,由GraphTCN生成的轨迹遵循与地面真实情况相同的方向,而来自STGAT的预测则明显偏离路径。
图3(b)显示,当行人来自不同的群体时,STGAT可能无法做出令人满意的预测,而GraphTCN在一个行人遇到另一群体的情况下给出了更好的预测。
图3(c)证明了当行人从某个角度合并到同一方向时,GraphTCN可以成功地产生预测,从而避免将来发生碰撞。这些定性结果进一步证实,我们的GraphTCN可以产生更好的轨迹预测,这在复杂的现实世界场景中对于固定的行人和行进的人群都具有社会意义。
在这里插入图片描述
我们还在图4中展示了三种不同情况下在实际仪表中绘制的成功预测轨迹。
在图4 (a)中可以看到更具挑战性的场景,行人8只移动很短的距离,行人6、7几乎是静止的,行人5单独移动,两组行人(1,2,3,4)试图避免碰撞。从结果中我们可以观察到,我们的GraphTCN为行人6、7和8生成了可信的短轨迹,而行人5不受其他行人的影响。此外,行人1、2和3、4分组移动,未来的道路不会碰撞。
在图4 (b)中,两个行人3和4作为一组一起移动,我们的GraphTCN可以捕捉他们的组运动模式,并做出准确的组轨迹预测。即使在更复杂的场景中。
更多的行人出现在图4 ©中,我们的GraphTCN也会产生社会可接受的预测,即当他们朝相反的方向出发(行人3和1,2,7)或朝相同的方向相遇(行人8和4,5,6)。
数字符号表示行人的身份,实心棕色线表示观察到的轨迹,蓝线表示地面真相未来轨迹,绿点划线表示预测轨迹。
图5显示了GraphTCN的三种失败情况。
在图5(a)中,我们注意到,尽管我们的模型可以生成与地面真相具有相同方向的预测,但是到达最终点后,我们的预测轨迹会超调。原因可能是我们的模型同时预测了所有轨迹,这导致模型难以对那些高速历史轨迹进行低速预测。
图5(b)表明,当过去的轨迹接近线性时,我们的模型可能会产生线性的未来轨迹。
在图5(c)中,行人2、3和4的预测路径失败。这是因为与他们的未来路径相比,观察到的轨迹相对较短,并且行人具有一些不可预测的行为,这从本质上来说是一项具有挑战性的任务。

在这里插入图片描述

5 结论

在本文中,我们提出了GraphTCN进行轨迹预测,通过使用EGAT对行人的空间相互作用进行建模,并通过TCN对行人的空间和时间相互作用进行建模,从而有效地捕获了行人之间的时空相互作用。所提出的GraphTCN完全基于前馈网络,与现有解决方案相比,前馈网络在训练过程中更易于处理,更重要的是,其预测精度显着提高,推理速度更高。在长轨迹预测的情况下,GraphTCN的优势更加明显。实验结果证实,我们的GraphTCN在所有采用的基准数据集上均优于最新方法。

猜你喜欢

转载自blog.csdn.net/Sun_ZD/article/details/106994772