文献阅读笔记:EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning
EvolveGraph:具有动态关系推理的多Agent轨迹预测

收录于NeurlPS 2020
作者:Jiachen Li,Fan Yang,∗Masayoshi ,Tomizuka2,Chiho Choi1
论文地址:NeurlPS 2020
发表时间:NeurlPS 2020
备注:
论文解析
开源 :
代码解析 :

摘要

在本文中,我们提出了一个通用的轨迹预测框架(名为EvolveGraph),该框架具有通过多个异构交互主体之间的潜在交互图进行显式关系结构识别和预测的功能。
考虑到未来行为的不确定性,该模型旨在提供多模式预测假设。
由于即使发生突然的变化,潜在的交互作用也可能演化,并且不同的演化方式可能导致不同的结果.
因此,我们解决了动态关系推理的必要性并自适应地演化了交互图。
我们还引入了双阶段训练流水线,它不仅提高了训练效率,加快了收敛速度,而且还提高了模型性能。
在合成物理模拟和各个领域的多个实际基准数据集上对所提出的框架进行了评估。

1 引言

多主体轨迹预测在许多实际应用中至关重要,例如自动驾驶,移动机器人导航和一组实体彼此交互的其他区域,从而在个人和多主体层面都产生了复杂的行为模式系统整体。
由于通常只有单个实体的轨迹可用而对底层交互模式一无所知,并且每个代理通常有多种可能的方式,因此对此类动力学进行建模并预测其未来行为颇具挑战性。

有许多现有工作试图为多主体交互建模提供系统的解决方案。
一些相关技术包括但不限于社交池层[1],注意力机制[41、18、11、39、20],通过图形传递的消息[7、36、21]等。(行人轨迹预测,同类目标的预测)
这些技术可以概括为通过信息聚合进行隐式交互建模。
另一研究领域显式地对潜在交互图的结构进行推断,从而允许具有多种交互类型的关系结构[17,2]。
我们的方法属于此类别,但与现有方法相比具有显着的扩展和性能增强

NRI [17]是一个密切相关的工作,其中交互图在训练过程中是静态的,具有均匀的节点
对于涉及具有固定交互模式同类代理的系统而言,这已足够。(例如行人轨迹预测)

但是,在许多实际情况下,即使发生突然变化(例如篮球运动员),潜在的互动也会固有地发生变化。
而且系统中可能包含各种类型的代理人(例如汽车,行人,骑自行车的人等),而NRI无法明确区分它们。
(两种提高适应性的情况!)

此外,NRI在未来的系统行为中并未明确处理多模式。
在这项工作中,我们解决了以下问题:

  1. 使用潜在图结构提取潜在的交互模式,该结构能够以统一的方式处理不同类型的代理;
  2. 捕获交互图演化的动态过程以进行动态关系推理,
  3. 根据历史观测和潜在的交互作用图预测未来的轨迹(状态序列)
  4. 捕获未来系统行为的多模态。

本文的主要贡献概括如下:

  1. 我们提出了一个通用轨迹预测框架,该框架具有通过多个异构交互主体之间的潜图进行显式交互建模的功能。轨迹信息和上下文信息(例如场景图像语义图点云密度图)都可以被合并到系统中。
  2. 我们提出了一种动态机制来随着时间适应性地发展基础交互图,该机制捕获了多个代理之间交互模式的动态。我们还引入了双阶段训练流水线,它不仅提高了训练效率并加快了收敛速度,而且在预测准确性方面也提高了模型性能。
  3. 拟议的框架旨在从多个方面捕捉自然界未来轨迹的不确定性和多形式性。
  4. 我们在不同区域的综合模拟和轨迹预测基准上验证了所提出的框架。我们的EvolveGraph始终达到最先进的性能。

2 相关工作

多智能体轨迹预测问题已被视为一组交互式智能体之间的建模行为。
[9]引入了社会力量来模拟人类相对于邻居的吸引和排斥运动。
提出了其他一些基于学习的方法,例如隐马尔可夫模型[22,45],动态贝叶斯网络[15],逆强化学习[38]。
近年来,已经进行了概念上的扩展,以更好地建模具有补充提示的社交行为模型,例如运动模式[47,44]和组属性[43]。
这样的社交模型激发了[1,19,6,42,8,8,46,10,23,3,49,25,33,37,31,20,5,12,27,24 ]。
他们使用神经网络的递归操作对单个实体的运动历史进行编码。
但是,对于这些方法来说,在异构且交互变化的环境中找到可接受的未来运动并非易事,部分原因在于它们的启发式特征池或聚合,这可能不足以进行动态交互建模。

交互建模和关系推理已在各个领域得到了广泛的研究。
近来,已将应用于图结构的深层神经网络用于表述交互式主体或变量之间的联系[41、25、18、21、35、48]。
这些方法引入了表示交互代理的节点和表示彼此交互的边。
他们通过构造时空图直接了解节点属性(代理状态)和/或边缘属性(代理之间的关系)的动态变化。
但是,他们的模型对底层交互模式没有明确的了解。
一些现有的工作(例如NRI [17])已经通过推断潜在的交互图朝着显式关系推理迈出了一步。
但是,NRI处理异构代理,上下文信息以及具有各种交互作用的系统并非易事。
在这项工作中,我们提出了解决上述问题的有效解决方案。我们的工作还与动态图学习有关。
现有的大多数研究都是在动态演化的图上研究表示学习[29,16],而我们试图预测图的演化。

3 Problem formulation

我们假定在不失一般性的情况下,场景中有N个同质或异质代理,它们属于M(≥1)类(例如汽车,骑自行车的人,行人)。
代理的数量在不同情况下可能会有所不同。

我们用 X 1 : T = { x 1 : T i , T = T h + T f , i = 1 , … , N } \mathbf{X}_{1: T}=\left\{\mathbf{x}_{1: T}^{i}, T=T_{h}+T_{f}, i=1, \ldots, N\right\} X1:T={ x1:Ti,T=Th+Tf,i=1,,N}表示一组覆盖历史和预测范围(Thand Tf)的状态序列。
我们还将一系列历史上下文信息表示为动态场景的 C 1 : T h = { c 1 : T h } \mathbf{C}_{1: T_{h}}=\left\{\mathbf{c}_{1: T_{h}}\right\} C1:Th={ c1:Th}或静态场景的固定上下文信息C。

在本文的范围内,我们定义xi t =(xi t,yi t),其中(x,y)是世界空间或图像像素空间中的2D坐标。

上下文信息包括代表场景属性的图像或张量。我们将潜在的交互图表示为 G β \mathcal{G}_{\beta} Gβ,其中β是图索引。

我们的目标是估计动态场景的 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C 1 : T h ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}_{1: T_{h}}\right) p(XTh+1:Th+TfX1:Th,C1:Th)
或者静态场景的 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+TfX1:Th,C)

为简单起见,当在等式中引用上下文信息时,我们使用C。
更正式地讲,如果在每个时间步上推断出潜在的相互作用图,那么我们就可以得到以下的 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+TfX1:Th,C)的因式分解:
∫ G p ( G 0 ∣ X 1 : T h , C ) p ( X T h + 1 ∣ G 0 , X 1 : T h , C ) ∏ β = 1 T f − 1 p ( G β ∣ G 0 : β − 1 , X 1 : T h + β , C ) p ( X T h + β + 1 ∣ G 0 : β , X 1 : T h + β , C ) \int_{\mathcal{G}} p\left(\mathcal{G}_{0} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p\left(\mathbf{X}_{T_{h}+1} \mid \mathcal{G}_{0}, \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) \prod_{\beta=1}^{T_{f}-1} p\left(\mathcal{G}_{\beta} \mid \mathcal{G}_{0: \beta-1}, \mathbf{X}_{1: T_{h}+\beta}, \mathbf{C}\right) p\left(\mathbf{X}_{T_{h}+\beta+1} \mid \mathcal{G}_{0: \beta}, \mathbf{X}_{1: T_{h}+\beta}, \mathbf{C}\right) Gp(G0X1:Th,C)p(XTh+1G0,X1:Th,C)β=1Tf1p(GβG0:β1,X1:Th+β,C)p(XTh+β+1G0:β,X1:Th+β,C)

4 EvolveGraph

图1(左半部分)显示了一个说明性图形模型,以演示带有显式动态关系推理的预测框架的基本过程。

在这里插入图片描述

图1:
(a)左侧是所提出方法的高级图形说明,其中编码范围和解码范围(重新编码间隙)都设置为5。
Xt:时间t处所有代理的状态
ΔXt:状态变化
C:上下文信息
G β \mathcal{G}_{\beta} Gβ:从静态编码过程获得的潜在交互图
G β ′ \mathcal{G}_{\beta}^{\prime} Gβ:与时间相关的调整后的交互图
在每次编码-解码迭代中,通过对先前轨迹和上下文信息进行编码来获得 G β \mathcal{G}_{\beta} Gβ,该 G β \mathcal{G}_{\beta} Gβ经过循环单元(Hβ)以获得调整后的交互图 G β ′ \mathcal{G}_{\beta}^{\prime} Gβ
先前的轨迹和 G β ′ \mathcal{G}_{\beta}^{\prime} Gβ被组合为解码过程的输入,从而生成状态变化的分布以获得未来的轨迹。
(b)右侧是观察图和交互图的示意图。
在观察图中,代理节点之间的边缘是同质的并且是双向的,
而在交互图中,有色边缘在某种类型的情况下是单向的。 (最好以彩色显示。)

我们的训练过程包括两个连续的阶段,而不是在单个管道中进行端到端训练:
静态交互图学习:训练了一系列编码功能,以从观察到的轨迹和上下文信息中提取交互模式,并生成分布静态潜在相互作用图。
训练了一系列解码功能,以循环生成未来状态的多峰分布。
在这个阶段,预测仅基于从历史信息推断出的静态交互图,这意味着编码过程仅应用一次,并且交互图不会随着解码过程而发展。
动态交互图学习:在第一阶段使用预先训练的编码和解码功能作为初始化,将其与循环网络的训练一起进行微调,以捕获交互图演化的动态。
图循环网络用作高级集成,它考虑了当前交互图对先前交互图的依赖性。在此阶段,预测是基于最新的更新交互图。

4.1 Static interaction graph learning

Observation Graph
构造没有自环的全连接图以表示具有节点/边属性的观察信息,称为观察图
假设场景中有N个异构代理,属于M类。
观察图由N个代理节点和一个上下文节点组成。
代理节点彼此双向连接,并且上下文节点仅具有每个代理节点的传出边缘。
我们将观测图表示为 G o b s = { V o b s , E o b s } \mathcal{G}_{o b s}=\left\{\mathcal{V}_{o b s}, \mathcal{E}_{o b s}\right\} Gobs={ Vobs,Eobs}
其中 V o b s = { v i , i ∈ { 1 , … , N } } ∪ { v c } \mathcal{V}_{o b s}=\left\{\mathbf{v}_{i}, i \in\{1, \ldots, N\}\right\} \cup\left\{\mathbf{v}_{c}\right\} Vobs={ vi,i{ 1,,N}}{ vc}
E o b s = { e i j , i , j ∈ { 1 , … , N } } ∪ { e i c , i ∈ { 1 , … , N } } \mathcal{E}_{o b s}=\left\{\mathbf{e}_{i j}, i, j \in\{1, \ldots, N\}\right\} \cup\left\{\mathbf{e}_{i c}, i \in\{1, \ldots, N\}\right\} Eobs={ eij,i,j{ 1,,N}}{ eic,i{ 1,,N}}
v i , v c  and  e i j , e i c \mathbf{v}_{i}, \mathbf{v}_{c} \text { and } \mathbf{e}_{i j}, \mathbf{e}_{i c} vi,vc and eij,eic代表代理节点属性,上下文节点属性以及代理-代理,上下文-代理边缘属性。
更具体地说,eij表示从节点j到节点i的边的属性。
每个代理节点具有两种类型的属性:自我属性和社交属性。
前者仅包含节点自己的状态信息,而后者仅包含其他节点的状态信息。
节点/边缘属性的计算公式为
在这里插入图片描述
其中类似于[40]计算的可学习注意力系数,
f a m ( ⋅ ) , f c ( ⋅ ) f_{a}^{m}(\cdot), f_{c}(\cdot) fam(),fc()是agent,上下文节点嵌入函数,
fe(·),fec(·)和fv(·)是agent-agent边缘,代理上下文边缘和代理节点更新功能。
不同类型的节点(代理)使用不同的嵌入功能。
请注意,上下文节点的属性从不更新,并且边缘属性仅用作代理节点属性更新的中间。
这些f(·)函数由具有适当体系结构的深度网络实现。
此时,我们获得了完整的节点/边缘属性集,其中包括直接(一阶)交互作用的信息。
可以通过方程(2)-(3)的多个循环来建模高阶交互,其中社交节点属性和边缘属性被轮流更新。
注意,自属性在整个过程中是固定的。

Interaction Graph
交互图表示交互模式,每个交互模式的边缘类型分布在观察图的顶部。
我们设置一个超参数L来表示成对的Agent节点之间可能的边缘类型(交互类型)的数量,以对agent-agent的交互进行建模。
同样,上下文节点与所有代理节点之间共享另一种边缘类型,以对代理-上下文交互进行建模。
请注意,“无边缘”也可以被视为特殊的边缘类型,这意味着没有消息沿这些边缘传递。
更正式地讲,交互图是离散概率分布 q ( G ∣ X 1 : T h , C 1 : T h )  or  q ( G ∣ X 1 : T h , C ) q\left(\mathcal{G} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}_{1: T_{h}}\right) \text { or } q\left(\mathcal{G} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) q(GX1:Th,C1:Th) or q(GX1:Th,C)
其中 G = { z i j , i , j ∈ { 1 , … , N } } ∪ { z i c , i ∈ { 1 , … , N } } \mathcal{G}=\left\{\mathbf{z}_{i j}, i, j \in\{1, \ldots, N\}\right\} \cup\left\{\mathbf{z}_{i c}, i \in\{1, \ldots, N\}\right\} G={ zij,i,j{ 1,,N}}{ zic,i{ 1,,N}}是所有边缘的一组交互类型,zij和zic是随机变量,用于指示特定边的成对交互类型。

Encoding
编码过程的目标是从观察图推断出潜在的交互图,这实际上是多类边缘分类任务。
我们使用softmax函数,对最近更新的边缘属性进行离散分布的连续近似[26],以获得每种边缘类型的概率,由下式给出:
q ( z i j ∣ X 1 : T h , C ) = Softmax ⁡ ( ( e i j 2 + g ) / τ ) , i , j ∈ { 1 , … , N } q\left(\mathbf{z}_{i j} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right)=\operatorname{Softmax}\left(\left(\mathbf{e}_{i j}^{2}+\mathbf{g}\right) / \tau\right), i, j \in\{1, \ldots, N\} q(zijX1:Th,C)=Softmax((eij2+g)/τ),i,j{ 1,,N}
其中g是从Gumbel(0,1)分布中提取的独立且均匀分布的样本的向量,τ是Softmax temperature,该 temperature控制样本的平滑度。
我们还使用了重实用化技巧来获得用于反向传播的梯度。
在不失一般性的情况下,上下文节点和代理节点zic之间的边缘类型以概率1进行硬编码。
为简单起见,我们将观察图中的所有操作和编码过程总结为 q ( z ∣ X 1 : T h , C ) = f cnc  ( X 1 : T h , C ) q\left(\mathbf{z} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right)=f_{\text {cnc }}\left(\mathbf{X}_{1: T_{h}}, \mathbf{C}\right) q(zX1:Th,C)=fcnc (X1:Th,C),这给出zij的因式分布。

Decoding由于在许多实际应用中,代理的状态具有长期依赖性,因此对交互图和观察图应用循环解码过程,以近似估计未来轨迹的分布 p ( X T h + 1 : T h + T f ∣ G , X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathcal{G}, \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+TfG,X1:Th,C)
每个时间步长的输出是具有K个分量的高斯混合分布,其中每个高斯分量的协方差均手动设置为相等。
解码过程中的详细操作包括两个阶段:burn-in阶段(1≤t≤Th)和预测阶段(Th + 1≤t≤Th + Tf),分别为

在这里插入图片描述在这里插入图片描述
其中,
MSG:在这里是“消息”的象征性首字母缩写,没有特殊含义 h ~ t i \tilde{\mathbf{h}}_{t}^{i} h~ti:GRUi在时间t的隐藏状态,
w t + 1 i , k w_{t+1}^{i, k} wt+1i,k:代理i在时间步t + 1处的第k个高斯分布的权重。
f ~ e l ( ⋅ ) \tilde{f}_{e}^{l}(\cdot) f~el():是边缘类型l的边缘更新函数,
fk weight(·)是获得第k个高斯分布权重的映射函数,
fk out(·)是获得函数k的均值的映射函数。第k个高斯分量。
注意,公式(8)中需要预测的xi tis。
在先前的解码步骤中,我们只有来自先前步骤的对应分布 p ( x ^ t i ∣ z , x ^ T h + 1 : t − 1 i , x 1 : T h i , c ) p\left(\hat{\mathbf{x}}_{t}^{i} \mid \mathbf{z}, \hat{\mathbf{x}}_{T_{h}+1: t-1}^{i}, \mathbf{x}_{1: T_{h}}^{i}, \mathbf{c}\right) p(x^tiz,x^Th+1:t1i,x1:Thi,c)
我们首先根据分量权重wi t + 1从混合物中采样一个高斯分量。
假设我们得到第k个分量,然后设置ˆ xj tas µj,k t,这是该分量内具有最大似然性的轨迹。
我们将协方差σ固定为常数。
相同类型的节点(代理)共享相同的GRU解码器。
在预烧阶段,使用基态。
在预测阶段,状态预测假设将在下一个时间步迭代地用作输入。
为简单起见,整个解码过程总结为 p ( X T h + 1 : T h + T f ∣ G , X 1 : T h , C ) = f d e c ( G , X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathcal{G}, \mathbf{X}_{1: T_{h}}, \mathbf{C}\right)=f_{\mathrm{dec}}\left(\mathcal{G}, \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+TfG,X1:Th,C)=fdec(G,X1:Th,C)

4.2 Dynamic interaction graph
在许多应用程序中,从过去的时间步长识别出的交互模式在将来可能不是静态的。
取而代之的是,它们在未来的时间步长中动态变化。
而且,许多交互系统本质上具有多模式特性。
之后,不同的方式可能会导致不同的交互方式。
单个静态交互图既没有足够的灵活性来建模动态变化的情况(尤其是那些突然变化的情况),也没有捕获所有的模态。
因此,我们引入了一种有效的动力学机制来演化交互图。
每τ(重新编码间隔)时间步长重复编码过程,以基于最新的观察图获得潜在的交互作用图。
由于新的交互图也依赖于先前的交互图,因此我们还需要考虑它们的影响。
因此,循环单元(GRU)用于维护和传播历史信息,以及调整先前的交互图。
更正式地说,计算公式为
在这里插入图片描述
其中
β是从0开始的重新编码索引,
zβ是从静态编码过程中获得的交互图,
z0β是具有时间依赖性的调整后交互图,
Hβ是图演化GRU的隐藏状态。
在获得G0β= {z0β}之后,进行解码处理以获取下一个τ时间步长的状态,
在这里插入图片描述
迭代解码和重新编码过程以获得未来轨迹的分布。

4.3 Uncertainty and multi-modality(不确定性和多模式)

在这里,我们强调鼓励多样化和多模式轨迹预测和生成的努力。
在我们的框架中,不确定性和多模式主要来自三个方面。
首先,在解码过程中,我们输出高斯混合分布,表明下一步有几种可能的模态。
我们仅根据表示每个模态概率的分量权重在每个步骤中对单个高斯分量进行采样。
其次,不同的采样轨迹将导致不同的交互图演化。
交互图的演变有助于未来行为的多种形式,因为不同的基础关系结构对系统行为实施了不同的规定,并导致各种结果。
第三,然而,直接训练这样的模型趋向于崩溃为单一模式。
因此,我们采用了一种有效的机制来缓解模式崩溃问题并鼓励多模式。
在训练过程中,我们进行了d次解码过程,这会在特定情况下为每个agent生成d条轨迹。
我们只选择反向传播损失最小的预测假设,该假设最有可能与基本事实处于相同模式。
其他的预测假设可能会造成更大的损失,但这并不一定意味着它们是不可信的。它们可能代表其他潜在的合理方式。

4.4 Loss Function and Training

在我们的实验中,我们首先使用静态交互图训练编码/解码功能。
然后,在训练动态交互图的过程中,我们在第一阶段使用预先训练的编码/解码功能来初始化动态训练中使用的模块的参数。
这一步是合理的,因为在这两个训练过程中使用的编码/解码功能起着相似的作用,并且它们的最佳状态应该接近。
而且,如果我们直接训练动态图,它将导致更长的收敛时间,并且由于大量可学习的参数而可能陷入一些不良的局部最优中。
这种方法可能会加速整个训练过程,并避免一些不良的局部最优。
在训练过程中,我们的损失函数定义如下:
在这里插入图片描述
其中q(·)表示编码和重新编码操作,它们返回zijor z0 ij的因式分布。
p t i , k ( x t ∣ z , X 1 : T h , X ^ T h + 1 : t − 1 , C )  and  p t i , k ( x t ∣ z β ( t ) ′ , X 1 : T h , X ^ T h + 1 : t − 1 , C ) p_{t}^{i, k}\left(\mathbf{x}_{t} \mid \mathbf{z}, \mathbf{X}_{1: T_{h}}, \hat{\mathbf{X}}_{T_{h}+1: t-1}, \mathbf{C}\right) \text { and } p_{t}^{i, k}\left(\mathbf{x}_{t} \mid \mathbf{z}_{\beta(t)}^{\prime}, \mathbf{X}_{1: T_{h}}, \hat{\mathbf{X}}_{T_{h}+1: t-1}, \mathbf{C}\right) pti,k(xtz,X1:Th,X^Th+1:t1,C) and pti,k(xtzβ(t),X1:Th,X^Th+1:t1,C)表示一定的高斯分布。

5 Experiments

在本文中,我们在一个合成数据集和三个用于实际应用的基准数据集上验证了提出的框架EvolveGraph:
本田3D数据集(H3D)[30],
NBA SportVU数据集(NBA)和
斯坦福无人机数据集[SDD] [32 ]。
补充资料中介绍了数据集详细信息,基线方法以及实施详细信息。
对于合成数据集,由于我们可以访问基础交互图的基本事实,因此可以根据交互(边缘类型)识别和平均状态预测误差来定量和定性评估模型性能。
对于基准数据集,我们根据两个广泛使用的标准度量来评估模型性能:最小平均位移误差(minADE20)和最小最终位移误差(minFDE20)[3]。
minADE20定义为20条预测轨迹与预测范围内所有涉及实体之间的地面真实情况之间的最小平均距离。
minFDE20定义为最后预测时间步长上20条预测轨迹的最小偏离距离。
我们还提供烧蚀分析(表2-4的右部分),双阶段训练分析,边缘类型选择和重新编码间隙的分析以及补充材料中的其他定性结果。

5.1 Synthetic simulations: particle physics system(合成模拟:粒子物理系统)
我们尝试了一种模拟的具有变化关系的粒子系统。最初将多个粒子链接在一起并一起移动。只要满足有关粒子状态的特定条件,链接就会消失,并且此后粒子独立移动。期望模型自己学习准则,并执行边缘类型预测和轨迹预测。由于系统本质上是确定性的,因此在此任务中我们不考虑多模式。有关数据集生成的更多详细信息,请参见补充材料的第8.1.1节。

我们基于对20个时间步长的观察,预测了未来50个时间步长的粒子状态。
我们在此任务中设置了两种边缘类型,分别对应于“有链接”和“无链接”。
边缘类型预测的结果总结在表1中,这些结果在3个独立运行中得到平均。
没有变化意味着潜在的交互结构在整个范围内保持不变,而变化意味着交互模式的变化有时会发生。
它表明,有监督的学习基线可以直接训练具有地面真实性标签的编码功能,在两种设置中均表现最佳,并且可以作为“黄金标准”。
在“无更改”设置下,NRI(动态)可与EvolveGraph(RNN重新编码)媲美,而EvolveGraph(静态)可达到最佳性能。
原因是交互图的动态演化导致更高的灵活性,但可能导致更大的不确定性,从而影响具有静态关系结构的系统中的边缘预测。在“更改”设置下,NRI(动态)在测试阶段的每个时间步都重新评估潜图,但是很难捕获连续图之间的依赖关系,并且编码功能可能不够灵活,无法捕获演化。
EvolveGraph(RNN重新编码)的性能更好,因为它考虑了训练阶段中连续步骤的依赖性,但是它仍仅在特征级别而不是图形级别捕获演变。由于交互图的显式演化,EvolveGraph(动态)可实现比其他基准(监督除外)更高的准确性。

我们还提供了图2中随机测试案例的交互图和粒子轨迹的可视化。在热图中,尽管预测的概率在每个步骤中都在很小的范围内波动,但它们非常接近于地面真实性(“ 1”表示“具有链接”和“无链接”为0)。关系的变化可以在两个时间步长内快速捕获。粒子状态预测的结果如图3所示。在3次运行中计算了标准偏差。在整个范围内,EvolveGraph(动态)始终以稳定的性能(较小的标准偏差)优于其他基准。

5.2 H3D dataset: traffic scenarios
5.3 NBA dataset: sports games
5.4 SDD dataset: university campus
我们根据历史的8个时间步长(3.2s)预测了未来的12个时间步长(4.8s)。定量结果的比较显示在表4中,其中报告的minADE20和minFDE20的单位是图像坐标中的像素。请注意,我们在实验中包括了所有类型的特工(例如行人,骑自行车的人,车辆),尽管其中大多数是行人。
我们提出的方法可以达到最佳性能。与最佳基准方法(STGAT)相比,4.8s minADE20 / minFDE20降低了26.1%/ 26.8%。
在这里插入图片描述

6 结论

在本文中,我们提出了一个通用的轨迹预测框架,该框架在具有图形表示的多个异构交互主体之间具有显式关系推理。
可以将多种类型的上下文信息(例如静态/动态,场景图像/点云密度图)与轨迹信息一起合并到框架中。
为了捕获关系结构演化的基础动力学,我们提出了一种动态机制来演化交互图,该机制在两个连续的阶段中进行了训练。双阶段训练机制既可以加快收敛速度​​,又可以提高预测性能。该方法能够捕获未来行为的多种形式。该框架已通过合成物理模拟和针对不同应用的多种轨迹预测基准进行了验证,从而在预测准确性方面实现了最先进的性能。在以后的工作中,我们将使用扩展的自适应框架来处理涉及时变数量的智能体的预测任务。 EvolveGraph也可用于查找涉及大量实体的大规模交互系统的基本模式,例如非常复杂的物理系统。

猜你喜欢

转载自blog.csdn.net/Sun_ZD/article/details/111998282