文学を読んレポート - 社会BiGAT +サイクルGAN

オリジナルドキュメント

ソーシャルBiGAT：Kosaraju V、Sadeghian A、マルティン・マーチンR、ら。社会-BiGAT：自転車-GANとグラフ注意ネットワークを用いたマルチモーダル軌道予測ニューラル情報処理システムでは、[C] //進歩。2019：137-146。

サイクルGAN：朱JY、パークT、イソラP、ら。コンピュータビジョンにIEEE国際会議の[C] //議事サイクル一貫性の敵対ネットワークを使用して対になっていない画像間の変換。2017：2223年から2232年。

ハイライト

多様化の特徴抽出及び注目のメカニズム：予測軌道合成スケールドットGATおよび注意のメカニズムに基づいて、最終的な特徴ベクトルを用いて、抽出されたLSTM歩行者路特性を用いて、画像特徴抽出ネットワークVGGシーンを用いました。
強化予測ベースのサイクルGANの多様化：異なる情報型GaN GANネットワークは、それによってマルチモデル特性経路生成に寄与する、潜在コードの軌道を生成するとき、モデル、新しいモデル構造及びトレーニング方法は、感度を確保します。2つのネットワークの使用は、責任Gである（ノイズ\ rightarrow_G軌道\）\と\（軌道\ rightarrow_Gノイズ\）、および一貫性の損失（一貫性の損失）と循環式マルチステップトレーニングモードを定義\（Z \ RIGHTARROW軌道'\ RIGHTARROW Z' \）と\（軌道\ RIGHTARROW Z '\ RIGHTARROW軌道' \）（しないで「はグラウンドトゥルースを表します）。
効果的な機能の抽象化と移行：記事はGATデータの不一致に応じて、スケール・ドット注意と他のメカニズムを使用して、例えば、様々なモデルとの違いの適用の著者の有効な理解を反映し、その他の特定の問題に同様に、例えばサイクルGANスタイルは多様化、および分配ネットワークの構造及びD Gネットワークを再定義するように設計された生成する画像変換タスクの移行パスを適用します。

概要

社会BiGAT私にである読者この記事をお勧めしますが、それをよく読んで、使用可能時間のこの期間と一致し、またの主なポイントは、感謝の前に要約されています。社会BiGATは、結果が全体である第二の社会LSTM、社会GAN、社会・家族のソフィー新しいメンバーである、より良いアドレス古い社会GAN時間に提起された問題への新たな方法サイクル-GANおよびGATネットワーク：

社会的相互作用（社会的相互作用）
静的なシーン（コンテキストキュー）
予測多様性（マルチモーダル予測）

一方、全体、社会BiGATの事実に、傾向は、開発の統合をモデル化することであった、代替モデルからスプライシングされた最初の明確な質問は便利になるようにモデル構造の使用は、ツールボックスの重要な特徴を持っているため。トレーニングとテストデータがまだETHとUCYデータベースを使用し、最も外側の層はまだGANモデルである構造（構造のみ、モデルとGAN比較的大きな違いが訓練中に存在することに注意してください）：

Gネットワークの：予測軌道を生成する前に、ノイズ及びマルチクラスエンコーダ特徴抽出と適切な注意の添加はLSTMのデコーダ使用デコーダを予測するためにスプライシングベクターの後に送信注意機構を介してプロセスに、様々な構造を用いて。
二分割Dネットワークについては、各トラックは、ローカル環境で環境全体を探索すると、コアネットワークの合理性は、Gを促進することである（区別できない）遺伝子座「を区別することができない」真のトラックを生成しました。
加えて、モデルは、ノイズと合理的反応に敏感であることを保証するために、ソーシャルBiGATはまた、予測軌道スラストリバーノイズ潜在エンコーダ（Fウェブが逆サイクルGANに本質的に生成される）によって導入されたサイクルGANのアイデアを描画します多段階のトレーニングモードとノイズと予測軌道との間に確立された方法と組み合わせて全単射予測多様性の問題が関係し、最終的により優れたアドレス。

由于BiGAT具有模型融合的特点，其中一些思想方法其实已经在之前研究中已有提出，例如：

使用层数和已知路径时序相同的GAT网络，每一层中以结点为行人，以同层边代表交互，处理Social Interaction。
使用标准的Q-K-V注意力机制，针对每一个行人提取经过CNN网络后的背景特征中的有效信息，处理Context Cues。

因此我将侧重在本模型中所新采用的Cycle GAN结构，首先介绍Cycle GAN原文中任务与模型，而后分析BiGAT的作者是如何不等价但等效地将Cycle GAN用到<噪音 - 预测轨迹>这一对组合上。

Cycle GAN

概览

Cycle GAN可以被理解为一种Autoencoder(自编码器)，最初提出时，旨在解决图像翻译(Image-to-Image Translation)中缺乏配对(Paired)数据的问题，缺少配对数据一方面是因为人工标注在某些领域中存在困难：例如绘画风格迁移，很少存在能够准确在现实世界中找到一幅画作中的风景；而另一方面是因为人工标注的数据总量比较有限。

因此，文章决定在训练时从更大的范围和抽象上进行，模型原本需要建立一一对应的配对(Paired)数据的映射，而现在仅需要建立两个图像集合之间(不需要数据之间配对)的映射。

因此对于参与模型训练的数据，如果严格从单个图像级的标签角度，则属于非监督学习，而如果上升至图像集合的级别，其实又属于监督学习。

模型结构

朴素模型：建立GAN网络，G网络学习\(X \rightarrow Y\)的映射，而D网作用则是激励G网生成的图像与真实图像无法分辨。

朴素模型问题：

约束不足：由于训练G网时是建立在集合层级(Set Level)的，即D网和目标函数仅能约束G网建立向目标集合的映射。因此模型所习得的向目标集合的映射其实是有无穷无尽的可能，这其中只有少部分是真正所期望的映射。
模式坍塌：在实际实验中，模型习得的映射使得不同输入都到达同样的输出，使得优化停止。

使用循环网络约束映射：

由于不存在严格的配对数据，因此基于目标集合\(Y\)构造目标函数并不可行，因此模型使用了一种较为经典的依托传递性(transitivity)的循环一致性损失(Cycle Consistency Loss)对生成模型加以更强的约束。具体来说，模型在结构和训练上均有特点：

模型：定义了”两套“GAN网络<\(G, D_Y\)>和<\(F, D_X\)>，分别致力于使用生成对抗式网络实现集合(域)X和Y之间的相互映射。

训练：两套GAN网络无法独立训练，需通过\(x \rightarrow G(x) \rightarrow F(G(x)) \sim x\)和\(y \rightarrow F(y) \rightarrow G(F(y)) \sim y\)两步数据流进行训练。

训练时的两类数据流构成了多步训练，前者称作forward cycle consistency，后者称作backward cycle consistency。文章中仅通过实验结果的方式证明两类一致性约束训练缺一不可，但笔者并没有找到理论上的一些猜想和假设，该部分有待进一步研究。

因此，对于综合GAN网络的损失和一致性损失，共同形成了整个网络的目标函数：

\(L(G,F,D_X,D_Y) = L_{GAN}(G,D_Y) + L_{GAN}(F,D_X) + \lambda L_{cyc}(G,F)\)
- \(L_{GAN}(G,D_Y) = E_{y\sim p_{data}}[logD_Y(y)]+E_{x\sim p_{data}}[log(1 - D_Y(G(x)))]\)
- \(L_{GAN}(F,D_X) = E_{x\sim p_{data}}[logD_X(x)]+E_{y\sim p_{data}}[log(1 - D_X(F(y)))]\)
- \(L_{cyc}(G,F) = E_{x\sim p_{data}}||F(G(x))-x||_1 + E_{y\sim p_{data}}||G(F(y))-y||_1\)

使用Cycle GAN生成多轨迹的预测

训练与目标函数

BiGAT使用了Cycle GAN的思想以更好地实现模型对多条可行性轨迹的预测，整体上是为Cycle GAN找到了一个新的应用方向，但从细节上，由于任务类型的不同BiGAT还是需要据实进行修改，在这里笔者先贴出模型的训练过程和最终目标函数，再逐个分析其与原模型各部分的对应情况。

目标函数和训练过程沿用原模型由两部分组成，第一步是\(z \rightarrow Y' \rightarrow z'\)的前向循环，第二步是\(Y \rightarrow z' \rightarrow Y'\)的前向约束。

\(G*,D*,E* = argmin_{G,E}argmax_D(L_{gan1} + L_z + L_{gan2} + L_{traj} + L_{kl})\)

在前向约束中，由\(G-D_1\)网目标函数和噪音z的一致性目标函数组成：
- \(L_{gan1} = E(logD(X_i,Y_i)) + E(log(1 - D(X_i,\hat Y_i)))\)
- \(L_z = ||E(\hat Y_i) - z||_1\)
在后向约束中，由\(G-D_2\)网目标函数，路径Y的一致性目标函数和L网的生成分布目标函数组成：
- \(L_{gan2} = E(logD(X_i,Y_i)) + E(log(1 - D(X_i,G(X_i,E(Y_i)))))\)
- \(L_{traj} = ||Y_i - G(X_i, E(Y_i))||_2\)
- \(L_{kl} = E[D_{kl}(E(Y_i)||N(0,I))]\)

BiGAT与Cycle GAN等效性分析

如果没有阅读过Cycle GAN原文（其实就算阅读了），这部分初看也有些眼花缭乱，和原本的Cycle GAN的差异还是比较大的，但如果再仔细揣摩，会发现二者在原理上实属相同，这其实也是作者对网络模型功能深度理解与灵活运用的体现。

此前需要明确的是，BiGAT只将循环GAN用在了输入噪音z与生成轨迹之间，其他的输入例如轨迹、场景等会参与该过程，但不是该问题的主角，可以被抽象为一个无关的编码输入。
首先，是BiGAT各网络模块在Cycle GAN中的对应关系：生成轨迹的G网连通其轨迹场景等编码器 + \(D_1\) + \(D_2\)三部分负责\(z \rightarrow traj\)的映射，而L网则负责\(traj \rightarrow z\)的映射。不同于Cycle GAN中的两对GAN<\(G,D\)>和\(<F,D>\)负责两个相反方向的映射，BiGAT中的两个D网均用于建立\(z \rightarrow traj\)方向的映射，而E网(图中的L模块)无需独立的D网即可被训练出\(traj \rightarrow z\)的映射，这也反映了GAN网络的设置是方便于训练映射，而不是必须的。
而后，是各目标函数与Cycle GAN中的对应关系：
- \(z \rightarrow traj\) 映射目标函数：\(L_{gan1}, L_{gan2}\)
- \(traj \rightarrow z\) 映射目标函数：\(L_{gan2}, L_{kl}\)。由此可知E网(反向映射网)的训练是依托于正向映射判别器的，而非Cycle GAN中对称地划分。(KL散度辅助生成正态分布)
- 一致性目标函数：\(L_{traj}, L_z\)

在BiGAT中，对于L模块（E网）的训练是基于真实路径利用E网得到的噪音z'再参与生成的路径是否被判别器D2识别，但若直接使用Cycle GAN中的想法，则是真实路径经过E网得到的噪音z‘是否满足为判别器所接受，笔者在此的一种想法是将[Y,E(Y)]输入一个判别器D3，用以训练E网建立正确的映射。>