時空間アテンションに基づくマルチスケール畳み込みネットワーク トラフィック予測 (MSCN)

この記事の主な貢献は次のとおりです。

(1) アテンションメカニズムを利用して時空間相関をモデル化する、新しいエンドツーエンドのトラフィック予測フレームワークを設計します。さらに、空間的および時間的相関の流れを調整するためのソフト閾値融合法が提案されている。

(2) 異なる解像度で複雑な時空間特徴を捕捉し、予測パフォーマンスを向上させるために、マルチスケール畳み込みネットワークが提案されています。

(3) 交通予測タスクにおける提案モデルの効率を検証するために、2 つの公開データセットで広範な実験を実施します。実験結果は、既存のベースラインと比較して、 モデルの予測パフォーマンスが優れていることを示しています。

時空間位置の埋め込み

まず、完全に接続された 2 つのニューラル ネットワークを使用して入力ベクトルの特徴を抽出し、次にアプリオリ位置埋め込みを使用して時空間埋め込みを実現します。

次に、エンコーダでは、空間的アテンションと時間的アテンションが共同して空間的および時間的相関をエンコードします。エンコーダーの後、トランスフォーマー アテンション レイヤーを使用して、過去の時間と将来の時間の間の時間的相関をモデル化します。最後に、デコーダでは、畳み込み層、畳み込みプーリング層、および拡張畳み込み層が共同して複雑な時空間特徴を抽出します。

ノードに埋め込まれた特徴、 空間埋め込みと  および時間埋め込みを学習するための時空間位置埋め込みレイヤーを設計しました。 < a i=3> は隣接行列 A で初期化され、 はワンホット エンコーディングで初期化され、H タイム ステップ内の N ノードの埋め込み特徴は 、Ft は全結合層であり、特徴を d 次元ベクトルに変換するために使用されます。 は次の P タイム ステップにおける N ノードの埋め込み特徴であり、エンコーダーに入力され、デコーダそれぞれです。

時空間的注意を備えたデコーダ

アテンションベースのエンコーダが提案されています。エンコーダは、空間的注意、時間的注意、ソフトしきい値融合の 3 つのサブコンポーネントで構成されます。

スペースメモ:

        GMAN と同様、 は非表示になります。

は、k 番目の先頭のノード v からノード vi への正規化されたスコアを表し、重みの合計は 1、fx は非線形変換です。W と b は学習可能なパラメータです。空間的注意の出力は で表されます。

時間メモ:

はタイム ステップ tj におけるノード vi の隠れ状態、 は k 番目の先頭アテンションにおける正規化されたタイム ステップ tq を表します。ステップtj。

ソフトしきい値融合:

        ゲート フュージョンとソフトしきい値メカニズムにヒントを得たソフトしきい値フュージョンは、重要な機能に自動的に焦点を当て、不要な機能を無視するように設計されています。空間的注意と時間的注意 HS および HT の出力を考慮して、 はまずグローバル平均プーリング (GAP) とグローバル最大プーリング (GMP) を使用して、過剰適合確率を最小限に抑えます。次に、結果は 2 つの完全に接続されたレイヤーに供給されます。最後に、空間閾値 τS と時間閾値 τT が得られ、それぞれ次のように表されます。

 ここで、δ は活性化関数です。 は要素のドット積を表します。 Ws と Wt は学習可能なパラメータです。 θa と θm はそれぞれ GAP 演算と GMP 演算です。空間的注意を計算するためのソフトしきい値を例として挙げると、

 

 したがって、HS と HT は次のようにマージされます。

 このうち、zS と zT はソフト閾値であり、空間的および時間的相関の影響を反映します。ソフトしきい値融合メカニズムにより、役に立たない特徴を削除しながら、有用な空間的および時間的特徴がより多くの注目を集めることが保証されます。

 タイムステップサイズと注意力の切り替えの相関関係

        過去のタイム ステップと将来のタイム ステップの間の相関関係をモデル化するには、transform tention を使用して将来の表現を構築し、それがデコーダに供給されます。

 ここで、 は将来のタイム ステップ ty に対応するノード vi の時間関連の隠れ状態、 は注目スコアであり、動的に調整されたエンコードされたトラフィック特性 H.次に、スイッチド アテンションの出力 H がデコーダに供給されます。

 畳み込みニューラル ネットワーク デコーダ

         このデコーダは、畳み込み層、畳み込みプーリング層、拡張畳み込み層の 3 つの畳み込み層で構成されます。短期および長期のトラフィック予測では、3 つの畳み込み層が短いシーケンスと非常に長いシーケンスの両方を処理し、さまざまな範囲で相関関係を検出します。これらの畳み込み層の出力が連結されて、最終結果が生成されます。

畳み込みグループ:

         1 つの畳み込み層は緊密な依存関係のみをキャプチャできるのに対し、畳み込み層のスタックは任意の領域の依存関係をキャプチャできることが観察されています [21]。畳み込みグループでは、次のように Lc 畳み込みを重ねます。、ここで は畳み込み層の i 番目のカーネル パラメータです。 は畳み込み演算です。 Qc0 = H' が入力、HC = QcLc が出力です。便宜上、フィルターサイズは 3 × 3 とします。

コンバージョンプーリンググループ:

        移流ネットワークを成功させるには、プーリング操作が不可欠です。さらに、最大プーリング操作により、広い受容野でマルチスケールの交通特徴を抽出できます。このモジュールは並列構造を使用します。 1 × 1 畳み込み層の後に最大プーリング層が続き、リダクションを計算します。次に、3 × 3 の畳み込み層を連続した Lp と積み重ねて、マルチスケールの特徴を抽出します。畳み込みの設計を図に示します。

拡張変換グループ:

         長期予測タスクを処理するために、マルチサイズの拡張畳み込みを適用して非常に長いシーケンスを処理します。研究によると、拡張コンボリューションは、より長いシーケンスを処理する場合にモデルの複雑さが低下することが示されています。短期および長期の予測を処理するために適切なカーネル サイズを選択することは、困難な問題です。 1 × 1、3 × 3、および 5 × 5 フィルター サイズは初期モジュールで広く使用されており、良好なパフォーマンスを達成しました [14]。 3 × 3 アンロール畳み込みと 5 × 5 アンロール畳み込みを組み合わせてモジュールを設計します。ユニット数はLdです

入力 H' を与え、HC、HP、HD の 3 つのグループを出力すると、デコーダの最終結果は次のようになります。

このうち、WC、WP、WD は 3 つのグループの影響度を反映する学習可能なパラメータです。

 損失関数

        損失関数の目標は、予測誤差を最小限に抑えることです。予測値とグランド トゥルースの間の損失関数として平均絶対誤差 (MAE) を使用します。

 実験結果

さまざまなトラフィック予測方法のパフォーマンスの比較。

 PeMS-BAY および METR-LA のアブレーション解析

 METR-LA データセットにおけるさまざまな融合手法のパフォーマンスの比較。

 結論は

        この論文では、交通流予測の問題を解決するための新しい時空間深層学習ネットワークであるマルチスケール畳み込みネットワーク (MSCN) を提案します。 MSCN はエンコーダ/デコーダ アーキテクチャに従っています。具体的には、まずグラフ アテンション ネットワークを採用して、時空間の特徴を正確にモデル化します。次に、ソフト閾値融合を使用して時空間相関フローを調整します。最後に、時空間シーケンス表現をデコードするための畳み込みモジュールが導出されます。私たちの実験結果は、MSCN が最先端のベースラインを上回るパフォーマンスを示していることを示しています。交通状況はさまざまな要因の影響を受けます。今後は、天候やPOIなどの外部要因の影響も考慮し、予測精度をさらに向上させていきます。

おすすめ

転載: blog.csdn.net/weixin_53187018/article/details/130515338