【記事学習シリーズのモデル】 情報提供者

記事の概要

「Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting」は、2021 年に AAAI に掲載された論文です。従来のセルフ アテンション メカニズムと Transformer モデルはパフォーマンスのボトルネックに達しており、著者は、より効率的なコンピューティング、メモリ、アーキテクチャ機能を備えながら、より優れた予測能力を実現できるように、Transformer モデルのパフォーマンスを向上させる新しい方法を見つけようとしています。これに基づいて、本論文は新しいタイミング予測アイデアとセルフアテンション機構を提案する。

論文コードリンク:
論文リンク
コードリンク
また、著者は独自の論文手法をベースに、実験内容を充実させて雑誌論文(人工知能)を出版しました。
拡張エッセイリンク

全体の構造

ここに画像の説明を挿入

この論文のモデルの全体構造は上図に示されており、Encoder-Decoder 構造に属しますが、この 2 つを別々に見ていきます。

エンコーダ:
ここに画像の説明を挿入
入力のこの部分は、シーケンス長が seq_len の過去データX en X_{en}です。バツエン_、最初に行うことは、数値エンコード (青)、位置エンコード (黄)、時間エンコード (ピンク) を含むエンコード操作 (上の図に示すように) です。次に、複数のエンコーダーで構成されるエンコーダー スタックを通じてデータ特徴を抽出し、すべてのエンコーダーによって抽出された特徴マップをマージしますX fm X_{fm}バツfm _
デコーダ:
この部分は結合値X de X_{de}を入力します。バツ_,包含 X e n X_{en} バツエン_X トークン X_{token}の後半部分バツトークン_ _ _ _(長さを選択する決まった方法はありません。0 から seq_len の間で指定できます。Xと X_{en}を選択できます)バツエン_の後半) と予測される長さ pred_len の時系列データX 0 X_{0}バツ0(予測された未知の値のため、値の部分は0で埋められます)。次に、X fm X_{fm}バツfm _ X d e X_{de} バツ_Decoder に入ると、予測結果が得られます。

キー構造

自注意蒸留操作(自注意蒸留操作)

ここに画像の説明を挿入

この操作は基本的に複数のエンコーダーで構成され、長期的に安定した特徴を抽出することを目的としています。各エンコーダーのネットワークの深さは徐々に減少し、入力データの長さも減少し、最終的にはエンコーダーによって抽出されたすべての特徴が結合されます。エンコーダを異なるものにするために、作者は各ブランチの自己注意メカニズムの繰り返し回数を決定することによって各ブランチの深さを徐々に減らしていくことに注意してください。マージされるデータの一貫性があり、各ブランチは前のブランチの入力値の後半のみを入力として使用します。

生成スタイル デコーダ

ここに画像の説明を挿入
過去の時系列予測では、将来の複数の時点の予測結果を得るために多段階の予測を実行する必要があることがよくあります。しかし、このマルチ予測手法では、予測期間が長くなると累積誤差がどんどん大きくなり、長期予測としては実用的な意味がなくなってしまいます。本論文の著者は系列出力を得るために生成復号器を提案しており、必要なターゲット長の予測結果を得るために必要な導出プロセスは1回だけでよく、多段階予測における累積誤差の拡散を効果的に回避することができる。

ProbSparse 自己注意メカニズム (確率スパース自己注意メカニズム)

ここに画像の説明を挿入
この方法の提案は、自己注意メカニズムの特徴マップに関する著者の考えに由来しています。著者は、自己注意メカニズムの最初の層の Head1 と Head7 を視覚化したところ、特徴マップには明るい縞模様が数本しかなく、2 つの頭部のスコアが小さく、値が比較的大きいことがわかりました。これは、上図に示すように、ロングテール データの分布特性に一致します。したがって、内積ペアのうちのごく一部が主な注目に寄与し、その他は無視できるということになります。この機能に従って、著者は高スコアの内積ペアに焦点を当て、セルフアテンション モジュールの各操作で高スコアの部分のみを計算することを試み、それによってモデルの時間とスペースのコストを効果的に削減します。

従来のセルフアテンション メカニズム:
z = ソフトマックス ( QKT dk ) V z=softmax(\frac{QK^{T} }{\sqrt{d_{k} } } )Vz=so f t max ( _d Q KT) V

ProbSparse:
1. ロングテール分布では高スコアが占める割合が小さいため、計算をやり直す必要がなく、ランダム サンプリングを使用して計算量を削減します: KK経由QKT QK^{T}を達成するためにK内のいくつかのテンソルをランダムに選択しますQ KTランダムにサンプリングされたターゲット;
2. KL 発散は分布ギャップを計算し、顕著なものを探します: 注意スコアSSS、特徴抽出が有効な場合、上図のようなロングテール分布を満たし、特徴マップにはいくつかの明るい縞模様が表示されますが、特徴抽出効果が良くない場合、注意スコアは類似しており、特徴マップに鋭いコントラストの縞模様がなく、裾の分布は均一な分布になります。したがって、KL 発散を使用して分布間のギャップを計算し、最大の分布ギャップを持ついくつかの注意スコアを選択し、それらのインデックスインデックスin d e x ;インデックスインデックス
に従ってインデックス見つかりましQQQ ˉ \bar{Q}対応するQQˉその後、注意スコアを計算しますS = Q ˉ KT dk S=\frac{\bar{Q}K^{T} }{\sqrt{d_{k} } }S=d QˉKTVVV は平均値を取得し、それをzzz,取 V V V はインデックスインデックスインデックスにありますd e x値が計算されますzindex =softmax ( S ) V z_{index}=softmax(S)Vzデックス_ _=so f t max x ( S ) V、更新zzz内の対応するインデックス位置の値
4. トレーニングの反復が完了するまで、このプロセスを繰り返します。

実験結果

主な実験結果

単変量長系列予測結果:
ここに画像の説明を挿入
多変量長系列予測結果:
ここに画像の説明を挿入
ここで、Informer + Informer^{+}向け_ _ _+典型的な自己注意メカニズムを使用します。
上図の有利なアイテム数の比較結果から、Informer には明らかな優位性があり、さまざまなデータセットで優れたパフォーマンスを発揮していることがわかります。

その他の実験結果

このパートの著者は、データの時間粒度、パラメータの感度、モデル構造のアブレーション実験など、多くの比較を行いました。さらに、著者はいくつかの手法の合計実行時間、時間計算量、空間計算量、推論ステップ数も比較しています。全体として、Informer は比較的安定した優れた予測パフォーマンスを示します。

要約する

この記事では多くの公式の導出と検証を行っており、絶妙な近似方法と素晴らしい公式プロセスにより、著者の改良された自己注意メカニズムが効果的かつ合理的になっています。もちろん、コーデックもモデルを改善し、効果を向上させる上で忘れられない役割を果たします。総じて言えば欠点はなく、効果も悪くなく、本当に強力です。

おすすめ

転載: blog.csdn.net/qq_43166192/article/details/130252079