情報提供者: 長期シーケンス時系列予測のための効率を超えた変圧器

ここに画像の説明を挿入

背景

実際のアプリケーションの多くは、電力消費計画など、長いシーケンスの時系列の予測を必要とします。ロング シーケンス時系列予測 (LSTF) では、モデルの高い予測能力、つまり出力と入力間の正確な長距離依存関係を効率的にキャプチャする能力が必要です。最近の研究では、Transformer が予測能力を向上させる可能性があることが示されています。ただし、Transformer には、二次時間計算量、高いメモリ使用量、エンコーダ/デコーダ アーキテクチャの固有の制限など、LSTF への直接適用を妨げる重大な問題がいくつかあります。これらの問題に対処するために、次の 3 つの特徴を持つ、Informer という名前の LSTF 用の効率的なトランスフォーマー ベースのモデルを設計します。(i) ProbSparse セルフ アテンション メカニズム。これは、時間計算量とメモリ使用量で O(Llog L) を達成し、シーケンスの依存関係のアラインメントでは同等のパフォーマンスを発揮します。(ii) 自己注意の蒸留は、カスケード層の入力を半分にすることで支配的な注意を強調し、極端に長い入力シーケンスを効率的に処理します。(iii) 生成スタイル デコーダは、概念的には単純ですが、長い時系列シーケンスを段階的にではなく 1 回の順方向操作で予測します。これにより、長い時系列予測の推論速度が大幅に向上します。4 つの大規模データセットに対する広範な実験により、Informer が既存の手法を大幅に上回り、LSTF 問題に対する新しい解決策を提供することが実証されました。(ii) 自己注意の蒸留は、カスケード層の入力を半分にすることで支配的な注意を強調し、極端に長い入力シーケンスを効率的に処理します。(iii) 生成スタイル デコーダは、概念的には単純ですが、長い時系列シーケンスを段階的にではなく 1 回の順方向操作で予測します。これにより、長い時系列予測の推論速度が大幅に向上します。4 つの大規模データセットに対する広範な実験により、Informer が既存の手法を大幅に上回り、LSTF 問題に対する新しい解決策を提供することが実証されました。(ii) 自己注意の蒸留は、カスケード層の入力を半分にすることで支配的な注意を強調し、極端に長い入力シーケンスを効率的に処理します。(iii) 生成スタイル デコーダは、概念的には単純ですが、長い時系列シーケンスを段階的にではなく 1 回の順方向操作で予測します。これにより、長い時系列予測の推論速度が大幅に向上します。4 つの大規模データセットに対する広範な実験により、Informer が既存の手法を大幅に上回り、LSTF 問題に対する新しい解決策を提供することが実証されました。これにより、長いシーケンスの予測の推論速度が大幅に向上します。4 つの大規模データセットに対する広範な実験により、Informer が既存の手法を大幅に上回り、LSTF 問題に対する新しい解決策を提供することが実証されました。これにより、長いシーケンスの予測の推論速度が大幅に向上します。4 つの大規模データセットに対する広範な実験により、Informer が既存の手法を大幅に上回り、LSTF 問題に対する新しい解決策を提供することが実証されました。
長いシーケンスをエンコードするセルフアテンションには、主に 3 つの問題があります。

  1. 高い時間計算量、O(n2)
  2. 空間の複雑さが高く、計算には O(n2) という大量のメモリが消費されます。
  3. シーケンス動的逐次予測は効率が遅く、ステップバイステップ法は計算効率が非常に遅いです。

主な仕事

効率的な自己注意メカニズム

主な作業フレームワークは、トランスフォーマー セルフ アテンション フレームワークに基づいており、各 q について、各 k に対する q の確率分布が計算され、この確率分布に v が乗算されて、v の確率期待値が計算されます。
以前のいくつかの研究結果では、期待される自己注意の分布は本質的にまばらである、つまり、ほとんどのクエリで計算される確率 p(k/q) は役に立たないことが示されています。
したがって、先人たちは自己注意を促進するためにいくつかのヒューリスティックな方法を使用しましたが、いくつかの固有の問題があります。
ここに画像の説明を挿入
ここに画像の説明を挿入

q が比較的まばらであることを評価するにはどうすればよいですか? これには、KL 発散の使用が必要です。KL 発散を使用して、P(k|q) と一様分布が同じかどうかを計算します。計算された KL 値が非常に小さい場合、q の確率が次の確率分布に類似していることを意味します。一様分布。q には識別度がないことを示します。この q には意味がなく、サンプリング時に削除する必要があります。
ここに画像の説明を挿入
ここに画像の説明を挿入

上記で提案した q の重要度を計算する方法に基づいて、TOP-u のクエリをサンプリングするだけで、スパース性評価行列 M を継続できます。
ここに画像の説明を挿入
ここに画像の説明を挿入

エンコーダー: メモリ使用量制限の下で、より長い連続入力の処理を可能にする

エンコーダは、畳み込みとプーリングのアイデアを使用した自己注意蒸留の方法を採用しています。
ここに画像の説明を挿入

デコーダ: 1 回の転送プロシージャによる長い連続出力の生成

従来のシーケンス生成の問題は動的に生成され、ステップバイステップ方式では次の文字が 1 文字ずつ生成されますが、新しい方式ではプレースホルダーの 1 回生成を使用して逐次実行を回避し、生成速度が低下します。はるかに速くなります。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/WitsMakeMen/article/details/131965898