超解像アルゴリズム ESRT: Transformer for Single Image Super-Resolution

ここに画像の説明を挿入
この記事のESRT(Efficient Super-Resolution Transformer)のネットワーク構造はかなり複雑で、CNNとTransformerを組み合わせたものです。この記事では、効率的な SRTransformer 構造を提案しています。軽量トランス. 著者は、画像の超解像における画像の同様の詳細を参照補足として使用できると考えています (参照画像 Ref に基づく超解像と同様)。 . ただし、これらの ViT メソッドは計算量が多く、メモリを大量に消費するため、この軽量バージョンの Transformer 構造 (ET) が提案され、著者は QKV を使用してグループに分割し、注意を計算して最終的にスプライシングしましET只使用了transformer中的encoderfeature spilt高频滤波器模块HFMこの記事では、特徴抽出のために高周波情報を保持するCNN 部分の 1 つも提案しています。

記事の主な焦点は速度 (高効率) であり、効果も非常に優れています. 実験の部分で、著者は、ET 構造を RCAN に移植することで RCAN の効果も向上させることができると述べ、ET の有効性を証明しています. .

元のリンク: ESRT: Transformer for Single Image Super-Resolution
ソース コード アドレス: https://github.com/luissen/ESRT。

概要

深層学習の発展により、単一画像超解像 (SISR) 技術は大きな進歩を遂げました。最近、コンピュータ ビジョン タスクにおける Transformer の適用を検討する研究者が増えています。ただし、Vision Transformer の膨大な計算コストと高いGPU メモリ フットプリントが、その進歩を妨げています。本稿では、SISR のための新しい効率的な超解像変換器 (ESRT) を提案します。轻型CNN主干网(LCB)ESRT はとで構成されるハイブリッド モデルです轻型Transformer主干网(LTB)その中でも、LCB は特徴マップのサイズを動的に調整して、より低い計算コストで深い特徴を抽出できます。LTB は、特別に設計された効率的なマルチヘッド アテンション (EMHA) を使用する一連の効率的なトランスフォーマー (ET) で構成され、GPU メモリをほとんど占有しません。広範な実験により、ESRT がより低い計算コストで競争力のある結果を達成することが示されています。16057M GPU メモリを占有する元の Transformer と比較して、ESRT は 4191M GPU メモリしか占有しません。
ここに画像の説明を挿入

1 はじめに

同じ画像内の類似した画像パッチを相互に参照画像として使用できるため、参照パッチを使用して特定のパッチのテクスチャの詳細を復元できます。これに触発されて、著者は Transformer を SISR タスクに導入しました。これは、Transformer には強力な特徴表現能力があり、画像におけるこのような長期的な依存関係をモデル化できるためです。目標は、軽量の SISR タスクで Transformer を使用する可能性を探ることです。最近、コンピューター ビジョン タスク用にいくつかのトランスフォーマーが提案されています。ただし、これらの方法は多くの場合、大量の GPU メモリを占有するため、柔軟性とアプリケーション シナリオが大幅に制限されます。

上記の問題に対処するために、効率的な超解像度トランスフォーマー (ESRT) が提案され、GPU のメモリ コストを大幅に削減しながら、SISR ネットワークの長距離コンテキスト依存関係をキャプチャする機能が強化されます。

ESRT は、"CNN + Transformer" モデルを使用して小さな SR データセットを処理するハイブリッド アーキテクチャです。ESRT は、Lightweight CNN Backbone (LCB) と Lightweight Transformer Backbone (LTB) の 2 つの部分に分けることができます。

  1. LCB の場合、中間層の特徴マップの形状を縮小し、深いネットワーク深度を維持して大きなネットワーク容量を確保することについて、より多くの考慮が払われます。ハイパス フィルターに着想を得て、画像のテクスチャの詳細をキャプチャする高频滤波模块(HFM)ように設計されていますHFM では、サイズの変更によって潜在的な特徴を効果的に抽出する別の方法が提案されています。特徴抽出に関しては、残差パスとパスの重みを適応的に調整できる強力な基本特徴抽出ユニットが提案されています。高保留块(HPB)自适应残差特征块(ARFB)
  2. LTB では、高效Transformer(ET)特別に設計された Efficient Multi-Head Attention (EMHA) メカニズムを使用して GPU のメモリ消費を削減することが提案されています。また、SR 画像のピクセルは通常、隣接するピクセルと関連しているため、局所領域の画像パッチ間の関係のみを考慮してください。これはローカル領域ですが、通常の畳み込みよりもはるかに広く、より有用なコンテキスト情報を抽出できます。したがって、ESRT は類似したローカル パッチ間の関係を効果的に学習し、超解像領域により多くの参照を持たせることができます。

主な貢献は次のとおりです。

  1. 高保存ブロック (HPB) を使用して特徴マップのサイズを動的に変更し、低い計算コストで深い特徴を抽出する軽量 CNN バックボーン (LCB) が提案されています。
  2. Lightweight Transformer Backbone (LTB) は、特別に設計された Efficient Transformer (ET) および Efficient Multi-Head Attention (EMHA) メカニズムを使用して、画像内の類似したパッチ間の長期的な依存関係をキャプチャするために提案されています。
  3. Efficient SR Transformer (ESRT) と呼ばれる新しいモデルが提案され、画像内の同様のパッチの特徴の表現力と長期的な依存関係を効果的に強化し、より低い計算コストでより優れたパフォーマンスを実現します。

2 高効率超解像トランス

Efficient Super-Resolution Transformer (ESRT) は主に、浅い特徴抽出、軽量 CNN バックボーン (LCB)、軽量 Transformer バックボーン (LTB)、および画像再構成の 4 つの部分で構成されます。
ここに画像の説明を挿入

浅い特徴抽出:
3×3 畳み込み層
ここに画像の説明を挿入

軽量 CNN バックボーン (LCB):
複数の High Preserving Block (HPB) (実験では 3 つ) で構成され、ζ n ζ^ngnは n 番目の HPB のマッピングで、n 番目の HPB の出力はF n F_nn,公式:
ここに画像の説明を挿入

Lightweight Transformer Backbone (LTB):
各 HPB の出力は連結され、LTB フュージョン機能に送信されます. LTB は複数の Efficient Transformer (ET) で構成されます (実験では 1 つ), ϕ \ phiϕ はET の関数を表し、 F d F_ddは LTB の出力であり、式は次のとおりです
ここに画像の説明を挿入

画像再構成:
最終F d F_ddF 0 F_00同時に、再構成モジュールに入力され、再構成された画像ISR I_{SR}が取得されます。S Rff _ffp f_pp畳み込み層とサブピクセル畳み込み層をそれぞれ表し、ISR I_{SR}を取得します。S R式は次のとおりです。
ここに画像の説明を挿入

ESRT の全体的な構造は比較的従来型であり、深い特徴抽出では CNN と Transformer を併用します。LCB では比較的複雑な構造が使用され、推論速度は比較的遅くなりますが、ET ではトランスフォーマー エンコーダー構造が 1 つしか使用されないため、計算量が多くなりません。その後の実験では、ET を追加するとネットワークにメリットがもたらされることも証明されました。

2.1 軽量 CNN バックボーン (LCB)

軽量 CNN バックボーン (LCB) の役割は、潜像の特徴を事前に抽出して、モデルが超解像の初期機能を持つことを可能にすることです。LCBは主に高保留块(HPB)シリーズで構成されています。
ここに画像の説明を挿入

HPB:
以前の SR ネットワークは通常、処理中に特徴マップの空間解像度を変更しません。この論文では、計算コストを削減するために、新しい高保存ブロック (HPB) が提案され、処理された特徴の解像度が削減されますただし、特徴マップのサイズを縮小すると、多くの場合、画像の詳細が失われ、再構成された画像が視覚的に不自然になります。この問題を解決するために、HPB では、著者が独創的に提案し高频滤波模块(HFM)自适应残差特征块(ARFB).

まず、HPB の全体構造を紹介します。HFM と ARFB で構成されています。次に、HFM と ARFB の構造を詳細に分析します。

フレーム全体:前の HPB のF n − 1 F_{n-1}を出力n 1、現在の HPB の入力として。最初にF n − 1 F_{n-1}ARFBを抽出するメソッドを実行します。n 1HFMへの入力関数として。次に、HFM計算された特徴の高周波情報を使用します( P high P_{high}としてマークされます)。Pひぐひ_ _ _)。Pハイになった後P_{high}Pひぐひ_ _ _最後に、特徴マップのサイズが縮小され、計算コストと特徴の冗長性が削減されます。下采样特徴マップはfn − 1 ' f'_{n−1}で表されます。n 1fn − 1 の場合は f'_{n−1}n 1SR 画像の潜在情報を探索する多个共享权重的ARFBために使用します(パラメータを減らします)。同時に、処理P high P_{high}を使用します。单个ARFBPひぐひ_ _ _特徴空間を整列するにはfn − 1 ′ f'_{n−1}n 1fn − 1 ' f'_{n−1}n 1上采样双一次補間による元のサイズへの特徴抽出後。拼接融合fn − 1 ' f'_{n−1}n 1P高「P'_{高}Ph i g h, fn − 1 を得る " " f''_{n−1}n 1、初期の詳細を保持します。fn − 1を取得" " f''_{n−1}n 1の式は、
ここに画像の説明を挿入
このうち↑と↓はアップサンプリングとダウンサンプリングを表し、fa f_aaARFBの機能を表します。モデルのサイズとパフォーマンスのバランスをとるために、共有パラメーターを持つ 5 つの ARFB が採用されています。

fn − 1 '' f''_{n−1}n 12 つの機能で連結されているため、最初に使用して1×1卷积层t チャネルの数を減らします。次に、通道注意力アクティベーション値の高いチャネルを重み付けするために使用します。最後に、ARFB を使用して最終的な特徴を抽出し、全局残差连接元の特徴F n − 1 F_{n−1}を追加することを提案します。n 1F n F_nn. この操作の目的は、入力から残差情報を学習し、トレーニングを安定させることです。

チャネル アテンション モジュールは、Squeeze-and-excitation networks の記事から引用されているか、RCANで使用されている CA モジュールと同じです。

この記事は実際にはマトリョーシカの残差構造ですが、適応 Res スケーリング、高周波フィルター、ダウンサンプリング循環畳み込みなどの追加など、多くの改善が残差構造に対して行われています。

HFM:高周波フィルタリングモジュール

フーリエ変換は CNN に埋め込むのが難しいため、この論文では 1 つを提案します可微HFMHFM の目的は、 LR 空間から画像の高周波情報を推定することです。
ここに画像の説明を挿入
図 4 に示すように、入力特徴マップTL T_Lを想定します。TLサイズはC×H×WC×H×WC×H×W、最初にTA T_A平均池化を取得します。T:
ここに画像の説明を挿入
ここで、k はプーリング層のカーネル サイズを表し、中間特徴マップTA T_ATサイズはC × H k × W k C×\frac{H}{k}×\frac{W}{k}C×kH×kWTA T_ATの各値は、指定されたTL T_Lとして扱うことができますTL小さな領域の平均強度。その後、上采样寸法C × H × WC × H × Wを取得するために TA が実行されます。C×H×Wの新しいテンソルTU T_UTTU T_UT平均平滑度情報の式です。最後にTLからT_LTL按元素减去TU T_UT高周波情報を取得します。

TL T_LTLTU TU_UTおよび高頻度情報の視覚活性化マップを図 5 に示します。TU T_Uであることが観察できます。TTL T_LよりTLTL T_Lの方がスムーズTL平均的な情報。一方、高頻度情報は、ダウンサンプリング (平均プーリング) の前に特徴マップの詳細とエッジを保持します。したがって、この情報を保持することが重要です。

ARFB:Adaptive Residual Feature Block

ResNet と VDSR に触発され、モデルの深さが増すと、残差结构勾配消失の問題を軽減し、モデルの表現能力を高めることができます。自适应残差特征そのため、基本的な特徴抽出ブロックとしてブロック (ARFB) が提案されています。
ここに画像の説明を挿入
ARFB には、2 つの残差ユニット (RU) と 2 つの畳み込み層が含まれています。メモリとパラメータ数を節約するために、RU は縮小モジュールと拡張モジュールの 2 つのモジュールで構成されていますリダクション、将特征映射的通道减少一半、および展開での復帰の場合。同時に、適応重み付きの残差スケーリング アルゴリズム (RSA) は、残差パスの重みを動的に調整するように設計されています。固定 Res スケーリングと比較して、RSA は勾配の流れを改善し、入力特徴マップの残差特徴マップのコンテンツを自動的に調整できます。xru x_{ru}とします。バツあなた_は RU の入力であり、RU のプロセスは次のように表すことができます
ここに画像の説明を挿入

其中, y r u y_{ru} yあなた_はRUの出力、fre f_{re}_およびfex f_{ex}エックス_縮小および拡大操作を表すλ res λ_{res}lレーズ_ _λ x λ_xl×は、それぞれ 2 つのパスの適応重みです。1×1卷积层縮小および拡大機能のチャネル数を変更するために使用します。同時に、2 つの RU の出力を連結して入力し、階層機能をフルに活用し1×1卷积层ます最後に、チャネルを使用して特徴マップを削減し、融合した特徴から効果的な情報を抽出します3×3卷积层

LCB、CNNの部分が終わった、おさらい:LCBは3つのHPBで構成されています。各 HPB は HFM と ARFB で構成され、その構造にはチャンネル アテンションと ARFB が含まれており、アップダウン採用と 5 つの共有パラメーターがあります。コンセプトはテキスト全体を通して実行されます: パラメーターを減らします。(ARFB 共有パラメーター、アップおよびダウン サンプリング、および縮小された拡張レイヤーはすべて、パラメーターを削減し、軽量化と高効率を反映するためのものです)

 


2.3 軽量トランスバックボーン (LTB)

SISR では、画像内の類似した画像ブロックを相互の参照画像として使用できるため、他の画像ブロックを参照して現在の画像ブロックのテクスチャの詳細を復元できます。これは Transformer の使用に非常に適していますただし、以前のビジョン Transformer バリアントは通常、大量の GPU メモリを必要とし、これがビジョン分野での Transformer の開発を妨げていました。この論文では、著者らは、Lightweight Transformer Backbone (LTB) を提案します。LTB は、特別に設計された効率的なトランスフォーマー (ET)で構成されており、低い計算コストで画像内の類似した局所領域の長期的な依存関係をキャプチャできます
ここに画像の説明を挿入
前後の準備作業:フィーチャー マップを 1 次元シーケンスに拡張し、シーケンスをフィーチャー マップに変換します。

標準の Transformer は、1 次元シーケンスを入力として受け取り、シーケンスの長距離依存関係を学習します。一方、ビジョン タスクの場合、入力は常に2D 画像です。

ViT では、重複しないブロックを分割することによって 1D シーケンスが生成されます。つまり、各ブロック間にピクセルの重複はありません。著者らは、この前処理方法は SISR には適していないと考えています。

したがって、新しい特徴マップ処理方法が提案されます。図 7 に示すように、特徴マップは unfolding 手法を使用して小さなピースに分割され (実際には、パッチを分割するために重なり合うブロックが使用されます)、各小さなピースは「単語」と見なされます。具体的には、特徴マップ∈ RC × H × W ∈ R^{C×H×W}εRC × H × Wk×kk×kk×k core) は一連のパッチに展開されます。つまり、F pi ∈ R k 2 × C , i = 1 , … , N F_{pi} ∈ R^{k^2×C}, i={1, …, N}ぴー_εRk2 ×Ci=1 N,其中 N = H × W N=H×W N=H×Wはパッチの数です。重要な部分は、N の数がH × WH × Wであることです。H×Wは、分割時のk × kk×kk×kのカーネル移動ステップは 1 で、各パッチ間に大きなオーバーラップがあります。ViT も Swin-T も重複しないブロックで分割され、得られる N の数はH k × W k \frac{H}{k}\times\frac{W}{k} です。kH×kW

「展開」操作で各パッチの位置情報が自動的に反映されるため、各パッチの学習可能な位置埋め込みがなくなる(???これがなくなる)と作者は言っていました。これらのパッチは、ET に直接送信されます。ET の出力は入力と同じ形状を持ち、「折り畳み」操作を使用して特徴マップを再構築します。

 
EMHA: Efficient Multi-Head Attention
ここに画像の説明を挿入
is simple and effective . ViT と同様に、ET は標準の Transformer エンコーダ構造のみを使用します。図 8 の左側に示すように、ET のエンコーダには、効率的なマルチヘッド アテンション(EMHA) と MLP があります。一方、層の正規化は各ブロックの前に使用され、残りの接続は各ブロックの後に適用されます。ET 部分は基本的に標準のエンコーダ構造と同じですが、唯一の違いは、①作成者が QKV の特徴を s 個のグループに分割し、各グループが出力 O i O_i を取得するために注意を払うことです、次に出力を O に連結します。大きな行列の乗算を小さな行列の複数の乗算に分割して、パラメータ操作を減らします; ② マスクはアテンション計算には適用されません。
ここに画像の説明を挿入

図 8 の右側に示すように、入力E i E_iを想定します。B×C×Nの形をしています。

  1. まず、( B × C 2 × NB×\frac{C}{2}×N を缩减层使用してチャネル数を半分に減らします。B×2C×N)。
  2. 次に、特徴マップを线性层aによって Q (クエリ)、K (キー)、V (値)の 3 つの要素に射影します
  3. 特征分割(FS) モジュールを使用して、Q、K、および Vを、Q 1 , . . , Q s Q_1,...,Q_sとして示される同じ分割係数 s を持つ s セグメントに分割します。Q1. . . QsK1、.. . , K s K_1,...,K_sK1. . . KsV 1 , . . . , Vs V_1,...,V_s1. . . s
  4. 対応するQ i , K i , V i Q_i,K_i,V_iQK別途計算注意力操作(SDPA)出力O i O_i、SDPA は標準のアテンション モジュールと比較してマスク操作を省略します。
  5. O 1 , O 2 , … , O s O_1,O_2,…,O_s 12s拼接アップし出力フィーチャO全体を生成します。
  6. 扩展层最後にリカバリ チャネル番号を使用します

標準の Transformer では、Q と K が B×m×N×N の形をした自己注意行列を計算すると仮定します。次に、この行列を V と組み合わせて自己注意を計算し、3 次元と 4 次元は N×N です。SISR の場合、通常、画像の解像度が高いため、N が非常に大きくなり、自己注意行列の計算に大量の GPU メモリと計算コストが消費されます。
↓↓この問題を解決するために、 Q、K、および V は s の等しいセグメントに分割されます。
これは、通常、超解像度画像の予測ピクセルはLR のローカル ネイバーのみに依存するためです。最後の自己行列の 3 次元と 4 次元はN s × N s \frac{N}{s}\times\frac{N}{s} になります。sN×sNこれにより、計算量と GPU ストレージ コストが大幅に削減されます

3 実験

設定:

トレーニング: DIV2K をトレーニング データセットとして使用します。テスト: Set5、Set14、BSD100、Urban100、および Manga109 を
含む 5 つのベンチマーク データセットが使用されましたメトリクス: PSNR と SSIM は、再構成された SR 画像のパフォーマンスを評価するために使用されます。バッチ: 16パッチ: 48×48画像強調: ランダムな水平フリップと 90 度回転初期学習率は 2 × 1 0 − 4 に設定2×10^{-4}




2×1 04は 200 エポックごとに半分になります。
オプティマイザー: Adam、運動量 = 0.9。
損失関数: L1 損失は、
GTX1080Ti GPU でトレーニングするのに約 2 日かかります。

リダクション層は 1×1 畳み込みカーネルを使用し、その他は
32 チャネルの 3×3 畳み込み層と 64 チャネルの融合層を使用します. 画像再構成には、k = 2、3 つの HPB、および ET分割係数の
PixelShuffle
HFMを使用しますs = 4 ET k = 3 EMHA 作業前後の 8 頭の注意



3.1 高度な SISR モデルとの比較

表 1 では、

  1. EDSR ベースラインのパフォーマンスは ESRT のパフォーマンスに近いですが、そのパラメーターは ESRT のほぼ 2 倍です。
  2. MAFFSRN と LatticeNet のパラメータは ESRT に近いですが、ESRT の結果はそれらよりも優れています。
  3. ESRT は、Urban100 で他のモデルよりも優れたパフォーマンスを発揮します。これは、このデータセットの各画像に類似したパッチが多数あるためです。したがって、ESRT で導入された LTB を使用して、これらの類似した画像パッチ間の長期的な依存関係を把握し、それらの相関関係を学習して、より良い結果を得ることができます。
  4. ×4 スケールでは、ESRT と他の SR モデルとのギャップがより明白になりますこれは、他の明確なドメインからより多くを学ぶことができる、提案された ET の有効性によって支援されます。
  5. これらのすべての実験は、提案された ESRT の有効性を検証します。
    ここに画像の説明を挿入

3.2 計算コストの比較

表 2 では、

  1. ESRT は最大 163 レイヤーまで使用でき、これらの方法の中で2 番目に低いハッシュ レート(67.7G) を達成します。これは、有用な特徴を効果的に抽出し、高周波情報を保存できる、提案された HPB と ARFB の恩恵を受けます。
  2. ESRT は Transformer アーキテクチャを使用していますが、実行時間は非常に短いですCARN および IMDN と比較して増加した時間は、まったく問題ありません。
    ここに画像の説明を挿入

3.3 アブレーション研究

HPB:
表 3 は、 ESRT のHPB コンポーネントの有効性を調べたものです。

  1. ケース 1、2、および 3 を比較すると、HFM と CA の導入によってモデルのパフォーマンスが効果的に向上する一方で、パラメーターが増加することがわかります。
  2. ケース 2 とケース 4 を比較すると、ARFB の代わりに RB を使用すると、PSNR の結果は 0.01dB しか増加しませんが、パラメーターの数は 972K に増加することがわかります。これは、ARFB が優れたパフォーマンスを維持しながら、モデル パラメータを大幅に削減できることを意味します。
  3. これらの結果はすべて、HPB におけるこれらのモジュールとメカニズムの必要性と有効性を完全に示しています。

ここに画像の説明を挿入

ET:
表 4 では、モデルに対する Transformer の影響が分析されています。

  1. ESRT でトランスを削除すると、モデルのパフォーマンスは 32.18dB から 31.96dB に大幅に低下します。これは、導入された Transformer が、画像内の類似した画像パッチ間の関係を最大限に活用できるためです。
  2. ET は表の元の Transformer と比較されます。1ET は、より少ないパラメーターと GPU メモリ消費量 (1/4) でより良い結果を達成します。実験は、提案された ET の有効性を完全に検証します。
  3. ET の数が増えると、モデルのパフォーマンスはさらに向上します。ただし、モデル パラメーターと GPU メモリも ET の数とともに増加することに注意してください。したがって、モデルのサイズとパフォーマンスのバランスをうまくとるために、最終的な ESRT では ET を 1 つだけ使用します。

提案されたETの有効性と一般化可能性を検証するために、ET を RCAN に導入します。著者は、実験で小さなバージョンの RCAN (残差グループの数を 5 に設定) のみを使用し、再構成部分の前に ET を追加します。表 5 から、「RCAN/2+ET」モデルのパフォーマンスは、パラメーターが少ない元の RCAN のパフォーマンスに近いか、それよりも優れていることがわかります。これは、モデルのパフォーマンスをさらに向上させるために既存の SISR モデルに簡単に移植できるET の有効性と一般性をさらに示しています。
ここに画像の説明を挿入

3.4 実像超解像

実画像データセット ( RealSR )のいくつかの従来の軽量 SR モデルと比較したESRT。表 6 によると、ESRT が IMDN よりも優れた結果を達成していることがわかります。さらに、ESRT は、実用的な SR タスク用に特別に設計された ×4 で LK-KPN よりも優れています。この実験では、実際の画像に対する ESRT の有効性をさらに検証します。

ここに画像の説明を挿入

3.5 SwinIR との比較

ESRT の EMHA は、 SwinIRの Swin-Transformer レイヤーに似ていますただし、SwinIR はスライディング ウィンドウを使用して Transformer の高い計算問題を解決しますが、ESRT は分割係数を使用して GPU のメモリ消費を削減します表 7 によると、SwinIR と比較して、ESRT はより少ないパラメーターと GPU メモリで近いパフォーマンスを実現します。SwinIR が追加のデータセット ( Flickr2K ) をトレーニングに使用することは注目に値します。これは、モデルのパフォーマンスをさらに改善するための鍵です。IMDN などの方法との公正な比較のために、著者はこの作業ではこの外部データセットを使用しませんでした。

ここに画像の説明を挿入

4 結論

この論文では、 SISR用の新しい効率的な超解像トランス(ESRT)が提案されています。

  1. ハイブリッド構造ですCNN和Transformer结合
  2. ESRT は、最初に軽量のCNN バックボーン (LCB) を使用して深い特徴を抽出し、次に軽量の Transformer バックボーン (LTB) を使用して、画像内の類似したローカル領域間の長期的な依存関係をモデル化します
  3. LCB では、計算コストを削減し、特別に設計された高周波フィルター モジュール (HFM) と適応残差機能ブロック (ARFB) を通じて高周波情報を保存するために、高保存ブロック (HPB) が提案されています
  4. LTB では、 Efficient Transformer (ET) は、提案されている Efficient Multi-Head Attention (EMHA) の助けを借りて、少ない GPU メモリ フットプリントで特徴表現を強化するように設計されています。
  5. 広範な実験により、ESRT がモデルのパフォーマンスと計算コストの最適なバランスを実現することが示されています。

最後に、皆さんの科学研究の成功、健康、そしてすべての成功をお祈りします~

おすすめ

転載: blog.csdn.net/qq_45122568/article/details/124635706