【自然言語処理 | 言語モデル】言語モデル共通アルゴリズム入門集 (7)

1. ディーバート

DeeBERT は、BERT 推論を高速化する手法です。BERT の各トランス層の間に追加の分類層 (出力と呼ばれる) を挿入します。すべてのトランス層と出口ランプは、指定されたダウンストリーム データ セットに基づいて共同で微調整されます。推論中、サンプルは変圧器層を通過した後、次の出口に渡されます。オフランプの予測に自信がある場合は結果が返され、そうでない場合はサンプルが次のトランスフォーマー層に送信されます。

ここに画像の説明を挿入します

二、確率的にマスクされた言語モデル

確率的マスク言語モデル (PMLM) は、確率的マスキング スキームを利用する言語モデルであり、マスクされた言語モデルと自己回帰言語モデルの間のギャップを埋めることを目的としています。2 種類のモデルを接続する背後にある基本的な考え方は、Germain et al. (2015) の MADE と似ています。PMLM は、確率分布に従ってシーケンスをマスクする方法を定義する確率的マスキング スキームを備えたマスキング言語モデルです。著者らはマスキング率の単純な一様分布を採用し、モデルを u-PMLM と名付けました。

ここに画像の説明を挿入します

3、テーブル事前トレーニングから実行まで

TAPEX は、概念的にシンプルで経験的に強力な事前トレーニング方法であり、既存のモデルに表推論スキルを提供できます。TAPEX は、実行可能な SQL クエリを自動的に合成することによって得られた合成コーパス上でニューラル SQL エグゼキュータを学習することにより、テーブルの事前トレーニングを実装します。

4. ファストフォーマー

Fastformer は、構成要素として追加の注意を使用する Transformer のタイプです。トークン間のペアごとの相互作用をモデル化する代わりに、追加の注意を使用してグローバル コンテキストをモデル化し、各トークン表現がグローバル コンテキスト表現との相互作用に基づいてさらに変換されます。

ここに画像の説明を挿入します

5. 並列レイヤー

並列レイヤー - 各 Transformer ブロックで、標準の「直列」定式化の代わりに「並列」定式化 (Wang および コマツザキ、2021) を使用します。具体的には、標準の式は次のように記述できます。
y = x + MLP(LayerNorm(x + Attend(LayerNorm(x)))

並列式は次のように記述できます:
y = x + MLP(LayerNorm(x)) + Attend(LayerNorm(x))

MLP とアテンション入力行列の乗算を融合できるため、並列定式化により大規模なトレーニングを約 15% 高速化できます。アブレーション実験では、8B スケールではわずかな品質の低下が示されていますが、62B スケールでは品質の低下は見られないため、平行層の効果は 540B スケールでは品質が中立になるはずであると推測されます。

六、シングルヘッドアテンションRNN(SHA-RNN)

SHA-RNN (シングル ヘッド アテンション RNN) は、コア LSTM コンポーネントとシングル ヘッド アテンション モジュールに基づいて、埋め込み入力とソフトマックス分類器を組み合わせたリカレント ニューラル ネットワークと言語モデルです。その他の設計の選択肢には、ブーム フィードフォワード レイヤーの使用やレイヤーの正規化が含まれます。著者らの基本原則は、アーキテクチャの単純さを確保し、計算コストを制限することでした (モデルは最初に単一の GPU を使用してトレーニングされました)。

ここに画像の説明を挿入します

七、新しい現在の形

Nyströmformer は、提案された Nyström 近似を使用して BERT-small および BERT-base の自己注意を置き換えます。これにより、セルフアテンションの複雑さが O(n) に軽減され、Transformer がより長いシーケンスをサポートできるようになります。

ここに画像の説明を挿入します

8、ゲート型畳み込みネットワーク

ゲート畳み込みネットワークは、畳み込みネットワークとゲート メカニズムを組み合わせた言語モデルです。ゼロパディングを使用して、将来のコンテキストが表示されないようにします。ゲート畳み込み層は、他の層の上に重ねることができます。次に、適応ソフトマックス層を通じてモデル予測が取得されます。

ここに画像の説明を挿入します

9. AutoTinyBERT

AutoTinyBERT は、ニューラル アーキテクチャの検索を通じて発見された効率的な BERT バリアントです。具体的には、ワンショット学習を使用して大規模なスーパー事前トレーニング言語モデル (SuperPLM) を取得します。この場合、事前トレーニングまたはタスクに依存しない BERT 抽出が目的として使用されます。次に、SuperPLM 上で進化的アルゴリズムが実行され、特定のレイテンシ制約が与えられた最適なアーキテクチャが検索されます。最後に、最適なアーキテクチャに基づいて対応するサブモデルを抽出し、これらのモデルをさらにトレーニングします。

ここに画像の説明を挿入します

10. パーミュートフォーマー

PermuteFormer は、長いシーケンスにわたって線形にスケールする相対位置エンコーディングを備えた Performer ベースのモデルです。PermuteFormer は、位置依存の変換をクエリとキーに適用し、位置情報をアテンション モジュールにエンコードします。この変換は、自己注意の最終出力がトークンの絶対位置の影響を受けないように慎重に設計されています。

各トークンのクエリ/キー機能は、図では行ブロックとして表され、その要素は異なる色でマークされています。位置認識配置では、各ラベル付けされたクエリ/キー フィーチャの要素が、各アテンション ヘッドのヘッド サイズ次元に沿って配置されます。トークンの位置に応じて、クエリ/キー機能に適用される順列が異なります。

ここに画像の説明を挿入します

11. ノームフォーマー

NormFormer は、各レイヤーに 3 つの正規化操作 (セルフ アテンション後のレイヤー ノルム、セルフ アテンション出力のヘッドワイズ スケーリング、および最初の完全に接続されたレイヤー後のレイヤー ノルム) を追加する Pre-LN トランスフォーマーです。これらの変更により、少数の追加の学習可能なパラメーターが導入され、各レイヤーにフィーチャーのサイズ、つまり後続のコンポーネントの勾配サイズを変更するためのコスト効率の高い方法が提供されます。

ここに画像の説明を挿入します

12. BPトランス

BP-Transformer (BPT) は、自己注意機能と計算の複雑さの間のより良いバランスを見つける必要性を動機とした Transformer の一種です。このアーキテクチャは、バイナリ パーティショニング (BP) を通じて入力シーケンスをさまざまなマルチスケール範囲に分割します。これには、相対距離が増加するにつれて粒度の細かいコンテキスト情報から粒度の粗いコンテキスト情報に焦点を当てる帰納的バイアスが組み込まれています。コンテキスト情報が遠ざかるほど、その表現は粗くなります。BPT は、ノードがマルチスケール スパンであるグラフ ニューラル ネットワークとして見ることができます。トークン ノードは、より近いコンテキストのより小さなスケール スパンと、より遠いコンテキストのより大きなスケール スパンに参加できます。ノードの表現は、グラフのセルフアテンションを通じて更新されます。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/wzk4869/article/details/133100801