深層学習の論文共有 (4) Retentive Network: A Sucessor to Transformer for Large Language Models

序文

元の論文: https://arxiv.org/abs/2307.08621
論文コード: https://aka.ms/retnet

タイトル: Retentive Network: A Sucessor to Transformer for Large Language Models
著者: Yutao Sun∗ †‡ Li Dong∗ † Shaohan Huang† Shuming Ma† Yuqing Xia† Jilong Xue† Jianyong Wang‡ Furu Wei†⋄g Xia†
Jilong Xue† Jianyong Wang‡ Furu Wei†⋄
† Microsoft Research ‡ 清華大学
翻訳のみここ

概要

この研究では、トレーニングの並列処理、低コストの推論、優れたパフォーマンスを実現しながら、大規模な言語モデルの基礎となるアーキテクチャとして Retention Networks (RETNET) を提案します。私たちは理論的に再帰と注意の間の関係を導き出します。次に、並列、再帰、ブロック再帰という 3 つの計算パラダイムをサポートするシーケンス モデリングの保存されたメカニズムが提案されます。具体的には、並列表現によりトレーニングの並列処理が可能になります。ループ表現により、低コストの O(1) 推論が可能になり、パフォーマンスを犠牲にすることなくデコード スループット、レイテンシ、GPU メモリが向上します。ブロック再帰表現により、線形複雑性を持つ長いシーケンスの効率的なモデリングが容易になります。各ブロックは、ブロックをループしながら並列にエンコードされます。言語モデリングの実験結果は、RETNET が優れたスケーリング効果、並列トレーニング、低コストの導入、効率的な推論を達成することを示しています。これらの興味深い特性により、RETNET は大規模言語モデルにおける Transformer の強力な後継者になります。コードは https://aka.ms/retnet で入手できます。

ここに画像の説明を挿入
図 1: RetNet は、Transformer と比較して、低コストの推論 (つまり、GPU メモリ、スループット、レイテンシー)、トレーニングの並列処理、および有利なスケーリング曲線を実現します。入力長として 8k を使用した推論コストの結果をレポートします。図 6 は、さまざまなシーケンス長に対するその他の結果を示しています。

1 はじめに

Transformer [VSP+17] は、大規模言語モデル [BMR+20] の事実上のアーキテクチャとなっています。これは、もともとリカレント モデル [HS97] の逐次トレーニング問題を克服するために提案されました。ただし、Transformer のトレーニングの並列処理には、各ステップの O(N) の複雑さとメモリに束縛されたキーと値のキャッシュ [Sha19] による非効率な推論という代償が伴い、そのため Transformer はデプロイメントに適していません。シーケンスの長さが長くなると、GPU メモリの消費量とレイテンシが増加し、推論速度が遅くなります。

効率的な O(1) 推論を実現しながら、トレーニングの並列性と競争力のあるパフォーマンスを維持することを目的とした、次世代アーキテクチャの開発に多くの取り組みが続けられています。図 2 に示すように、上記の目標、いわゆる「不可能な三角形」を同時に達成することは困難です。図 2:
ここに画像の説明を挿入
RetNet は、トレーニングの並列性、優れたパフォーマンス、低い推論コストを達成しながら、「不可能な三角形」を可能にします。

研究の主な方向性は 3 つあります。まず、線形化された注意力​​ [KVPF20] は、標準的な注意力スコア exp(q k) をカーネル φ(q) φ(k) で近似するため、自己回帰推論を再帰型で書き直すことができます。ただし、この方法のモデリング能力とパフォーマンスはトランスフォーマーほど良くないため、この方法の一般化が妨げられています。2 番目のチェーンは再帰モデルに戻り、トレーニングの並列性を犠牲にして効率的な推論を実現します。改善策として、要素ごとのインテリジェント演算子 [PAA+23] が高速化のために使用されますが、表現力とパフォーマンスは低下します。3 番目の研究では、注意を S4 [GGR21] やそのバリアント [DFS+22、PMN+23] などの他のメカニズムに置き換えることを検討しています。これまでの作品はどれも不可能な三角形を突破できず、『トランスフォーマー』に比べて明確な勝者は出なかった。

この研究では、低コストの推論、長いシーケンスの効率的なモデリング、トランスフォーマーと同等のパフォーマンス、および並列モデルのトレーニングを同時に可能にする保持ネットワーク (RetNet) を提案します。具体的には、マルチヘッド アテンションの代替としてマルチスケール保存メカニズムを導入します。これには、並列表現、再帰表現、ブロック再帰表現という 3 つの計算パラダイムがあります。まず、並列表現により、トレーニングの並列処理が GPU デバイスを最大限に活用できるようになります。第 2 に、ループ表現により、メモリと計算の観点から効率的な O(1) 推論が可能になります。導入コストと遅延を大幅に削減できます。また、キーと値のキャッシュ手法を使用しないため、実装が大幅に簡素化されます。第三に、ブロック単位の再帰表現により、長いシーケンスの効率的なモデリングが可能になります。各ローカル ブロックを並列でエンコードして計算速度を向上させ、同時にグローバル ブロックをループでエンコードして GPU メモリを節約します。

私たちは、RetNet と Transformer およびそのバリアントを比較するために広範な実験を行っています。言語モデリングに関する実験結果は、RetNet がスケーリング曲線とコンテキスト学習の両方において一貫して競争力があることを示しています。さらに、RetNet の推論コストは長さによって不変です。7B モデルと 8k シーケンス長の場合、RetNet のデコード速度は、キーと値のキャッシュを備えた Transformer よりも 8.4 倍速く、メモリの 70% を節約します。トレーニング中に、RetNet は 25 ~ 50% のメモリ節約と 7 倍のスピードアップも実現します。これは、標準の Transformer や高度に最適化された FlashAttendant [DFE+22] よりも優れています。さらに、RetNet の推論レイテンシーはバッチ サイズの影響を受けないため、膨大なスループットが可能になります。これらの興味深い特性により、RetNet は大規模言語モデルにおける Transformer の強力な後継者になります。

2 保持型ネットワーク

Retention Network (RetNet) は、Transformer [VSP+17] と同様のレイアウトに従って、L 個の同一のブロックによってスタックされます (つまり、残留接続とプレレイヤー ノルム pre-LayerNorm)。各 RetNet ブロックには、マルチスケール保存 (MSR) モジュールとフィードフォワード ネットワーク (FFN) モジュールの 2 つのモジュールが含まれています。MSR モジュールについては次のセクションで紹介します。入力シーケンスx = x 1 ⋅ ⋅ ⋅ x ∣ x ∣ x = x_1··x_{|x|} が与えられるとします。バツ=バツ1⋅⋅⋅バツ×, RetNet は自己回帰的な方法でシーケンスをエンコードします。まず入力ベクトル { xi{x_i} バツ私は} i = 1 ∣ x ∣ ^{|x|}_{i=1}i = 1×X 0 = [ x 1 , ⋅ ⋅ ⋅ , x ∣ x ∣ ] ∈ R ∣ x ∣ × dmodel X_0 = [x_1, · · ·,x_{|x|}]∈\mathbb{R}^{| にパックされますx|×d_{モデル}}バツ0=[ ×1⋅⋅⋅××Rx × dモデル_ _ _ _ここで、dmodel d_{model}dモデル_ _ _ _隠れた次元のために。次に、文脈化されたベクトル表現X l = R et N etl ( X l − 1 ), l ∈ [ 1 , L ] X^l = RetNet_l(X^{l−1}), l∈[1,L] を計算します。バツ=戻るネット_ _ _( Xl 1 )l[ 1 L ]

2.1 保持

このセクションでは、再帰と並列処理の 2 つの形式を使用した保持メカニズムを紹介します。したがって、推論のためにループしながらモデルを並行してトレーニングできます。

入力が与えられた場合、X ∈ R ∣ x ∣ × dmodel X∈\mathbb{R}^{|x|×d_{model}}バツRx × dモデル_ _ _ _、それを 1 次元関数v ( n ) = X n ⋅ w V v(n) = X_n・w_Vとして投影します。v ( n )=バツwV状態sn s_nを通過するシーケンス モデリング問題を考えてみましょう。s映射 v ( n ) → o ( n ) v(n)→o(n) v ( n )o ( n )つまり、vn v_nvv ( n ) v(n)を意味しますv ( n ) オン o_nああ表示 o ( n ) o(n) o ( n ) . このマッピングを循環的に定式化します:vn v_n
ここに画像の説明を挿入
となります。v状態ベクトルsn s_nにマッピングされるs、次に線形変換を実装してシーケンス情報を循環的にエンコードします。

次に、射影Q n 、K n Q_n、K_nを作成します。QKはコンテンツを認識します:
ここに画像の説明を挿入
ここで、WQ , WK ∈ R d × d W_Q, W_K ∈ \mathbb{R}^{d×d}WQWKRd × dは学習可能な行列です。

我们对角化行列A = Λ ( γ ei θ ) Λ − 1 A = Λ(γe^{iθ})Λ^{−1}=L ( c ei i )L1,ここで γ, θ ∈ R d γ,θ∈\mathbb{R}^dc Rd。 getAn − m = Λ ( γ ei θ ) n − m Λ − 1 A^{n−m} = Λ(γe^{iθ}) ^{n−m}Λ^{−1}n m=L ( c e ) _n m Λ1_Λ代入WQ W_QWQそしてWK W_KWK、式 (1) は次のように書き換えることができます。
ここに画像の説明を挿入
ここでQ n ( γ ei θ ) n , K m ( γ ei θ ) − m Q_n(γe^{iθ})^n, K_m(γe^{iθ})^{ −m}Q( c e ) _nKメートル( c e ) _mは xPos [SDP+22] と呼ばれ、Transformer によって提案された相対位置埋め込みです。さらにγγγはスカラーに簡略化され、式 (3) は次のようになります。
ここに画像の説明を挿入
ここで、† は共役転置です。この定式化は、トレーニング インスタンス間で簡単に並列化できます。

要約すると、式 (1) に示すループのモデリングから始めて、式 (4) に示す並列式を導き出します。元のマッピング v(n)→o(n) をベクトルとして受け取り、次のような保持メカニズムを取得します。

保持の並列表現: 図 3a に示すように、保持層は次のように定義されます。
ここに画像の説明を挿入
ここで、Θ ‾ \overline{Θ}ThあれΘthΘの複素共役D ∈ R ∣ x ∣ × ∣ x ∣ D∈\mathbb{R}^{|x|×| x|}DRx × x ∣ は、相対距離に沿った因果マスキングと指数関数的減衰を 1 つの行列に結合します。自己注意と同様に、並列表現により、モデルのトレーニングに GPU を効率的に利用できます。
ここに画像の説明を挿入
保存された再帰表現: 図 3b に示すように、提案されたメカニズムは、推論を容易にする再帰ニューラル ネットワーク (rnn) として記述することもできます。n 番目のタイム ステップでは、ループして次の出力を取得します。
ここに画像の説明を挿入
ここで、Q 、 K 、 V 、 γ Q、 K、 V、γ質問K V γは式(5)と同じである。

ブロック保持再帰表現: 並列表現と再帰表現のハイブリッドを使用して、特に長いシーケンスのトレーニングを高速化できます。入力シーケンスをチャンクに分割します。各ブロック内では、並列表現 (式 (5)) に従って計算します。対照的に、クロスブロック情報は循環表現で伝達されます (式 (6))。具体的には、B をブロック長とします。i 番目のブロックの保持された出力を次のように計算します。
ここに画像の説明を挿入
ここで[ i ][i][i]表示第 i i i块,即x [ i ] = [ x ( i − 1 ) B + 1 , ⋅ ⋅ ⋅ , xi B ] x_{[i]} = [x_{(i−1)B+1},... ,x_{iB}]バツ[]=[ ×( i 1 ) B + 1⋅⋅⋅×B]

2.2 ゲート付きマルチスケール保持

各層でh = dmodel / dh = d_{model}/dを使用します。h=dモデル_ _ _ _/ dヘッダーを保持します。ここでdddは頭部の寸法です。ヘッドは異なるパラメーター行列WQ 、 WK 、 WV ∈ R d × d W_Q、W_K、W_V∈\mathbb{R}^{d×d} をWQWKWVRd × dさらに、マルチスケール リテンション (MSR) により、各ヘッドに異なるγガンマ簡単にするために、 γ を異なるレイヤー間で分割します。γは同じに設定され、固定されたままになります。さらに、保存層の非線形性を高めるためにフラッシュ ゲート [HG16、RZL17] を追加します。形式的には、入力XXXでは、レイヤーを次のように定義します。
ここに画像の説明を挿入

WGの場合、WO ∈ R dmodel × dmodel W_G, W_O∈\mathbb{R}^{d_{model}×d_{model}}WGWああRdモデル_ _ _ _× dモデル_ _ _ _学習可能なパラメータについては、GroupNorm [WH18] は [SPP+19] で提案された subn に従って各ヘッドの出力を正規化します。正の場合は複数のγ γが使用されることに注意してください。γスケール。これにより、異なる分散統計が得られます。したがって、正の出力を個別に正規化します。

保持された擬似コードを図 4 にまとめます。
ここに画像の説明を挿入
保持されたスコアの正規化: GroupNorm のスケール不変性を利用して、保持された層の数値精度を向上させます。具体的には、GroupNorm 内でスカラー値を乗算しても、出力勾配と後方勾配には影響しません。つまり、GroupNorm ( α ∗ headi ) = GroupNorm ( headi ) GroupNorm(α∗head_i) = GroupNorm(head_i)GroupNまたはm ( α _ _ __ _私は)=GroupNまたはm (ヘッド_ _ _ _ _ _私は式 (5) では 3 つの正規化係数を実装します。まず、QK ⊺ QK^⊺Q K QKに正規化⊺ / √ d QK^⊺/√dQ K /√d次に、DDD替换为 D ~ n m = D n m / Σ i = 1 n D n i \widetilde{D}_{nm} = D_{nm}/\sqrt{\Sigma_{i=1}^nD_{ni}} D nm=Dnm/Si = 1Dそれはです 第三に、RRとします。R は保持率を表しますR = QK ⊺ ⊙ DR = QK^⊺⊙DR=Q KDでは、これをR ~ nm = R nm / max ( ∣ Σ i = 1 n R ni ∣ , 1 ) \widetilde{R}_{nm} = R_{nm}/max(|\Sigma_ {i= 1}^nR_{ni}|,1)R nm=Rnm/ max ( Σ _i = 1Rそれはです1 )この時点で、保持率の出力はRetention ( X ) = R ~ V Retention(X) = \widetilde{R}V保持( X ) _ _ _ _ _ _ _=R V. _ スケール不変の特性により、上記のトリックは最終結果に影響を与えませんが、前方パスと後方パスの値の流れを安定させます。

2.3 保持ネットワークの全体的なアーキテクチャ

llのためにl層保持ネットワークでは、マルチスケール保持 (MSR) とフィードフォワード ネットワーク (FFN) をスタックしてモデルを構築します。正式には、入力シーケンスxii = 1 ∣ x ∣ {x_i}^{|x|}_{i=1}バツ私はi = 1×単語埋め込みレイヤーによりベクトルに変換されます。パディング埋め込みを使用しますX 0 = [ x 1 , ⋅ ⋅ ⋅ , x ∣ x ∣ ] ∈ R ∣ x ∣ × dmodel X^0 = [x_1,···,x_{|x|}]∈\mathbb{R }^{|x|×d_{モデル}}バツ0=[ ×1⋅⋅⋅××Rx × dモデル_ _ _ _計算モデルは入力としてXLX^Lを出力します。バツL :
ここに画像の説明を挿入
ここで、LN ( ⋅ ) LN( )L N ( ) 1 つのL レイヤー N orm LayerNormレイヤーNまたはm [ BKH16 ]FFN 部分は、FFN ( X ) = gelu ( XW 1 ) W 2 FFN(X) = gelu(XW_1)W_2FFN ( X )=ゲルルー( X W _ _ _1) W2,其中 W 1 、 W 2 W_1、W_2 W1W2はパラメータ行列です。

トレーニング: トレーニング中に並列表現 (式 (5)) およびブロック再帰表現 (式 (7)) を使用します。シーケンスまたはブロック内の並列化では、GPU を効率的に利用して計算を高速化します。さらに有利なことに、ブロック再帰は、長いシーケンスのトレーニングに特に役立ち、FLOP とメモリ消費の両方の点で効率的です。

ここに画像の説明を挿入
表 1: さまざまな角度から見たモデルの比較。RetNet は、トレーニングの並列化、一定の推論コスト、線形の長いシーケンスのメモリの複雑さ、および優れたパフォーマンスを実現します。

推論: 推論中に再帰表現 (式 (6)) を使用します。これは自己回帰デコードによく適応します。O(1) の複雑さにより、同じ結果を達成しながらメモリと推論のレイテンシが削減されます。

2.4 従来手法との関連性および相違点

表 1 は、RetNet と以前の方法をさまざまな観点から比較したものです。比較結果は、図 2 に示す「不可能な三角形」を反映しています。さらに、RetNet はブロックごとの再帰表現により、長いシーケンスに対して線形メモリの複雑性を持ちます。具体的な方法との比較も以下にまとめます。

Transformer : Transformer (VSP+17) と同様の精神で並列表現が保存されています。最も関連性の高い Transformer のバリアントは、xPos を位置埋め込みとして実装する Lex Transformer [SDP+22] です。式 (3) に示すように、保持率の導出は xPos と一致しています。注意と比較して、リテンションはソフトマックスを排除し、反復的な定式化を可能にし、推論に大きな利益をもたらします。

S4 : 式 (2) とは異なり、Qn と Kn にコンテンツが含まれていない場合、式は S4 [GGR21] に簡略化できます。ここで、O = (QK⊺, QAK⊺, ..., QA|x|−1K⊺) )* V 。

線形の注意: バリアントは通常、さまざまなカーネル ϕ(qi)ϕ(kj)/ |x| n=1 ϕ(qi)ϕ(kn) を使用して、softmax 関数を置き換えます。ただし、線形アテンションでは位置情報を効果的にエンコードすることが難しく、モデルのパフォーマンスが低下します。さらに、ソフトマックスの近似を目指すのではなく、シーケンスモデリングをゼロから再検討します。

AFT/RWKV : アテンション フリー トランスフォーマー (AFT) は、要素ごとの演算におけるドット積の焦点を簡素化し、ソフトマックスをキー ベクトルに移動します。RWKV は、AFT の位置埋め込みを指数関数的減衰に置き換え、トレーニングと推論のためにモデルをループで実行します。対照的に、保存アルゴリズムはシーケンス情報をエンコードするために高次元の状態を保存するため、表現力とパフォーマンスの向上に役立ちます。

xPos/RoPE : 提案されたトランス相対位置埋め込み法と比較すると、式 (3) は xPos [SDP+22] および RoPE [SLP+21] の式と類似しています。

Sub-LayerNorm : 式 (8) に示すように、予約層は sublayernorm [WMH+22] を使用して出力を正規化します。マルチスケール モデリングにより頭部の分散が異なるため、元の LayerNorm を GroupNorm に置き換えます。

3 実験

RetNetを評価するための言語モデリング実験を行っています。私たちは、言語モデリングのパフォーマンスや下流タスクでのゼロ/少数ショット学習など、さまざまなベンチマークで提案されたアーキテクチャを評価します。また、トレーニングと推論については、速度、メモリ消費量、レイテンシを比較します。
ここに画像の説明を挿入
表 2: 言語モデリング実験でのモデルのサイズと学習されたハイパーパラメーター。

ここに画像の説明を挿入
図 5: モデルのサイズが大きくなるにつれて、複雑さは減少します。モデル サイズが 2B より大きい場合、RetNet が Transformer よりも優れたパフォーマンスを発揮する傾向があることが経験的に観察されています。

3.1 セットアップ

パラメータ設定: 公平な比較のために、MSR と FFN のパラメータを再割り当てします。簡単にするために、ここでは d を dmodel を表すために使用します。「トランスフォーマー」では、セルフアテンションには約 4d のパラメータがあり、WQ、WK、WV、WO∈R d×d、FFN には約 82d のパラメータがあり、中間次元は 4d です。対照的に、RetNet の予約パラメータは 8d 2 です。ここで、WQ、WK ∈ R d×d、WG、WV ∈ R d×2d、WO ∈ R 2d×d です。V の頭部の寸法は Q, k の 2 倍であり、拡張された寸法は WO によって d に射影されることに注意してください。パラメータの数を Transformer と同じに保つために、RetNet の FFN の中間次元は 2d です。同時に、実験ではヘッダーのディメンションを 256 に設定します。つまり、クエリとキーは 256、値は 512 です。公平に比較​​するために、式 (8) のデフォルト値の代わりに、異なるモデル サイズで γ を同じに保ちます。ここで、γ = 1−e linspace(log 1/32, log 1/512, h) ∈ R h です。

言語モデルのトレーニング: 表 2 に示すように、さまざまなサイズ (1.3B、2.7B、6.7B) の言語モデルを最初からトレーニングします。トレーニング コーパスは、The Pile [GBB+20]、C4 [DMI+21]、および The Stack [KLBA+22] を厳選して編集したものです。シーケンスの開始を示すトークンを追加します2。トレーニング バッチ サイズは 4M トークンで、最大長は 2048 です。100B トークン、つまり 25k ステップを使用してモデルをトレーニングします。AdamW [LH19] オプティマイザーを β1 = 0.9、β2 = 0.98、重み減衰を 0.05 に設定して使用します。ウォームアップ ステップの数は 375 で、学習率は直線的に減衰します。パラメータは、トレーニングの安定性を確保するために DeepNet [WMD+22] に従って初期化されます。実装は、TorchScale [MWH+22] に基づいています。512 個の AMD MI200 GPU を使用してモデルをトレーニングします。

3.2 トランスとの比較

ここに画像の説明を挿入

3.3 トレーニング費用

3.4 推論コスト

ここに画像の説明を挿入

3.5 変圧器のバリエーションとの比較

ここに画像の説明を挿入

3.6 アブレーション研究

4 結論

この研究では、並列、再帰、ブロック再帰などのさまざまな表現をサポートするシーケンス モデリングのための Retention Networks (RetNet) を提案します。RetNet は、Transformers と比較して、大幅に優れた推論効率 (メモリ、速度、レイテンシーの点で)、良好なトレーニングの並列化、および競争力のあるパフォーマンスを実現します。上記の利点により、特に O(1) 推論の複雑さによってもたらされる展開上の利点を考慮すると、RetNet は大規模言語モデル トランスフォーマーの理想的な後継者になります。将来的には、モデル サイズ [CDH+22] とトレーニング ステップの点で RetNet をスケールアップしたいと考えています。さらに、保持は長期記憶を圧縮することで構造化された手がかりを効率的に処理できます [HSD+22b]。また、マルチモーダル大規模言語モデル [HSD+22a、HDW+23、PWD+23] をトレーニングするためのバックボーン アーキテクチャとして RetNet を使用します。

さらに、携帯電話などのさまざまなエッジデバイスに RetNet モデルを展開することにも興味があります。

ありがとう

有益な議論をしていただいた MSRA System Group の Jiayu Ding、Songlin Yang、および同僚に感謝いたします。

参考文献

[BKH16] ジミー・レイ・バ、ジェイミー・ライアン・キロス、ジェフリー・E・ヒントン。レイヤーの正規化。arXiv プレプリント arXiv:1607.06450、2016。

[BMR+20] トム・ブラウン、ベンジャミン・マン、ニック・ライダー、メラニー・サブビア、ジャレッド・D・カプラン、プラフラ・ダリワル、アルビンド・ニーラカンタン、プラナフ・シャム、ギリッシュ・サストリー、アマンダ・アスケル、サンディニ・アガルワル、アリエル・ハーバート=ヴォス、グレッチェン・クルーガー、トム・ヘニハン、レウォン・チャイルド、アディティア・ラメシュ、ダニエル・ジーグラー、ジェフリー・ウー、クレメンス・ウィンター、クリス・ヘッセ、マーク・チェン、エリック・シグラー、マテウシュ・リトウィン、スコット・グレイ、ベンジャミン・チェス、ジャック・クラーク、クリストファー・バーナー、サム・マッキャンドリッシュ、アレック・ラドフォード、イリヤ・サツケヴァー、ダリオアモデイ。言語モデルは少数回の学習です。『Advances in Neural Information Processing Systems』、第 33 巻、1877 ~ 1901 ページ。カランアソシエイツ株式会社、2020年。

[BZB+20]ヨナタン・ビスク、ローワン・ゼラーズ、ロナン・ル・ブラス、ジャンフェン・ガオ、イェジン・チョイ。Piqa: 自然言語での物理的常識についての推論。第 34 回 AAAI 人工知能会議にて、2020 年。

[CCWG21] ミンダ・チェン、ゼウェイ・チュー、サム・ワイズマン、ケビン・ギンペル。Summscreen: 抽象的な脚本要約のためのデータセット。arXiv プレプリント arXiv:2104.07091、2021。

[CDH+22] Zewen Chi、Li Dong、Shaohan Huang、Damai Dai、Shuming Ma、Barun Patra、Saksham Singhal、Payal Bajaj、Xia Song、Xian-Ling Mao、Heyan Huang、Furu Wei スパースの表現崩壊について専門家の混合、神経情報処理システムの進歩、2022 年。

[CLC+19] クリストファー・クラーク、ケントン・リー、ミンウェイ・チャン、トム・クウィアトコウスキー、マイケル・コリンズ、クリスティーナ・トウタノバ。BoolQ: 自然な「はい/いいえ」の質問の驚くべき難しさを探ります。計算言語学協会北米支部の 2019 年会議議事録、2924 ~ 2936 ページ、2019 年。

[DFE+22] トリ・ダオ、ダン・フー、ステファノ・エルモン、アトリ・ルドラ、クリストファー・レ。Flashattention: io を認識した、高速でメモリ効率の高い正確なアテンション。神経情報処理システムの進歩、35:16344–16359、2022。

[DFS+22] トリ ダオ、ダニエル Y フー、ハリド K サーブ、アーミン W トーマス、アトリ ルドラ、クリストファー レ。お腹を空かせたカバ: 状態空間モデルを使用した言語モデリングに向けて。arXiv プレプリント arXiv:2212.14052、2022。

[DMI+21] ジェシー ダッジ、アナ マラソビッチ、ガブリエル イルハルコ、ダーク グルーネフェルト、マーガレット ミッチェル、マット ガードナー。大規模な Web テキスト コーパスの文書化: 巨大でクリーンなクロールされたコーパスに関するケース スタディ。2021 年、自然言語処理における経験的手法に関するカンファレンスにて。

[GBB+20] Leo Gao、Stella Biderman、Sid Black、Laurence Golding、Travis Hoppe、Charles Foster、Jason Phang、Horace He、Anish Thite、Noa Nabeshima、他 The Pile: 言語モデリング用の多様なテキストの 800GB データセット。arXiv プレプリント arXiv:2101.00027、2020。

[GGR21] アルバート・グー、カラン・ゴエル、クリストファー・レ。構造化された状態空間を使用して長いシーケンスを効率的にモデル化します。arXiv プレプリント arXiv:2111.00396、2021。

[HCP+21] Luyang Huang、Shuyang Cao、Nikolaus Parulian、Heng Ji、Lu Wang、長い文書の要約に対する効率的な注意点、arXiv プレプリント arXiv:2104.02112、2021。

[HDW+23] ホアン・シャオハン、リー・ドン、ワン・ウェンホイ、ヤル・ハオ、サクシャム・シンハル、マー・シュミン、テンチャオ・LV、レイ・クイ、オワイス・カーン・モハメッド、チャン・リウ、クリティ・アガルワル、ゼウェン・チー、ヨハン・ビョルク、ヴィシュラフ・チョーダリー、サブホジット・ソム、Xia Song、およびFuru Wei. 必要なのは言語だけではありません: 認識を言語モデルと調整する. ArXiv、abs/2302.14045、2023.

【HG16】ダン・ヘンドリックスとケビン・ギンペル。ガウス誤差線形単位 (GELU)。arXiv: 学習、2016 年。

[HS97] ゼップ・ホッホライターとユルゲン・シュミットフーバー。長期の短期記憶。Neural Computation、9:1735-1780、1997 年 11 月。

[HSD+22a] Yaru Hao、Haoyu Song、Li Dong、Shaohan Huang、Zewen Chi、Wenhui Wang、Shuming Ma、Furu Wei. 言語モデルは汎用インターフェイスです. ArXiv、abs/2206.06336、2022.

[HSD+22b] Yaru Hao、Yutao Sun、Li Dong、Zhixiong Han、Yuxian Gu、Furu Wei. 構造化プロンプト: コンテキスト内の学習を 1,000 例に拡張. ArXiv、abs/2212.06713、2022.

[KLBA+22] デニス・コチェトコフ、レイモンド・リー、ルブナ・ベン・アラル、ジア・リー、チェンハオ・モウ、カルロス・ムニョス・フェランディス、ヤシン・ジャーナイト、マーガレット・ミッチェル、ショーン・ヒューズ、トーマス・ウルフ、ドズミトリー・バダナウ、レアンドロ・フォン・ヴェラ、ハルム・デ・フリース。スタック: 3TB の許可されたソース コード。プレプリント、2022 年。

【KVPF20】アンゲロス・カタロプロス、アプール・ヴィャス、ニコラオス・パパス、フランソワ・フルーレ。トランスフォーマーは rnns: 線形アテンションを備えた高速自己回帰トランスフォーマーです。機械学習に関する国際会議、5156 ~ 5165 ページ。PMLR、2020年。

[LDM12] ヘクター・レベスク、アーネスト・デイビス、レオラ・モルゲンスターン。winograd スキーマの課題。知識表現と推論の原則に関する第 13 回国際会議にて、2012 年。

[LH19] イリヤ・ロシチロフとフランク・ヒッター。分離された重み減衰正則化。学習表現に関する国際会議にて、2019年。

[MRL+17] ナスリン・モスタファザデ、マイケル・ロス、アニー・ルイス、ナサナエル・チェンバース、ジェームズ・アレン。Lsdsem 2017 の共有タスク: ストーリー クローズ テスト。語彙、文、談話レベルの意味論のリンクモデルに関する第 2 回ワークショップ議事録、46 ~ 51 ページ、2017 年。

[MWH+22] Shuming Ma、Hongyu Wang、Shaohan Huang、Wenhui Wang、Zewen Chi、Li Dong、Alon Benhaim、Barun Patra、Vishrav Chaudhary、Xia Song、Furu Wei. トーチスケール: トランスフォーマー アット スケール. CoRR、abs/2211.13184 、2022年。

[OSG+23] アントニオ オルヴィエート、サミュエル L. スミス、アルバート グー、アヌシャン フェルナンド、チャグラール グルシェーレ、ラズヴァン パスカヌ、ソーハム デ。長いシーケンスのリカレント ニューラル ネットワークを復活させます。ArXiv、abs/2303.06349、2023。

[PAA+23] ボー・ペン、エリック・アルカイド、クエンティン・アンソニー、アロン・アルバラク、サミュエル・アルカジーニョ、ファンチー・カオ、シン・チェン、マイケル・チャン、マッテオ・グレラ、クランティ・キランGV、シュジェン・ヘ、ハオウェン・ホウ、プシェミスワフ・カジェンコ、ヤン・ココン、ジアミン・コン、バルトロミエジ・コプティラ、ヘイデン・ラウ、クリシュナ・シュリ・イプシット・マントリ、フェルディナンド・マム、斉藤篤、タン・シャンルー、ボルン・ワン、ヨハン・S・ウィンド、スタンシロウ・ウォズニアック、ルイチョン・チャン、ジェンユアン・チャン、チーハン・チャオ、ペン・ジョウ、ジャン・ジュー、ルイ- Jie Zhu. Rwkv: 2023 年のトランスフォーマー時代に向けた RNN の再発明。

[PMN+23] マイケル・ポーリ、ステファノ・マッサローリ、エリック・グエン、ダニエル・Y・フー、トリ・ダオ、スティーブン・バッカス、ヨシュア・ベンジオ、ステファノ・エルモン、クリストファー・レ。ハイエナ階層: より大規模な畳み込み言語モデルに向けて。arXiv プレプリント arXiv:2302.10866、2023。

[PWD+23] Zhiliang Peng、Wenhui Wang、Li Dong、Yaru Hao、Shaohan Huang、Shuming Ma、Furu Wei Kosmos-2: マルチモーダル大規模言語モデルを世界に発信します。

ArXiv、abs/2306.14824、2023。

[RZL17] プラジット・ラマチャンドラン、バレット・ゾフ、クオック・V・ル。Swish: セルフゲート活性化関数。arXiv: ニューラルおよび進化的コンピューティング、2017 年。

[SDP+22] Yutao Sun、Li Dong、Barun Patra、Shuming Ma、Shaohan Huang、Alon Benhaim、Vishrav Chaudhary、Xia Song、Furu Wei 長さ外極変圧器。

arXiv プレプリント arXiv:2212.10554、2022。

[Sha19] ノーム・M・シャジーア。高速トランスデコーディング: 必要なのは 1 つの書き込みヘッドだけです。ArXiv、abs/1911.02150、2019。

[SLP+21] Jianlin Su、Yu Lu、Shengfeng Pan、Bo Wen、および Yunfeng Liu. Roformer: 回転位置埋め込みを備えた強化されたトランスフォーマー. arXiv プレプリント arXiv:2104.09864、2021.

[SPP+19] モハマド・シュービ、モストファ・パトワリー、ラウル・プリ、パトリック・ルグレスリー、ジャレッド・キャスパー、ブライアン・カタンザーロ。Megatron-LM: モデル並列処理を使用して、数十億のパラメーター言語モデルをトレーニングします。arXiv プレプリント arXiv:1909.08053、2019。

[SSI+22] Uri Shaham、Elad Segal、Maor Ivgi、Avia Efrat、Ori Yoran、Adi Haviv、Ankit Gupta、Wenhan Xiong、Mor Geva、Jonathan Berant、他 スクロール: 長い言語シーケンスの標準化比較。arXiv プレプリント arXiv:2201.03533、

[VSP+17] アシシュ・バスワニ、ノーム・シェイザー、ニキ・パーマー、ヤコブ・ウシュコレイト、ライオン・ジョーンズ、エイダン・N.

ゴメス、ウカシュ・カイザー、イリア・ポロスキン。必要なのは注意力だけです。In Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017、2017 年 12 月 4 ~ 9 日、米国カリフォルニア州ロングビーチ、6000 ~ 6010 ページ、2017 年。

[WH18] Yuxin WuとKaiming He。グループの正規化。欧州コンピューター ビジョン会議 (ECCV) の議事録、3 ~ 19 ページ、2018 年。

[WMD+22] Honyu Wang、Shuming Ma、Li Dong、Shaohan Huang、Dongdong Zhang、Furu Wei. DeepNet: 1,000 層へのトランスフォーマーのスケーリング. ArXiv、abs/2203.00555、2022.

[WMH+22] Honyu Wang、Shuming Ma、Shaohan Huang、Li Dong、Wenhui Wang、Zhiliang Peng、Yu Wu、Payal Bajaj、Saksham Singhal、Alon Benhaim、他 財団のトランスフォーマー。

arXiv プレプリント arXiv:2210.06423、2022。

[WPN+19] アレックス・ワン、ヤダ・プルクシャチャットクン、ニキータ・ナンギア、アマンプリート・シン、ジュリアン・マイケル、フェリックス・ヒル、オマー・レヴィ、サミュエル・R・ボウマン。SuperGLUE: 汎用言語理解システムのより粘着性の高いベンチマーク。arXiv プレプリント arXiv:1905.00537、2019。

[ZHB+19] ローワン・ゼラーズ、アリ・ホルツマン、ヨナタン・ビスク、アリ・ファルハディ、イェジン・チェ。Hellaswag: 機械は本当にあなたの文章を完成させることができるのでしょうか? 計算言語学協会の第 57 回年次総会議事録、2019 年。

[ZYY+21] Ming Zhong、Da ying、Tao Yu、Ahmad Zaidi、Mutethia Mutuma、Rahul Jha、Ahmed Hassan Awadallah、Asli Celikyilmaz、Yang Liu、Xipeng Qiu、他 Qmsum: クエリベースのマルチドメインの新しいベンチマーク会議の概要。arXiv プレプリント arXiv:2104.05938、2021。

付録

ハイパーパラメータ

ここに画像の説明を挿入

B 異なるコンテキスト長のグループ化された結果

表 8 に示すように、さまざまなコンテキスト長での言語モデリングの結果を報告します。数値を比較できるようにするために、評価データとして 2048 個のテキスト ブロックを使用し、最後の 128 個のトークンの複雑度のみを計算します。実験結果は、さまざまなコンテキスト長において RetNet が Transformer よりも優れたパフォーマンスを発揮することを示しています。さらに、RetNet はより長いコンテキストを利用して、より良い結果を達成できます。

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_52358603/article/details/131900911