1. 基本情報
トピック | 論文の著者と単位 | ソース | 年 |
---|---|---|---|
Prefix-Tuning:生成のための連続プロンプトの最適化 | Xiang Lisa Li 他スタンフォード大学 | 計算言語学協会年次総会 | 2021年 |
引用 1009、参考文献
論文リンク: https://aclanthology.org/2021.acl-long.353.pdf
論文コード: コード XiangLi1999/PrefixTuning + 追加のコミュニティ コード
2. 重要なポイント
研究テーマ | 問題の背景 | コアメソッドフロー | ハイライト | データセット | 結論は | 論文の種類 | キーワード |
---|---|---|---|---|---|---|---|
言語大規模モデルの微調整 | 大規模モデル: 1 つのタスクに対する大規模モデルの問題。 | 言語モデル パラメーターをフリーズし、小さな連続した特定のベクトル (プレフィックスと呼ばれます) を最適化します。プレフィックス チューニングはプロンプトからインスピレーションを得て、このプレフィックスを仮想文字のように見せます。 | 各タスクでは、プレフィックスのみをデバッグし、これらのデバッグ パラメーターを保存します。これは、以前の全パラメーターの微調整とは異なります。 | E2E (Novikova et al., 2017)、WebNLG (Gardent et al., 2017)、および DART (Radev et al., 2020)、XSUM | トレーニング パラメーターの 0.1% を使用したトレーニングの結果は、全パラメーターを使用したトレーニングと同等です。 | モデルメソッド | プレフィックスチューニング |
プレフィックスチューニングとファインチューニングの違い:
3. モデル(コアコンテンツ)
適切なコンテキストを想定すると、LM パラメータを変更せずに LM をブートストラップすることが可能です。
個別のトークンを最適化する代わりに、命令は連続した単語の埋め込みとして最適化されます。
このモデルをいくつかの例で説明すると、次のようになります。
自己回帰 LM の場合: **z = [PREFIX; ** x ; y ]
エンコーダ-エンコーダ モデルの場合: **z ** = [PREFIX; x ; PREFIX0'; y ]
Pidx はプレフィックス インデックスのシーケンスを表し、|Pids| はプレフィックスの数を表します。
隠し変数の定義に関しては、LM は GPT2 で表され、P はパラメーターの行列で、次元は次のとおりです: | Pidx | × dim( hi ):
ここで、φは固定されており、θは訓練されるパラメータである。
直接的な最適化Pθ問題:プレフィックスを直接最適化すると、学習率と初期化に非常に影響を受けます。。
***Pθ と P'θ の行は同じですが、列が異なります。トレーニング後にのみ、Pθは保存されます。
4. 実験と解析
4.1 データセット
E2E (Novikova et al.、2017): 1 ドメイン、50K; WebNLG (Gardent et al.、2017): 14 ドメイン、22K; DART (Radev et al.、2020): オープンドメイン |
---|
4.2 効果
学習パラメータのうち、tintune よりも高い値は 0.1% のみです。
サンプルが少ない場合:
本質的な評価
プレフィックスの長さの分析
完全 vs 埋め込みのみ
実験結果: 離散プロンプト *< *埋め込み専用アブレーション *< *プレフィックス チューニング。
接頭辞と中接辞
.[ x ; INFIX; y ] は [PREFIX; x ; y ]よりわずかに劣ります。
初期化 (初期値実験): 実験結果は、実験的に関連した単語を接頭辞として使用すると、無関係な単語を使用するよりもパフォーマンスがわずかに向上することを示しています。
5. まとめ
算数の問題で補助線を使ったり、元のものはそのままに、内容を追加して解きやすくしたりする感じがあります。本質的には異なりますが、実際には似ています。
タスクの適応性を微調整するために使用するパラメーターを非常に少なくします。
接続方法を使用して知識をマイニングする新世代の NLP トレーニング パラダイムが到来し、新世代のソフトウェア開発モデルが到来しており、将来的には大規模なモデルが不可欠なコンテンツとなります。
6. 参考文献
ハッピープリンスが作った