【論文読書メモ76】GPTもわかる(Pチューニング)

1. 基本情報

トピック 論文の著者と単位 ソース
GPTも理解しています 清華大学

引用、参考文献

論文リンク: https://arxiv.org/pdf/2103.10385.pdf

論文コード:

2. 重要なポイント

研究テーマ 問題の背景 コアメソッドフロー ハイライト データセット 結論は 論文の種類 キーワード
大きなモデルの微調整 従来の微調整を使用した Gpt では、自然言語理解 (NLU) において良好な結果が得られなかったため、P チューニングが提案されました。 LAMA、スーパーグルー P チューニングは、少数のサンプルで bert と gpt で良好な結果を達成しました。

3. モデル(コアコンテンツ)

3.1 モデル例

pceDFvn.png

ここでのモデルの考え方は、たとえば、テンプレート T がある: [X] の大文字は [Y] であり、X はコンテキストとして定義され、Y はターゲットとして定義され、他の文字は促す。

離散型の場合、各プロンプト プロンプト単語は V 辞書で検索でき、プリモデル モデルによってエンコードできます。

*** T = {*****[P_0: i ] , x , *****[P_*****i+1: m ], y }, [P_i ] *****∈ヴ、***

pCesHCF.png

p-tuning では、p_i は擬似トークンとみなされ、アプリケーションのテンプレートは次のようになります。

pCesoNT.png

ここでの h_i はトレーニング可能であり、トレーニングを通じて正確なプロンプトを取得でき、このプロンプトは現在のプロンプトを超えます。

最終的な損失関数は次のとおりです。

pCeyAKA.png

他のアイデアは前のアイデアと同じです。離散型を連続型に直接置き換えます。

最適化には次の 2 つの課題があります。

離散性

h がランダムな分布で初期化されている場合、オプティマイザは簡単に極小値に陥る可能性があります。

協会

埋め込まれた h は独立ではなく相互に関連している必要があり、h に関連する機能を設計に追加する必要があります。

この問題の解決策は、h 隠し変数をシーケンスとして確立し、小型軽量のニューラル ネットワークで完成されるプロンプト エンコーダーを使用してエンコードすることです。実際には lstm を使用して完了します。

pCey6Vx.png

4. 実験と解析

4.1 実験

タスク 1: LAMA (Petroni et al., 2019) 知識の調査

元のサンプルとして、トリプレット (ダンテ、フィレンツェ生まれ) をクローゼ文「ダンテは [マスク] で生まれました。」に変換します。

pCe6Kdx.png

1) 手動プロンプト (MP): LAMA のオリジナルの手動プロンプトを使用します。

2) 微調整 (FT): 対象と微調整モデルを通じてオブジェクトを予測します。

3) 微調整付き手動プロンプト (MP+FT): 手動プロンプト データを使用して言語モデルを微調整します。

4) P チューニング: 接続ヒント (固定言語モデル パラメーター) を使用します。

さらに、LAMA-29k データセットでの P チューニングは微調整よりも優れていることがわかりました。

タスク 2: SuperGlue (Wang et al., 2019b)

これらの実験結果から、BERT-base-case、GPT2-base、BERT-large-case、GPT2-medium は、基本的に Fine-tuning の効果を上回っています。

pCe6qmR.png

pCe6L01.png

いくつかのショットのヒントのセマンティクス、形式、構文には明らかな相関関係はありません。第 2 に、手動ヒントの小さな変更がパフォーマンスに大きな違いをもたらす可能性があります。

pCecN3F.png

5. まとめ

考え方は前の 2 つの記事と似ており、この記事では多くの実験が行われており、ほとんどの効果は微調整によって比較できます。大丈夫。

7. 知識の照合(知識のポイント、読む文献、原文の抽出)

8. 参考文献

ハッピープリンスが作った

おすすめ

転載: blog.csdn.net/ld326/article/details/131178956