1. 基本情報
トピック | 論文の著者と単位 | ソース | 年 |
---|---|---|---|
GPTも理解しています | 清華大学 |
引用、参考文献
論文リンク: https://arxiv.org/pdf/2103.10385.pdf
論文コード:
2. 重要なポイント
研究テーマ | 問題の背景 | コアメソッドフロー | ハイライト | データセット | 結論は | 論文の種類 | キーワード |
---|---|---|---|---|---|---|---|
大きなモデルの微調整 | 従来の微調整を使用した Gpt では、自然言語理解 (NLU) において良好な結果が得られなかったため、P チューニングが提案されました。 | LAMA、スーパーグルー | P チューニングは、少数のサンプルで bert と gpt で良好な結果を達成しました。 |
3. モデル(コアコンテンツ)
3.1 モデル例
ここでのモデルの考え方は、たとえば、テンプレート T がある: [X] の大文字は [Y] であり、X はコンテキストとして定義され、Y はターゲットとして定義され、他の文字は促す。
離散型の場合、各プロンプト プロンプト単語は V 辞書で検索でき、プリモデル モデルによってエンコードできます。
*** T = {*****[P_0: i ] , x , *****[P_*****i+1: m ], y }, [P_i ] *****∈ヴ、***
p-tuning では、p_i は擬似トークンとみなされ、アプリケーションのテンプレートは次のようになります。
ここでの h_i はトレーニング可能であり、トレーニングを通じて正確なプロンプトを取得でき、このプロンプトは現在のプロンプトを超えます。
最終的な損失関数は次のとおりです。
他のアイデアは前のアイデアと同じです。離散型を連続型に直接置き換えます。
最適化には次の 2 つの課題があります。
離散性
h がランダムな分布で初期化されている場合、オプティマイザは簡単に極小値に陥る可能性があります。
協会
埋め込まれた h は独立ではなく相互に関連している必要があり、h に関連する機能を設計に追加する必要があります。
この問題の解決策は、h 隠し変数をシーケンスとして確立し、小型軽量のニューラル ネットワークで完成されるプロンプト エンコーダーを使用してエンコードすることです。実際には lstm を使用して完了します。
4. 実験と解析
4.1 実験
タスク 1: LAMA (Petroni et al., 2019) 知識の調査
元のサンプルとして、トリプレット (ダンテ、フィレンツェ生まれ) をクローゼ文「ダンテは [マスク] で生まれました。」に変換します。
1) 手動プロンプト (MP): LAMA のオリジナルの手動プロンプトを使用します。
2) 微調整 (FT): 対象と微調整モデルを通じてオブジェクトを予測します。
3) 微調整付き手動プロンプト (MP+FT): 手動プロンプト データを使用して言語モデルを微調整します。
4) P チューニング: 接続ヒント (固定言語モデル パラメーター) を使用します。
さらに、LAMA-29k データセットでの P チューニングは微調整よりも優れていることがわかりました。
タスク 2: SuperGlue (Wang et al., 2019b)
これらの実験結果から、BERT-base-case、GPT2-base、BERT-large-case、GPT2-medium は、基本的に Fine-tuning の効果を上回っています。
いくつかのショットのヒントのセマンティクス、形式、構文には明らかな相関関係はありません。第 2 に、手動ヒントの小さな変更がパフォーマンスに大きな違いをもたらす可能性があります。
5. まとめ
考え方は前の 2 つの記事と似ており、この記事では多くの実験が行われており、ほとんどの効果は微調整によって比較できます。大丈夫。
7. 知識の照合(知識のポイント、読む文献、原文の抽出)
8. 参考文献
ハッピープリンスが作った