P-Tuning v2: パフォーマンスの微調整と同等の迅速な最適化

翻訳:P-Tuning v2: 迅速なチューニングは、規模やタスク全体にわたって普遍的に微調整に匹敵する可能性があります

著者: Xiao Liu1,2 、Kaixuan Ji1

コード:  https://github.com/THUDM/P-tuning-v2

1. はじめに
2. 準備
---- 2.1 NLU のタスク
---- 2.2 プロンプトの最適化
3. P-Tuning v2
---- 3.1 汎用性の欠如
---- 3.2 徹底したプロンプトの最適化
---- 3.3最適化と実装
4. 実験
---- 4.1 セットアップ
---- 4.2 P チューニング v2: さまざまなスケール
---- 4.3 P チューニング v2: 複数のタスク
---- 4.4 アブレーション研究
5. 関連研究
6. まとめ

1. はじめに

キューの微調整では、フリーズされた言語モデルのみを使用して連続するキューを微調整することで、トレーニング中の各タスクのストレージとメモリの使用量が大幅に削減されます。ただし、NLU のコンテキストでは、これまでの研究では、キューの微調整が通常サイズの事前トレーニング済みモデルではうまく機能しないことが示されています。また、既存のキュー微調整方法では難しいシーケンスのラベル付けタスクを処理できず、一般化可能性が欠如していることがわかりました。適切に最適化されたヒントの微調整が、幅広いモデル サイズと NLU タスクにわたって一般に効果的であるという新しい経験的発見を紹介します。微調整パラメータのわずか 0.1% ~ 3% で微調整のパフォーマンスに匹敵します。私たちの手法である P-Tuning v2 は新しい手法ではなく、プレフィックス微調整 (Li and Liang、2021) のバージョンであり、NLU 用に最適化および微調整されています。P-Tuning v2 の汎用性とシンプルさを考慮すると、微調整の代替手段として、また将来の研究のための強力なベースラインとして機能すると考えられます。

事前トレーニングされた言語モデル (Han et al., 2021a) は、質問応答 (Rajpurkar et al., 2016) やテキスト含意 (Dagan et al., 2005) など、さまざまな自然言語理解 (NLU) タスクのパフォーマンスを向上させます。広く使用されている方法である微調整では、ターゲット タスクのモデル パラメーターのセット全体が更新されます。微調整により良好なパフォーマンスが得られますが、すべてのパラメーターの勾配とオプティマイザーの状態を保存する必要があるため、トレーニング中にメモリを大量に消費します。さらに、微調整には、推論中に各タスクのモデル パラメーターのコピーを保持する必要がありますが、事前トレーニングされたモデルは通常大きいため、これは不便です。

図 1: SuperGLUE 開発者の RTE、BoolQ、CB の平均スコア。0.1% のタスク固有パラメーターでは、P チューニング v2 は、さまざまなスケールでの事前トレーニング済みモデルの微調整に匹敵することができますが、Lester et al. (2021) & P チューニングは、ここまでは10Bスケール。

一方、ヒンティング手法は、事前トレーニングされたモデルのすべてのパラメーターをフリーズし、自然言語ヒントを使用して言語モデルをクエリします (Brown et al., 2020)。たとえば、センチメント分析の場合、「この映画は [MASK]」というプロンプトとサンプルを連結し、事前トレーニングされた言語モデルにマスクされた注釈を予測するように依頼できます。次に、「良い」と「悪い」がマスクされる予測確率を使用して、サンプルのラベルを予測できます。プロンプト方式ではトレーニングはまったく必要なく、モデル パラメーターのコピーを保存するだけで済みます。ただし、微調整と比較して、プロンプトを使用すると、多くの場合最適なパフォーマンスが得られません (Liu et al., 2021b; Lester et al., 2021)。

ヒント最適化とは、連続するヒントのみを最適化するという考え方です。具体的には、Liu et al. (2021b); Lester et al. (2021) は、入力単語埋め込みの元のシーケンスにトレーニング可能な連続埋め込みを追加することを提案しています。これらのシーケンシャルな埋め込み (シーケンシャル キューとも呼ばれる) は、キュー内に手動で設計された個別のキューに似ています。トレーニング中は、連続するキューのみが更新されます。ヒントの最適化は、多くのタスクでヒンティング手法よりも改善されていますが (Liu et al., 2021b; Lester et al., 2021)、モデルのサイズが小さい場合、特にパラメータが 100 億未満の場合は微調整手法よりも劣ります (Lester et al. People、2021)。さらに、私たちの実験が示すように、ヒントの最適化は、抽出的質問応答やシーケンスのラベル付けなど、いくつかの困難なシーケンスタスクでは詳細な最適化よりもパフォーマンスが悪くなります (セクション 4.3 を参照)。

この論文における私たちの主な貢献は、適切に最適化されたヒントの最適化が、さまざまなモデル サイズや NLU タスクにわたる微調整に一般的に匹敵する可能性があるという新たな経験的発見です。以前の研究での観察とは対照的に、私たちの発見は、NLU におけるヒント最適化の一般性と大きな可能性を明らかにしています。

技術的には、私たちのメソッド P チューニング v2 は、プレフィックス最適化 (Li and Liang、2021) の最適化されたバージョンとみなすことができます。これは、生成用に設計され、NLU に適したメソッドです。最も顕著な改善は、事前トレーニングされたモデルの各層に連続ヒントを適用するディープヒント最適化の使用によるものです (Li and Liang, 2021; Qin and Eisner, 2021)。徹底的なキューイングの最適化により、継続的なキューイングの能力が向上し、特に小型モデルや困難なタスクにおいて、さまざまな設定における微調整のギャップを埋められます。さらに、結果をさらに改善するために、いくつかの最適化と実装の詳細を提案します。

実験結果は、P チューニング v2 のパフォーマンスが、さまざまなモデル サイズ (300M から 100B パラメーター) およびさまざまな困難な NLU タスク (質問応答やシーケンスのラベル付けなど) での微調整に匹敵することを示しています。微調整と比較して、P チューニング v2 にはタスクあたり 0.1% ~ 3% のトレーニング可能なパラメーターがあり、トレーニング時間のメモリ消費と各タスクのストレージ コストが大幅に削減されます。

2. 準備作業

2.1 NLUのタスク

この研究では、NLU の課題を 2 つのグループ (単純なタスクと難しいシーケンス タスク) に分けます。

- 単純な NLU タスクには、単一ラベルの分類が含まれます。テキスト分類 (SST-2 など)、自然言語推論 (MNLI-m、RTE などの NLI)、複数の GLUE (Wang et al., 2018) および SuperGLUE (Wang et al., 2019) のほとんどのデータセット選択質問、回答 (BoolQ など) などはすべてこのカテゴリに分類されます。

- 難しいシーケンス NLU タスクには、一連のラベルの分類が含まれます。それらのほとんどは、公開情報抽出、固有表現認識、抽出的質問応答、意味論的役割ラベル付けなどの情報抽出に関連した問題です。

2.2 迅速な最適化

プロンプトチューニング (Lester et al., 2021) または Ptuning (Liu et al., 2021b) は、バックボーン モデルのパラメーターがフリーズされている場合に、NLU の自然言語プロンプトの代替としてトレーニング可能な連続プロンプトを導入します。たとえば、V は言語モデル M の単語リストを指し、e はモデル M の埋め込み関数として機能します。

「」の条件付き確率を分類として映画レビューを分類する。この場合、プロンプト トークン {"it"、"is"、"[MASK]"} はすべてモデルの単語リスト V に属し、入力埋め込みシーケンスは次のようになります。

ただし、モデル M は本質的に連続的であるため、最適化の観点から見ると、離散的な自然なプロンプトで最適性を達成することは決して不可能です。対照的に、P チューニングは、ヒント トークンをトレーニング可能な連続埋め込み [h0,...,hi] に置き換えることを提案し、入力シーケンスを次のように変換します。

したがって、さまざまな最適化を実行できます (図 2(a) を参照)。骨介入トレーニングモデルのパラメータが固定されているという厳しい制約の下で、キューの最適化は 100 億のパラメータモデルの微調整に匹敵するパフォーマンスを発揮することが示されています。

図2

図 2: Lester et al. (2021) & P チューニングから P チューニング v2 へ。オレンジ色のトークン (h0、hi を含む) は、追加したヒントの埋め込みを指します。青色のトークンは、凍結された事前トレーニング済み言語モデルによって保存または計算された埋め込みです。Lester et al. (2021) とは対照的に、P-tuning v2 は、(プレフィックス最適化 (Li and Liang、2021) と同様に) トレーニング可能な連続キューを各トランスフォーマー層の入力に独立して追加します。さらに、P チューニング v2 では、LM ヘッダーを持つバーバライザーが削除され、プレーンな線形ヘッダーを持つ従来のクラス ラベルに戻り、タスクの一般化が可能になります。

3.P-チューニングv2

3.1 普遍性の欠如

ヒントの最適化と P チューニングは、多くの NLP アプリケーションで非常に効果的であることが証明されています (セクション 5 を参照)。ただし、一般化可能性が欠けているため、P チューニングはまだ微調整に代わる包括的な手段ではありません。

スケール全体にわたる一般化可能性の欠如。Lester et al. (2021) は、モデル サイズが 100 億パラメーターを超える場合、ヒントの最適化が微調整に匹敵することを示しています。ただし、これらの小規模なモデル (100M から 1B) では、ヒントの最適化と微調整のパフォーマンスが大きく異なるため、ヒントの最適化の適用可能性が大幅に制限されます。

複数のタスクにまたがる汎用性の欠如。Lester et al. (2021) と P-tuning は、GLUE や SuperGLUE などの NLU ベンチマークでの優位性を示していますが、別の大きなクラスのハード シーケンス NLU タスク (つまり、シーケンス ラベリング) での有効性は検証されていません。まず、シーケンス アノテーションでは、単一のラベルではなく一連のラベルを予測する必要があります。第二に、シーケンスのアノテーションは意味のないラベルを予測することが多く、ラベルを効果的な言語化に変換するのが困難になる可能性があります (Schick and Schütze、2020)。私たちの実験 (セクション 4.3 および表 3 を参照) では、Lester et al. (2021) と P チューニングのパフォーマンスが、典型的な配列ラベル付けタスクにおける微調整よりも悪いことが示されました。

表 3: 質疑応答の結果 (抽出 QA)。プロンプト チューニングと質疑応答における P-tuning のパフォーマンスは非常に悪いですが、P-tuning v2 のパフォーマンスは基本的に妥当で、DeBERTa-xlarge の微調整よりも優れている可能性があります。(FT: 微調整; PT: P チューニング & Lester et al. (2021); PT-2: P チューニング v2; MPT-2: マルチタスク P チューニング v2)

これらの課題を考慮して、スケールおよび NLU タスクにわたる一般的なソリューションとしてプレフィックス微調整を実装する Ptuning v2 を提案します。

3.2 深度プロンプトの最適化

プレフィックス微調整 (Li and Liang、2021) はもともと自然言語生成 (NLG) タスク用に提案されましたが、NLU にも非常に効果的であることがわかりました。NLU に適したプレフィックス微調整バージョンについて説明します。

(Lester et al., 2021) および P チューニングでは、連続キューはトランスフォーマーの最初の層の入力埋め込みシーケンスにのみ挿入されます (図 2(a) を参照)。次のトランスフォーマー層では、連続するキューが挿入される位置の埋め込みが前のトランスフォーマー層によって計算されます。これにより、2 つの最適化の課題が発生する可能性があります。

1. 制御できるパラメータの数には制限があります。現在、ほとんどの言語モデルは、シーケンスの最大長 512 のみをサポートしています (二次計算の複雑さに注意が必要なため)。さらにコンテキスト (分類される文など) の長さを差し引くと、連続するプロンプトで埋めることができる長さに制限が生じます。

2. 深いトランスを使用して微調整する場合、安定性が制限されます。変換器がさらに深くなるにつれて、多くの中間層 (非線形活性化関数を含む) の計算により、最初の変換器層からのヒントの影響が予期せぬものになる可能性があり、最適化があまりスムーズではなくなります。

これらの課題を考慮して、P チューニング v2 は、P チューニングを補完するものとして、プレフィックス最適化 (Li and Liang、2021) (図 2(b) を参照) のような多層ヒント (つまり、ディープ ヒント最適化) を利用します。 Lester et al. (2021) の大幅な改善。さまざまなレイヤーのヒントは、プレフィックス トークンとして入力シーケンスに追加され、他のレイヤーから独立しています (前のトランスフォーマー レイヤーによって計算されるのではなく)。一方で、このように、P チューニング v2 には、タスクごとの容量を増やすために最適化できる (0.01% から 0.1% ~ 3% まで) タスク固有のパラメーターがさらに多くありますが、それでもフルバージョンよりも優れています。事前トレーニングされた言語モデルははるかに小さい; 一方、より深い層 (図 2 の LayerN プロンプトなど) に追加されたヒントは、出力予測により直接的かつ重大な影響を与えることができますが、中間のトランスフォーマー層の影響はそれほど大きくありません (セクションを参照) 4.4)。

3.3 最適化と実装

役立つ最適化と実装の詳細もいくつかあります。

最適化。再パラメータ化。以前の方法では、再パラメータ化機能を活用してトレーニング速度、堅牢性、パフォーマンスを向上させていました(MLP のプレフィックス微調整や LSTM の P チューニングなど)。ただし、NLU タスクの場合、この手法の利点はタスクとデータセットに依存することがわかります。一部のデータセット (RTE や CoNLL04 など) では、MLP の再パラメータ化は埋め込みよりも安定した改善をもたらしますが、他のデータセットでは、再パラメータ化は効果を示さない可能性があり (BoolQ など)、場合によってはさらに悪くなる場合もあります (CoNLL12 など)。セクション 4.4 のアブレーション研究を参照してください。

最適化。先端の長さ。ヒントの長さは、ヒント最適化メソッドのハイパーパラメーター検索において中心的な役割を果たします。私たちの実験では、さまざまな理解タスクがさまざまなプロンプトの長さで最高のパフォーマンスを達成することが多いことがわかりました。これは、プレフィックスチューニング (Li and Liang, 2021) の結果と一致していますが、テキスト生成タスクが異なれば異なる可能性があります。 最適なプロンプト長さ。セクション 4.4 の説明を参照してください。

最適化。マルチタスク学習。マルチタスク学習は私たちのアプローチではオプションですが、非常に役立ちます。一方で、連続キューの確率的慣性は最適化に困難をもたらしますが、これはより多くのトレーニング データまたはタスク関連の教師なし事前トレーニングによって軽減できます (Gu et al., 2021); 他方で、連続キューは全体的な効果をもたらします。タスクとデータセットに関するタスク固有の知識を得るのに最適な手段です。私たちの実験では、一部の困難なシーケンス タスクでは、マルチタスク学習が、MPT-2 と呼ばれる P チューニング v2 の有用な補足として機能することが示されています (表 2、3、4 を参照)。

表 2: 固有表現認識 (NER) テスト セットの結果 (すべての指標は micro-f1 スコア)。P チューニング v2 は一般に微調整に匹敵しますが、マルチタスクの P チューニング v2 はさらなる改善をもたらす可能性があります。(FT: 微調整; PT: P チューニング & Lester et al. (2021); PT-2: P チューニング v2; MPT-2: マルチタスク P チューニング v2)

実装。[CLS] と言語化ツールの代わりの注釈分類。Verbalizer (Schick and Schütze、2020) はヒント最適化の中核コンポーネントであり、ワンホット クラス ラベルを意味のある単語に変換して、事前トレーニングされた言語モデル ヘッドを活用します。数ショットの設定では必要になる可能性がありますが、完全に監視された設定では言語化ツールは必要ありません。これは、無意味なラベルや文の埋め込みが必要なシナリオでのヒントの最適化の適用を妨げます。したがって、P-tuning v2 は、ランダムに初期化されたリニア ヘッドを使用して、従来の [CLS] ラベル分類 (図 2 を参照) パラダイムに戻ります。セクション 4.4 の比較を参照してください。

4. 実験

4.1 設定

私たちは、一般的に使用されるさまざまな事前トレーニング済みモデルと NLU タスクで広範な実験を実施し、P チューニング v2 の有効性を検証します。

評価設定。この作業では、「プロンプト チューニング」、「P チューニング」、「P チューニング v2」、および「マルチタスク P チューニング v2」のすべての結果は、トランスのパラメーターをフリーズし、連続プロンプトのみを最適化することによって取得されます。タスク固有のパラメータの比率 (例: 0.1%) は、連続プロンプトのパラメータとトランスフォーマのパラメータを比較することによって導出されます。(継続的なプロンプトを使用せずに) トランスフォーマーのパラメーターを調整することによって、「微調整された」結果のみが得られます。

もう 1 つ注意すべきことは、私たちの実験はすべて、少数ショット学習のコンテキストではなく、フルデータの教師あり学習のコンテキストで行われたということです。これは、私たちが利用する機能の一部 (例: 線形クラス ラベルの使用) を利用できるため重要です。 LM ヘッドを備えたスピーカーの代わりにヘッドを使用することは、監視付き設定でのみ可能です。

NLU タスク。まず、SST-2、MNLI-m、RTE を含む、P-tuning v2 の一般的な NLU 機能をテストするために、GLUE (Wang et al., 2018) および SuperGLUE (Wang et al., 2019) ベンチマークの部分的なデータセットを含めます。 、BoolQ、CB。さらに重要なのは、シーケンス アノテーションの形式で一連のタスクを導入し、固有表現認識 (CoNLL03 (Sang and De Meulder、2003)、OntoNotes 5.0 ( Weischedel et al. 2013) および CoNLL04 (Carreras and Màrquez, 2004))、抽出的質問応答 (SQuAD 1.1 および SQuAD 2.0 (Rajpurkar et al., 2016))、およびセマンティック役割ラベル付け (CoNLL05 (Carreras and Màrquez, 2005))および CoNLL12 (Pradhan et al. People、2012))。

事前トレーニングされたモデル。BERT-large (Devlin et al., 2018)、RoBERTa-large (Liu et al., 2019)、DeBERTa-xlarge (He et al., 2020)、GLMxlarge/xxlarge (Du et al., 2021) が含まれます。評価。どちらも NLU 目的のために設計された双方向モデルで、約 300M から 10B までの幅広いサイズをカバーします。

メソッドを比較します。P-tuning v2 (PT-2) をバニラ微調整 (FT)、P-tuning & Lester et al. (2021) (PT) と比較します。さらに、シーケンスのラベル付けに関する困難なタスクについては、マルチタスク P チューニング v2 (MPT-2) の結果を示します。詳細については、セクション 4.3 を参照してください。

4.2 P チューニング v2: さまざまなスケール

表 1 は、さまざまなモデル サイズでの P-tuning v2 のパフォーマンスを示しています。SST-2 (単一文分類) などの単純な NLU タスクの場合、Lester et al. (2021) および P チューニングでは、小規模では明らかな欠点は示されていません。しかし、自然言語推論 (RTE) や多肢選択式質問応答 (BoolQ) などの複雑な課題となると、パフォーマンスは非常に低くなります。対照的に、P-tuning v2 は、より小さいスケールでのすべてのタスクの微調整のパフォーマンスに匹敵します。驚いたことに、P チューニング v2 は、RTE、特に BERT でのファインチューニングよりも大幅に優れたパフォーマンスを発揮します。

表 1: 一部の GLUE および SuperGLUE 開発セットの結果 (すべての指標は精度です)。10B より小さいモデルでは、P-tuning v2 は P-tuning & Lester et al. (2021) を大幅に上回り、微調整のパフォーマンスと一致しています。(FT: 微調整; PT: P チューニング & Lester et al. (2021); PT-2: P チューニング v2)

より大規模な (2B ~ 10B) GLM (Du et al., 2021) の場合、P-tuning & Lester et al. (2021) と微調整の間のギャップは徐々に狭くなります。10B スケールでは、(Lester et al., 2021) によって報告されたものと同様の観察が得られます。つまり、ヒントの最適化が微調整と競合するようになります。ただし、P チューニング v2 は、すべてのスケールで微調整に匹敵しますが、微調整と比較して必要なタスク固有のパラメーターは 0.1% のみです。

さらに、一部のデータセットでは RoBERTa-large のパフォーマンスが BERT-large よりも悪いことが観察されています。これは、ヒントの最適化がハイパーパラメーターに非常に敏感であり、場合によっては最適化が行き詰まってしまうことが経験的にわかっていることが原因の 1 つです。P-tuning v2 は、最適化プロセス中により安定して堅牢になります。ハイパーパラメータの詳細については、コードベースを参照してください。

4.3 P チューニング v2: スパンタスク

セクション 4.2 では、あらゆるスケールの微調整に匹敵する P チューニング v2 の一貫性について説明します。ただし、GLUE および SuperGLUE のほとんどのタスクは比較的単純な NLU 問題です。NLU の難しい課題のもう 1 つの重要なグループは、シーケンス アノテーションにあります。これは、オープンな情報抽出や読解など、より高度な NLP アプリケーションに関連しています。

これらの困難な NLU の課題に対する P チューニング v2 の機能を評価するために、3 つの典型的なシーケンス ラベリング タスクを選択しました。固有表現認識、抽出的質問応答 (QA)、および意味論的役割ラベル付け (SRL)、合計 8 つのデータセット。

表 4: セマンティック ロール ラベル (SRL) の結果。P-tuning v2 は、Lester et al. (2021) および P-tuning と比較して SRL において一貫した改善を示しています。(FT: 微調整; PT: P-Tune および Lester et al. (2021); PT-2: P-Tune v2; MPT-2: マルチタスク P-Tune v2)

固有表現認識 (NER)。NER の目的は、特定のエンティティ カテゴリを表すすべての単語範囲と文を予測することです。CoNLL03 (Sang および De Meulder、2003)、OntoNotes 5.0 (Weischedel et al.、2013)、および CoNLL04 (Carreras および Màrquez、2004) を使用しました。CoNLL03 と CoNLL04 では、標準のトレーニング、開発、テストの分割でモデルをトレーニングします。OntoNotes 5.0 では、(Xu et al., 2021b) と同じトレーニング、開発、テスト部門を使用しました。すべてのデータセットには IOB2 形式で注釈が付けられます。シーケンス アノテーションを使用して、エンティティの先頭とエンティティ内のいくつかのカテゴリにラベルを割り当てることで、NER のタスクを解決します。言語モデルは各トークンの表現を生成し、線形分類器を使用してラベルを予測します。結果の評価には公式スクリプトを使用します。マルチタスク設定では、事前トレーニング用に 3 つのデータセットのトレーニング セットを組み合わせます。連続的なヒント情報を共有しながら、データセットごとに異なる線形分類器を使用します。

(抜粋) 質問と回答 (QA)。抽出 QA は、特定のコンテキストと質問から回答を抽出することです。私たちは SQuAD (Rajpurkar et al., 2016) 1.1 および 2.0 を使用します。各回答はコンテキストの連続したスパン内にあります。伝統に従い、問題をシーケンスのラベル付けとして定式化し、2 つのラベルのいずれかを割り当てます。各ラベルに「開始」または「終了」の 2 つのラベルのいずれかを与え、最後に最も信頼性の高い開始と終了のペアの範囲を抽出された回答として選択します。最も信頼性の高いペアの確率がしきい値を下回る場合、モデルはマルチタスク設定の場合、事前トレーニングに使用するトレーニング セットは、SQuAD 1.1 と 2.0 のトレーニング セットを組み合わせたものです。事前トレーニング中は、その出所に関係なく、すべての質問は回答不可能であると想定されます。

セマンティック役割ラベル (SRL)。SRL は、文内の単語またはフレーズにラベルを割り当て、文内での意味上の役割を示します。CoNLL05 (Carreras and Màrquez、2005) および CoNLL12 (Pradhan et al.、2012) で P チューニング v2 を評価します。文には複数の動詞を含めることができるため、どの動詞が予測に使用されるかを識別しやすくするために、各文の末尾にターゲット動詞トークンを追加します。線形分類器を使用して、対応する意味役割表現に従って各単語を分類します。マルチタスク設定の場合、事前トレーニング トレーニング セットは、CoNLL05 (Carreras and Màrquez、2005)、CoNLL12 (Pradhan et al.、2012)、および propbank-release (SRL のトレーニングに使用される共通の拡張データ) のトレーニング セットの組み合わせです。 。マルチタスクのトレーニング戦略は NER に似ています。

結果。表 2、3、および 4 から、Ptuning v2 はすべてのタスクの微調整に匹敵することがわかります。P-tuning と Lester et al. (2021) のパフォーマンスは、特に 3 つのタスクの中でおそらく最も難しい課題である QA において、はるかに劣っています。また、SQuAD 2.0 ではいくつかの異常な結果が現れたことにも気付きました (BERT/RoBERTa/DeBERTa は、Lester et al. (2021) と P チューニングを使用して同じパフォーマンスを示しました)。これは、SQuAD 1.1 と比較して SQuAD 2.0 には答えられない質問が含まれているのに対し、Lester et al. (2021) と P チューニングが自明な解決策につながる可能性があるためである可能性があります。

マルチタスク P チューニング v2 は一般に、QA (回答可能なすべての SQuAD 1.1 結果と回答不可能な SQuAD 2.0 の結果がすべて混在している可能性があります) を除き、タスク全体で大幅な改善につながります。つまり、ランダムな初期化ヒントの可能性がなくなることを意味します。完全に開発されました。

4.4 アブレーション研究

私たちは、P チューニング v2 で中心的な役割を果たす可能性のあるいくつかの重要なハイパーパラメーターとアーキテクチャ設計を研究しました。

キューの深さ。Lester et al. (2021) & P-tuning と P-tuning v2 の主な違いは、導入する多層の連続ヒントです。直感的には、ヒントがトランスフォーマー層の深部にあるほど、中間トランスフォーマー層の多くの非線形活性化関数により、出力予測に対するヒントの影響がより直接的になります。正確な影響を検証するために、ヒントを追加する特定の数 k が与えられた場合、k 個のレイヤーを昇順および降順で選択してヒントをプレフィックス トークンとして追加します。残りのレイヤーについては、アテンション マスクを変更し、プレフィックス ヒントを許可しません。計算に参加します。

図 4 に示すように、パラメーターの数 (つまり、プロンプトを追加するトランスフォーマー レイヤーの数) が同じ場合、降順で追加する方が昇順で追加するよりも常に優れています。RTE の場合、レイヤー 17 ~ 24 にのみプロンプトを追加すると、すべてのレイヤーに非常に近いパフォーマンスが得られ、マッチングの微調整に必要なパラメーターがさらに削減されます。

図 4: BERTlarge を使用したキュー深度のアブレーション研究。「[xy]」は、連続するキューを追加するレイヤー間隔を指します(たとえば、「21-24」はトランスフォーマーにキューを追加することを意味します)層21から24)。同じ数の連続ヒントをより深い変換層 (つまり、出力層に近い層) に追加すると、最初の層に追加するよりもパフォーマンスが向上する可能性があります。

埋め込みと MLP の再パラメータ化。プレフィックス微調整 (Li and Liang, 2021) と Ptuning (Liu et al., 2021b) では、著者らは再パラメータ化がトレーニング速度、堅牢性、パフォーマンスの向上に役立つことを発見しました。ただし、私たちが行った実験では、再パラメータ化の効果が異なる NLU タスクとデータセット間で一貫していないことが示されています。

図 3 に示すように、RTE と CoNLL04 では、MLP の再パラメータ化は、ほぼすべてのプロンプト長で埋め込みよりも優れたパフォーマンスを示します。ただし、BoolQ では、MLP と埋め込みの結果は競合しており、CoNLL12 では、埋め込みの結果が一貫して MLP より優れています。

図 3: RoBERTa-large を使用したキュー長とリパラメータ化のアブレーション研究。特定の NLU タスクとデータセットを考慮すると、結論は大きく異なる可能性があります。(MQA: 多肢選択式 QA)

先端の長さ。ヒントの長さは、P チューニング v2 のもう 1 つの影響力のあるハイパーパラメーターであり、その最適値はタスクごとに異なります。図 3 から、単純な NLU タスクの場合は通常、短いプロンプトが最高のパフォーマンスを実現しますが、難しいシーケンス タスクの場合は、通常 100 より長いプロンプトが役立つことがわかります。

また、再パラメータ化が最適なキューの長さと密接に関連していることもわかりました。たとえば、RTE、CoNLL04、および BoolQ では、MLP の再パラメータ化は、埋め込みよりも早く最適な結果に達します。この結論は、P チューニングの最適化特性について考えるのに役立つ可能性があります。

LMヘッドを備えたVerbalizerとリニアヘッドを備えた[CLS]タグ。LM ヘッドを備えた Verbalizer は、これまでの提案型微調整方法の中核コンポーネントでした。ただし、教師ありの場合、P チューニング v2 では、約数千のパラメータを使用してリニア ヘッドを調整することが手頃です。表 5 に比較を示します。ここでは、他のハイパーパラメータはそのままにして、[CLS] タグのリニア ヘッドをバーバライザの LM ヘッドに変更するだけです。ここでは、簡単にするために、SST-2、RTE、および BoolQ には「true」および「false」を使用し、CB には「true」、「false」および「neutral」を使用します。結果は、言語化ツールと [CLS] の間にパフォーマンスに大きな違いがないことを示しています。

表 5: RoBERTa-large での線形ヘッダーを持つ [CLS] タグと LM ヘッダーを持つ音声言語の比較。

5. 関連作品

事前トレーニングされた言語モデル。自己教師あり (Liu et al., 2020) および事前トレーニング済み言語モデル (Han et al., 2021a) は、自然言語処理のバックボーンとなっています。初期の GPT (Radford et al., 2019)、BERT (Devlin et al., 2018)、XLNet (Yang et al., 2019)、RoBERTa (Liu et al., 2019) から、限られた数のパラメーター (以下) 350M を超える)、T5(Raffel et al., 2019)et al., 2019)、GPT-3(Brown et al., 2020)は、数十億、さらには数兆のパラメータを持つ巨大な言語モデルの開発を推進してきました。

ヒント。ヒンティング (Liu et al., 2021a) は、言語モデル予測の理解と生成を支援するために、入力コンテキストで特別なテンプレートを使用することを指します。最近、GPT-3 (Brown et al., 2020) の成功により、離散的な自然言語プロンプト (Shin et al., 2020; Gao et al., 2020)、連続プロンプト (Liu et al., 2020) など、さまざまなプロンプト戦略が登場しました。 et al., 2021b ; Li and Liang, 2021; Lester et al., 2021; Qin and Aisner, 2021; Zhong et al., 2021)、調整バイアス(Logan IV et al., 2021)、およびその他の多くのキューイング戦略。

幅広い NLP アプリケーションにおけるプロンプト手法の利点と有効性は、テキスト分類を含む最近の文献で検証されています (Hu et al., 2021; Min et al., 2021; Sun et al., 2021; Li et al., 2021)。 、2021; Zhang et al.、2021b)、エンティティタイピング(Ding et al.、2021)、少数ショット人間学習(Zheng et al.、2021; Xu et al.、2021a; Zhao et al.、2021; Gu et al.、2021) al., 2021; Zhang et al., 2021a)、関係抽出 (Chen et al., 2021a; Han et al., 2021b; Sainz et al., 2021)、知識検出 (Zhong et al., 2021)、エンティティ認識 (Chen et al., 2021) 2021b)、機械翻訳 (Tan et al., 2021; Wang et al., 2021b)、および対話システム (Wang et al., 2021a)。

この作業では、ヒント手法をより小さなモデルと困難な連続 NLU タスクに拡張することに特に焦点を当てています。

6. まとめ

さまざまな規模やタスクでの微調整に匹敵するプロンプト手法である P チューニング v2 を提案します。P チューニング v2 は概念的には新しいアプローチではありませんが、プレフィックスの最適化と深度ヒントの最適化を最適化および適応させるという NLU の課題です。Ptuning v2 は、330M から 10B までのモデルで一貫した改善を示し、シーケンス アノテーションなどの難しいシーケンス タスクにおいて Lester et al. (2021) および P-tuning を大幅に上回ります。Ptuning v2 は、微調整のための包括的な代替手段であり、将来の作業のための強力なベースラインとなります。

おすすめ

転載: blog.csdn.net/chaishen10000/article/details/131304269