【論文ノート】対照的な接頭辞を用いた制御可能な自然言語生成

対照的な接頭辞を使用した制御可能な自然言語生成


ここに画像の説明を挿入

カンファレンス: ACL2022 の調査結果

タスク: 制御されたテキスト生成

原文リンク

概要

この論文では、プレフィックスと呼ばれる一連の小さな属性固有のベクトルを自然言語生成のガイドとして使用する、新しい GPT2 ベースの制御可能なテキスト生成方法を提案します。

  • プレフィックス チューニングに関するこれまでの研究とは異なり、プレフィックス間の関係を考慮し、複数のプレフィックスを同時にトレーニングします。
  • 本稿では、単一アスペクト生成制御を訓練するための新しい教師あり手法教師なし手法、および新しい目的を提案し、これら 2 つの手法を接続することでマルチアスペクト (マルチアスペクト) GPT-2 生成制御を実現できます。
  • 実験結果は、私たちの方法が、一方向生成制御と多アスペクト生成制御の両方で、言語品質を維持しながら、生成を望ましい特性に導くことができることを示しています。この論文の研究は、一国的管理と多国間管理に関する統一的な視点を提供します。

ここに画像の説明を挿入

モチベーション

  • これまでの CTG 関連モデルには、高い学習コスト (CTRL)、遅い推論速度 (PPLM)、GeDi (多数のパラメーターの追加導入) など、多くの欠点がありました。
  • Prefix-Tuning は軽量の微調整フレームワークであり、追加パラメータがほとんどなく、元の LM と同等の推論速度を維持できます。
  • 一態様では、制御可能なテキスト生成タスクに複数の属性が含まれる場合があり、属性間に関係が存在する場合があります。例えば、感情制御にはポジティブとネガティブという相反する 2 つの属性があり、トピック制御には複数の属性がある場合があります。この逆関係が prefix の制御能力の向上に役立つと考えられます

主なアイデアとフレームワーク

プレフィックスは自由パラメータであり、P θ P_θで表されます。P、サイズはN × M × DN × M × DN×M×DNNNはプレフィックスの数です (現在のアスペクト制御、NNNは属性の数です。この実験の通常の感情制御タスクなど、感情にはポジティブとネガティブが含まれるため、N = 2 N=2N=2MMMはプレフィックスの長さ、D = 2 × L × ED = 2 × L × ED=2×L×Eは GPT アクティベーション ディメンション サイズ、LLLは層の数、EEEは隠れ層のサイズで、2 は GPT モデルの隠れ層に Key ベクトルと V ベクトルが含まれることを示します。プレフィックス チューニング作業と同様に、この論文でも再パラメータ化操作H θ [ i , j , : ] = W i H ′ θ [ i , j , : ] H_θ[i, j, :] = W_i H′_θ を使用します。 [i、j、:]H[j :=W私は[j :]とすると、 H θ H_θだけで学習が完了します。H保存する必要がありますが、残りは破棄できます。

ここに画像の説明を挿入

プレフィックスは、教師あり、半教師あり、および教師なしの方法を使用してトレーニングできます。半教師ありは、教師なしと教師ありを接続したものです。この記事では、教師ありメソッドと教師なしメソッドのみを紹介します。明確にするために、この記事では当事者の管理下にある方法を示します。

教師ありメソッド

現在のコントロール アスペクトの属性セットがYYであるとします。Y、トレーニング サンプルは( x , y ) (x,y)× y xxxは入力テキスト、yyyは属性ラベル、y ∈ Y y ∈ YyY、属性ラベルは、それがH θ H_θHの正しいインデックス。

  • 差別的損失

複数のプレフィックスを同時にトレーニングするために追加の識別損失が導入され、最終的な損失は言語モデル損失と識別損失の加重合計になります。このうち、logp ( xt ∣ x < t , y ) log_p(x_t|x_{<t}, y)ログ_ _p( ×x< ty )パラメータ化logp θ , γ ( xt ∣ x < t , H θ [ y , : , : ] ) logp_{θ,γ}(x_t|x_{<t}, H_θ[y, :, :])ログp _ _ c( ×x< tH[ y ::])c cγは固定 GPT2 パラメータθθ は学習可能なプレフィックス パラメータです。

各プレフィックスは個別にトレーニングできます。LLM L_{LM}LLM _トレーニング プレフィックスには生成を促進する情報が組み込まれていますが、制御可能な NLG では、生成を妨げる情報をプレフィックスに注入することも役立つことがわかりました。サンプル( x , y ) (x,y)が与えられたとします。( x ,y ),前缀H θ [ y , : , : ] H_θ[y, :, :]H[ y ::] xxを生成するように最適化する必要がありますx、他のプレフィックスはxx の×全体の目標を達成するには、すべてのプレフィックスを同時にトレーニングする必要があるため、識別損失が発生します。

式 3 に従って、L d L_dを最適化しますLd、属性の位置合わせp ( y ∣ x ) p(y|x)が改善されます。p ( y x )は p ( x ∣ y ) p(x|y)によって増補されます。p ( x y )と同時にp ( x ∣ y ‾ ) p(x|\overline{y}) をp ( x y)y ‾ ∈ Y / { y } \overline{y}∈Y/\{y\}yY / { y }、一様な事前分布を仮定すると、p ( y ) p(y)p ( y )p ( y ' ) p(y')p ( ) は日付を付けることができます。

ここに画像の説明を挿入
ここに画像の説明を挿入

教師なしメソッド

教師なしトレーニング方法を図に示します。

ここに画像の説明を挿入

教師なしのシナリオでは、属性セットYYを仮定します。Y は既知であり、トレーニング サンプルの入力にはテキストxxx、属性ラベルyyyは使用できないため、xxxに対応するプレフィックス インデックスも不明です。つまり、xxxに対応するプレフィックス インデックスはzzzその

  • 離散潜在変数

VQ-VAEに触発されて、この論文はプレフィックスを離散的な隠れ変数と見なします。(離散の個人的な理解は、このプレフィックスの隠れ変数空間のサイズが K*R のように固定されており、計算された z に従ってこのプレフィックス空間をクエリして、プレフィックスとして 1XR ベクトルを取得し、VQ を参照することを意味します) -具体的な理解のための VAE ( 1参考 2を参照)

カテゴリ分布q ( z ∣ x ) q(z|x) を学習するエンコーダを導入します。q ( z x ) (個人的には、このカテゴリ分布の確率分布は離散性を反映してワンホットであると理解しています)、q ( z ∣ x ) q(z|x)q ( z x )、接頭辞インデックスzzz は、対応する接頭辞H θ [ z , : , : ] H_θ[z, :, :] をH[ z ::]はデコーダに入力され、テキストxx×

  • ガンベル・ソフトマックス

プレフィックス インデックスを選択するプロセスは導出できないため、Gumbel-Softmax (GS) が導入されます。

  • 事後分布を学ぶ

q ( z ∣ x ) q(z|x)q ( z x )は次のように計算されます。ここでτ ττは GS、 E nc Encの温度係数です。E n cはエンコード関数であり、この論文では、事前トレーニングされた GPT-2+ 線形層をエンコーダーとして使用します。

  • 個人的な理解: ここでは 2 つの間のユークリッド距離が最小化されています。これは、離散隠れ変数空間でエンコードされた x の表現に最も類似した (最小距離の) ベクトルを見つけるための、クラスタリングなどの最近傍検索方法に似ています。プレフィックスインデックスzzのz 、そしてデコード時にzzzは接頭辞ベクトル空間で検索します。ここではこのカテゴリ分布、つまりデータを区別できるインデックス z を学習する方法を学習します著者の図によれば、q ( z ∣ x ) q(z|x)q ( z x )の後に、接頭辞空間を使用して、つまりインデックスzzz は接頭辞を探します。
  • もう 1 つの理解は、 q ( z ∣ x ) q(z|x) を入力することと同等です。q ( z x )はクエリ、H θ H_θHキーと値です。このクエリは Enc(x) とH θ H_θに基づいていますH類似度を計算し、V で行列乗算を実行して、最終的な重み付けされた結果を取得します。

ここに画像の説明を挿入
ここに画像の説明を挿入

  • 教師なしの対比損失

教師あり学習の識別損失と同様に、教師なしの対比損失L c L_cが導入されます。Lc、以下に示すように、ここでmmmはプリセットのエッジです。対照的な損失は、p ( z ∣ x ) p(z|x)p ( z x )推离p ( z ‾ ∣ x ) p(\overline{z}|x)p (zx )属性の位置合わせを改善するための一定の距離。

ここに画像の説明を挿入

ここに画像の説明を挿入

したがって、複数のプレフィックスを同時にトレーニングするために、教師なし損失関数は次の損失の加重和になります。事後確率が可能な限り正確であることを保証するために、LKL L_{KL}が導入されます。LKL _、これは、先験的なp ( z ) p(z)を仮定した KL 発散です。p ( z )は均一であり、これら 2 つの項目が VAE の損失関数を構成します。この 2 つの項目を最適化すると、logp ( x ) logp(x)log p ( x )証拠の下限。

ここに画像の説明を挿入

2 つの関連論文:

テキストの制御された生成に向けて、ICML2017 では、制御されたテキストの生成に VAE が使用されます。

属性の配置: 事前トレーニングされた言語モデルからのテキスト生成を制御します。

実験

監視されていない設定

教師なし設定では、GPT-2+ ヒント エンジニアリングは良好な制御を示しますが、この方法は解毒タスクではうまく機能しません。

この論文で提案された教師なし手法は解毒タスクで良好に機能し、アブレーション実験ではコントラスト損失が重要な役割を果たすことが示されています。ただし、特にターゲット属性がネガティブで属性の調整が不十分な場合、センチメント コントロールではうまく機能しませんが、ポジティブな場合は良好です。その理由として考えられるのは、有害な文と中立的な文の違いに比べて、肯定的な感情と否定的な感情の違いは弱く、明白ではないため、モデルが文の感情レベルの違いを学習することが難しいということですしたがって、教師なしモデルの GPT2 エンコーダーにとって、ラベルのないデータを 2 つの感情に正確に分離することはより困難です。この結果、エンコーダーが入力テキストを分類するための暗黙の基準が完全にセンチメントではない可能性があります。そのため、教師なし損失関数でコントラスト損失を除去した後、ネガティブなセンチメントとネガティブなセンチメントの間の相関関係はより高く、ポジティブな相関関係が得られます。感情がよりポジティブである、理由が低い。

監視設定

教師あり学習シナリオでは、少数ショット学習でも 3 つのタスクに対してある程度の制御を維持でき、トレーニング データのサイズに対するこの手法の堅牢性が実証されています。

アブレーション実験では、教師あり学習法では弁別損失が重要であることが示されています。識別損失を除去し、その間に GPT 媒体を使用すると、Prefix-Tuning を直接使用すると感情制御と話題制御では結果が得られるが、解毒タスクには効果がないことがわかります。解毒には、文脈に応じて一部の単語やフレーズが生成されないようにするモデルが必要ですが、識別損失を意味する接頭辞チューニングではこれを達成するのが困難です。

DBPedia トピック制御タスクでは、弁別損失によってモデルの属性調整効果も大幅に向上します。これは、トピック コントロールが他のタスクよりも多くの属性を持っているためで、弁別損失の融合により、プレフィックスが各トピックをより効率的にキャプチャできるようになるためです。特徴

マルチアスペクトコントロール

多面的にラベル付けされたデータを取得することは困難ですが、当社ではデータを多面的にラベル付けすることで多面的な制御を実現します。以下のような方法:

  • 連結: 教師あり学習。各側面の一連のプレフィックスをトレーニングし、それらをつなぎ合わせます。
  • 半教師あり:一方的にラベル付けされた各データを部分ラベルとみなすことにより、複数のプレフィックスを複数の側面に対して同時に学習する、教師あり学習と教師なし学習を接続する手法であり、モデル構造は教師なし手法と同じです。損失関数を次の図に示します。ここで、隠れ変数zzzは教師ありおよび教師なしの側面から結合され、一部のラベル付きサンプルは、プレフィックスとエンコーダーに監視情報を提供するラベル付けの側面のプレフィックス インデックスのグラウンド トゥルースを暗示するため、符号化損失が導入されます。
    ここに画像の説明を挿入
    実験結果は、連結方法が感情とトピックの制御においてより優れたパフォーマンスを示し、プレフィックスの順序は結果に影響を与えないことを示しています。一方、半教師ありメソッドは、言語品質をあまり犠牲にすることなく、属性の位置合わせをさらに改善できます。ファセット制御の以前の結果と同様に、識別損失を除去すると、特にトピック制御などの属性整合率が大幅に低下し、エンコーディング損失を除去すると、より高い属性整合率を達成できますが、言語品質は大幅に低下します。

おすすめ

転載: blog.csdn.net/m0_47779101/article/details/129372290