プレフィックス制御ジェネレーターによる少数ショットの表からテキストへの生成
記事ディレクトリ
カンファレンス :COLING2022
タスク: テキスト生成 (表からテキストへ)
原文:リンク
概要
この論文では、 Prefix-Controlled Generator を提案します。これは、少数のサンプルシナリオでの表からテキストへのタスクのための、少数のサンプルに基づくヒント学習方法です。
-
このメソッドは、テーブル構造が事前トレーニングされた入力によりよく適合するように、PLM のタスク固有のプレフィックスを事前設定します。
-
さらに、このメソッドは、入力固有のプレフィックス (Input-Specific Prefix) を生成して、生成されるテキストの事実の内容と語順を制御します。
Wikibio データセットのさまざまなドメインにおける私たちの手法の自動評価と人間による評価の両方で、ベースライン手法に比べて大幅な改善が見られます。
モチベーション
-
表からテキストへの注釈データは不足しています。
-
PLM は制御不能であるため、幻覚コンテンツが簡単に生成されます。
-
テーブルとシーケンス間のトポロジーの違いもほとんど研究されていません。
-
少数のサンプルで微調整すると、過剰適合や壊滅的な忘却が発生する可能性があります。
-
既存の作品は、フリー テキストの生成にフォーム入力を使用しており、生成されたテキストの忠実性に関するコンテンツ プランニングの重要性を無視しています。
Table-to-Text には主に 2 つの課題があります。
-
テーブル入力とシーケンス入力の間のトポロジの違い。
-
表から事実の内容を選択して再配置するモデルの機能。
方法論
事前トレーニング ヒント手法により、PLM は微調整することなくダウンストリーム タスクに適応でき、このパラダイムは小規模およびゼロショットのシナリオにより適しています。Prefix-Tuning は、Prefix を最適化することで言語モデルのパラメーターを固定し、事前トレーニング段階で学習した事前知識を最大限に活用します。
2 つの主要な課題に対処するために、この文書では「事前トレーニングとプロンプト」パラダイムに従い、2 種類のプレフィックス トークンを備えたエンドツーエンドの生成フレームワークであるプレフィックス制御ジェネレーター (PCG) を提案します。
プレフィックス トークンには次の 2 種類があります。
-
タスク固有の接頭辞: テーブルと単語シーケンスの間のトポロジカルなギャップを橋渡しします。私の理解では、言語モデルの下流タスクの入力形式を適応させる方法を接頭辞に学習させることです。テンプレートによって生成されるヒントを前に追加すると、それが入力全体に添付されるようになり、モデルは「次の表を要約します:」などのヒント部分をより重視するようになり、前との間のギャップを暗黙的に埋めることができます。 -訓練されたシーケンスの入力フォームとテーブル構造。
基本的にはプレフィックス チューニングのアイデアに従ってタスク固有のプレフィックスを設計しますが、2 つの変更を加えました。
- テーブル入力をより適切に線形化するために、タスク関連の単語でプレフィックスを初期化します。
- スケーラブルな並列アダプター Scaled Parallel Adaptors が、Prefix-Tuning のボトルネックを改善するために、アテンション層とフィードフォワード ニューラル ネットワーク層に並行して追加されます。
-
入力固有のプレフィックス: 計画テーブルの実際の内容とスロット順序。
このプレフィックスを設計する目的は、どのキーと値のペア (ファクト コンテンツ) を選択する必要があるか、およびそれらをどのような順序で配置する必要があるかをモデルに提案することを期待することです。したがって、標準のサマリーに表示されるキーを選択し、サマリーに表示される順序に従ってそれらを並べ替える、スロットに合わせたコンテンツ プランナーを提案します。この設計は、コンテンツ計画を通じて、生成されたテキストの忠実性と語順の正確性を向上させることに重点を置いています。
図に示すように、ContentPlanner に単語シーケンス「フルネーム、名前、誕生日、生年月日、場所、位置、現在のクラブ」を生成させます。これは、標準の概要に表示されるすべてのキーとその値の出現順序を示します。この一連の単語は、ハード プロンプトとして PLM に入力されます。
モデル構造図:
直感
少数サンプルの表からテキストへの生成タスクにプロンプトの直感を導入することはプロンプト チューニングであり、これにより壊滅的な忘却の問題が効果的に解決されます。このタスクにはテーブルの内容を理解する必要があるため、PLM の事前知識を維持しながら下流のタスクを微調整したいと考えています。これがキュー学習の力です。
過去の調査研究では、表形式の変換が重要な役割を果たしていることが判明しました。ただし、キーと値のペアをテンプレートとして結合する方法は、即時学習の方法に違反しており、言語モデルの事前トレーニングの入力には適していません。プレフィックスは、表形式の構造とシーケンス入力の間のトポロジー的な違いを暗黙的に埋めるために導入されました。
コンテンツプランナー
コンテンツ プランナーは、入力固有のプロンプトを生成することを目的としており、事実のコンテンツと語順の両方から生成プロセスをガイドします。この論文では、少数サンプルのシナリオで表からテキストへの生成を研究しているため、モデルはシンプルになるように努めており、単純な構造を持つ 2 つのモジュールが設計されています。
テーブルエンコーダ
構造: BiLSTM
テーブルの各キーと値のペアをエンコードし、各テーブル スロットの表現を生成します。キーと値のペアを含む各テーブル スロット。K と V の埋め込みの計算は次のようになります。
m は、K と V のそれぞれの語長を表します。この式は、各スロット (つまり、各キーと値のペア) の埋め込みが、K と V が各単語の単語埋め込みを合計して平均し、最後に を使用することを意味します。 super パラメータ K と V の埋め込み加重和。そして、事前トレーニングされた Roberta 単語埋め込みを使用して、単語埋め込み行列を初期化します。最後に、取得したスロット エンベディングを BiLSTM に入力して双方向表現を取得し、2 つを最終表現として結合します。
ファクトセレクター
構造: 直鎖 CRF+フィードフォワード
このモジュールは、標準の説明 (グラウンド トゥルース) に出現したキーと値のペアを選択し、概要での出現順序に従ってそれらを並べ替えます。
ここで、位置予測はシーケンスのラベル付けタスクとみなされ、入力は Key-Value ペア、出力ラベル シーケンスは、生成されたテキスト内で各 Key-Value スロットが出現する相対位置です。WCRF リ W^{l_i}_{CRF}WCRF私私はつまり、ノード特性関数M li − 1 , li M_{l_{i−1},l_i}M私i − 1、l私は伝達関数
学習目標は次のように定義されます。
マークされた Key-Value 順序は、Key-Value マッチングを通じてグラウンド トゥルースから取得され、その位置に従って並べ替えられます。推論中に、1 次ビタビ アルゴリズムを使用して復号化することにより、最適なシーケンスが取得されます。図 2 に示すように、出力は1 、 3 、 2 、 ∅ 、 4 1、3、2、∅、4です。1 、3 、2 、∅ 、4.ラベル 1 は、コンテンツ「名前」が最初の位置に表示されることを示し、ラベル「∅」は、コンテンツ「言語」が標準要約に表示されないことを示します。出力された注釈シーケンスに従って、すべてのキーを並べ替えてコンテンツ プラン c を形成します (図 2 を参照)。これは、「Name Country A author Published」「Name Country Author Published」「名前国認証または公開」。_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
即時に制御される発電機
プロンプト コントロール ジェネレーターは、フォーム入力とコンテンツ プランに基づいて、流暢で忠実な説明を生成することを目的としています。私たちの方法はモデルに依存せず、事前にトレーニングされた任意の生成モデルを使用できます。この論文では BART-large を使用します。
この記事では、BART のエンコーダーの入力前のスプライシングに使用される 2 種類のプレフィックス、つまりタスク固有のプロンプトps p_sを提案します。ps和入力固有のプロンプトccc (コンテンツ プラン)。後者は PCG の指針です。
タスク固有のプロンプトについては、アテンション層によって引き起こされる長さとプレフィックス パフォーマンスのボトルネックを目的としたプレフィックス チューニングとして設計されています。この記事では、さらに 2 つのスケーリングされた並列アダプターをアテンション層とフィードフォワード ニューラル ネットワーク層に並列させ、これらのアダプターをスケーリングします。
-
入力
テンプレート文: s = s 1 , s 2 , . . . , s L s = {s_1, s_2, ..., s_L}s=s1、s2、... 、sL、長さはLLとして示されますL ; コンテンツ計画:c = c 1 , c 2 , . . . , c L cc = {c_1, c_2, ..., c_{Lc}}c=c1、c2、... 、cLc _、長さはL c L_cとして示されます。Lc; プレフィックスの長さはL p L_pとして表されます。Lp。
スプライシングコンテンツの企画・生成のテンプレート文は[ c : s ] [c:s]です[ c:s ]、sssは生成されたテンプレート文で、「name is edinho júnior; fullname is edon júnior viegas amaral;birth_date is 7 March, 1994; ...」、つまり「Key is Value...」の形式になります。次に、それを BART エンコーダーに送信します。
-
マルチヘッドアテンションメカニズム層
まず、入力 x に従って Q、K、V を計算します。入力はスプライシングであるため、3 つの次元は次のようになります。
クエリQ ∈ R ( L + L c ) × d Q ∈ R^{(L+Lc)×d}Q∈R( L + L c ) × d、キーK ∈ R ( L + L c ) × d K ∈ R^{(L+Lc)×d}K∈R( L + L c ) × dおよび値V ∈ R ( L + L c ) × d V ∈ R^{(L+Lc)×d}V∈R( L + L c ) × d
次に、注意スコアP k ∈ RL p × d 、P v ∈ RL p × d P_k ∈ R^{L_p×d}、P_v ∈ R^{L_p×d} を計算します。Pk∈RLp× d、Pv∈RLp× d はそれぞれ 2 つのプレフィックス ベクトルのセットを表します。
-
スケーリングされた並列アダプターの追加
実際、これは 2 つの並列フィードフォワード ニューラル ネットワークであり、s ≥ 1 はハイパーパラメーター、W down ∈ R d × r W_{down} ∈ R^{d×r} です。Wだめだ_ _∈Rd × rおよびW up ∈ R r × d W_{up} ∈ R^{r×d}Wうp∈Rr × d、rrr はボトルネック寸法を表します。並列計算の結果は、attention モジュールの出力に線形的に追加されます。
同様に、スケーリングされた並列アダプターが元の FeedForward レイヤーに挿入され、その表現能力が強化されます。
実験
いくつかのモデルを比較したところ、本論文で提案した手法は基本的に最高のパフォーマンスを示し、特にテキストの信頼性、つまりPARENT-Fインデックスの点でベースラインを大きく上回るパフォーマンスを示しており、これはContent-Plannerの役割を証明するはずである。 。さらに、この論文のコンテンツ プランのシーケンス ラベリング タスクにおける Bi-LSTM+CRF の正解率は、RobertaforSequenceClassification の正解率よりもはるかに高かった。
アブレーション研究
アブレーション実験では、タスク固有の接頭辞と入力固有の接頭辞の両方が生成された文の忠実度を向上させる一方、入力固有の接頭辞はテキストの流暢さにほとんど寄与しないことを示しています。この結果は、この論文の直感を裏付けています。入力固有のプレフィックスの目的は、コンテンツを計画することによって生成されたテキストの忠実度を向上させることです。
アブレーション実験の結果は下図の通りですが、コンテンツプランナーはBLEUにほとんど影響を与えておらず、削除しても逆に改善することがわかります。
結論
- ハード+ソフトの 2 つのプロンプト方法を組み合わせます。
- タスクに適応するプレフィックスを設計することで、プレフィックスが PLM のタスク関連の事前知識をより適切にマイニングできるようになります。
- 監視情報は、生成されたコンテンツをきめ細かい方法で計画するために使用されます。具体的には、モジュールは、生成を制御するためのガイド信号としてハード プロンプトを生成し、モデルが事実に基づく内容と正しい語順を選択するようにガイドするように設計されています。
- 疑い。標準応答に現れない Key については、生成してはならないのでしょうか? 冗長である必要がありますか? このようなトレーニング目標は、完全にグラウンドトゥルースに依存しています。