【論文精読】自己記述型ネットワークによる少数ショット固有表現認識

序文

ACL2022 の小規模サンプル NER での生成モデルの適用に関する記事。生成モデルを使用して配列ラベル付け問題を解決するこの方法は斬新で実用的ですが、大規模なコーパスと大量のデータのコレクションでの事前トレーニングが必要です。データ: トレーニング データを自分で構築する: 対照的に、現在の大規模モデルは、サンプルが少ない NER シナリオではより多くの利点がある可能性があります。


概要

フューショット NER は、限られたインスタンスから効率的に情報を取得し、外部ソースから有用な知識を転送する必要があります。この論文では、実例を効率的に利用し、外部ソースからの知識を正確に伝達できる、少数ショット NER の自己記述メカニズムを提案します。Seq2Seq の生成モデルである SDNet は、概念を使用して普遍的にメンションを記述し、新しいエンティティ タイプを概念に自動的にマッピングし、エンティティを適応的かつ逐次的に認識できます。著者は、大規模コーパスを使用して SDNet を事前トレーニングし、さまざまな分野の 8 つのベンチマークで実験を行い、そのうち 6 つのベンチマークが新しい SOTA を達成し、有効性と堅牢性を実証しました。

1. はじめに

画像.png
スモールショットNERには、未公開の種類や限定サンプルが多数含まれており、近年大きな注目を集めています。その主な課題は、わずか数例を使用して、目に見えないエンティティ タイプのセマンティクスをどのように正確にモデル化するかです。具体的には:

  1. 情報制限の課題、少数のサンプルから得られる限られた情報。
  2. 知識の不一致チャレンジ、外部の知識と新しいタスクの間の不一致 (上)。

限られたサンプルを最大限に活用し、外部の知識を正確に伝達する方法は、少数サンプルの NER にとって重要な課題です。
自己記述メカニズムの背後にある主な考え方は、すべてのエンティティ タイプを同じ概念セットを使用して記述でき、タイプと概念間のマッピングを普遍的にモデル化して学習できるということです。このような知識の不一致の課題は、統一されたエンティティ記述によって解決できます。さらに、概念マッピングの普遍性により、少数の例のみが新しいタイプと概念の間のマッピングを構築するために使用され、問題を効果的に解決できます。限られた情報。
SDNet は、概念を使用してメンションを記述し、エンティティ タイプを概念に自動的にマッピングし、オンデマンドでエンティティを適応的に識別できる Seq2Seq 生成ネットワークです。エンティティを認識するために、SDNet は、ターゲットエンティティ タイプ説明を含む、概念が豊富なプレフィックス プロンプトを通じて文内のすべてのエンティティを直接生成しますSDNet は大規模なコーパスで事前トレーニングされており、著者は 5,600 万の文と 31,000 以上の概念を含む事前トレーニング データセットを Wikipedia から収集しました。
全体として、この論文の貢献は次のとおりです。

  1. 少数サンプル NER に対して自己記述メカニズムが提案されています。これは、エンティティ タイプとメンションを記述する共通の概念セットを使用することで、限られた情報の課題と知識の不一致の課題に効果的に対処できます。
  2. SDNet は、新しいエンティティ タイプを概念に自動的にマッピングし、オンデマンドでエンティティを適応的に識別できます。
  3. 大規模なデータセットで事前トレーニングされ、少数ショット NER に関する一般的な知識を提供します。

2. 関連作品

情報が限られているという課題に対処するために、現在の少数ショット NER は主に外部知識の活用に焦点を当てています。

  1. 事前トレーニングされたモデルであり、プロンプトベースの NER が PLM をより有効に活用できることを提案しました。
  2. NER モデルを事前トレーニングするための既存のアノテーション付きデータセット。
  3. 注釈付きデータセットは遠隔監視されていますが、ノイズやラベル付けの問題に悩まされています。

知識の不一致の問題に対処するために、ラベルがさまざまなモダリティで投影されるか、強化されたラベルのセマンティクスを記述するためにラベルに手動で注釈が付けられる、ラベル項目アプローチが採用されます。これらの方法と比較して、すべてのエンティティ タイプを共通の概念セットにマッピングすることで知識の不一致の問題に対処し、自己記述型ネットワークを使用して概念マップとターゲット エンティティを自動的に生成します。

3. FS-NER の自己記述型ネットワーク

画像.png
SDNet は 2 つのタスクを順番に実行します。

  1. 言及の説明、言及の概念的な説明を生成します。
  2. エンティティの生成。新しいタイプのエンティティの言及を適応的に生成します。

NER は、型の説明をプロンプトに入力することで、エンティティ生成プロセスを通じて直接実行できます。

3.1 自己記述型ネットワーク

SDNet は、メンションの記述とエンティティの生成という 2 つの生成タスクを実行できる Seq2Seq ネットワークです。メンション記述はメンションの概念記述を生成するものであり、エンティティ生成はエンティティのメンションを適応的に生成するものである。
画像.png
上の図に示すように、SDNet はさまざまなプロンプトを使用してさまざまな出力を生成します。メンションの説明については、プロンプトにはタスク記述子 [MD] とターゲット エンティティのメンションが含まれます。エンティティ認識の場合、プロンプトにはタスク記述子 [EG]、ターゲットの新しいタイプのリスト、およびそれらに対応する説明が含まれます。上記のプロセスは対称的なプロセスとみなすことができます。1 つは特定のエンティティの概念的な意味論をキャプチャすることであり、もう 1 つは特定の概念を含むエンティティを識別することです。
具体的には、SDNet は P と X をシーケンスIIに連結します。I,然后将 I I エンコーダーにフィードして隠れ状態を取得します。 H
= E ncoder ( I ) \mathcal{H}={\rm Encoder}(\mathcal{I})H=エンコーダ(I)
は、隠れベクトルをデコーダに入力してシーケンスを生成します。タイム ステップ t での語彙生成トークンの確率は次のようになります:
pt = Decoder ⁡ ( H , Y < t ) \mathbf{p}_ {t}=\オペレータ名 {デコーダ}\left(\mathcal{H}, \mathcal{Y}_{<t}\right)p=デコーダ( H Y< t)
貪欲なデコード戦略を使用します。単一のモデルでさまざまなタスクをモデル化することにより、生成が制御可能になり、学習が統合され、モデルを継続的にトレーニングできます。
エンティティ認識の場合、プロンプトにターゲット エンティティ タイプの説明を入力すると、エンティティ生成プロセスを通じてエンティティが適応的に生成されます。新しいエンティティを認識するには、そのエンティティ タイプの説明のみを指定する必要があります。

3.2 エンティティ生成によるエンティティ認識

SDNet では、エンティティ認識は、指定されたプロンプトと入力によって生成されます。具体的には、プロンプトはタスク記述子で始まり、その後にターゲット タイプのリストとそれに対応する説明が続きます。PEG = { [ EG ] t 1 : { l 1 1 , . . . , l 1 m 1 } ; t 2 : { l 2 1 , . . . , l 2 m 2 } } {\rm P_{EG}} =\{ \left [ {\rm EG} \right ] t_1: \left \{ l^1_1,...,l^{m_1}_1 \right \}; t_2: \left \{ l^1_2,. ..,l^{m_2}_2 \右 \} \}PEG={ []t1:{ l11... 1メートル1};t2:{ l21... 2メートル2}},其中 l i j l_i^j jは、i 番目のタイプの j 番目の概念です。プロンプトと文が SDNet に入力されると、SDNet は「 e 1 is ty 1 ; … ; en is tyn . " " e_{1} \text { is } t_{y_{1}} ; \ldots」という形式を生成します。 ; e_ {n} \text { は } t_{y_{n}} です。」1 ですか y1;;e ですか y."。エンティティの生成は、さまざまなプロンプトを通じて制御できます。

3.3 言及記述による型記述の構築

異なる記述を導入することにより、SDNet は異なるタイプのエンティティを生成するように制御されます。いくつかの具体的な例を使用して新しいタイプの概念記述を構築するために、SDNet はまずサンプル記述の記述を通じて各記述の記述概念を取得し、次にすべての概念の記述を要約することによって各カテゴリのタイプ記述を構築します。
メンションの説明:メンションの説明は生成プロセスであり、入力はプロンプトとインスタンス、出力は現在のコンテキストにおけるエンティティのメンションのマッピングの意味概念です。
型仕様の構築: SDNet は生成された概念を要約して、新しい型の正確なセマンティクスを記述します。同じタイプの言及のすべての概念は、タイプ t の説明として概念 C に統合されます。
フィルタリング戦略:ダウンストリームの新しいカテゴリが多様であるため、SDNet にはこれらのカテゴリを説明するための十分な知識がない可能性があり、強制的に説明すると不正確な説明が生じる可能性があります。そこで、SDNet が信頼性の低い記述の生成を拒否する、つまり不確実なインスタンスをその他として生成するフィルタリング戦略を提案し、その他が 50% を超える場合、現在のタイプでは記述を使用しません。

4. 学習

4.1 SDNet の事前トレーニング

事前トレーニング段階では、< e , T , X > <e,T,X>を収集する必要があります。<バツ>トリプル。それぞれエンティティの言及、エンティティのタイプ、文です。たとえば、<JK Rowing; 人物、作家、…; JK Rowling は…> と書きます。著者は、Wikipedia 内の事実と文書を並べてトリプルを収集し、次のように処理します。

  1. ウィキデータからエンティティ タイプの辞書を構築します。
  2. エンティティのエントリ ページに最も頻繁に表示される上位 3 つの名詞句を使用して、エンティティについての言及を取得します。

型記述の構築: SDNet を事前学習するには、概念記述MP = { ( ti , C i ) } \mathcal{M}^P=\{ (t_i, C_i)\} が必要ですMP={( t私はC私は)}の場合、作成者は、エンティティのタイプを指定すると、その記述概念として、それに付随して出現するエンティティのタイプを収集します。たとえば、人は{ ビジネスマン , CEO , ミュージシャン } \{ ビジネスマン, CEO , ミュージシャン \}{ バスインエスマン, _ _ _代表取締役社長ミュージシャン} . _ _ _ _ _
事前トレーニング: 文が与えられ、文内の言及のタプルを入力し、型の説明を構築して、これらのトリプルを事前トレーニングされたインスタンスに変換します。特に、メンションの説明では、ターゲット エンティティのメンションの一部がエンティティ セットからサンプリングされてプロンプトに入力され、プロンプトと文が SDNet に入力されて、対応するサンプリングされたエンティティ タイプが生成されます。エンティティ生成フェーズでは、ターゲット タイプを構築するために正の例と負の例がサンプリングされ、次にエンティティ タイプ セットとそのサンプリング概念の説明がプロンプトに入力され、SDNet はプロンプトと文を使用して一連の説明を生成します。
SDNet はインスタンスごとに 2 つの文を生成し、メンションでは生成されたY mp ~ \widetilde{\mathcal{Y}_{m}^{p}} についてYメートルp およびエンティティによって生成されたY ep ~ \widetilde{\mathcal{Y}_{e}^{p}}Yep 、著者はクロスエントロピー損失関数を使用して SDNet をトレーニングします:
L p = CE ( Y mp ~ , Y mp ) + CE ( Y ep ~ , Y ep ) \mathcal{L}_{p}=\mathrm{CE }\left( \widetilde{\mathcal{Y}_{m}^{p}}, \mathcal{Y}_{m}^{p}\right)+\mathrm{CE}\left(\widetilde{ \mathcal{Y }_{e}^{p}}、\mathcal{Y}_{e}^{p}\right)Lp=CE(Yメートルp Yメートルp)+CE(Yep Yep)
エンティティが結果を生成する順序は、テキスト内での出現順序によって異なることに注意してください。

4.2 エンティティ認識の微調整

SDNet は、例示的な例から型の説明を自動的に構築し、微調整を通じてさらに改善することができます。具体的には、特定のラベル付きエンティティに対してさまざまなタイプの説明が構築され、次にエンティティによって生成されるプロンプトが構築され、最後に生成された文Y np ~ \widetilde{\mathcal{Y}_{n}^{p}}Ynp 、最適化して SDNet を微調整します:
L f = CE ( Y np ~ , Y np ) \mathcal{L}_{f}=\mathrm{CE}\left(\widetilde{\mathcal{Y}_{n} ^{ p}}、\mathcal{Y}_{n}^{p}\right)L=CE(Ynp Ynp)
微調整により、エンティティ生成プロセスでメンションとエンティティ タイプ間の関連性をより適切に取得できることがわかります。

5. 実験

5.1 設定

異なるドメインからの 8 つのベンチマーク データセットが採用されています。詳細については原文を参照してください。
評価:主な実験設定は 5 ショット条件で実行されます。すべての事前トレーニング済みモデルは 300k ステップでトレーニングされます。ハイパーパラメーターは付録に示されています。パフォーマンスは micro-F1 によって評価されます。
ベースライン: NER 固有の事前トレーニングを行わないベースラインと比較します。これらの手法のほとんどは、タスク固有のエンティティ タイプのみに焦点を当てていますが、この論文の作業面では、一般的な少数ショットのエンティティ認識モデルを構築するために使用されます。

5.2 主な結果

画像.png
上の表は実験結果であり、次のことがわかります。

  1. 生成アーキテクチャに関する NER 知識を一般的にモデル化して事前トレーニングすることにより、自己記述型ネットワークは少数ショット NER を効率的に処理できます。
  2. 外部の知識を少数のサンプル NER に導入すると、限られた情報の問題を効果的に軽減できます。
  3. T-5-DS ブーストだけでは十分ではないなど、知識の不一致により、外部の知識を下流のタスクに転送することは困難ですが、SDNet は効果的にそれを解決できます。

画像.png
上の図は、さまざまなショット設定における各モデルのパフォーマンスを示しています。

  1. SDNet は、すべてのショット設定、特に小規模なサンプル シナリオで最高のパフォーマンスを発揮します。
  2. 通常、生成ベースのモデルは分類ベースのモデルよりもパフォーマンスが優れており、生成モデルの方が意味論的な情報をより適切に取得できる可能性があります。
  3. 自己記述メカニズムは信頼性が高く、SDNet はほぼすべてのデータで T5 よりも優れたパフォーマンスを発揮します。

さらに、ドメインの移行が大きすぎるとモデルのパフォーマンスは低下しますが、パフォーマンスは依然として最適であり、提案された型の記述とフィルタリング戦略が堅牢であることを示しています。

5.4 アブレーション研究

タイプ記述、マルチタスク モデリング、およびタイプ記述フィルタリングの有効性を分析するために、次のアブレーション実験が実行されます。

  1. 一般的な概念の説明を使用せずに、エンティティ タイプをプロンプトとして直接使用します。
  2. SDNet を 2 つの別々の生成ネットワークに分割します。1 つはメンションの説明用、もう 1 つはエンティティの生成用です。
  3. ポリシーをフィルタリングせずに概念の説明を使用します。

画像.png
実験結果は上に示されており、次のことがわかります。

  1. 型の説明は、SDNet が知識を伝達し、型のセマンティクスを取得するために重要です。
  2. 生成ネットワーク内でメンションの説明とエンティティの生成プロセスを統合すると、型のセマンティクスを効果的にキャプチャできます。
  3. フィルタリング戦略は、不一致の知識伝達を効果的に軽減できます。

5.5 マニュアル説明付きゼロショット NER

このセクションでは、実例を示さずに SDNet の保証されたゼロショット パフォーマンスをテストします。この目的を達成するために、著者らは、アノテーション ガイドラインに基づいて手動で作成した概念を型記述として導入することにより、WNUT 上で実験を行います。
画像.png
上の表から、SDNet は手動記述から大きなメリットを得ることができ、ほとんどのタイプのゼロ サンプルのパフォーマンスを向上させることができることがわかります。これは、型の説明がモデルが新しい型のセマンティクスを捉えるための効果的な方法であることを示唆しています。

5.6 エンティティ生成プロンプトの影響

画像.png
上の表は、入力プロンプトと生成タイプが異なり、検証 SDNet を制御してさまざまなタイプのエンティティを生成できることを示しています。

6. 結論

この論文では、Seq2Seq アーキテクチャに基づく自己記述ネットワークを提案します。このネットワークは、概念を使用してメンションを記述し、新しいエンティティ タイプを概念に自動的にマッピングし、オンデマンドでエンティティを適応的に識別できます。大規模な SDNet モデルは、下流の NER タスクに関する一般的な知識を提供するために事前トレーニングされており、このモデルは 8 つのデータセットに対して効果的で堅牢であることが示されています。

概要を読む

生成モデルに基づく作業は、基本的に大規模データの事前トレーニングを通じて行われ、生成モデルのいくつかの特性を使用してエンティティ、言及、および一般概念の説明の間のマッピングを実現し、知識の調整や知識の調整などの課題を効果的に軽減します。情報制約、2 つの事前トレーニング済みタスク (エンティティ生成とメンション記述) は、一般概念と特定の意味情報を革新的に統合し、プロンプトの追加により生成タスクの方向性が高まります。メタ学習に基づく手法よりもコストは高くなりますが、その分効果は高いと思います もちろん、ChatGPTのようなより大きなモデルに基づく同様の即時手法を利用できれば、効果は確実に上がるでしょう大規模モデルの創発および知識調整機能を過小評価することはできませんが、この小規模生成モデルよりも優れているだけであり、事前トレーニングや微調整は必要ありません。

おすすめ

転載: blog.csdn.net/HERODING23/article/details/130568136