論文の味 | 対照学習による固有表現認識のためのデュアル エンコーダーの最適化

5e97ff87329c2082b0db63591eb6f740.png

メモの整理: Lu Xingyu、東南大学修士、研究方向は自然言語処理

リンク: https://arxiv.org/abs/2208.14565

モチベーション

固有表現認識 (NER) は、固有表現に関連するテキストの断片を識別し、それらを事前に定義されたエンティティ タイプ (人物、場所など) に分類するタスクです。情報抽出システムの基本コンポーネントとして、NER は、関係抽出、照応解決、きめ細かい意見マイニングなどのさまざまな下流タスクに有益であることが示されています。

以前の研究では主に NER をシーケンス ラベリングまたはスパン分類として扱っていましたが、これには多くの制限がありました。たとえば、ネストされた NER をシーケンス ラベリングで処理するのは困難であり、スパン分類に基づく学習と推論は非常に複雑で、ノイズに非常に敏感です。監視されたデータ。さらに、既存の研究では、エンティティのラベルが付いていないすべてのスパンを反例として一律に採用しているため、トレーニング データが不完全にラベル付けされている場合に誤った反例が導入される可能性があります。

助ける

この記事の主な貢献は次のとおりです。

(1) NER を表現学習問題として扱い、固有表現認識のための効率的なデュアル エンコーダが提案され、一般領域および医療領域の複数のデータセットで最先端の結果が得られます。

(2) 新しい動的しきい値損失が導入され、エンティティ スパンと非エンティティ スパンを区別するために候補エンティティの動的しきい値を学習します。

方法

1. モデルの構造

モデルの全体的なアーキテクチャを図 1 に示します。エンティティ タイプ エンコーダとテキスト エンコーダは同型で、完全に分離された Transformer モデルです。ベクトル空間では、アンカー (オレンジ色で識別) は、エンティティ タイプ エンコーダからの特別なトークン [CLS] を表します。対照的な学習を通じて、アンカーとポジティブ トークン (ジム) の間の類似性を最大化し、アンカーとネガティブ トークンの間の類似性を最小限に抑えます。灰色の破線の円 (テキスト エンコーダーのアンカーと [CLS] の類似性によって定義される) は、エンティティ トークンを非エンティティ トークンから分離するしきい値を示します。

df798a0ee6117fc97815071f5929830c.png

図 1: 全体的なモデル アーキテクチャ

エンティティ タイプの埋め込み: エンティティ タイプ エンコーダの目標は、ベクトル空間での対照学習のアンカーとして機能するエンティティ タイプの埋め込みを生成することです。この作業では、事前定義されたエンティティ タイプのセットに焦点を当てます。各エンティティは自然言語で記述され、k 番目のエンティティ タイプのトークン シーケンスを を使用して表します。特定のエンティティ タイプに対して、BERT をエンティティ タイプ エンコーダ (BERT E ) として使用し、追加の線形層を追加して、対応するエンティティ タイプの埋め込みを計算します。

f3dfcb39f9cae0ec85d3ac83a026eb76.png

テキスト トークンの埋め込み: エンティティ タイプの埋め込みと同様ですが、やはり BERT をテキスト エンコーダー (BERT T ) として使用し、単純に最終的な隠れ層の状態をテキスト トークン表現として使用します。

9bbfbc5c4e6126172441e99d986f1a44.png

2. 損失関数

このセクションでは、固有表現認識のための対照的な学習損失関数を示します。スパン (i,j) が、開始トークンが位置 i にあり、終了トークンが位置 j にある入力テキスト内の連続したトークンのシーケンスであるとします。類似度関数は τ です。ここで、 τ はスカラー パラメーターです。

スパンベースのターゲット: 次のようにスパン (i,j) のベクトル表現を取得します。

25b779b7d886149af502e073836fe18e.png

ここで、 はテキスト トークンの埋め込み、 はベクトル連結を表す学習可能な線形層、 は学習可能なスパン幅埋め込みの行です。これに基づいて、スパンベースの相互情報量ニューラル推定 (infoNCE) は次のように定義できます。

9c30b5376ba273556f1c537d09c16314.png

ここで、span はエンティティ タイプ であり、 に属さないすべての入力テキスト内のすべての可能なスパンであり、エンティティ タイプの埋め込みです。

位置ベースの目標: スパンベースの目標の制限は、正しいエンティティ スパンと同じ開始マーカーまたは終了マーカーを持つスパンなど、部分的に正しいスパンであっても、すべての反例に同じ方法でペナルティを課すことです。直観的には、完全に間違っているスパンよりも、部分的に正しいスパンを予測する方が望ましいと考えられます。したがって、著者らは場所に基づいた対照的な学習目標を提案しています。具体的には、追加の線形層を使用して、 、 、 の 2 つの追加のエンティティ タイプ エンベディングを計算します。 ここで、 、 は、エンティティ タイプ エンコーダからの、それぞれ開始位置と終了位置のタイプ エンベディングです。同様に、2 つの追加の線形層を使用して、開始トークンと終了トークンの対応するトークン埋め込み , を計算できます。ここで、 はテキスト トークン埋め込みです。をアンカーとして使用すると、対照学習によって 2 つの位置ベースの損失関数が定義されます。

a2ac18e14fae9f63ecdd1f29d56ce73e.png

ここで、 、 は、エンティティ タイプ k に属さない入力テキスト内の任意のスパンの開始/終了位置の 2 セットです。スパンベースの目標と比較した位置ベースの目標の主な違いは、開始位置と終了位置が互いに独立している、対応する負のセットにあります。言い換えれば、位置ベースの目標は、モデルによる開始位置と終了位置の予測をより適切に行うのに役立つ可能性があります。

非エンティティ ケースのしきい値設定: 上記で定義した対照的な学習目標は、ベクトル空間内の対応するエンティティ タイプに向けて正のスパンを効果的に押し上げることができますが、テスト時にモデルは、スパンが次のように予測するためにどの程度近づけるべきかを決定できない場合があります。ポジティブです。言い換えれば、モデルはエンティティ スパンを非エンティティ スパンから正しく分離できません。この問題に対処するために、著者らは特別なマーカー [CLS] とエンティティ タイプの間の類似性を動的しきい値として使用します。直感的には、[CLS] の表現は入力テキスト全体を読み取り、コンテキスト情報を要約します。

閾値を学習するために、著者らは、非エンティティのケースに対する追加の適応学習目標によって元の対照学習目標を拡張することを選択しました。具体的には、開始損失の場合、増加された開始損失は次のように定義されます。

06487e8892b84f5a9dc0161d1199f2b8.png

拡張エンドロスも同様の形式で定義できます。スパン損失について、著者はスパン埋め込みを使用して拡張されたスパン損失を取得します。

9745d0bea633ab14fb33d120dcc21eb5.png

著者らは、3 つの目的に対して適応閾値学習と元の対照学習のバランスを取るために単一のスカラー パラメーター β を使用していることに注意してください。

トレーニング: 最後に、著者らは、以前に説明した 3 つの拡張対照学習を組み合わせて、マルチタスクの対照学習の定式化を検討します。これにより、次のような全体的なトレーニング目標が得られます。

febbef609e7fcbaff574be1346e507f1.png

ここで、α、γ、および λ はすべてスカラー パラメーターです。

3.推論戦略

推論中、モデルは長さが L 未満のすべての可能なスパンを列挙し、エンティティ タイプごとに開始/終了/スパンの状況に基づいて 3 つの類似性スコアを計算します。結合位置スパン予測とスパンのみの予測という 2 つの予測戦略を考えてみましょう。ジョイント位置スパンの場合、エンティティ タイプ の場合、開始または終了の類似性スコアが学習されたしきい値 (つまり または ) を下回るスパンが削除されます。次に、スパンのしきい値よりも高いスパン類似性スコアを持つスパンのみが、正であると予測されます。スパンのみの戦略の場合、スパン類似性スコアのみに依存し、すべての適格なスパンを最終予測として保持します。実験によると、結合推論はアノテーションの取り組みの影響を受けやすいため、スパンのみの推論がより効果的であることがわかりました。

実験

著者らは、教師付き設定と遠隔教師付き設定の両方でこの方法を評価しています。

教師付き NER の結果:表 1 は、この方法と 3 つのネストされた NER データセット (ACE2004、ACE2005、および GENIA) で評価された以前のすべての方法との比較を示しています。このメソッドは、3 つのデータセットすべてで SOTA パフォーマンスを達成します。表 2 は、この方法を BLURB ベンチマークに関する以前のすべての提出方法と比較しています。

cc18c3c96f1c441f73eb9858d068bf83.png

表 1: 監視付きネストされた NER

cd4afa8ed0126b51e39a30302fd7d782.png

表 2: 教師ありフラット NER

76902e7f8d0415ce5188bb65d93c538a.png

表 3: 遠隔教師あり NER

2 つの設定を比較すると、遠くにある教師付き結果が教師付き結果からまだ 10 ポイント以上離れていることが観察でき、偽陰性ノイズをさらに低減できる可能性があることがわかります。

要約する

著者らは、NER の対照学習を使用し、テキストとエンティティ タイプを同じベクトル空間に別々にマッピングするデュアル エンコーダ フレームワークを提案しています。エンティティのスパンを非エンティティのスパンから分離するために、著者らは、スパン認識とエンティティの分類を共同で学習するための新しい対比損失を導入しました。監視ありおよび遠隔監視設定での実験により、提案された方法の有効性と堅牢性が実証されています。著者らは広範な分析を実施して、アプローチの成功を説明し、成長の機会を明らかにしています。将来の方向性には、低パフォーマンスのクラスのさらなる改良と自己監視ゼロショット設定での適用が含まれます。


OpenKG

OpenKG(中国語オープンナレッジグラフ)は、中国語を核としたナレッジグラフデータのオープン性、相互接続、クラウドソーシングを促進し、ナレッジグラフアルゴリズム、ツール、プラットフォームのオープンソースとオープンソースを促進することを目的としています。

bdf94a305c39d40a79a8c477cd54e625.png

クリックして原文を読み、OpenKG Web サイトに入ります。

おすすめ

転載: blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/131058450