【論文解釈シリーズ】NERディレクション:MarkBERT(2022)

記事ディレクトリ


より多くのタイムリーな コンテンツについては、 WeChat パブリック アカウント: Xiaochuangyouji 機械学習 野次馬へようこそ。

序章

論文アドレス:
https://arxiv.org/abs/2203.06378

ペーパーコード:
https://github.com/daiyongya/markbert

MarkBERT は、単語情報をモデルにどのように導入するかを考慮したソリューションでもあります。MarkBERT は単語モデルに基づいていますが、単語の境界情報をモデルに巧みに統合しており、具体的な操作は単語間に境界マーカーを挿入することです。境界マーカーの存在は、前の文字が単語の終了文字であり、次の文字が別の単語の開始文字であることを意味します。このようにして、すべての単語を均一に処理でき、単語の OOV 問題は発生しません。さらに、MarkBERT にはさらに 2 つの利点があります。

  • 境界マーカーに単語レベルの学習ターゲットを追加すると便利です(この記事では
    置換単語検出の学習タスクを使用しています)。これは、従来の文字 (MLM タスクなど) や文レベル (MLM タスクなど) の補足として使用できます。 NSP タスクとして) 事前トレーニング タスク
  • 豊富な意味情報を導入するのに便利で、例えば単語の品詞タグ情報を導入したい場合、マーカーを品詞タグ固有のタグに置き換えることができます

MarkBERT は中国の NER タスクで SOTA の結果を達成しました。MSRA データセットでは 95.4% -> 96.5%、OntoNotes データセットでは 82.8% -> 84.2%。MarkBERT は、テキスト分類、キーワード認識、および意味的類似性のタスクにおいても、より高い精度を達成しました。

MarkBERT の事前トレーニング フェーズには 2 つのタスクがあります。

  • MLM: モデルが境界の知識を学習できるように、境界マーカーをマスクします。
  • 置換された単語の検出 (置換された単語の検出): 単語を手動で置換し、マーカーの前の単語が正しいかどうかをモデルに識別させます。

モデル構造

MarkBERT モデル:
最初に単語をセグメント化し、単語の中央に特別なマーカーを挿入します (この特別なマーカーは記事で使用されています[S])。これらのマーカーは、対応する位置コードを持つ通常の文字としても扱われ、マスクされます。 。このように、エンコードする際には、文脈に従ってマスクされた部分を単に埋めるのではなく、単語の境界に注意を払う必要があります。これにより、MASK 予測タスクがより困難になります (予測には単語境界をより深く理解する必要があります)。このように、文字ベースの MarkBERT モデルには、単語境界情報 (単語情報は明示的に与えられます) を通じて単語レベルの情報が組み込まれています。

ここに画像の説明を挿入

置換単語検出:
具体的には、単語が紛らわしい単語に置換されると、マーカーは「置換」予測を行う必要があり、ラベルは False になり、それ以外の場合は True になります。iiを仮定するとiマーカーの表現はxix^iとして表されます。バツi、正しい予測と誤差に対応するラベルはytruey^{true}y本当ですyfalsey ^ { false }yちなみに、置換語検出損失は次のように定義さます

L = − ∑ i [ y true ⋅ log ⁡ ( xyi ) + y false ⋅ log ⁡ ( xyi ) ] \mathcal{L}=-\sum_{i}\left[y^{\text {true }} \cdot \log \left(x_{y}^{i}\right)+y^{\text {false }} \cdot \log \left(x_{y}^{i}\right)\right]L=[ y真実 ログ_( ×y私は)+y間違い ログ_( ×y私は) ]

この損失関数と MLM の損失関数が最終的なトレーニング損失として加算されます。混乱した単語は、同義語または発音が似ている単語から来ています。単語検出タスクを置き換えることにより、マーカーはコンテキスト内の単語の範囲に対してより敏感になります。意味情報をさらに統合するために、POSの結果を境界マーカーとして利用することができ、図1に示すように、POSの品詞タグ情報を境界マーカーとして利用したモデルをMarkBERT-POSと呼びます。

事前トレーニング
MASK の割合は依然として 15% で、時間の 30% はマーカー (元の BERT) を挿入しません。時間の 50% は WWM (単語マスク全体) 予測タスクを実行し、残りの時間はタスクを実行します。 MLM 予測タスク。

挿入マーカーでは、30% の確率で単語が発音に基づく混乱単語または同義語に基づく混乱単語に置き換えられ、マーカーは発音の混乱マークまたは同義語の混乱マーカー (つまり False) を予測します。その他の場合は、マーカーは通常の単語のマーカーを予測します (つまり True )。ラベルの不均衡を避けるために、通常のマーカーの損失は 15% のみと計算されます。

実験結果

NER タスクへの影響を以下の表に示します。

ここに画像の説明を挿入

効果の向上は依然として明らかであることがわかります。

アブレーション実験は 3 つのタスクについて行われました。

  • MarkBERT-MLM: MLM タスクのみ
  • MarkBERT-rwd: 置換単語の検出中に、似た響きの単語または同義語をそれぞれ削除します。
  • MarkBERT-w/o: ダウンストリーム タスクを微調整するときにマーカーを削除します (元の BERT と同じ使用法)

アブレーション実験の結果を以下の表に示します。

ここに画像の説明を挿入

アブレーションの結果から、次のことがわかります。

  • MarkBERT-MLM (置換単語検出タスクなし) では NER タスクが大幅に改善されており、きめ細かいタスクでは単語境界情報が重要であることが示されています。
  • マーカーを挿入せずに、MarkBERT-w/o もベースラインと同様の効果を達成します。これは、比較的単純な MarkBERT が言語理解タスクで BERT と同様に使用できることを示しています。
  • NER タスクの場合、マーカーの挿入は依然として重要であり、実験結果では、このようなきめ細かい表現を必要とするタスクの単語境界を学習するのに MarkBERT が効果的であることが示されています。

議論

既存の中国語 BERT には、単語情報を統合するための 2 つの戦略があります。

  • 事前トレーニング段階では単語情報を使用しますが、下流タスクでは Chinese-BERT-WWM、Lattice-BERT などの文字シーケンスを使用します。
  • WoBERT、AmBERT、Lichee などの下流タスクで事前トレーニング済みモデルを使用する場合は、単語情報を使用します。

さらに、マーカーを挿入するというアイデアは、エンティティに関連する NLU タスク、特にリレーショナル分類で検討されています。サブジェクト エンティティとオブジェクト エンティティを指定すると、既存の作業では、型指定されていないマーカーまたはエンティティ固有のマーカーが挿入され、エンティティ間の関係についてより適切な予測が行われます。

ここに画像の説明を挿入

さらに、予測段階ではマーカー情報も必要ですが、この情報には誤差が含まれる可能性がありますが、この点については著者はこれ以上のアブレーション研究を行っていません。

おすすめ

転載: blog.csdn.net/ljp1919/article/details/127071824