ディープラーニングを深く理解する - BERT (Bidirectional Encoder Representations from Transformers): 微調整トレーニング - [文ペア分類]

カテゴリ:「ディープラーニングの徹底理解」総合カタログ
関連記事:
BERT (トランスフォーマーからの双方向エンコーダー表現):基礎知識
BERT (トランスフォーマーからの双方向エンコーダー表現):BERTの構造
BERT (トランスフォーマーからの双方向エンコーダー表現):MLM(マスクされた言語モデル)
BERT (トランスフォーマーからの双方向エンコーダー表現): NSP (次文予測) タスク
BERT (トランスフォーマーからの双方向エンコーダー表現): 入力表現
BERT (トランスフォーマーからの双方向エンコーダー表現): 微調整トレーニング - [文ペア分類]
BERT (Bidirectional Encoder Representations from Transformers): 微調整トレーニング - [単一文分類]
·
BERT (Bidirectional Encoder Representations from Transformers): 微調整トレーニング - [テキスト Q&A] BERT (Bidirectional Encoder Representations from Transformers): 微調整トレーニング - [単文注釈]
BERT (Bidirectional Encoder Representations from Transformers): モデルの概要と注意事項


自然言語処理の下流タスクの入出力形式に応じて、BERT は、微調整トレーニングによってサポートされるタスクを 4 つのカテゴリ (文ペア分類、単一文分類、テキスト質問応答、および単一文注釈) に分類します。この記事では、文ペア分類の微調整トレーニングについて紹介します。その他の種類のタスクについては、「深層学習の詳細 - BERT (Bidirectional Encoder Representations from Transform)」シリーズの他の記事で紹介します。

2 つの文が与えられ、それらの関係を判断することを総称して文ペア分類と呼びます。一般的なタスクは次のとおりです。

  • 複数タイプの自然言語推論 MNLI (Multi-Genre Natural Language Inference): 文のペアが与えられた場合、それらが含意、矛盾、中立関係のいずれであるかを判断する 3 つのカテゴリーのタスクです。
  • Quora の質問と回答 QQP (Quora 質問ペア): 与えられた文のペアが類似しているかどうかを判断することは、バイナリ分類タスクです。
  • Q&A 自然言語推論 QNLI (Question Natural Language Inference): 文のペアが与えられた場合、後者が前者に対する答えであるかどうかを判断するバイナリ分類タスクです。
  • 意味的テキストの類似性 STS-B (意味的テキストの類似性): 与えられた文のペアの類似性を判断します。これは 5 つのカテゴリーのタスクに属します。
  • Microsoft Research Paraphrase Corpus MRPC (Microsoft Research Paraphrase Corpus): 文のペアが与えられた場合、セマンティクスが一貫しているかどうかを判断するのはバイナリ分類タスクです。
  • テキスト含意認識 RTE (Recognizing Texual Entailment): 文のペアが与えられた場合、その 2 つに含意関係があるかどうかを判断するバイナリ分類タスクです。
  • 文脈に応じて候補文 SWAG (Situation With Adversarial Generations) を選択します: 与えられた文AAAと4つの候補文BBB 、意味的な一貫性に従ってBBB._ _ このタスクは、 AAの要求に変換できます。Aと各候補文のマッチング値、マッチング値の定量化の程度に応じて、この種のタスクは多分類タスクとみなすことができます。

文ペア分類のタスクについて、BERT は事前学習プロセスで十分な準備を行い、NSP トレーニング手法を使用して文ペアの意味関係を直接捉える能力を獲得しました。二項分類タスクの場合、BERT は入力データと出力データの構造を変更する必要がなく、NSP トレーニング方法と同じ入出力構造を直接使用できます。下図に示すように、[SEP]入力テキスト列に文ペアを区切り文字でつなぎ、文頭にラベルを付加し[CLS]、文頭のラベルに対応する出力値を分類として使用します。ラベルを作成し、予測された分類ラベルと実際の分類ラベルの間のクロス エントロピーが計算され、ターゲットの最適化とタスク データの微調整トレーニングの実行として使用されます。多分類タスクの場合、出力次元が arg ⁡ max[CLS]を介して渡すことができるカテゴリの数と一致していることを確認するために、文頭ラベルの出力特徴ベクトルの後に全結合層とソフトマックス層を接続する必要があります。⁡ \arg\maxarg _max操作は、対応するカテゴリの結果を取得します。入力データと出力データの形式に焦点を当てた、例文ペアの類似性タスクを以下に示します。

タスク: 「私はあなたがとても好きです」という文が「私はあなたがとても好きです」という文に似ているかどうかを判断します。
入力書き換え: 「[CLS]私はあなたがとても好きです、[SEP]とても好きです」と対応する
「 」ラベルを取得します。[CLS]出力: [ 0.02 , 0.98 ] [0.02, 0.98][ 0.02 0.98 ]引数 ⁡ max ⁡ \arg\max にarg _max操作では、類似したカテゴリが 1 として取得されます (カテゴリ インデックスは 0 から始まります)。つまり、2 つの文は類似しています。

文ペアの分類

参考文献:
[1] Lecun Y、Bengio Y、Hinton G. Deep learning[J]. Nature、2015 [
2] Aston Zhang、Zack C. Lipton、Mu Li、Alex J. Smola. Dive Into Deep Learning[J] 。 arXiv プレプリント arXiv:2106.11342、2021.
[3] Che Wanxiang、Cui Yiming、Guo Jiang. Natural Language Processing: A Method Based on Pre-Training Model [M]. Electronic Industry Press、2021. [4] Shao Hao、Liu
Yifeng . 事前トレーニング言語モデル [M]. Electronic Industry Press, 2021.
[5] He Han. Introduction to Natural Language Processing [M]. People's Posts and Telecommunications Press, 2019 [6
] Sudharsan Ravichandiran. BERT 基本チュートリアル: Transformer Largeモデルの実践 [ M]. People's Posts and Telecommunications Press、2023
[7] Wu Maogui、Wang Honxing. Simple Embedding: Principle Analysis and Application Practice [M]. Machinery Industry Press、2021.

おすすめ

転載: blog.csdn.net/hy592070616/article/details/131350116