[論文の精読] 少数ショットテキスト分類のためのマスクガイド付き BERT

序文

小規模なサンプル設定でのテキスト分類タスクに適用された記事で、「マスクガイド」というタイトルが特に魅力的です。実際、小規模なサンプル設定では、主に 3 つの開発方向があり、1 つ目はデータ、2 つ目はモデル、3 つ目は開発の方向性です。アルゴリズム 、データ拡張をデータに使用することができ、さまざまなアーキテクチャのモデルをモデルに使用して仮説空間を可能な限り削減することができ、アルゴリズムは損失関数について大騒ぎすることができます。この記事は実際には次のことを組み合わせたものです。データの強化と比較上の損失はありますが、参照上の重要性はまだあります。


論文: https://arxiv.org/pdf/2302.10447.pdf
コード:なし

概要

Transformer ベースの言語モデルは多くのタスクで良好に実行されていますが、トレーニングには大量の教師付きデータが必要であり、リソースが少ないシナリオでは困難です。この論文では、BERT が小規模サンプル学習の問題を解決できるようにするために、Mask-BERT を提案します。その中核として、マスキング操作をテキスト入力に選択的に適用し、それによってモデルが識別特性を持つトークンに焦点を当てるように導きます。さらに、著者は、モデルがさまざまなカテゴリのテキストをより適切に分離できるようにするために、対照的な学習損失関数も導入しています。

1. はじめに

Transformer ベースのモデルは大きな成功を収めていますが、トレーニングには大量の教師付きデータに依存しており、多くのシナリオではこれを満たすことが困難です。多くのタスクは、モデル設計、データ強化、およびメタ学習やプロンプトなどの特別なトレーニング戦略によって処理されます。しかし、プロンプトにはプロンプトエンジニアリングが必要であること、プロンプトチューニングに基づいて生成されるプロンプトは解釈性に欠けること、メタ学習手法はチューニングが難しいことなどの限界があります。さらに、どちらのアプローチも設計と導入が複雑です。
以前の実験で、著者らは、言語モデルが通常、ショートカット学習の問題に直面していること、つまり、言語モデルはテキストの意味情報を学習せず、タスクに依存しない情報に依存していることを発見しました。
著者は、神経科学と BERT 研究に触発されて、少数のサンプル学習を処理する BERT の能力を強化するための Mask-BERT フレームワークを提案します。この論文の主な貢献は次のとおりです。

  1. BERTの小サンプル学習能力を強化するために、Promptやメタ学習とは異なるシンプルなフレームワークMask-BERTが提案されています。
  2. 新しいマスキング戦略を使用して、入力テキスト内の無関係な情報をフィルタリングし、モデルの注意を識別トークンに向けます。
  3. 対照学習法を適用した実験結果は、汎化パフォーマンスにおける有効性を示しています。

2. 関連作品

2.1 モデル入力のマスキング

マスクのアイデアは CV フィールドから来ており、特定のマスクを使用すると、モデルがタスクに依存しない情報をフィルターで除外し、タスク関連のトークンに焦点を当てることができます。実はこの種の考え方は、人間が読書をするときの注意力の違いと一致しています。

2.2 NLP におけるフューショット学習

Transformer ベースの事前トレーニング済み言語モデルの FSL メソッドは、次の 3 つのカテゴリに分類できます。

  1. プロンプトベースのアプローチ。
  2. メタ学習法。
  3. 微調整ベースのアプローチ。

この論文の Mask-BERT は、事前トレーニングされた言語モデル出力の従来の最後の層を削除し、タスク固有の MLP に置き換え、小さなサンプル学習を通じて微調整する微調整手法に基づいています。

2.3 対照学習

対照学習は類似性学習戦略に基づいており、視覚表現、グラフ表現、NLP タスクで広く使用されています。以前の研究に触発されて、著者は対照学習を採用し、アンカー サンプルを使用して同じクラスのサンプルをコンパクトにし、異なるクラスのサンプルを遠くを表現します。

3. 方法論

3.1 問題の定義

给定数据集 D b = { ( x i , y i ) } i = 1 N b D_b=\{(x_i,y_i)\}^{N_b}_{i=1} Db={( x私はy私は) }i = 1Nb和小サンプルデータセットD n = { ( xi , yi ) } i = 1 N n D_n=\{(x_i,y_i)\}^{N_n}_{i=1}D={( x私はy私は) }i = 1N、この 2 つは相互に排他的です。このペーパーの目標は、基本的なデータ セットで事前トレーニングし、小規模なサンプル データ セットで優れた汎化パフォーマンスを取得することです。

3.2 文分類のための BERT

BERT コンテキストでは、文は次のように定義されます:
KaTeX 解析エラー: 位置 26 の数学モードでは関数 '$' を使用できません: …S},w_1,...,w_n]$̲ where $w_{CLS} $ は次のように扱われます...
BERT の各層は、マルチヘッド アテンション ブロックと MLP で構成されます。出力は次のように表すことができます。
zl ’ = MHSA ⁡ ( LN ⁡ ( zl − 1 ) ) + zl − 1 , l = 1 , … , L zl = MLP ( LN ( zl ’ ) ) + zl ’ , l = 1 , … , L \begin{array}{l} z^{l^{\prime}}=\operatorname{MHSA}\left(\operatorname{LN}\left(z^{l-1}\right) \right) +z^{l-1}, l=1, \ldots, L\\ z^{l}=MLP\left(LN\left(z^{l^{\prime}}\right)\右)+ z^{l^{\prime}}、l=1、\ldots、L \end{array}z=MHSA( LN( zl 1 ))+zl 1=1 Lz=MLP _ _( L N( z_+z「、=1 L
テキスト分類の場合、特別なトークンの最後の層の出力は通常、分類予測のために MLP に供給されます。

3.3 マスク-BERT フレームワーク

FSL の中心的な課題は、事前の知識をソース ドメインからターゲット ドメインに効率的に転送する方法です。著者は、タスクに依存しない入力をフィルタリングし、タスク関連のキー トークンに焦点を当てるようにモデルをガイドするように Mask-BERT を設計します。
画像.png
画像.png
上図はモデルの構造とアルゴリズムを示しており、全体的な考え方は次のとおりです。

  1. まず、ベース データセットで BERT を微調整します。
  2. 次に、アンカー サンプルを選択して、対応するマスクを計算します。
  3. 最後に、マスキング後にターゲット データセットとアンカー サンプルに対して微調整が実行されます。

作成者は次の 2 つの理由からベース データセットのみをマスクします。

  1. 小さなサンプル データセットの情報を最大限に活用したい。
  2. 小さなサンプル データがまばらに分散しているため、重要な特徴を特定することが困難になります。

3.4 アンカーサンプルの選択

小さなサンプル データ セットは小さすぎて過剰適合しやすいため、ベース データ セットからサンプリングされたアンカー サンプルを使用すると、モデルの堅牢性を向上させることができます。選択されたサンプルは 2 つの原則に従っています。

  1. アンカー サンプルは、ノイズではなく中心的なサンプルになろうとします。
  2. アンカー サンプルには、小さなサンプル データセットに関する情報を含めることはできません。

具体的には、ベース データセットに対して微調整された BERT を特徴抽出器として使用し、各カテゴリの中心を特定し、カテゴリ中心から各ベース サンプルの距離db d_bを計算します。db、および小さなサンプル データ セットの距離dn d_ndKKを選択K db − dn d_b-d_ndbd最小値を持つサンプルがアンカー サンプルとして使用されます。

3.5 入力マスクの生成

事前知識を可能な限り活用するために、著者はテキストからターゲットに関連するテキスト断片を選択するマスク機構を設計し、入力トークンの寄与は積分勾配法を使用して計算できます。意味上の一貫性を保証するために、作成者は分類タスクに最も貢献する連続したテキストの断片を保持します。
マスク操作後に取得されたテキストにより、ソース ドメインとターゲット ドメイン間の距離が短縮され、異なるマスクによりモデルの堅牢性が向上します。

3.6 目的関数

予測部分では、特殊トークンの最後の層の出力が全結合層に供給されて、クロス エントロピー損失が計算されます。
y ^ = WT z CLSL + b Lcross = − ∑ d ∈ D n ∪ D bsub ∑ c = 1 C ydc ln ⁡ y ^ dc \begin{array}{c} \hat{y}=W^{T} z_{CLS}^{L}+b \\ L_{\text {cross }}= -\sum_{d \in D_{n} \cup D_{b}^{sub}} \sum_{c=1}^{C} y_{dc} \ln \hat{y}_{dc} \end {配列}y^=WCLS _ _L+bLクロス =d D∪D _bサブ_ _c = 1Cydc _lny^dc _
異なる種類のサンプルをより適切に分離し、類似したサンプルを集約するために、著者は以下に示すように対照的な損失を追加しました。
L ctra = − log ⁡ ∑ e cos ⁡ ( zi , zi ′ ) ∑ e cos ⁡ ( zi , zi ′ ) + ∑ e cos ⁡ ( zi , zj ) L_{ctra}=-\log \frac{\sum e^{\cos \left(z_{i}, z_{i^{\prime}}\right)} }{ \sum e^{\cos \left(z_{i}, z_{i^{\prime}}\right)}+\sum e^{\cos \left(z_{i}, z_{j} \右)}}LCTRA_ _ _=ログ_ec o s ( z私はz)+ec o s ( z私はzj)ec o s ( z私はz)
最終的な目標損失関数は次のとおりです。
L total = Lcross + L ctra L_{total}=L_{cross}+L_{ctra}Lすべて_ _ _ _=Lクロス+LCTRA_ _ _

4. 実験

実験部分では、著者らは 3 つの少数ショット学習方法を比較し、アブレーション実験を実行してモデルの各コンポーネントの役割を検証しました。

4.1 データセット

実験は 6 つの公開データセットで実行されました。データセットの関連情報は次の表に示されています。
画像.png

4.2 実験のセットアップ

Mask-BERT は次の NLP モデルと比較されます。

  • バート
  • FPT-BERT、BERT に基づいてさらに事前トレーニング。
  • Re-init-BERT。BERT の最上位層を再初期化します。
  • CPFT、対照的な学習フレームワーク。
  • CNN-BERT。CNN を適用して BERT の出力を分類します。
  • SN-FT、メトリックベースのメタ学習方法。
  • NSP-BERT、ヒント学習に基づく SOTA メソッド。

4.3 実験結果

画像.png
実験結果を上の表に示します。全体として、Mask-BERT と NSP-BERT はオープン データセットで同様のパフォーマンスを示します。これは、オープン データセットでの BERT の事前トレーニングによるものと考えられます。Mask-BERT は医療領域のデータセットで最高のパフォーマンスを発揮し、このモデルが困難な領域に適していることを示しています。また、マスク率は 0.05 ~ 0.85 まで変化し、モデルのパフォーマンスは安定しています。

4.4 結果の分析

アブレーション実験の結果を次の表に示します。
画像.png
上の表を分析すると、次の結論が得られます。

  1. 対照的な損失関数を追加すると、モデルのパフォーマンスを効果的に向上させることができます。
  2. アンカー サンプルは、ソース ドメインの知識をより有効に活用できます。
  3. マスク操作は、モデルが重要なトークンに焦点を当てるように導くことができます。

いくつかの中間結果の視覚化を以下の図に示します。
画像.png
この視覚化は、BERT とマスク BERT の両方が効率的にサンプルを分離できること、およびマスク BERT がカテゴリー分布をより均一にし、BERT に現れるサンプル クラスター分布を回避できることを示しています。テスト セットの結果は、BERT が異なるカテゴリを分離するのが難しいことを示していますが、Mask-BERT はこの問題を解決し、同様のサンプルをよりコンパクトにすることができます。

5。結論

この論文では、BERT モデルの小サンプル能力を向上させることを目的とした、単純なモジュール式フレームワークである Mask-BERT を提案します。著者は、マスクのアンカー サンプルを使用して、モデルが重要なトークン情報を学習するようにガイドし、対照的な損失を使用して、同じラベルを持つサンプルをよりコンパクトにし、異なるラベルを持つサンプルを遠くに配置します。

6. 制限事項

著者は BERT シリーズ モデルの先進性を証明しただけであり、他の先進モデルとの比較は行っていません。

概要を読む

著者は強調しませんでしたが、本質的には小規模なサンプル シナリオでデータ拡張を適用する方法です。記事全体には特別な革新はなく、タイトルの「マスクガイド」は特に読者を誤解させやすく、モデルが実際にさまざまなトークンの重要性を学習していると読者に思わせます。私の意見では、この記事全体には次のような欠陥または疑問があります。

  1. マスク後の長さが短すぎると、対象ドメインのテキスト長が非常に長くなり、実験結果に影響を与えないことはできません。
  2. 実験結果はそれほど改善されておらず、t 検定などの理論的証明も不足しています。
  3. マスク率のこのような大幅な変化に興味がありますが、実験結果も非常に安定しているのはなぜでしょうか。影響がないのでしょうか?
  4. データ拡張を使用してモデルが重要なトークンに焦点を当てるように導くのは、あまりにも突飛すぎます。この方法では、重要なトークンに焦点を当てるモデルの能力が本質的に向上するわけではないからです。
  5. ChatGPT、GPT-4 などの他の最先端のアーキテクチャ モデルと比較することはできません。

もちろん、このような縫合に見える仕事を棒で殺すわけにはいきません。実際、多くの建設的な仕事は先人の仕事に基づいていますが、それは単純な縫合だけではありません。問題を的を絞った方法で解決するにはどうすればよいでしょうか。ハンマーで釘を探すよりも、どこに釘を打つかを考える方が良いでしょう。

おすすめ

転載: blog.csdn.net/HERODING23/article/details/132113515