- BERT の「[CLS]」トークンによって生成されたネイティブの文表現は、セマンティック テキスト類似性 (STS) タスクなどの文評価ベンチマークでのパフォーマンスが非常に低くなります。
- 効果的な自己教師付き文トレーニング セットの欠如
- 通常自己教師あり法: マスクの追加または比較 (NSP) によって生成
- ConSERT トークンの変換、機能の切り捨て
- SimCSE は別のドロップアウト マスクを使用します
- 自己教師あり学習: コンテンツ選択の生成のサポート、良好な結果、文方向への適用は少ない
- 既存: 文は全体として考慮され、文ごとに異なります
- この記事: 文内の視点
- フレーズ認識文表現 (PaSeR): 文表現における最も重要なフレーズのエンコード
- コアメソッド
- フレーズ抽出: 文の構文解析ツリー内のランダムなサブツリー。NLTK (Loper and Bird, 2002) を使用することで、句 (SBAR)、動詞句 (VP)、名詞句 (NP) などの文の構成要素を簡単に抽出できます。
- 統計的キーフレーズ抽出アルゴリズム、RAKE (Rose et al., 2010)。RAKE はまず、ストップ ワードまたは句読点を使用して、元の文またはドキュメントをフレーズにトークン化します。各フレーズの重要度を取得するために、RAKE はまず単語の共起行列を作成し、共起行列の次数 deg(w) と頻度 freq(w) から単語 w の重要度を計算します。ドキュメントまたは文の性別。最後に、フレーズの重要度は、フレーズ内のすべての単語の wordScores を合計することによって計算されます。(最高のパフォーマンス)
- 複製とマスキング
- 差分モデル: 具体的には、特定の文 s について、複数のフレーズ P = {p0, p1, ..., pn} で構成され、RAKE によって計算された重要度によってランク付けされます (Rose et al., 2010)。p0 のような最も重要なフレーズを復元するには、次の式を自然に考え出します。
- 文 s を s~ にコピーし、生成したい最も重要なフレーズ p0mask を置き、文を Enc としてエンコードすると、文は次のように表されます。
- ペーサー
- 左側の部分は、共有パラメーターを使用したセンテンス エンコーダーを示しています。
- 右側は、評価プロセス中に破棄されるデコーダーを生成することです
. したがって、追加のパラメーターはトレーニング段階でのみ使用され、評価段階の推論速度には影響しません.
- Es と Es~ の表現を組み合わせることで、マスクされた句 p0 を適切なデコーダで復元できます。
- データ増強
- シノニムの置換、ランダムな削除、およびトークンの並べ替え
- S および S~ で同義語の置換を使用する: 異なるトークンを持つ意味的に類似したフレーズであり、モデルがトークンの類似性ではなく意味上の類似性を捉えるのに役立ちます
- ランダムな削除: 頻繁に使用される単語やフレーズの影響を軽減します
- トークンの並べ替え: センテンス エンコーダーは、トークンの順序と位置の埋め込みの変更に対してあまり敏感ではありません。
- 教師なし PaSer:
- 文のエンコード: Bert の事前トレーニング モデルに基づいて、プーリング メソッドには以下が含まれます。
- [CLS] を直接使用する
- バートの最後のレイヤーのトークン表現を平均化する
- Bert中間層を使用した加重平均トークン
- デコード信号
- ここで、m と n はスケーリング ファクターであり、4 つのデコードされた信号を正規化し、グリッド サーチによってこれら 2 つの変数を選択します。m と n の選択については、付録 A で説明します。
- 生成デコーダー
- ジェネレーティブ デコーダーは、評価段階で破棄されるセンテンス エンコーダーをトレーニングするための通常の表現として使用されます。そのため、ダウンストリーム タスクに余分なパラメーターを追加しないでください。
- トランスフォーマーのデコーダー バリアントは、フレーズ再構成デコーダー Dec として機能します。
- マスクされたフレーズ p0 がいくつかのトークンで構成されていると仮定すると、デコード信号 SignalDec が与えられると、フレーズ再構築プロセスは次のようになります。
- 公式
- マスク言語モデルの組み合わせ
- 文のエンコード: Bert の事前トレーニング モデルに基づいて、プーリング メソッドには以下が含まれます。
- 教師あり PaSer: 教師なし PaSer は、教師あり文エンコーダをトレーニングするための優れた初期化チェックポイントを提供できます。
- 文表現学習における監視信号の導入
- SBERT に基づくシーケンス分類トレーニング
- SimCSE トレーニングから学ぶ
- この記事では、SimCSE によって導入された対照的な損失と PaSeR の損失を選択します。
- 教師なし PaSeR の最高のパフォーマンス ポイントからエンコーダーを初期化します。損失関数の究極形
α は、実験で調整可能なハイパーパラメーターです。
- 文表現学習における監視信号の導入
- 実験
- データ
- 評価データセット: STS。データセットは、0 ~ 5 のスコアで手動でラベル付けされます。
- これら 7 つの STS データセットのスピアマン相関 x 100 を使用して、すべてのベースライン研究と先行研究のパフォーマンスを評価および比較します。
- Quora 質問ペア: 繰り返される質問ペアは (q1, q2) として表され、p2 は質問バンクとして使用され、すべての q1 はクエリ セットとして少なくとも 1 つの正のペア q2 を持ちます。次に、クエリセットを使用して、質問コーパスから同様の質問を取得します。評価指標には、平均精度 (MAP) と平均相互順位 (MRR) が含まれます。
- AskUbuntu 質問: セマンティック リオーダー データセット。各クエリによって与えられる質問コーパスのサイズは 20 であり、モデルは、類似度に従ってこれらの 20 の与えられた質問を並べ替える必要があります。また、評価指標として MAP と MRR を使用します。
- トレーニングの詳細
- エンコーダー: bert-base
- 最大シーケンス長: 32
- 初期学習率: 3e-5
シーケンスの最大長と初期学習率は SimCSE に従います
- バッチサイズ: [32,64,96] から選択
- 教師なし学習: ハイブリッド STS の 7 つのデータセット
- 監視された環境: SNLI+MNLI の組み合わせ、SimCSE+PaSeR の組み合わせによるエンコーダーのトレーニング。
- 文の表現: [CLS]
- ジェネレーティブ デコーダー: 6 層トランスフォーマー デコーダー
ジェネレーティブは、あらゆるタイプのトランスフォーマー デコーダーを受け入れることができます。
- 単語埋め込みレイヤーは、センテンス エンコーダーとジェネレーティブ デコーダーで共有されます。
- セマンティック テキストの類似性の結果
太字の教師なし統計は最適なパフォーマンスを示し、下線付きの統計は最適でないパフォーマンスを示します。
- 監修
- セマンティック検索/並べ替え
- アブレーション実験
- ジェネレーティブ デコーダーの複雑さは、
ジェネレーターが小さすぎると十分なモデル容量が不足し、ジェネレーターが大きすぎるとトレーニング データの過剰適合につながることが多いためであると推測されます。
- Data Augmentation
Synonym Replacement (SR) Random Exchange (RS) Random Removal (RD)
- マスク フレーズの選択:
- NLTK:
- 名詞句のみマスク NP
- ブロック動詞句のみ VP
- NP\VPを同時にシールド
- RAKE マスキング: マスキングする最も重要なフレーズの数を選択します
- NLTK:
- ジェネレーティブ デコーダーの複雑さは、
- データ
- 定性分析
- 文検索
- デコーダによって生成されたフレーズ
- 生成されたテキストは元のテキストとは異なります
対比目的語ではなく生成目的語による文表現学習
おすすめ
転載: blog.csdn.net/qq_56061892/article/details/127628426
おすすめ
ランキング