テキストマッチングモデル実験レポート - text2vec

テキストマッチングモデル実験レポート - text2vec

BERT ベースのモデルは、NLP の多くの下流タスクで成功を収めていますが、BERT から直接派生した文ベクトル表現は狭い領域に制約されることが多く、高い類似性を示すため、テキストの意味論に直接使用するのは困難です。マッチング。BERT の元の文表現の「崩壊」現象を解決するために、Su[21] は、ターゲット フィールドの教師ありコーパスの微調整を通じて、損失 - CoSENT をソートする文ベクトル表現モデル、つまり、BERT によって生成された文表現を提案しました
。モデル 下流タスクのデータ分散に適しています。

文意味一致 (STS) タスクの実験結果は、同じ設定の下で以前の文-BERT と比較して、CoSENT が 5% 大幅に改善されたことを示しています。

1. 背景

文ベクトル表現の学習は、自然言語処理 (NLP) の分野で重要な位置を占めており、多くの NLP タスクの成功は、高品質の文表現ベクトルのトレーニングと切り離すことができません。特に意味的テキストの類似性や密なテキスト検索などのタスクでは、モデルは
2 つの文の表現空間におけるエンコードされた埋め込みの類似度を計算することによって 2 つの文間の意味的相関関係を測定し、その一致スコアを決定します。

BERT ベースのモデルは、多くの NLP タスク (教師付き微調整を通じて) で良好なパフォーマンスを達成しましたが、それ自体で導出された文ベクトル (微調整なし、すべての単語ベクトルを平均したもの) の品質は低く、比較することすらできません。そのため、2 つの文の意味上の類似性を反映することは困難です [1][2][3][4]。
研究の過程で、BERTによって導出された文ベクトルの特徴をさらに分析し、次の2点を確認しました。

  1. BERT はすべての文を小さな空間領域にエンコードする傾向があるため、ほとんどの文のペアは、意味的に完全に無関係な文のペアであっても (下図に示すように) 高い類似性スコアを持ちます。これを BERT 文で表される「崩壊」現象と呼びます。 。

左: BERT は空間崩壊の問題を表します (横軸は手動でマークされた類似性スコア、縦軸はモデルによって予測されたコサイン類似度です)、右: CoSENT メソッドの微調整後

  1. BERT 文のベクトル表現の崩壊は、文内の高頻度単語に関連しています。具体的には、平均単語ベクトルを用いて文章ベクトルを算出すると、それらの高頻度単語の単語ベクトルが文章ベクトルを支配してしまい、本来の意味を反映することが難しくなる。文ベクトルを計算する際に高頻度単語をいくつか取り除くと、崩壊現象をある程度軽減することができます(下図の青い曲線)。

文ベクトルを計算する際に上位 K の高頻度単語を削除するとパフォーマンスが変化する

文ベクトルの学習方式は教師なしと教師ありの2つに大別できますが、このうち教師あり文ベクトルの主流となっている方式はFacebookが提案したInferSentであり、
その後Sentence-BERTがBERT上でその有効性をさらに確認しました。しかし、InferSentにせよSentence-BERTにせよ、学習と予測に一貫性がないという問題があり、予測対象のcos値を直接最適化すると効果が特に悪くなることが多い。

文ベクトル方式における訓練と予測の間の不一致の問題を解決するために、cos値を直接最適化することが無効である理由を分析し、SimCSEの監視方法を参照してCoSENTのランク損失を分析し、これにより、 2 つのテキスト比較の cos 値を直接最適化します。実験によると、最初のラウンドでの CoSENT の収束効果は Sentence-BERT の収束効果より 35% 高く、最終的な効果は Sentence-BERT の収束効果より 5% 高いことが示されています。

2. 研究状況と関連業務

2.1 文表現の学習

文表現の学習は古典的なタスクであり、次の 3 つのカテゴリに分類できます。

  1. 教師あり文表現学習方法: 初期の研究 [5] では、自然言語推論 (NLI) タスクが意味論的マッチング タスクに非常に役立つことがわかりました。トレーニング プロセスでは、多くの場合 2 つの NLI データセット SNLI と MNLI が結合され、テキストは BiLSTM エンコーダを使用して表現されます。InferSent モデルはシャム構造を使用しており、2 つの文がエンコーダーを共有してそれぞれ u と v のテキスト ベクトル表現を取得し、ベクトル スプライシング ([u,v])、乗算 (u * v)、位相の 3 つの計算方法を使用します。後続の完全に接続された層がベクトル間の相互作用情報を抽出できるように、減算 (|uv|) (対称性を確保するために絶対値を取得) し、最後に 3 カテゴリ分類器に従います。Sentence-BERT[1] は InferSent のフレームワークを利用していますが、エンコーダー部分が BERT モデルに置き換えられています。
  2. 自己教師あり文レベルの事前トレーニング: 教師ありデータのラベル付けのコストは高く、研究者は教師なしトレーニング方法を探し始めました。BERT は NSP のタスクを提案しています。NSP は、自己教師ありの文レベルの事前トレーニングのターゲットと見なすことができます。後の研究では、NSP は MLM と比較してあまり役に立たないことが指摘されました。Cross-Thought[7] と CMLM[8] は、同様のアイデアを持つ 2 つの事前トレーニング ターゲットであり、記事を複数の短い文に分割し、隣接する文のエンコードを通じて現在の文内のマスクされたトークンを復元します。MLM と比較すると、トークンの回復を支援するためにコンテキスト内の他の文のエンコードが追加されるため、文レベルのトレーニングにより適しています。SLM [9] は、(Position Id を変更することで) いくつかの一貫した短い文の順序をスクランブルし、正しい文の順序を予測することで自己教師ありの事前トレーニングを実行します。
  3. 教師なしの文表現の転送: 事前トレーニングされたモデルは現在広く使用されていますが、BERT の NSP タスクのパフォーマンスはさらに悪く、ほとんどの学生には自己教師ありの事前トレーニングを実行するためのリソースがありません。トレーニング済みモデルをタスクに移行することは、より効果的な方法です。BERT-flow[2]: CMU&Byte AI Lab の成果。BERT 上で可逆フロー変換を学習することで、BERT 表現空間を正規化された標準ガウス空間にマッピングし、ガウス空間で類似性マッチングを実行できます。 。BERT ホワイトニング [10]: Su Jianlin は、STS に対する BERT フローと同等の効果を達成するために、BERT 表現をホワイトニング (平均値が 0 になり、共分散が単位行列になる) することを提案しました。SimCSE[11]: Chen Danqi のグループの成果は、2021 年 4 月に出版されました。彼らはまた、対照学習に基づくトレーニング フレームワークを使用し、Dropout のデータ強化手法を使用し、Wikipedia コーパスで BERT を微調整しました。

2.2 文-BERTモデル

現在の教師付き文表現モデル Sentence-BERT は、文ベクトル表現とテキスト マッチング タスクに対する SOTA の効果を示し、その有効性を証明しています。Sentence-BERT のトレーニング プロセスは、(u, v, |u - v|) を結合して分類層に接続することであり、予測プロセスは通常の文ベクトル モデルと同じで、最初に文ベクトルを計算します。ベクトルは cos を計算して類似度の値を取得します。

文-BERTトレーニング:

文-BERTの予測:

Sentence-BERT モデルが効果的なのはなぜですか?

アブレーション実験に従って分析します。

  1. マッチング データ セットにおける |u - v| の役割、正のサンプル ペアのテキスト類似性は、負のサンプル ペアのテキスト類似性よりもはるかに大きくなります。初期 BERT モデルの場合、正のサンプル ペアの差 |u - v| は次のようになります。また、負のサンプル ペア | u - v | 差よりも小さいため、正のサンプル ペアの u - v 分布は半径が小さい球面に近いのに対し、負のサンプル ペアの u - v 分布
    はより大きな球面、つまり初期モデルの近くでは、正のサンプル ペアの u-v にはクラスタリングの傾向があります。正のサンプル ペアの u-v が小さくなり、u-v が小さくなるように、このクラスタリングの傾向を強化するだけで済みます。負のサンプルペアの方が大きいです。
    BERT フローや BERT ホワイトニングなどの BERT 後処理モデルは、教師なし手法を使用してこのクラスタリングの傾向を強化する手法です。教師ありメソッドの直接的なアプローチは、全結合層分類器で u-v を追跡することですが、クロスエントロピー分類器は内積計算に基づいており、異なる球上に分布する 2 つのカテゴリを区別できないため、ここに追加すると絶対値は次のようになります。 |u - v| となり、球面が円錐形となり、このとき識別器を使用して識別することができます。
  2. u、v スプライシングの役割、BERT フローの働きから、BERT 文ベクトルは豊富な意味情報を持っていることがわかりますが、文ベクトルが位置する空間は単語の頻度の影響を受け、次のような特徴があります。非滑らかさと異方性。この特性により、微調整を行わない「BERT+CLS」文ベクトル モデルは、意味的類似性計算タスクに直接適用される場合、単純な GloVe 文ベクトルほど効果的ではありません。 | は
    ベクトルの相対的なギャップにすぎず、この異方性を大幅に改善することはできません。u、v が結合された後、全結合層が接続され、全結合層のカテゴリ ベクトルがランダムに初期化されます。これは、u と v にランダムな最適化方向を与え、それらを強制的に「分散」させて遠ざけることと同じです。現在の異方性状態。

3. CoSENTモデルの導入

3.1 基本的な考え方

目的: BERT に似た事前トレーニング済み言語モデルに基づいて、文ベクトル表現モデルを監視およびトレーニングし、モデルがテキストの意味一致タスクで最高のパフォーマンスを発揮できるようにします。
このうち、使用できるラベル付きデータは一般的な文ペア形式であり、その形式は「(文1、文2、ラベル)」となっており、エンコーダの学習の考え方に従って、2つの文は取得されます。エンコーダを通過した後のベクトル u と v はそれぞれ予測段階のため、計算されたコサイン類似度 cos(u, v) であるため、アイデアは cos(u, v ) に基づいて損失関数を設計し、類似度が正のサンプル ペアの類似性は可能な限り大きく、負のサンプル ペアの類似性は可能な限り小さくなります
たとえば、SimCSE の教師ありメソッドの損失関数は次のようになります。

  • 输入样本是 ( x i , x i + , x i − ) (x^{i}, x^{i+}, x^{i-}) ( ×バツ+バツi),其中 x i + x^{i+} バツi+ 是与 x i x^{i} バツi は関係を意味し、xi − x^{i-}バツi 是与 x i x^{i} バツ私は矛盾した関係
  • こんにちは^{i}hi x i x^{i} バツiの文の埋め込み
  • NNNはバッチサイズです
  • シムシムs imはコサイン類似度 (コサイン類似度) を見つけることです。
  • ってtは温度係数です。ハイパーパラメータとして、値は 0.05 です。

3.2 cos に基づく損失関数の分類

正のサンプルのペア( xi , xi + ) (x^{i}, x^{i+}) を覚えています。( ×バツi + )、負のサンプルのペア( xi , xi − ) (x^{i}, x^{i-})( ×バツi ) の場合、目標は、正のサンプルのペアと負のサンプルのペアに対して次の関係を持つことです。

cos ⁡ ( hi , hi + ) > cos ⁡ ( hi , hi − ) \cos(h^i, h^{i+}) > \cos(h^i, h^{i-})cos ( hh+ )>cos ( hh- )

陽性サンプルのペアの類似性が陰性サンプルのペアの類似性よりどの程度大きいかについては、多ければ多いほど良いです。したがって、cos結果の差分を損失として設定し、損失を最適化することができます。Circle Loss と SimCSE の教師あり損失関数を利用して、
次の cos ベースのソート損失関数が設計されています。

log ⁡ ( 1 + ∑ cos ⁡ ( hi , hi + ) > cos ⁡ ( hi , hi − ) e ( cos ⁡ ( hi , hi − ) − cos ⁡ ( hi , hi + ) ) / t ) \log\left ( 1 + \sum_{\cos(h^i, h^{i+}) > \cos(h^i, h^{i-})} e^{(\cos(h^i, h^{i -}) - \cos(h^i, h^{i+}))/t}\right)ログ_ 1+c o s ( hhi + )>cos(hh- )e( c o s ( hhi )cos(hhi + ))/t

CoSENT 損失関数

  • 正のサンプルのペアは( xi , xi + ) (x^{i}, x^{i+})です。( ×バツi + )、負のサンプル对是( xi , xi − ) (x^{i}, x^{i-})( ×バツi - )
  • こんにちはhi x i x^{i} バツ私は文ベクトル。
  • ってt は温度を表し、温度係数およびハイパーパラメータです。

モデル構造:

同じモデル構造によるトレーニングと予測

3.3 教師あり信号と教師なし信号の融合

教師ありトレーニングに加えて、教師あり信号の戦略をさらに統合できます:
最初に教師あり、次に教師なし (sup-unsup) を実行します: 最初に教師あり損失トレーニング モデルを使用し、次に表現の移行に SimCSE の教師なし手法を使用します。は以下で分析されており、自分で実験することができ、ドメイン転移学習にすぐに適用できます。

4. 実験分析

SemEval2017 評価コンペティションの STS ベンチマークである STS-B データセットを中心に、セマンティックテキスト類似性 (STS) タスクの実験を行いました。このデータセットのサンプルには、2 つの短いテキスト text1 と text2、
および手動でマークされた 0 ~ 5 のスコアは、text1 と text2 の間の意味的一致の度合いを表します (5 は最も一致すること、つまり「2 つの文が同じ意味を表現している」ことを意味します。0 は最も一致しないこと、つまり「意味が表現されている」ことを意味します
)この 2 つの文はまったく無関係です」)。

例として 2 つのサンプルを以下に示します。

文1 テキスト2 スコア
古い駅の白黒写真。 地面に横たわっているバイクの白黒写真。 0.2
女性が雨の中で踊っています。 女性が雨の中で外で踊っている。 5.0

中国語 STS-B データ セットは、英語 STS-B データ セットの中国語翻訳バージョンであり、例は次のとおりです。

文1 テキスト2 スコア
男性が電子キーボードを弾いています。 男がフルートを吹いています。 1
女性はジャガイモの皮をむきます。 女性がジャガイモの皮をむいている。 5

テストでは、以前のテキスト マッチング作業と一貫性を保つために、スピアマン相関係数 (スピアマン相関) が評価指標として選択されました。これは、2 つの値のセット (予測によって予測されたコサイン類似度) を測定するために使用されます
。モデルと手動アノテーションの意味的類似度の度合い)、結果は [-1, 1] の間になり、2 つの値セットが完全に正の相関がある場合は 1 のみとなります。
データセットごとに、そのすべてのテストサンプルを結合して、この指標を計算しました。簡潔にするために、係数 100 を乗算した結果を表に示します。

4.1 英語のマッチングデータセット

アーチ 背骨 モデル名 英語-STS-B
グローブ グローブ Avg_word_embeddings_glove_6B_300d 61.77
バート バートベースのケースなし BERT-base-cls 20.29
バート バートベースのケースなし BERT ベースの first_last_avg 59.04
バート バートベースのケースなし BERTベースのfirst_last_avg-whiten(NLI) 63.65
わかっている センテンストランスフォーマー/bert-base-nli-mean-tokens sbert-base-nli-cls 73.65
わかっている センテンストランスフォーマー/bert-base-nli-mean-tokens SBERT-base-nli-first_load_avg 77.96
協力 バートベースのケースなし CoSENT-base-first_last_avg 69.93
協力 センテンストランスフォーマー/bert-base-nli-mean-tokens CoSENT-base-nli-first_last_avg 79.68

英語のデータセットでの実験結果

英語のマッチング タスクの実験では、事前トレーニングされた BERT に基づいて STS データを微調整します。
教師あり実験では、追加の SNLI および MNLI トレーニング データは使用せず、STSb トレーニング データのみを使用しました。バックボーンが bert-base-uncased および bert-base-nli-mean-tokens の場合、CoSENT は同じ結果スコアを達成します。ベースライン。

結果は、CoSENT メソッドがまったく同じ設定の Sentence-BERT よりも優れたパフォーマンスを示し、2% の相対的なパフォーマンス向上を達成していることを示しています。

4.2 中国語のマッチング データセット

アーチ 背骨 モデル名 エイテック BQ LCQMC PAWSX STS-B 平均
わかっている バートベース中国語 SBERT-バート-ベース 46.36 70.36 78.72 46.86 66.41 61.74
わかっている hfl/chinese-macbert-base SBERT-マクバート-ベース 47.28 68.63 79.42 55.59 64.82 63.15
わかっている hfl/中国語-ロバータ-wwm-ext SBERT-ロバート-ext 48.29 69.99 79.22 44.10 72.42 62.80
協力 バートベース中国語 CoSENT-bert-base 49.74 72.38 78.69 60.00 79.27 68.01
協力 hfl/chinese-macbert-base CoSENT-macbert-base 50.39 72.93 79.17 60.86 79.30 68.53
協力 hfl/中国語-ロバータ-wwm-ext CoSENT-roberta-ext 50.81 71.45 79.31 61.56 79.96 68.61

中国のデータセットに関する実験結果

中国のマッチングタスク実験では、ATEC、BQ、LCQMC、PAWSX、STS-Bの5つのデータセットで実験を行い、5つのデータセットの平均結果を報告しました。
同じ MacBERT 事前トレーニング モデルでの微調整では、そのスコアは Sentence-BERT を上回り、5% の相対的なパフォーマンス向上を達成しました。

4.3 BackBone 選択の実験的分析

bert-base-chinese、 などのさまざまな中国語の事前トレーニング モデルを含む、さまざまなhfl/chinese-macbert-baseBackBonesの下で CoSENT の中国語 STS-B の実験結果を比較しました。nghuyong/ernie-3.0-base-zh

背骨 中国語-STS-B (スピアマン、テスト)
バートベース中国語 0.7927
hfl/chinese-bert-wwm-ext 0.7635
hfl/中国語-ロバータ-wwm-ext 0.7996
hfl/chinese-macbert-base 0.7930
hfl/中国語-マクバート-ラージ 0.7495
nghuyong/ernie-3.0-nano-zh 0.6677
nghuyong/ernie-3.0-base-zh 0.8153
nghuyong/ernie-3.0-xbase-zh 0.7827

中国の STS-B 実験では、異なる BackBones の下での CoSENT の実験結果に大きな違いがないことがわかり、これは CoSENT 手法が異なる BackBones に対して優れた適応性を持っていることを示しています。実験は、同じパラメータ モデル サイズの下で、Backbone
が最高ですnghuyong/ernie-3.0-base-zh

4.4 プーリング戦略の実験的分析

MEAN、 、およびその他のプーリング戦略を含むCLS異なるプーリング戦略を使用した CoSENT の実験結果を比較しましたFIRST_LAST_AVG。他の実験設定は同じです:
バックボーンはnghuyong/ernie-3.0-base-zh、トレーニング セットは Chinese-STS-B、バッチ サイズは 64、t は0.05。

プーリング 中国語-STS-B (スピアマン、テスト)
CLS 0.8020
プール 0.7379
FIRST_LAST_AVG 0.7931
平均 0.8153

在中文STS-B的实验中,我们发现MEAN pooling 效果最好,但和CLSFIRST_LAST_AVG相差不大,我们还发现个有趣的现象,用FIRST_LAST_AVG训练,再用MEAN预测,效果损失很小,或者换过来也一样,
pooling策略对中文匹配影响较小。pooling策略最佳选择MEAN

4.5 Temperature超参的实验分析

在实验中,我们发现对比学习损失函数中的温度超参数(t)对于结果有很大影响。从下面CoSENT模型的分析实验中可以看到,当t值在0.01到0.05之间时会得到最优结果。

这个现象再次证明了BERT表示的坍缩问题,因为在句子表示都很接近的情况下,t过大会使句子间相似度更平滑,编码器很难学到知识。而t如果过小,任务就太过简单,所以需要调整到一个合适的范围内。

不同超参数t下的性能

temperature Chinese-STS-B (spearman, test) first-epoch-spearman(dev) best_epoch_num
0.2 0.7711 0.8158 2
0.1 0.7945 0.8291 5
0.05 0.8051 0.8277 2
0.03 0.8061 0.8255 3
0.025 0.8065 0.8181 2
0.0125 0.8105 0.7982 9
0.01 0.8127 0.7838 9
0.005 0.7846 0.6399 4

在中文STS-B的实验中,温度超参数(t)最佳的是0.01,需要9个epoch训练,而设置t为0.05时,仅需要2个epoch即可达到最佳性能
而且模型收敛速度更快,第一个epoch的dev结果就有0.8277,相较t=0.01的0.7838有0.04的提升。另外,Sentence-BERT第一个epoch的dev结果只有0.4630。

4.6 Batch size超参的实验分析

NLP的transformer框架下的模型,Batch size会对结果有影响,因此我们也对比了不同Batch size下在Chinese-STS-B数据集CoSENT模型的表现。

不同Batch size下的性能

batch size Chinese-STS-B (spearman, test) first-epoch-spearman(dev) best_epoch_num
16 0.7891 0.8295 5
32 0.7957 0.8339 4
64 0.8051 0.8306 2
128 0.8011 0.8251 2
192 0.8018 0.8191 7

实验结果,可以看到batch size和spearman得分两者基本是成正比的,但提升很有限。该实验显示最佳batch size是64。

4.7 融合无监督信号的实验分析

无监督句子表征的模型有较大突破,为了提升模型的表征效果,我们希望能在有监督模型之后融合无监督信号,下面对比实验了Whitening、SimCSE等无监督方法。

arch backbone model Chinese-STS-B (spearman)
SBERT bert-base-chinese SBERT-bert-chinese-finetune-ChineseSTS 0.7723
RoFormer-Sim RoFormer-base-chinese chinese_roformer-sim-char-ft_L-12_H-768_A-12 0.7827
SimBERT bert-base-chinese chinese_simbert_L-12_H-768_A-12 0.7098
SimBERT chinese_simbert_L-12_H-768_A-12 SimBERT-base-chinese-SimCSE-cls-unsup 0.7562
SimBERT chinese_simbert_L-12_H-768_A-12 SimBERT-base-chinese-SimCSE-first-last-avg-unsup 0.7264
BERT bert-base-chinese BERT-base-chinese-SimCSE-cls-unsup 0.6699
BERT bert-base-chinese BERT-base-chinese-SimCSE-cls-sup 0.7613
BERT bert-base-chinese BERT-base-chinese-mean_pooling 0.5473
BERT bert-base-chinese BERT-base-chinese-first_last_avg 0.5446
BERT bert-base-chinese BERT-base-chinese-first_last_avg-whiten(768) 0.6808
BERT bert-base-chinese BERT-base-chinese-sup-finetune-ChineseSTS 0.7755
CoSENT bert-base-chinese CoSENT-bert-base-chinese-first_last_avg 0.7942
CoSENT hfl/chinese-macbert-base CoSENT-macbert-base-chinese-first_last_avg 0.8051
CoSENT hfl/chinese-macbert-base CoSENT-macbert-base-chinese-first_last_avg-whiten(768) 0.7642
CoSENT hfl/chinese-macbert-base CoSENT-macbert-base-chinese-first_last_avg-whiten(384) 0.7708
CoSENT hfl/chinese-macbert-base CoSENT-macbert-base-chinese-first_last_avg-simcse 0.8133

从实验结果中可以看,后接whitening操作使模型效果降低了0.035,而接SimCSE模型效果提升0.008。

表明在监督模型后直接硬接无监督训练,提升不大,基于SimCSE无监督训练会有小幅提升。

5. Release Model

我们基于以上实验结果,按最优参数训练了文本表征的CoSENT模型,在中文匹配评测集上取得了SOTA效果,并具备s2s(sentence to sentence)和s2p(sentence to paraphrase)的文本相似度计算、相似文本检索能力。

训练参数

  • arch: CoSENT
  • backbone: nghuyong/ernie-3.0-base-zh
  • pooling: MEAN
  • temperature: 0.05
  • batch_size: 64
  • max_seq_length: 256

评测结果:

Arch BackBone Model ATEC BQ LCQMC PAWSX STS-B SOHU-dd SOHU-dc Avg QPS
Word2Vec word2vec w2v-light-tencent-chinese 20.00 31.49 59.46 2.57 55.78 55.04 20.70 35.03 23769
SBERT xlm-roberta-base sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 18.42 38.52 63.96 10.14 78.90 63.01 52.28 46.46 3138
Instructor hfl/chinese-roberta-wwm-ext moka-ai/m3e-base 41.27 63.81 74.87 12.20 76.96 75.83 60.55 57.93 2980
CoSENT hfl/chinese-macbert-base shibing624/text2vec-base-chinese 31.93 42.67 70.16 17.21 79.30 70.27 50.42 51.61 3008
CoSENT hfl/chinese-lert-large GanymedeNil/text2vec-large-chinese 32.61 44.59 69.30 14.51 79.44 73.01 59.04 53.12 2092
CoSENT nghuyong/ernie-3.0-base-zh shibing624/text2vec-base-chinese-sentence 43.37 61.43 73.48 38.90 78.25 70.60 53.08 59.87 3089
CoSENT nghuyong/ernie-3.0-base-zh shibing624/text2vec-base-chinese-paraphrase 44.89 63.58 74.24 40.90 78.93 76.70 63.30 63.08 3066
  • shibing624/text2vec-base-chinese模型,是用CoSENT方法训练,基于hfl/chinese-macbert-base在中文STS-B数据训练得到,并在中文STS-B测试集评估达到较好效果,模型文件已经上传HF model hub,中文通用语义匹配任务推荐使用
  • shibing624/text2vec-base-chinese-sentence模型,是用CoSENT方法训练,基于nghuyong/ernie-3.0-base-zh用人工挑选后的中文STS数据集训练得到,并在中文各NLI测试集评估达到较好效果,模型文件已经上传HF model hub,中文s2s语义匹配任务推荐使用
  • shibing624/text2vec-base-chinese-paraphrase模型,是用CoSENT方法训练,基于nghuyong/ernie-3.0-base-zh用人工挑选后的中文STS数据集,并加入了s2p数据,强化了其长文本的表征能力,并在中文各NLI测试集评估达到SOTA,模型文件已经上传HF model hub,中文s2p语义匹配任务推荐使用
  • 为测评模型的鲁棒性,加入了未训练过的SOHU测试集,用于测试模型的泛化能力

6. 总结

在此工作中,我们分析了BERT句向量表示空间坍缩的原因,并分析了基于排序loss的句子表示CoSENT模型的优势。CoSENT在有监督训练的实验中表现出了优秀的性能,在中英文数据集上都超越了基线模型,表现出模型对句子表征的有效性。

目前,相关代码已经放Github上:shibing624/text2vec,欢迎大家使用。

参考文献

  • [1] Reimers, Nils, and Iryna Gurevych. “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.” Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019.
  • [2] Li, Bohan, et al. “On the Sentence Embeddings from Pre-trained Language Models.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
  • [3] Gao, Jun, et al. “Representation Degeneration Problem in Training Natural Language Generation Models.” International Conference on Learning Representations. 2018.
  • [4] Wang, Lingxiao, et al. “Improving Neural Language Generation with Spectrum Control.” International Conference on Learning Representations. 2019.
  • [5] Conneau, Alexis, et al. “Supervised Learning of Universal Sentence Representations from Natural Language Inference Data.” Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.
  • [6] Cer, Daniel, et al. “Universal Sentence Encoder for English.” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018.
  • [7] Wang, Shuohang, et al. “Cross-Thought for Sentence Encoder Pre-training.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
  • [8] Yang, Ziyi, et al. “Universal Sentence Representation Learning with Conditional Masked Language Model.” arXiv preprint arXiv:2012.14388 (2020).
  • [9] Lee, Haejun, et al. “SLM: Learning a Discourse Language Representation with Sentence Unshuffling.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
  • [10] Su, Jianlin, et al. “Whitening sentence representations for better semantics and faster retrieval.” arXiv preprint arXiv:2103.15316 (2021).
  • [11] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. “SimCSE: Simple Contrastive Learning of Sentence Embeddings.” arXiv preprint arXiv:2104.08821 (2021).
  • [12] Wu, Xing, et al. “Conditional bert contextual augmentation.” International Conference on Computational Science. Springer, Cham, 2019.
  • [13] Zhou, Wangchunshu, et al. “BERT-based lexical substitution.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
  • [14] He, Kaiming, et al. “Momentum contrast for unsupervised visual representation learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
  • [15] Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020.
  • [16] Zhang, Yan, et al. “An Unsupervised Sentence Embedding Method by Mutual Information Maximization.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
  • [17] Fang, Hongchao, et al. “Cert: Contrastive self-supervised learning for language understanding.” arXiv preprint arXiv:2005.12766 (2020).
  • [18] Carlsson, Fredrik, et al. “Semantic re-tuning with contrastive tension.” International Conference on Learning Representations. 2021.
  • [19] Giorgi, John M., et al. “Declutr: Deep contrastive learning for unsupervised textual representations.” arXiv preprint arXiv:2006.03659 (2020).
  • [20] Wu, Zhuofeng, et al. “CLEAR: Contrastive Learning for Sentence Representation.” arXiv preprint arXiv:2012.15466(2020).
  • [21] 苏剑林. (Su. 06, 2022). 《CoSENT(一):比Sentence-BERT更有效的句向量方案 》[Blog post]. Retrieved from https://kexue.fm/archives/8847

おすすめ

転載: blog.csdn.net/shibing624/article/details/131314252