論文読む|文-BERT：シャムBERT-ネットワークを用いた文、組み込み環境

ブリーフ

そのような文のペア、BERT、ロベルタGET創太としてテキストの意味的類似性タスクのリターンで。

しかし、それは必要と2つの文は、莫大な費用で、その結果、ネットワークに入力されています10000から文章の最も類似文ペアセットを見つける（約65時間）を計算する約5000万推論が必要です。

BERTは、セマンティック類似検索、クラスタリングなど教師なしタスクに適していないためには適していません。

クラスタリングおよびセマンティック検索に一般的な解決策は、各文章は文章が意味的に類似近くなるように、ベクトル空間にマッピングされます。

だから、何人かの人々は、get sentene埋め込み固定サイズの、BERT単一の文を入力してみてください。最も一般的な方法は、平均BERT出力層又は出力される最初のトークン（トークン[CLS]）を使用することです。しかし、それは多くの場合、グローブ埋め込みを平均ないよう、非常に悪い文章埋め込みを持っていました。

本稿で：センテンスBERT（SBERT）、事前訓練BERT修正する：使用シャム三（トリプレットがあろう）embedding->コサイン類似度を用いて、文の埋め込みの固定長を生成することができる意味論的に意味のある文にインフラストラクチャネットワークを文を意味的類似度又はManhatten /ユークリッド距離を見つけるために比較。

SBERTは上記BERT /ロベルタ65時間、5Sを低減するために、同じ時間の精度を保証します。（計算されたコサイン類似度は、おそらく0.01秒）

セマンティック類似検索に加えて、クラスタリングはまた、検索に使用すること。

20分未満の時間でNLIデータで微調整SBERTで。