検索シーンの事前トレーニング

1. 検索の事前トレーニング

1.1 PROP: アドホック検索のための代表語予測による事前トレーニング

次の 3 種類の事前トレーニング タスクが提案されています。

  • 逆クローズ タスク (ICT): クエリはパッセージからランダムに抽出された文であり、ドキュメントは残りの文です。
  • Body First Selection (BFS): クエリは Wikipedia ページの最初のセクションにあるランダムな文であり、ドキュメントは同じページからのランダムな一節です。
  • Wiki リンク予測 (WLP): クエリは Wikipedia ページの最初のセクションにあるランダムな文であり、ドキュメントはクエリのページへのハイパーリンク リンクがある別のページからの一節です。

モチベーションの目新しさ:

クエリ尤度
言語モデルの仮定は次のとおりです: p(R=1|q,d)≈p(q|d,R=1) ドキュメントがクエリに関連する確率は、以下のユーザー入力にほぼ等しいです。文書が関連しているという前提 q の確率。詳細については、次を参照してください。ドキュメントの並べ替えモデル – クエリの尤度
編集者は、その原理がクエリとドキュメントの類似性を計算する TF-IDF に実際に似ていると考えています。

重要なアイデアは、IR の伝統的な統計言語モデル、特に前世紀に提案されたクエリ尤度モデル [27] からインスピレーションを得ています。クエリ尤度モデルは、クエリが「理想的な」文書を表すテキストとして生成されることを前提としています [19]。ベイズの定理に基づいて、クエリとドキュメントの間の関連性関係は、何らかの穏やかな事前仮定の下でドキュメント言語モデルが与えられた場合のクエリ尤度によって近似できます。古典的な IR 理論に基づいて、事前トレーニングのための代表語予測 (ROP) タスクを提案します。具体的には、入力ドキュメントが与えられた場合、ドキュメント言語モデルに従って単語セットのペアをサンプリングします。ドキュメント言語モデルは、ディリクレ事前平滑化を備えた一般的な多項ユニグラム言語モデルによって定義されます。可能性が高い単語セットは、文書をより「代表している」と見なされます。次に、マスク言語モデル (MLM) の目標と組み合わせて、2 つの単語セット間のペアごとの優先順位を予測するために Transformer モデルを事前トレーニングします。事前トレーニングされたモデル (略して PROP) は、その後、さまざまな下流のアドホック検索タスクで微調整できます。PROP の主な利点は、IR の優れた理論的基盤に根ざしており、普遍的にトレーニングできることです。特別な文書構造 (ハイパーリンクなど) を必要とせずに、大規模なテキスト
コーパスを対象に、尤度をクエリして 2 つのセットを見つけ、比較損失とマスク言語モデル (MLM) 損失を追加してトレーニングすることで、BERT と同様のモデルをトレーニングできます。ただし、取得シナリオには事前トレーニングされたモデルの方が適しています。

1.2.B-PROP: アドホック検索のための代表語予測によるブートストラップ型事前トレーニング

この作業は、PROP: Ad-hoc Retrieval のための代表語予測による事前トレーニングの姉妹作品です. 動機は、コンテキストを参照せずにユニグラムのみを使用する PROP におけるクエリ尤度の問題を解決することです. したがって、それを使用することが提案されていますBERT でキーワードを選択します。

最も直接的な方法は、単語の重みとして BERT の CLS およびその他のトークンのアテンションを直接使用することですが、この方法で選択される単語は、多くの場合、次のような in、the、および of の一般的な単語です。この問題では、著者はランダム
ここに画像の説明を挿入します
偏差モデル (ランダム性からの逸脱) を使用します。これは検索における確率統計モデルです。そこで、著者はこの理論を足がかりにしているのが、この論文の画期的な点だと思います。

ここの記事を読んでいるときに、フィルターに tfidf を使用したらどうだろうかと思いました。実際、ランダム性からの発散に関する上記の理論を読んだ後、統計にクロス エントロピーを使用すると、実際に少し外挿した後、それが基本的に tfidf と同等であることがわかりました。しかし、論文を書くときに tfidf フィルタリングを直接使用する場合、明らかにそれほど高度なものではありません。これは、B-PROP の作者がご都合主義であると言っているのではなく、執筆には依然として特定のスキルが必要ですが、これらのスキルは基本的な理論体系に根ざしているということです。ランダム性からの発散に関しては、
TF-IDF がクロスエントロピーと原理的に似ていることも発見したので、ここに載せておきます:
TFIDF: ここに画像の説明を挿入します
Cross-entropy: 合計を削除して見てください~ (編集者の小クラス笑、詳細については、を参照してください) :クロスエントロピー
ここに画像の説明を挿入します

他の

  • クエリ予測による文書拡張は、
    指定された文書が関連する可能性のあるクエリを生成するシーケンスツーシーケンス モデルを使用して文書拡張用語を識別します。この方法は、BM25 と同様のスパース
    検索スキームであり、効果は BM25 よりも優れています。このアイデアは、記事を通じて可能なクエリを生成し、それらを元の記事に直接追加することで、スパース検索で意味は同じだが用語が異なるという問題を解決します。シンプルだが効果的な記事をもう 1 つ紹介します。

    情報検索分野のアルゴリズムとモデルは、スパースとデンスという 2 つのカテゴリに大別されます。これは、モデル内でデータが表現される方法を指します。モデルがクエリとドキュメントを高次元の疎ベクトルとして表す場合、モデルは「疎」であり、それらを比較的低次元の密ベクトルとして表す場合、モデルは「密」です。典型的な疎モデルには TF-IDF や BM25 が含まれ、典型的な密モデルには Two-tower BERT などの今日の深層学習検索モデルのほとんどが含まれます。モデルが疎であるか密であるかは、深層学習テクノロジーを使用しているかどうかとは関係なく、データがどのように表現されるかによってのみ決まることに注意してください。

  • 第 1 段階のパッセージ取得のためのコンテキストを意識した用語の重み付け。解釈リンクは
    BERT [12] モデルを使用して文書内の関連する用語の重みを学習し、疑似文書表現を生成しました。
    この方法は、以前にクエリの重みをマイニングする方法と似ています。検索エンジン会社でのインターンシップ. 方法は基本的に似ています. データをクリックしてクエリの重みを取得します (2018). 違いは、この記事ではクエリに重みを追加するだけでなく、同じ方法を使用してデータを取得することです文書の用語の重み。結果は同様に有効です。

    編集者の経験: クリック数が十分に大きい場合は、用語の重みが統計的により重要になる可能性があるため、上記の方法の方がうまく機能する可能性があります。

おすすめ

転載: blog.csdn.net/u014665013/article/details/127655457