1 はじめに

情報検索システムは、ユーザーのニーズに最も適したアイテムを検索する、つまり検索するクエリが与えられたものとして抽象化できます。対応する確率 $P(D_i| Q)$ 最大のドキュメント $D_i$ . ベイズの式によると、展開は次のようになります:
$\operatorname{argmax \,}P(D_i|Q)$
$=\operatorname{argmax \,} \frac{P(Q|D_i)P(D_i)}{P(Q)}$
$=\operatorname{argmax \,}P(Q|D_i)P(D_i)$
其中 $P(D_i)$ はテキスト $D_i$ たとえば、電子商取引のシナリオでは、アイテムの売上、評価の品質などに対応して、 $P(Q|D_i)$ は項目 $D_i$ ユーザー検索クエリ $Q$ の程度。次に、いくつかの一般的な統計手法を要約して、クエリ $Q$ とアイテム $D_i$ 関連性スコア。

2 テキスト相関技術

2.1 TFIDF

情報検索システムでは、用語頻度-逆ドキュメント頻度 (略称: TFIDF ) は、テキスト内の用語の重要性を計算するために使用される一般的な統計手法です。. tfidf は、情報検索、テキストマイニング、およびその他のアプリケーションでよく使用されます。クエリ $q$ とテキスト $d$ の TFIDF 相関計算式は
$\sum_ {t=1}^n tf(t_i,d) * idf(t_i,D)$
その中 $tf(t_i, d)$ 期間を表す $t_i$ テキスト $d$ の単語頻度 $idf(t_i, D)$ 用語 $t_i$ テキストセット全体で $∣ D | ∣$ の反転テキスト頻度すべてのクエリの $t_i$ テキスト内の tfidf スコアの合計。どこで $tf(t_i,d)$ 計算方法もいろいろありますが、ウィキペディアを参考にまとめた計算方法は以下の通りです。

ここに画像の説明を挿入
因 $i d f (t, d)$ 計算方法は、主に次のとおりです。

2.2 BM25

情報検索システムでは、BM25 は、検索エンジンでクエリとテキストの関連性を評価するための比較的一般的なランキングアルゴリズムです。. BM25 のフルネームは Okapi BM25 と呼ばれます。Okapi は情報検索システムであり、BM25 アルゴリズムが最初に適用された検索システムでもあるため、Okapi BM25 と名付けられました。の BM25 アルゴリズムです。 $q$ とテキスト $d$ の相关性分值计算:
$\sum_{i=1}^nIDF(t_i) \cdot \frac{f(t_i, D) \cdot (k_1 + 1)}{ f(t_i, D) + k_1 \dot (1-b + b \cdot \frac{|D|}{avgdl})}$
其中 $f(t_i, D)$ は用語 $t_i$ 内 $D$ における用語頻度 tf $∣ D ∣ は$ テキスト $D の$ 語長。Avgdl は、すべてのテキストコレクションのテキストの平均の長さを表します。 $k_1$ と $b$ はハイパーパラメータで、通常は $k_1 \in [1.2, 2.0]$ ， $b = 0.75$ 。 $IDF(t_i)$ は反転テキスト頻度で、通常次のように計算されます:
$IDF(t_i) = \text{In}(\frac{ N - n(t_i) + 0.5} {n(t_i) + 0.5} + 1)$
ここで、 $N は$ テキストの総数を表し、 $n(t_i)$ は用語 $t_i$ テキストの数。

2.3KL

論文: Document Language Models, Query Models, and Risk Minimization for Information Retrieval は、主にベイジアン決定理論の統計的確率モデルに基づいて、クエリとドキュメントの相関関係を計算します. 具体的な詳細については、論文を詳しく読むことができます. KL の使い方について話すクエリとドキュメントの相関関係を測定します。KL メジャークエリとドキュメントの計算式は次のとおりです
$|Q)\log\frac{p(w|Q)}{p(w|D)}$
ここで $p (w ∣ Q)$ はクエリ $Q$ 中词 $w$ の確率値。この値は、言語モデルまたはその他の方法で計算できます。同様に、 $p (w ∣ D)$ は単語 $w$ in text $D$ の確率スコア、クエリの単語確率分布がドキュメントの単語確率分布に近い場合、KL スコアは小さくなり、クエリがドキュメントにより関連していることを示します。. 式をさらに変更すると、次のようになります:
$\sum_w p(w |Q)\log\frac{p(w|Q)}{p(w|D)}$
$-\sum_wp(w|Q)\log p(w|D) + \sum_wp(w|Q)\log p(w|Q)$
$= C E (Q, エ） - C E (Q, Q) = C E (Q, エ） - c$
から上記の式からわかるように、2 つの分布の KL 測定値は、2 つの分布のクロスエントロピーに定数値を加えたものに相当します。。

2.4 タームウェイト

Term Weighting Approaches in Automatic Text Retrieval では、この論文は用語の重みに基づくクエリとドキュメントの相関スコアの計算を提供します。計算式は次のとおりです。
$\text{similarity}(Q, D) = \frac{\sum_{k=1}^tw_{qk}\cdot w_{dk}}{ \sqrt{\ sum_{k=1}^t{(w_{qk})}^2 \cdot \sum_{k=1}^t{(w_{dk})}^2}}$
ここで $w_{qk}$ 単語 $w_kを表します$ クエリ内の単語の重みと $w_{dk}$ 単語 $w_kを表します$ 文書内の単語の重み、上記の式はクエリ内の単語によって形成される単語重みベクトルと、ドキュメント内の単語によって形成される単語重みベクトルの余弦値を計算します。。

2.5 近接性

論文An Exploration of Proximity Measures in Information Retrievalで提案されているアイデアは次のとおりです。ドキュメント内でヒットしたクエリの用語間の距離は、2 つの間の相関関係の計算に影響を与えます。、たとえばユーザー検索用語: "検索エンジン" の場合、呼び出されるテキストには次の 2 つがあります:
文書 1: "... 検索エンジン ..."
文書 2: "... 検索 ... エンジン ..."
直感的には、ドキュメント 1 はドキュメント 2 よりも関連性がありますが、TF-IDF などのアルゴリズムに基づいて、そのような用語間の距離を区別することはできません。したがって、距離尺度を BM25 およびその他の計算テキスト関連性スキームに統合することにより、近接性に基づく検索式が得られます。
$R_1 (Q, D) = KL(Q, D) + \pi(Q, D)$
$R_2(Q, D) = BM25(Q, D) + \pi(Q, D)$
ここで $\pi(Q, D)$ は距離計算スコアを表し、次のようなテキストを想定しています:
$d = t_1, t_2, t_1, t_3、t_5、t_4、t_2、t_3、t_4$
検索クエリは $\{t_1, t_2\}です$ の場合、距離スコアの計算には次のカテゴリがあります。

Span : Span は、ドキュメント内のクエリをカバーできるすべての用語の最小距離を示し、繰り返されるすべての用語を含める必要があります。、上記の例では、クエリはテキスト $d$ のスパン値は
MinCover: テキスト内で少なくとも 1 回クエリに含まれる各用語の最短の長さを示します. 上記の例では、MinCover の値は 2 です
MinDist: ドキュメント内のすべてのクエリ用語ペア間の最小距離を示します $Q={t_1, t_2, t_3}$ など $Q = t 、 t 、 t$ 、テキスト内の $d$ の MinDist 距離は 1 です
AveDist: すべてのペアの平均距離を示します，比如 $Q={t_1, t_4, t_5}$ で $d$ の平均距離
MaxDist: すべてのペアの最大距離を示します
距離はさまざまな基準で計算できます.距離を取得した後、距離測定スコア $\pi(Q, D)$ は次のように計算できます:
$\pi(Q, D) = \log(a + exp(-\phi( Q、D)))$
ここで $-\phi(Q, D)$ 対応する距離は、上記のようなさまざまな測定式によって計算できます。

2.6 位置言語モデル

情報検索のための位置言語モデルという論文の主なアイデアは、文書内に広がる単語の数を計算して、場所に基づく言語モデルを構築します。これにより、場所の距離の特徴を捉えるだけでなく、「ソフトな」検索効果も達成できます。.
論文で与えられた位置ベースの言語モデル PLM の計算式は次のとおりです
$\frac{c^{'}(w, i)}{\sum_{w^{'} \in V}c^{'}(w^{'}, i)}$
其中 $c^{'}(w, i)$ 単語 $w$ 他のすべての位置から位置 $i$ の送信回数、計算式は次のとおりです
$\sum_{j= 1}^N c(w,j)k(i,j)$
其中 $c (w, i)$ 単語 $w$ はドキュメント $の場合、 i の$ 位置 $w は$ の位置にある $i$ が表示された場合、値は 1 で、それ以外の場合は 0 です。そして $k (i, j) は$ の用語から開始することを意味します $j$ まで $位置i$ での伝播の数
上記のドキュメントの各単語の PLM スコアの計算により、KL 検索モデルを使用して、クエリとドキュメントの間の相関を測定できます。 S ( Q , D , i ) = − ∑ w ∈ V p (
$-\sum_{w \in V}p(w|Q)\log\frac{p( w |Q)}{p(w|D, i)}$
ここで $p (w ∣ Q)$ はクエリの言語モデルであり、このスコアの測定には、最尤推定言語モデルなどの既存のものを使用できます。そして PLM モデル $k (i, j)$ 測定方法、次の方法が論文に記載されています。

Gaussian Kernel: ガウスカーネル関数、計算式は次のとおりです。
$exp[\frac{-(ij)^2}{2\シグマ^2}]$
Triangle Kernel: 三角カーネル関数，计計算如下：
$=\begin{cases} 1 - \frac{|i - j|} {\sigma} \quad if \quad |ij| \leq 0 \\ 0 \quad\quad\quad \text{それ以外の場合} \end{cases}$
コサイン (ハミング) カーネル: コサインカーネル関数次のように定義します:
$\begin{ cases } \frac{1}{2}[1+cos(\frac{|ij|\cdot \pi}{\sigma})] \quad if \text{} {|ij|} \leq \sigma\\ 0 \quad\quad\quad \text{それ以外の場合}\end{cases}$
サークルカーネル: 循環カーネル関数，计算公式如下：
$\begin{cases} \sqrt{ 1-(\frac{|ij|}{\sigma})^2} \quad if \text{ } |ij| \leq \sigma \\ 0 \quad\quad\quad 0 \quad \text{それ以外の場合} \end{cases}$
Passage Kernel: 論文が採用しているアーティクルカーネル機能k ( i , j ) = { 1 if ∣ i − j ∣ ≤ σ 0 でなければ k(i, j) = \
$\quad if \text{ } {|ij |} \ leq \sigma \\ 0 \quad\quad\quad \text{それ以外の場合} \end{cases}$

3 まとめ

上記の方法は、主に統計モデルに基づいています。クエリとドキュメント内の各単語の重みまたは確率分布を計算することにより、クエリとドキュメント間の相関関係が KL、コサインコサインなどに基づいて計算され、単語の重みまたは確率は、単語の頻度に基づいて反転されます。テキストの頻度、距離、言語モデル、その他の計算方法。

クエリとドキュメントテキストの相関計算の概要

目次

1 はじめに

2 テキスト相関技術

2.1 TFIDF

2.2 BM25

2.3KL

2.4 タームウェイト

2.5 近接性

2.6 位置言語モデル

3 まとめ

おすすめ

クエリとドキュメント テキストの相関計算の概要

目次

1 はじめに

2 テキスト相関技術

2.1 TFIDF

2.2 BM25

2.3KL

2.4 タームウェイト

2.5 近接性

2.6 位置言語モデル

3 まとめ

おすすめ

クエリとドキュメントテキストの相関計算の概要