エンジン(3)の検索 - クエリの理解 - ない州ワード

1.反転交差点

前のスポーク言葉。クエリ、ユーザーの単語の後に、別の言葉(用語)を取得します。まずインデックスがこれらの言葉を探しに行くの問題を、考え、任意のクエリ用語を打つ、それが出て検索できるドキュメントではないでしょうか?(クエリで一つだけの期間を除きます)

これにはいくつかの問題が含まれます。
1.切り捨てられます。たとえば、クエリがある5つの単語ABCDEF、唯一のFも探し出すドキュメントをヒットした場合、それは悪い結果との間に、この相関関係を見つけることができ、ユーザーのように見え、その結果が、あなたはあまりにも貧しいたい遠いです。したがって、必要にのみ関連性の高い結果を確実にするために、相関の強さに応じて切断されます。
2.パフォーマンス:あなたがページのいずれかにABCDEFをヒットした場合、ページの数が非常に大きくなることをリコール用語リコールされ、その後、各ページのスコアを計算し、ソート、パフォーマンスが非常に悪くなります。

これらの二つの理由から、一般的には、基礎となる取得するために行います逆交差点をつまり、最初に複数の反転ジッパー、複数の反転ジッパーの後、この交差点を削除します。そのようなABCDEF上記のように、第1のAのヒットドキュメントを削除する(10 000が存在すると仮定して)、次いで(すなわち10000であると仮定して)ドキュメントヒットBを削除し、ドキュメントのこれら二組の交差が、唯一5,000かもしれません。通常、交差点の数は、労働組合の数よりもはるかに小さくなります。

根本的な検索では、通常、二つのステップ:1)を反転交差点、2)交差点後のリンクのセットには、スコアリングとソートを行います。

2. DOは言葉を保存し、単語を省略することができません

ジッパー交差点に支障をより多くの用語を取得していないために、難しさは、いくつかを選択し、反転交差点を行うどの用語を選択することです。適切に選択し、ノー結果につながるとパフォーマンスが低下しているでしょう。

このような方法をクエリに=北京の天気、撮影した場合、「」と「どのように」交差点を反転行うには、彼らは数が非常に多くの計算の膨大な量、およびリコールは北京」、結果の多くをヒットしませんでしたされることを思い出すように「と」天気」、弱い相関の結果。この例では、あなたが逆の交差点を行うには、「北京」と「天気」を選択することができ、これら二つの言葉は省略語である「どのように」地方の言葉「と」と呼ばれることができません。

どのように特定の単語が保存できない選択するには?

IDFに基づいて、2.1

最も簡単な方法の一つは、IDFのソートに基づいています。

IDF、逆文書頻度は、低周波や高周波の単語の単語は、ライブラリ全体の単語で説明します。中国は避けられない非常に、非常に多くの使用例については、「」「」などの言葉のように、そのIDFは非常に低くなります。そして、「反転」という言葉のように、それは少し専門的なニッチをバイアスされ、かつ低頻度語の賛成で、IDFが比較的大きくなりバイアスされています。

「どのように天候北京で、」一例として、IDFは降順、次のようになります。「北京」>「天気」>「どのように」>「インチ」そして、言葉の数が多いなどのIDFは、保存することはできません。いくつかの特定の選択は、あなたがルールやデバッグの一部を体験することができます。

IDFベースのアプローチ、利点は、実装がシンプルで簡単です、欠点は、あまりにも高精度、よりbadcaseではありません。

ログマイニングに基づいて、2.2

ユーザーが検索したログをクリックして、あなたは貴重な情報の多くを掘ることができます。

例えば、2つの異なるクエリは、検索結果はほぼ同じです。この言葉は、2つの同時クエリであり、それは、クエリに2つの最も重要な単語であるかもしれません。これらの2つのクエリの類似の結果が非常に高いように、2つの異なるクエリとして理解することができる、最も重要な単語は、同じです。

たとえば、「北京天気」と「どのように北京天気」この二つのクエリのユーザーを検索すると、結果は非常に似ている必要があり、その理由は2つの州が北京の天候クエリある言葉ではありません。

別のケースでは、二つの異なるクエリは、ユーザーが同じ結果をクリックします。また、2つのクエリの言葉は、それが重要な州の言葉ではありません同じ時間に現れると考えることができます。

精度に基づいてログマイニング手法もカバレッジの欠点は不完全な可能性があることができ、ユーザの問い合わせの前に検索したことがなかった、初めての検索は、単語の保存ログをタップすることができないことはできません。

2.3モデルに基づいて、

IDFに加えて、ログマイニングに基づいて、あなたは、各県におけるクエリ用語が言葉ではないかどうかを判断するために、バイナリ分類モデルを行うことができます。

省は確かにいくつかの共通の特徴の言葉ではありません。設計とモデル選択方法はコア機能です。単語は単語省でない場合の下では、想像することができ、どのような要因が影響を与えますか?例えば、単語の構文、クエリ構文の種類などとの関係の前後の文章、音声の一部、IDF、歴史的な検索、単語内の位置。選択分類器、SVM、RFなど、違いが大きすぎる、またはそれ以上の重要な特性ではないかもしれません。

モデルは、より多くの機能と考えられるが、手動で入手可能なモデルを訓練するために、サンプルを訓練の数をマークする必要がありすることができます。

おすすめ

転載: www.cnblogs.com/grindge/p/12241855.html