検索エンジン(2) - クエリの理解 - 単語

検索語は基本であり、非常に重要な機能は、正しい単語は良い検索結果の必要条件です。

1.ワードサイズ

Wordには、主な問題は、セグメンテーションの粒度の問題。例えば、「大英雄」、次の単語で最も正確ないくつかの方法、?

  1. 最もきめ細かいセグメンテーション:[射雕英雄伝、チュアン]
  2. 通常のサイズの単語:[コンドル、英雄]
  3. 最も粗粒セグメンテーション:[]大英雄
  4. ミックスサイズワード:[コンドル、大英雄、英雄、英雄、チュアン]

4上記の方法を使用する単語を決定する特定のアプリケーションシナリオに応じて、間違っていないです。

  • インデックスの構築

インデックスは、リコールを拡大するためには、一般的な要件を持つべきとき粗い第四最高の、きめ細かいです。ユーザーが不足に入る指数で表現、[コンドル、イーグルシューティングヒーロー、ヒーロー、ヒーロー、チュアン] 5つの単語を持って、例えば、「コンドルの伝説」を入力し、出て検索することも可能です。

粗粒とインデックスのみ言葉は、例えば、最初の3種類が[]イーグルは英雄を撮影、インデックスは、1つの単語だけ[]イーグルは英雄を撮影された場合は、「射雕英雄伝」のためのユーザーの検索が一致しなくなり、検索ではありませんこの結果に。

  • オンライン照会し
    たときに、オンライン検索、粗いきめの細かい長所と短所の言葉を。
    • 粒度の粗いセグメンテーション:
      • リコールの数が少ないです。たとえば、オンラインのお問い合わせは、[イーグルシューティングヒーローズ]に、それはコンテンツのような「ポスト大英雄」を検索することはできません。
      • 正解率を検索し、唯一の「射雕英雄伝」との完全な検索は「英雄の物語」などの内容を検索しません
      • 唯一の粗粒の検索語による高速パフォーマンスは、比較的短い反転します。あなただけが反転ジッパー、得点の計算には他の用語を取る必要があります。
    • ファイングレインセグメンテーション:(反対粗粒のメリットを持つ単語)
      • 数がよりリコール、あなたが「英雄の物語」など(用語があるか、複数のクエリの間であれば、すべての用語を必要としない、ヒットしている)、「ザ・イーグルは英雄を、撮影後」を検索することができます。
      • 正解率は、ドロップ関連するコンテンツの一部を検索します。
      • ロジックの処理はより複雑です。単語の後、どのように複数の長期治療の間の関係は、交差点や組合を取っていますか?

などイディオム、名前、場所、など大会の内容場合は、さらに細分化の言葉をお勧めしません。そうでない場合は、検索結果が大幅に相殺されます。

第1分割粗粒の検索結果は十二分であれば、単語の検索を行うために、品質はその後、きめの細かいセグメンテーションを取得していない十分に良い、です:それは粗いまたは洗練することができた場合は、妥協のアプローチを検討してください。そうでない場合は、検索結果の数が比較的少ない、または質の悪い場合は、さらに調査を行うために、単語を細分化。

たとえば:名「ジェイ」、インデキシング、例えば数週間[周潔、ジェイ、ジェイ]に可能な粒子サイズの様々ながあります。

  • ユーザーは、粗粒サブワード[ジェイ]で、「ジェイ」を検索し、正確なコンテンツを探し出します。それは] [周杰(チョウ・キット)を細分化した場合、「周杰」の関連コンテンツ、ユーザーの主な目的の明確な違反を探し出します。

  • ユーザーは「数週間」または「周杰(チョウ・キット)」を検索し、あなたはまた、「ジェイ」の関連コンテンツを検索することができます。ユーザーはジェイを検索したい場合があるので、検索ボタンをクリックフルに入りませんでした。検索では、不完全な入力共通の問題です。

2&見出し語処理は、語幹

それは、英語や他の言語に来るとき、それは中国でこの問題を持っていない、緊張単数形と複数形の変化を伴います。あなたは見出し語処理&ドライ抽出の問題を考慮していない場合は、ワード、リコールは、漏れの原因となります。

  • 見出し語処理(見出し語処理)

見出し語処理は、最も原始的な状態に単語の還元を含みます。それがなると過去形、過去分詞の例では、(実行中の - >実行)。そして、複数に他の単数(犬 - >犬)。

つまり、ユーザーが犬を検索するだけでなく、犬の内容を検索することができます。また、犬を検索するだけでなく、犬の内容を検索することができます。だから、とき犬がプロトタイプを認識する必要がある単語は、犬です。

見出し語処理は、一般的に辞書により高精度を実現しています。やるが、私たちは英語の不規則複数形で、時制の例があまりにも多く、ルールによって解決することはできません知っている。また、それがルールに基づいています。

  • ステミング(temming)

ステミングは、ルートを取得し、単語の接尾辞を削除することです。そして、見出し語処理は非常に明白な違いは、見出し語処理はまだ意味の言葉ですが、ルートのうち語幹、単語、単語のほんの一部であってもなくても後に、ということです。このような電気のルーツとして電動式です。

見出し語処理をより正確率も低下するリコール後に生じると比較しました。

あなたは見出し語処理を使用したいと還元後の単語または塩基を用いて、ユーザーの元の入力ワードを生じる場合は、検索では、両者の間の重量は区別DOかもしれません。それ以外の場合は、バイアスされた結果の一部を検索します。

おすすめ

転載: www.cnblogs.com/grindge/p/11968557.html