ベクトル空間モデル(ベクトル空間モデル)

ソート品質が良いか悪いかの検索エンジンで決定大幅に、検索エンジンのコアコンポーネントです。検索エンジンが順位付け、実際の結果に関連する要因の数百を考えるが、最も重要な要因はあるもののページ上の関連するコンテンツのユーザ(詩:Baiduは「PPC」戦略の最も悪名高い方に、つまり、検索結果のランキングでは、このように深刻なユーザーエクスペリエンスに影響を与える列の先頭ではなく、コンテンツの品質を考慮すると、まで広告主のお金)。ここでの本当のメッセージは次のとおりです。ユーザーの検索用語与えられ、関連するコンテンツの面でWebページをソートする方法ブーリアンモデル、ベクトル空間モデル、確率モデルやアルゴリズムを仕分け機械学習:ユーザーに関連するページのコンテンツは、使用されるモデル検索検索エンジンに依存し、一般的な検索モデルがあるかどうかを判断するには。私のプロジェクトでは、ベクトル空間モデル(ベクトル空間モデル、VSM)を使用して、そのため、この資料は、依存ベクトル空間モデルの内容を要約したものです。

ベクトル空間モデルがある文書との類似度計算ツールの表現だけでなく、検索フィールド、自然言語処理、テキストマイニングツールや他の分野で広く使用されています。

1.文書表現

ドキュメントのためのツールとして表さ各文書にベクトル空間モデルは、T次元の特徴からなるベクトルとして見られている機能は、ドキュメントから抽出されるように、定義された機能は、異なる方法で撮影することができ、最も一般的な単語でありますこれを示すために、文書に重みを持つこのT次元の特徴ベクトルを用いて、その重量に従って計算アルゴリズムを特色にするその各々のTキーワード。

図4は、{W23、W21、W22}特徴文書組成物の量を有する3つのバンドで構成され、実施例2のためにどのように三次元のベクトル空間を示す文書を示します。実際には、寸法は説明を簡単にするために、ここだけ、平和維持の数万人に達し、通常は非常に高いです。T次元ベクトルは、文書の類似度を計算するために、彼は意志戻って言った理由も、ユーザーのクエリは、特別な文書と見なすことができ、その理由に転換したT次元の特徴ベクトルに変換されます。

 

 以下は、文書D4、D5およびユーザクエリに、キーワードは、以下のように表すことができる機能を変換することによって抽出され、文書の表現の一例です。

 

 

前記類似度算出

 

3.ウエイト計算機能

 

おすすめ

転載: www.cnblogs.com/kkbill/p/11517121.html