TF-IDF用語頻度逆文書頻度アルゴリズム

I.はじめに

  [1.RF-IDF用語頻度 - 逆文書頻度検索]問い合わせのために使用される重み付け手法です。

  2.TF-IDFは単語または1つのファイルのコーパスのためのファイルのセットの重要性を評価するために使用される統計的手法です。

  3.回数は、ファイルが大きくなるに表示されますが、それはまた、コーパス増加に周波数の増加に伴って現れるの増加に伴う単語の重要性。

II。周波数

  それは、ある特定の単語が与えられた文書に表示された回数を指します。【長期にかかわらず単語が重要であるか否かの、文書ファイルの短期的周波数よりも高くを有していてもよいとこの数は、通常、その設定ファイルを防止するために、正規化されたであろう。

  公式:

    

  NI、jは:単語が文書のDJに表示された回数で、分母は単語がすべての文書とDJに表示された回数です。

III。逆文書頻度

  これは、一般的な単語の重要性の尺度です。IDFファイルのデータを含んでいてもよい特定の単語が文書中の単語の総数で割って、次いで得られた商は、数を取得するために丸められています。

  公式:

    

  | D |:ドキュメントの合計コーパス

  | {J:TI€DJ} |:ファイルの合計数は、Tiが含まれています

四.TF-IDF

  式:TF-IDF = TF * IDF

  機能:指定された文書の高周波単語、及び文書全体のコーパスにおける低頻度の単語は、高い重みTF-IDFを生成することができます。したがって、TF-IDFは、一般的な単語を除外し、あなたの重要な単語を維持する傾向があります。

  思考:高い記事のTFに表示された単語またはフレーズの周波数場合は、めったに他の記事には表示されません、これは、単語やフレーズの分類に適したカテゴリを、区別するための良い能力を持っていると考えられています。

V.コードの実装

  継続するには。

 

おすすめ

転載: www.cnblogs.com/yszd/p/10939583.html