TF-IDFのNLP

   まず第一に、私は薄暗いあり、そこで遊ぶ、と幸せかもしれないたくさんのことを知らない、この練習はと遊ぶのが何であるかを使用わかりません。今日は友人の馬のサークルの髪常にスクリーンショットを参照してください:テンセントは、最初にお金をしないように、良い製品を作ることです設立されました。ハハハッハッハ

TF-IDF(用語頻度 - 逆文書頻度)が使用される一般的な重み付け情報検索およびテキストマイニング技術です。TF-IDFは、コーパス内のファイルやドキュメントの用語セットの重要性を評価するための統計的手法です。それがファイルに表示される回数などの単語の重要性が増加に比例しているが、周波数がコーパスでの出現に反比例するようにも減少します。

TF-IDFは、実際にある:TFの*のIDF。主なアイデアは、次のとおりです。他の記事で高い記事(すなわち、高TF)と希(すなわち高いIDF)に表示された単語またはフレーズの周波数は、単語やフレーズが非常に良いのカテゴリを持っていると考えられている場合識別力、分類に適しています。

所与の用語tのTF(用語頻度、用語頻度)が所与の文書dの出現頻度を表します。TFが高くなって、より多くの重要な文書d tの中の単語はTF低く、言葉のT dはそれほど重要な文書である、です。それはそれはTFの類似度評価の標準テキストとして使用することができますかどうか?答えは、ほぼ十分な、例えば、一般的に使用される中国のように「I」、「」「」などの単語など、中国内の指定された文書の発生頻度が非常に高いですが、中国の言葉ではありません各文書が非常に高い単語の出現頻度を持つ、類似度評価の標準的なテキストとしてTF場合、各文書はほとんどヒットすることができます。

IDF(逆文書頻度、逆文書頻度)が主なアイデアである:Tは、文書内の少数の単語を含む場合、より高いIDF、tは全体のドキュメント・セット・レベルを横切るカテゴリを区別するための良い能力を有する単語を示します。IDFは、問題を示していますか?あなたの例を与える、一般的のような中国語の単語を使用し、「私は、」「」「」と、ほぼ各文書で非常に高い用語の周波数を有し、その後、文書のセット全体のために、これらの言葉は重要ではありません。文書、評価用語のセット全体のために、重要な基準はIDFです。

 

 

おすすめ

転載: www.cnblogs.com/students/p/8998971.html