TF-IDFと短いテキスト分類ナイーブベイズに基づいて、

概要:単純ベイズ分類器(単純ベイズ分類器)が一般的ですが、非常にシンプルかつ非常に効果的な分類アルゴリズムは、教師付き学習の分野で非常に重要なアプリケーションを持っています。する|ナイーブベイズがイベントAにより多くのとして知られている、下の「全確率の公式」に基づいており、Bは、P(B A)を得た未知のP(B | A)を推論する、あります少し形而上学的な意味では、黒板ノック!

利点:

  1. トレーニングデータを使用してTF-IDFモデルトレーニング単語の頻度と確率と統計を行います。
  2. コンピューティングのすべてのカテゴリのためにナイーブベイズ確率を使って分類。
  3. ショートテキスト分類は、いくつかの手動の介入、トップ3の正解率が95%に達することができる追加して、電気の提供者に適用されます。
  4. クラス予測は完全に解釈、ブラックボックスニューラルネットワークは存在しませんが、セグメンテーション結果への依存度。
  5. 基本データの下にデータカテゴリをトレーニングはバランスされていないモデルの精度には影響しません。

短所:

  1. セグメンテーション効果への依存度。
  2. 大規模な分類タスクモデルファイルは、(ニューラルネットワークと比較して)が大きいです。

キーワード(Aoutomaticキーフレーズ抽出)TF-IDFは、多くの場合、記事を抽出するために使用され、完全に手動の介入なしに、我々は良い結果を得ることができ、そしてそれはシンプルに、高度な数学を必要とせず、一般の人々だけで10分私たちは最初に次のTF-IDFアルゴリズムを導入することを、理解することができます。

TF-IDF

例えば、比較的長い記事があることを前提とし、「世界中の公開書簡の子供たちは、」我々は、コンピュータによって、そのキーワードを抽出する準備が整いました。シンプルなアイデアは、言葉の最大数が表示されます見つけることです。言葉は非常に重要であるならば、それはこの記事で何度も表示されますそこで、我々(TFと略す用語頻度、)「単語頻度」の統計が、あなたが推測かもしれませんが、最も頻度の高い単語---「と」は、「はい」、----このカテゴリー「で」最も一般的に使用される言葉。彼らは呼ばれているストップワード(STOPのこれはあなたが「言葉」に「記事」から、求めることができるである、言葉をフィルタリングする必要があるが、何の助けがないことを示す抽出結果に言葉を)あなたが知っている場合は、変換する方法です中国語の単語は、彼らがこの質問をするべきではない、多くの中国の単語のパターンがあり、通常により、HMM(隠れマルコフモデル)、良い言葉システムは非常に複雑であり、あなたはアクセスを管理したい理解するためにHMMをクリックすることができますが、現在、多くのシステムは、(LSTM + CRF)ここに示されていない、対象の単語認識を行うNERの深い学習を使用してありますが、[OK]を、「、返す前に、私たちはその「子」、「パワー」を見つけることができましたメンタルヘルス「」個人情報保護「」移動「」競合「」不良「」疾患「」食品「」飲料水「」国連「という言葉の出現数限り。この平均値は、キーワードとして、その重要性は同じであるのか?

明らかではない場合。「国連は」非常に一般的な言葉であるため、比較的に言えば、「心の健康」、「移行」は、「紛争は」それほど一般的ではありません。これらの4つの単語の数がその「心の健康」を信じる多くの理由として表示された場合は、「移行」の重要な「紛争」は、「心の健康」と「仕分けキーワードの人口の動き「国連」の度合いよりも大きく、 「」紛争「とは、」国連の前」でなければなりません。

だから、我々は重要な調整因子を必要とする、単語の尺度は非常に一般的ではありません。言葉はまれですが、それはより多くのこの記事で何度も表示された場合、それはこの記事の特性を反映している可能性が高い、キーワード我々の必要があります。調整係数は、各単語のための「重要性」重みを割り当てる単語頻度統計に基づいています。この量は、(「IDF」と略記逆ドキュメント頻度、)「逆ドキュメント頻度」と呼ばれ、その大きさ及び共通ワードの範囲は反比例します。

「単語の頻度」(TF)と「逆文書頻度」(IDF)後に、これら2つの値が乗算さを知って、あなたは、単語のTF-IDF値を取得します。記事の重要単語が高い、それのTF-IDFは大きい値。だから、いくつかの単語の先頭に、この記事では、キーワードで、テキスト分類に適用された場合、ハイクラスに抽出し、このする単語やTF-IDF値のすべてのTF-IDF値そのようには機能モデルです。

要約すると:

  • TF = (某个词在文档中出现的次数) / (文档中的总词数)
  • IDF = log(语料中文档总数 / 包含该词的文档数+1) 分母加1 避免分母为0
  • TF-IDF = TF*IDF

ナイーブベイズ推定

 

   非常に大規模でナイーブベイズ理論に見えますが、実際には非常に深い数学的知識を使用していない私はそれがあると感じ、でも、あまりにも高い数値を学習せずに理解することができ、簡単ではあるが、いくつかの周りに、私は出て実行されますナイーブベイズ理論の下に簡単な言葉を説明することがあります。

ベイズ推定をするために使用される統計手法である推定他の統計推論異なると統計の性質の一部を、された主観的な判断に基づいていること、上には、まず、客観的な証拠なしに行うことができます値を推定し、常に実際の結果に基づいて修正しました。

ここで誰かがTF-IDFは、なぜ単純ベイズ分類に使用することができ、求めることができますか?はい、いい質問、TF-IDFは、実際に分類することができますが、ナイーブベイズは、効果的に(以前ビットソフトマックスのような遊びの、ナイーブベイズ学習効果の深さを理解していた場合)精度は誤差率を弱める強化します未知のP(B |)推論する|(B)ナイーブベイズがイベントAにより多くのとして知られている、下の「全確率の公式」に基づいており、Bは、Pを取得し、あります少し形而上学的な意味では、黒板ノック!  それはまた、そのような統計のTF-IDF確率との本質的な差を決定します。

ベイズの定理:ベイズ推定を理解することが、我々は最初のベイズ知っていなければならないの定理を。後者は、実際には、「条件付き確率」は、式を算出します。

いわゆる「条件付き確率」(条件付き確率)は、イベントBの場合発生を意味し、Pを持つイベントAの確率(A | B)は、式が正しいマップされている、ああ、表されています。この公式を暗記しなければならない、または数学は第2のショート答えは唯一のソリューションを書くことができますが、今日私たちは式の推論を見て学校の先生:

おすすめ

転載: www.cnblogs.com/go-ahead-wsg/p/11669042.html