分類アルゴリズムの概要

まず、[ロジスティック回帰]


1、原則

線形関数によってSIGMOD関数は、[0,1]の間の確率値に変換することができます。

2、効果

3、欠点

図4に示すように、アプリケーション

 

第二に、ナイーブベイズ[]


1、原則

式:P(A | B)= P(B | A)P(A)/ P(B)

結合確率式でP(A、B)= P(A | B)P(B)= P(B | A)P(A)が由来である、P(A)は事前確率、P(Aと呼ばれ| B )事後確率と呼ばれ、P(A、B)の同時確率と呼ばれています。

2、効果

3、欠点

図4に示すように、アプリケーション

マシンは視点を学習した場合、我々はA「カテゴリラベル」を理解し、「特定の特性を有する。」Bとして理解 このような企業が理解されようベイズとして:P(|カテゴリ機能)= P(特徴|カテゴリ)P(カテゴリ)/ P(機能)

たとえば、スパムの判断のシーン。私たちは、の場合には、「当社の正式な請求書(フィデリティ)17%の付加価値税の請求書のポイント割引を申請することができます。」これは、電子メールを受信します 1/2以上である|私たちがしなければならないので、P(「当社は、正式な請求書(フィデリティ)17%の付加価値税の請求書のクレジットオファーを申請することができます」「スパム」)を決定することです!そして、ここではワード技術を使用する必要があります。(など、単語を吃音のような)

私たちは、変換するために、次の式を使用することができます

P(「スパム」|「当社は、正式な請求書(フィデリティのために適用することができます)17%の付加価値税の請求書のクレジットオファー」)= P(「スパム」|(「I」、「部門」、「缶」、「ハンドリング「」正式な請求書「」忠実「」付加価値税「」請求書「」ポイント、 『割引』))

ここでは、A「は、スパム」、B印単語フレーズ(「I」、「部門」、「缶」、「ハンドリング」、「正式な請求書」、「忠実」、「付加価値税」、「請求書」をマーク使用します「ポイント」、「割引」)

 

要求は、ベイズ式式Pすることができる(A | B)は、に変換されます。 

P(B | A)P(A)/ P(B)を形成します。

ここでP(B | A)P(( 'I'、 '部門'、 '缶' は、 '取扱' は、 '正式な請求書'、 '忠実'、 '付加価値税'、 '請求書'、 'ポイント' 'オファー')| 'スパム')

 

条件付き独立性の仮定の伝説によると、 

これは、P((「I」、「部門」、「缶」、「ハンドリング」、「正式な請求書」、「忠実」、「付加価値税」、「請求書」、「ポイント」、「割引」)とすることができます| 「スパム」)に変換され、

P( 'I' | 'スパム')* P( '部門' | 'スパム')* .... * P( 'ポイント' |」スパム ')* P(' オファー '|' スパム「)

確率(「I」「スパム」)とは、他の計算|このように、の例は、Pに変換されます。私たちは、トレーニング、これらの確率由来統計の必要性に焦点を当てます。例えば、P |回(「請求書」スパム「)=すべてのスパムの数」請求書「登場/スパムはすべての単語が表示されます。スパムのような分類全体の判断は、統計的な確率の問題に変換されます。この分類の問題を解決することができます。

この増加上記の条件の独立仮定ナイーブベイズ法は、ベイズ法と呼ばれます。上記の例から分かるように、ナイーブベイズ法が簡単です。

 

しかし、問題があるこのナイーブベイズは、単語の間には順序がありませんその目です。単なる例として、

P(( 'I'、 '部門'、 '缶'、 'ハンドリング'、 '正式な請求書')| 'スパム')= P( 'I' | 'スパム')* P( '部門' | 'スパム ')* ... * P(' 正式な請求書 '|' スパム「)

乗算は可換であるため、その後、上記を考慮することができます

P( 'I' | 'スパム')* P( '部門' | 'スパム')* ... * P( '正式な請求書' | 'スパム')= P( '正式な請求書' |「ごみメール ')* ... * P(' 部門 '|' スパム ')* P(' I '|' スパム ')= P((' 正式な請求書 '' できる '' ハンドリング '' I '' 書記 ')|' スパム「)

この文は恥ずかしいです!

しかし、実際のアプリケーションでナイーブベイズ効率が非常に高いです。効果は驚くほど良いです。

 

 

 

 

第三に、[木]


1、原則

いくつかの機能の分類によると、各ノードは、データを2つに分割されているかどうかを決定することによって、質問をして、質問を続けます。これらの問題は、既存のデータに基づいて研究の出ている、新しいデータを再入力して、問題は、この木に基づくことができ、適切な葉にデータを分割します。

2、効果

3、欠点

図4に示すように、アプリケーション

 

 

 

 

[ランダムフォレスト]


1、原則

2、効果

3、欠点

図4に示すように、アプリケーション 

 

 

【SVM SVM]

1、原則

2、効果

3、欠点

図4に示すように、アプリケーション

 

[K最近傍]

1、原則

2、効果

3、欠点

図4に示すように、アプリケーション

 

【アダブースト】

 

1、原則

2、効果

3、欠点

図4に示すように、アプリケーション

おすすめ

転載: www.cnblogs.com/zwt20120701/p/12285138.html