ナイーブベイズ(NB)

カテゴリー技術的な知識:

定義:オブジェクトXを考えると、李の特定の事前定義されたカテゴリに分けることにします。

- 入力:X

- 出力:Y(有限集合の値{Y1、Y2、Y3 .... YN})

アプリケーション:メールはスパム、患者の分類、その上の効果をクリックします。

人気の理解:

ここでは、物品の入力オブジェクトXは、その後、エンド軍や金融にY.です

一般的な分類進分類(男性と女性)と多値分類(記事のカテゴリ{政治、スポーツ、サイエンス・フィクション})

 

分類タスクの解決プロセス:

ニュースカテゴリー

:特性カテゴリー:X = {昨日、市場...ということである}特徴分類前提が中国語の単語です]

2:特徴選択:X = {国内外...}結果に中国語の単語キーワード抽出]の後。

3:モデルの選択:ナイーブベイズ分類器の分類モデル[選択]

4:トレーニングデータの準備:

5:モデルのトレーニング:

6:予測(分類):

7:評価:評価結果が得られ

 

共通の分類:

- 確率セレクタ

  --NB

  - オブジェクトの計算は、各クラスに属する確率を選択する、最も可能性の高いクラスが出力として使用される選択

- 空間分割

  --SVM:SVMは、以下:過度のサンプル欠点は不向き

 

図サンプル上の4つの異なるカテゴリーがあり、空間におけるRBIは、例えば青色一部として、学習により得られた行数の後、いくつかの線によって、明らかに異なるサンプルに分離することができ、これは、と等価ですサンプルを分割したマーキングの二次元空間、このアルゴリズムは、空間セグメント化アルゴリズムのクラスであり、SVMはケースです。

 

以前の多くは今、今日のトピックを入力して、共通の分類アルゴリズム単純ベイズ分類器を学習すると述べました。

三のナイーブベイズ分類器:

公式:

P(| X)= P()P(X |)/ P(X)

式解体過程:

YIは、特定の分類を指し

Y = {軍事、金融、スポーツ}

X =記事

XI =言葉で特定の記事

P(YI | X):記事を考えると、確率値は、のカテゴリに属します

P(YI):事前確率

あなたに50軍であるの100件の記事、30金融、20台のスポーツを与えます

P(Y =軍事)= 50/100 

P(Y = FINANCE)= 30/100

P(Y = PE)= 20/100

 

P(X):この記事の=確率は固定値であり、無視することができ、一定の確率その物品1が存在することになります。

 因此:P(| X)= P()P(X |)/ P(X)

更にと略称:P(YI | X)≈P(YI)P(X |イル)

P(X | YI):指定されたカテゴリのY、Xの発生確率

P(XI | YI):指定されたカテゴリのY、単語xの出現確率

yは=軍は、言葉の軍事X =軍艦このカテゴリの合計数とは、軍艦の数が確率軍艦が軍事記事の登場です何登場しました。

X = {船、銃、航空機}

P(X | Y =軍事)= P(X =軍艦| Y =軍事)* P(X =大砲| Y =軍事)* P(X =空母| Y =軍事)

前提:IID =「ナイーブベイズ複雑な問題を単純化[]

 

P(YI | X)≈P(YI)P(X | YI)==最終ナイーブベイズ

各ラベルについての対応確率、分類のための最大を求めています。

 

ナイーブベイズ派生:

ナイーブベイズ式は、条件付き確率の式から導出することができ、以下では、導出の具体的な処理です。

1.P(X | Y)= P(X、Y)/ P(Y)

2.P(X、Y)= P(X | Y)* P(Y)

3.P(X、Y)= P(Y、X)

4.P(Y、X)= P(Y | X)* P(X)

5.P(X、Y)= P(Y | X)* P(X) 

6に得られた5 P(X、Y):

6.P(X | Y)= P(Y | X)* P(X)/ P(Y)

最終ナイーブベイズ式:

P(| X)= P()P(X |)/ P(X)

 

5:[]パラメータ推定とモデルのトレーニング

使用トレーニングと実装モデルのパラメータ推定戦略がある:最尤推定

最尤推定:特性、トレーニングデータのより多くの量、より正確な結果のパラメータを含むオフラインによるレンダリング動作の背後にある確率、

現実に近いです。少なすぎる学習データ、article'reが間違っビートラベルは、それが乱れやすいノイズ、です。

 

条件付き確率の式:
P(XJ |イル)= P(XJ、YI)/ P-(YI)
P(XJ | YI)を直接計算し、次に解決するために、最尤推定に計算されません。

 

NBは、分類問題を完了するために、我々はクラス2つのパラメータをサポートする必要があります

1、事前確率P(YI)

図2に示すように、条件付き確率P(X |イル)

パラメータは、パラメータがモデルであり、計算する必要があります

事前確率:
    P(李)正確に計算

条件付き確率:
    分子:「グーグル」の数の単語との軍事記事
    分母:のすべての単語の軍事記事の数
    P(X =「グーグル」| Y =「軍隊」):分子/分母
    

|(李XJ)二つの方法Pがあります。
最初は、第二は、単語の数ある記事の数、である
:最初の
    分子:「グーグル」の単語を有する物品の軍事記事の数
    分母:軍事記事の数
    P(X = "グーグル" | Y = "軍"):分子/分母

第二:これはお勧めである
    分子:「グーグル」の数の単語との軍事記事
    分母:のすべての単語の軍事記事の数
    P(X =「グーグル」| Y =「軍隊」):分子/分母

ナイーブベイズモデルの束を介して取得、このモデルは良い効果で、モデルの本質は、確率の山があります。

 

問題を評価するための七つの評価モデル

の効果の評価を行うために混同行列(または混同テーブル)を使用する必要があります。

陽性サンプルの一般的な評価、バイナリのみの評価のための混乱のテーブルには、マルチ分類は一つだけのカテゴリを指定することができれば、残りは他のカテゴリです。

角度モデルが基づいています。

 

精度精度:(50 + 35)/(35 + 5 + 10 + 50)[総数で割っ正しく予測サンプル数]

精密比精度(Y1):50 /(50 + 5)が90.9パーセントを=

リコールリコール(Y1):50 /(+ 10 50)= 83.3パーセント

正解率:私は記事のラベルを知らない初めには、モデルは、私は軍から55件の100の記事を予測しますが、唯一の50の軍事率は、モデルが50/55で、正確です。

リコール:50によって判断が60軍事、モデルですが、モデルの検証は、その後、不足している記事が失われた行方不明の物品10の場合がある場合、モデルを判断していない10件の記事は、あります。

 

推奨されるシステム:唯一の候補キュー90、10を入力し、高品質の物品100は、また、状態を変位さは、リコールされていません

推奨システムは、モデルを注文するには、リコールするのNoSQLデータベースのインデックスに焦点を当てた正確な速度に焦点を当てています。実用的なアプリケーションでは、ステージはほとんどのさまざまな要件では同じではありません。

PR曲線は一般に、高精度、再現率、再現率、低い精度で、正確によって、リコールは、PRカーブ[リコール:正解率R P]を得ることができます。

 

PRカーブは、評価指標は、しきい値を選択するためにあなたを助けるために使用され、その後、我々は、ROC曲線の評価指標を見ます

 

縦軸:真陽性、リコール、TP /(TP + FN)、横軸:偽陽性率FP /(FP + FN)

だから、使用ROC曲線何、実際には、AUC ROC曲線を得るために、ROC曲線下面積であるグラフであり、

 

 

そして最後にAUCを得るために、ROC曲線ROCは、AUC真の目的ではありません下の面積です。

AUCはエリア1である、ROC曲線下面積は0-1の間で小数でなければなりません。

ROC曲線を意味することはAUCを取得することです。

しかし、このような計算あまりにも面倒。

 

もう一つの解釈AUC方法:先にサンプル肯定確率の負のサンプル。AWKの方法によって解決されます:

猫auc.raw | ソート-t $ '\ t' の-k2g | AWK -F '\ T'「($ 1 == - 1){++ X; + = Y;}($ 1 == 1){++ Y;} END { 「}; 1.0-A /(X *のY)印刷

X * yは正および負のサンプルの対です

エラーの数を表します

/ X * Yエラーの確率

正確さの1-A / X * yの確率

例1:

0.1 B 0.9

:仮定:任意の2つのサンプル間の得点が行くの順にソートされなければならない、という順にランク付けた場合、それは右である、後方行、または他の間違っています

(A、B)が正しく

(B、A)エラー

すべての負のサンプルはすべて陽性サンプルの前に来た場合、AUCは100%でした

モデルはポイントをヒットした場合のモデルは、サンプルが負の場合は、真の陰性の場合ならば、それは魚の確率の上面であるべきであると考えて、比較的小さいです。

 

 

例2:

軍の軍事代表+1 +1

大蔵財務-1-1代表

、軍事テーマ[1]の記事、そのスコアリングモデル:1.サンプルは、ラベルに忠実であることを

物品のモデルによって予測2.予測時間を予測スコアとして、スコアう

予測ラベルの数3.予測の予測スコアは以下のとおりです。軍事

4.予測と成功を予測するための軍事モデルの本当の記述

5.財政の見通しは、そのモデルが間違っている場合hit're

6.実ラベル+1、-1タグ予測 

7.得点あなたの記事へのモデル、より高いスコア近い+1または-1に近いので、閾値以上である、上記正例であり、そうでなければ負例です。

制御しきい値8.予測タグは、閾値を手動で設定されています。デフォルトでは、物品のすべてのモデルの0肯定的な例であれば割合が0より大きく、より少ないまたは負の一例として、0に等しいヒット。

 

それは、モデル予測が正しい理にかなって、フロントは偉大な確率で-1、

完璧な場合は、モデル予測のすべてが正しいこと、すべての上記は、すべての背後にある-1、+1であります

例2:

これは、確率が1以上であることを証明していません。

100のサンプル

極端な場合には:フロント50 +1、-1 50が続きます

合計:50 * 50 = 2500ペア

Y = 50

X = 50

= 2500年= 50 * 50

ファイナル:1-A /(X * yは)0の確率であり、すなわち、0は最悪の場合AUC、AUCであるが、一般的に、この時点での最悪の結果は、区別するために、任意の能力なしに0.5 [AUC]であります

AUCは二値のために:複数のカテゴリ、各カテゴリはそれぞれ、AUCを行います。

おすすめ

転載: www.cnblogs.com/chen8023miss/p/11302807.html