第二に、ナイーブベイズ分類器
1三の関連する確率
与えられたN個のクラス、ランダムサンプルベクトル集合X = { X 1、X 2、...、X D }、関連3の確率:
(1)事前確率P(C):前の知識と経験に基づいて、派生のCが表示され、今では何の関係もある確率のサンプルクラスを。
(2)事後確率P(C | X):事前確率の用語に関しては、表現Xが属するCの確率クラス。
(3)条件付き確率P(X | C):で知らCクラスサンプル生じるX確率。
2、ナイーブベイズ式
ベイズ式:
ベイズ決定:
単純ベイズ分類器は:すべてのプロパティは互いに独立していることを前提としています。条件付き独立の仮定の特性に基づいて、P(C | X -は)のように書くことができます。
これは、描画することができます単純ベイズ分類器の表現を:
事前確率:
条件付き確率:
例:
一个销售顾客的数据库如右表所示,利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性x=(年龄<30,收入=中,学生否=Y,信用=一般)。
解:
假定C1={购买计算机},C2={不购买计算机},
先验概率:
P(C1)=9/14=0.643,
P (C2)=5/14=0.357,
条件概率:
P(年龄<30|C1)=2/9, P(年龄<30|C2)=3/5
P(收入=中|C1)=4/9, P(收入=中|C2)=2/5
P(学生否=Y|C1)=6/9, P(学生否=Y|C2)=1/5
P(信用=一般|C1)=6/9, P(信用=一般|C2)=2/5
因此
P(x|C1)=(2/9)*(4/9)*(6/9)*(6/9)=0.044
P(x|C2)=(3/5)*(2/5)*(1/5)*(2/5)=0.019
最后计算:
P(x|C1)*P(C1) =0.044*0.643=0.028
P(x|C2)*P(C2)=0.019*0.357=0.007
因为P(x|C1)*P(C1)>P(x|C2)*P(C2) ,顾客x购买计算机的可能性比较大。
3、拉普拉斯平滑
拉普拉斯平滑:为了避免其他属性携带的信息被其他未出现过的属性值“抹去”,在估计概率值时通常要进行平滑。具体的说,令N表示训练集D中的类别数,Ni表示第i个属性可能的取值数,则: