朴素贝叶斯法
简单介绍:输入输出的联合概率密度已知,对给定的输入,利用贝叶斯定理求出后验概率最大的输出
朴素贝叶斯法的基本方法
通过训练集来学习联合概率分布,即利用先验概率分布
P(Y=ck),k=1,2,⋯,K
以及条件概率分布
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck)
来得到联合概率分布。
但是,条件概率分布的参数较多,其估计实际不可行,所以对条件概率分布做了条件独立性的假设,即当分类类别确定时,各个特征相互独立,具体为
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck) =∏j=1nP(X(j)=x(j)|Y=ck)(1)
利用独立性假设会使朴素贝叶斯法变得简单,但会牺牲一定的分类准确性。
当使得方法变得可实现之后,考虑如何找到最合适的模型,这里利用后验概率,将后验概率最大的类作为x的类的输出
后验概率计算利用贝叶斯定理进行计算:
P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)(2)
将(1)代入(2)中可得:
P(Y=ck|X=x)=P(Y=ck)∏jP(X(j)=x(j)|Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)|Y=ck)
要使上式最大,等价于取:
y=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)
1. 后验概率最大化的含义:
使得期望风险最小化,即:
f(x)=argmaxckP(ck|X=x)
朴素贝叶斯法的参数估计
1、 极大似然估计
先验概率
P(Y=ck)
的极大似然估计:
P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,⋯,K
条件概率
P(X(j)=ajl|Y=ck)
的极大似然估计是:
P(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)∑i=1NI(yi=ck)
2、 朴素贝叶斯算法
1)
P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,⋯,K
P(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)∑i=1NI(yi=ck)
2) 对于给定的实例
x=(x(1),x(2),⋯,x(n))T
,计算
P(Y=ck)∏j=1nP(X(j)=x(j)|Y=ck)
3) 确定实例x的类
y=argmaxckP(Y=ck)∏j=1nP(X(j)=x(j)|Y=ck)
3、 贝叶斯估计
条件概率的贝叶斯估计是:
Pλ(X(j)=ajl|Y=ck)=∑i=1NI(x(j)i=ajl,yi=ck)+λ∑i=1NI(yi=ck)+Sjλ