4.1 用极大似然估计法推导朴素贝叶斯法中的先验概率估计公式(4.8)和条件概率估计公式(4.9)
首先是(4.8)
P(Y=ck)=N∑i=1NI(yi=ck)
###################下面开始证明###############################
下面的
ajl表示的是第j个特征可能取的第
l个值
xi(j)指的是第j个样本的第j个特征
P(x(j)=ajl∣Y=ck)
=∑i=1NI(Y=ck)∑1=1N(xi(j)=ajl,yi=ck)
设
p=P(Y=ck)
相当于从样本中独立同分布地随机抽取N个样本,每个样本的结果为
yi
似然概率
P(y1,y2,...,yn)
=p∑i=1N⋅I(yi=ck)⋅(1−p)∑i=1NI(yi̸=ck)
然后求解最大似然概率:
dpdP(y1,y2,...,yn)
=i=1∑NI(yi=ck)p∑i=1NI(yi=ck)−1⋅(1−p)∑i=1NI(yi̸=ck)
−i=1∑NI(yi̸=ck)(1−p)∑i=1NI(yi̸=ck)−1⋅p∑i=1NI(yi=ck)
=p[∑i=1NI(yi=ck)]−1⋅(1−p)[∑i=1NI(yi̸=ck)]−1
⋅[(1−p)i=1∑NI(yi=ck)−pi=1∑NI(yi̸=ck)]=0
∴[(1−p)i=1∑NI(yi=ck)−pi=1∑NI(yi̸=ck)]=0
又∵ΣiNI(yi=ck)=p(i=1∑NI(yi=ck)+i=1∑NI(yi̸=ck))=pN
∴p=P(Y=ck)=N∑i=1NI(yi=ck)①
(4.8)证明结束
###############################################
接下来证明(4.9)
P(X(j)=ajl∣Y=ck)
=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck)
j∈[1,n]
l∈[1,Sj]
k∈[1,K]
##############下面开始证明#########
P(Y=ck,x(j)=aij)
=N∑i=1NI(yi=ck,xi(j)=ajl)②
而需要证明的式子的左边是:
P(x(j)=ajl∣Y=ck)
=P(Y=ck)P(Y=ck,x(j)=ajl)③
接下来,
把①代入③的分母,
把②代入③的分子。
得到:
P(x(j)=ajl∣Y=ck)=[N∑j=1NI(yi=ck)][N∑i=1NI(yi=ck,xi(j)=ajl)]
=∑i=1NI(yi=ck)∑i=1NI(yi=ck,xi(j)=ajl)
(4.9)证明结束
#######下面开始证明(4.11)########################
假设先验概率为均匀概率,那么有:
p=k1=>pK−1=0(1)
另外根据①,也就是式(4.8)有以下关系:
pN−i=1∑NI(yi=ck)=0(2)
注意:严格来讲,上面(1)(2)中p,并不是同一个p
(1)中的p指的是样本分布绝对均匀的情况
(2)中的p是根据实际样本分布得到的数值
(1)⋅λ+(2)=0
∴
λ(pK−1)+pN−i=1∑NI(yi=ck)=0
P(Y=ck)=λK+Nλ+∑i=1NI(yi=ck)
(4.11)证明完毕
###############################
#######下面开始证明(4.10)########
根据(4.9)已知极大似然估计为:
p=P(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck)
=>
p∑i=1NI(yi=ck)−∑i=1NI(xi(j)=ajl,yi=ck)=0(3)
可以看到(4.10)与(4.9)十分相似,
但是(4.10)比(4.9)的分子和分母多了平滑项。
我们引入一个平滑条件:
当
Y=ck时,因为一个属性会有
Sj种取值,我们假设任意属性的各个取值的对应的样本数量是一致的。
那么就有以下关系:
p=P(X(j)=ajl∣Y=ck)=Sj1
=>
p⋅Sj−1=0(4)
=>
(3)+λ(4)=0
=>
(3)+λ(4)=p[∑i=1NI(yi=ck)+Sj⋅λ]−λ−∑i=1NI(xi(j)=ajl,yi=ck)=0
=>
p=∑i=1NI(yi=ck)+Sj⋅λ∑i=1NI(xi(j)=ajl,yi=ck)+λ
(4.10)证明完毕