西瓜书读书笔记(七)-贝叶斯分类器

全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴

一、贝叶斯决策论

贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法,对分类任务来说在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P ( c ∣ x ) P(c|x) P(cx)

  • 判别式模型:给定 x x x,可直接通过建模 P ( c ∣ x ) P(c|x) P(cx)来预测 c c c
  • 生成式模型:先对联合概率分布 P ( x , c ) P(x,c) P(x,c)建模,然后再由此获得 P ( c ∣ x ) P(c|x) P(cx)

决策树、BP神经网络、支持向量机都可以归入判别式模型的范畴。

生成式模型需要考虑 P ( c ∣ x ) = P ( x , c ) P ( x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(c)P(x|c)}{P(x)} P(cx)=P(x)P(x,c)=P(x)P(c)P(xc)其中 P ( c ) P(c) P(c)是先验概率, P ( x ∣ c ) P(x|c) P(xc)是条件概率或似然, P ( x ) P(x) P(x)是归一化因子。

根据大数定律,当训练集包含充足的独立同分布样本时, P ( c ) P(c) P(c) 可通过各类样本出现的频率来进行估计.

二、极大似然估计

极大似然估计(Maximum Likelihood Estimation,简称MLE),这是根据数据采样来估计概率分布参数的经典方法。

参数 θ c \theta_c θc对于数据集 D c D_c Dc的似然是 P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P(D_c|\theta_c)=\prod_{x\in D_c}P(x|\theta_c) P(Dcθc)=xDcP(xθc)

连乘容易造成下溢,我们就一般使用对数似然 L L ( θ c ) = log ⁡ P ( D c ∣ θ c ) = ∑ x ∈ D c log ⁡ P ( x ∣ θ c ) LL(\theta_c)=\log P(D_c|\theta_c)=\sum_{x\in D_c}\log P(x|\theta_c) LL(θc)=logP(Dcθc)=xDclogP(xθc)

此时参数 θ c \theta_c θc的极大似然估计为 θ ^ = arg max ⁡ θ c L L ( θ c ) \hat\theta=\argmax_{\theta_c}LL(\theta_c) θ^=θcargmaxLL(θc)

假设概率密度函数 p ( x ∣ c ) ∼ N ( μ c , σ c 2 ) p(x|c)\sim N(\mu_c,\sigma_c^2) p(xc)N(μc,σc2),则参数的极大似然估计分别为 μ ^ c = 1 ∣ D c ∣ ∑ x ∈ D c x σ c 2 = 1 ∣ D c ∣ ∑ x ∈ D c ( x − μ ^ c ) ( x − μ ^ c ) T \hat\mu_c=\frac1{|D_c|}\sum_{x\in D_c}x\\\sigma_c^2=\frac1{|D_c|}\sum_{x\in D_c}(x-\hat\mu_c)(x-\hat\mu_c)^T μ^c=Dc1xDcxσc2=Dc1xDc(xμ^c)(xμ^c)T

三、朴素贝叶斯分类器

朴素贝叶斯分类器采用了条件独立性假设,对已知类别,假设所有属性互相独立,即每个属性独立的对结果产生影响。
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c|x)=\frac{P(c)P(x|c)}{P(x)}==\frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c) P(cx)=P(x)P(c)P(xc)==P(x)P(c)i=1dP(xic)
对于所有类别而言, P ( x ) P(x) P(x)相同,所以朴素贝叶斯分类器的表达式为 h n b = arg max ⁡ c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{nb}=\argmax_{c\in Y} P(c)\prod_{i=1}^dP(x_i|c) hnb=cYargmaxP(c)i=1dP(xic)

先验概率 P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{|D_c|}{|D|} P(c)=DDc,条件概率可估计为 P ( x i ∣ c ) = ∣ D c i x i ∣ ∣ D c ∣ P(x_i|c)=\frac{|D_{c_ix_i}|}{|D_c|} P(xic)=DcDcixi,为了避免未出现的属性值被抹去,我们估计概率值得时候要进行“平滑”,常用“拉普拉斯修正”,即 P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N \hat P(c)=\frac{|D_c|+1}{|D|+N} P^(c)=D+NDc+1 P ^ ( x i ∣ c ) = ∣ D c i x i ∣ + 1 ∣ D c ∣ + N i \hat P(x_i|c)=\frac{|D_{c_ix_i}|+1}{|D_c|+N_i} P^(xic)=Dc+NiDcixi+1

对于连续属性可以考虑概率密度函数,假定 p ( x i ∣ c ) ∼ N ( μ c , i , σ c , i 2 ) p(x_i|c)\sim N(\mu_{c,i},\sigma^2_{c,i}) p(xic)N(μc,i,σc,i2),两个参数分别为第 c c c类样本的第 i i i个属性上的取值的均值和方差,所以 p ( x i ∣ c ) = 1 2 π σ c , i exp ⁡ ( − ( x i − μ c , i ) 2 2 σ c . i 2 ) 2 p(x_i|c)=\frac1{\sqrt{2\pi}\sigma_{c,i}}\exp\Big(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c.i}}\Big)^2 p(xic)=2π σc,i1exp(2σc.i2(xiμc,i)2)2

四、半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性问的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

“独依赖估计” (One-Dependent Estimator,简称ODE)是半朴素贝叶斯分类器最常用的一种策略。顾名思议,所谓 “独依赖” 就是假设每个属性在 类别之外最多仅依赖于一个其他属性, P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P(c|x)\propto P(c)\prod_{i=1}^dP(x_i|c,pa_{i}) P(cx)P(c)i=1dP(xic,pai)

五、贝叶斯网

贝叶斯网称为信念网,借助有向无环图来刻画属性之间得依赖关系,用条件概率表来描述属性的联合概率分布。

叶斯网结构有效地表达了属性间的条件独立性,给定父结点集, 贝叶斯网假设每个属性与它的非后裔属性独立。

关于贝叶斯网的结构,可以查看这篇文章:白板推导系列笔记(九)-概率图模型

六、EM算法

对于算法的具体描述,可以查看这篇:统计学习方法读书笔记(九)-EM算法及其推广

以初始值 Θ ( 0 ) \Theta^{(0)} Θ(0)为起点,对式子 L L ( Θ ∣ X ) = ln ⁡ P ( X ∣ Θ ) = ln ⁡ ∑ Z P ( X , Z ∣ Θ ) LL(\Theta|X)=\ln P(X|\Theta)=\ln \sum_ZP(X,Z|\Theta) LL(ΘX)=lnP(XΘ)=lnZP(X,ZΘ)迭代执行以下步骤,直至收敛。

  • 基于 Θ t \Theta^t Θt推断隐变量 Z Z Z的期望,记作 Z t Z^t Zt
  • 基于已观测变量 X X X Z t Z^t Zt对参数 Θ \Theta Θ做极大似然估计,记作 Θ t + 1 \Theta^{t+1} Θt+1

使用EM算法,我们不是取 Z Z Z的期望,而是基于 Θ t \Theta^t Θt计算隐变量 Z Z Z的概率分布 P ( Z ∣ X , Θ t ) P(Z|X,\Theta^t) P(ZX,Θt)

  • E步:以当前的参数 Θ t \Theta^t Θt推断隐变量分布 P ( Z ∣ X , Θ t ) P(Z|X,\Theta^t) P(ZX,Θt),并计算对数似然 L L ( Θ ∣ X , Z ) LL(\Theta|X,Z) LL(ΘX,Z)关于 Z Z Z的期望: Q ( Θ ∣ Θ t ) = E Z ∣ X , Θ t L L ( Θ ∣ X , Z ) Q(\Theta|\Theta^t)=E_{Z|X,\Theta^t}LL(\Theta|X,Z) Q(ΘΘt)=EZX,ΘtLL(ΘX,Z)
  • M步:寻找参数最大化期望似然,即 Θ t + 1 = arg max ⁡ Θ Q ( Θ ∣ Θ t ) \Theta^{t+1}=\argmax_\Theta Q(\Theta|\Theta^t) Θt+1=ΘargmaxQ(ΘΘt)

下一章传送门:西瓜书读书笔记(八)-集成学习

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/112900817
今日推荐