统计模式识别学习笔记(六)

贝叶斯推理的解析方法

首先,我们来回顾一下贝叶斯法的基本原理。贝叶斯统计关注的是根据数据更新未知参数的先验置信度的问题。我们希望确定参数 θ \theta θ 的估计值。贝叶斯认为, θ \theta θ 是随机变量的一个实现,具有表示 θ \theta θ 的先验知识的先验概率密度函数 p ( θ ) p(\theta) p(θ) 。观测到数据后, θ \theta θ 的置信度由 θ \theta θ 的后验密度表示。由贝叶斯定理可得:
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ θ ′ p ( D ∣ θ ′ ) p ( θ ′ ) d θ ′ p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\theta'}p(D|\theta')p(\theta')d\theta'} p(θD)=θp(Dθ)p(θ)dθp(Dθ)p(θ)

1. 共轭先验概率

贝叶斯定理允许用先验概率 p ( θ ) p(\theta) p(θ) 与似然函数 p ( D ∣ θ ) p(D|\theta) p(Dθ) 联合给出后验分布。对于给定的似然函数 p ( x ∣ θ ) p(x|\theta) p(xθ) ,使后验密度 p ( θ ∣ D ) p(\theta|D) p(θD) 具有相同形式的先验分布族,称为关于 p ( x ∣ θ ) p(x|\theta) p(xθ) 共轭。

  • 泊松分布举例
    设从泊松分布( λ > 0 \lambda>0 λ>0,且未知)中取 n n n 个独立的样本 { x 1 , . . . , x n } \lbrace x_1,...,x_n \rbrace { x1,...,xn}
    p ( x ∣ λ ) = λ x e x p ( − λ ) x ! p(x|\lambda)=\frac{\lambda^xexp(-\lambda)}{x!} p(xλ)=x!λxexp(λ)
    其中,整数 x ⩾ 0 x\geqslant0 x0 ,分布的均值和方差都是 λ \lambda λ

    似然分布为:
    p ( x 1 , . . . , x n ∣ λ ) = ∏ i = 1 n p ( x i ∣ λ ) = λ ∑ i = 1 n x i e x p ( − λ n ) ∏ i = 1 n x i ! p(x_1,...,x_n|\lambda)=\prod_{i=1}^np(x_i|\lambda)=\frac{\lambda^{\sum_{i=1}^nx_i}exp(-\lambda n)}{\prod_{i=1}^nx_i!} p(x1,...,xnλ)=i=1np(xiλ)=i=1nxi!λi=1nxiexp(λn)

    λ \lambda λ 的先验分布看成具有形状参数 α \alpha α 及逆尺度参数 β \beta β伽马分布

  • 伽马分布

    形状参数 α > 0 \alpha>0 α>0 ,逆尺度参数 β > 0 \beta>0 β>0 的伽马分布具有如下概率密度函数:
    p ( γ ∣ α , β ) = β α Γ ( α ) γ α − 1 e x p ( − β γ ) p(\gamma|\alpha,\beta)=\frac{\beta^{\alpha}}{\Gamma(\alpha)}\gamma^{\alpha-1}exp(-\beta\gamma) p(γα,β)=Γ(α)βαγα1exp(βγ)
    其中, γ > 0 \gamma>0 γ>0 。该分布的均值和方差分别为 α / β , α / β 2 \alpha/\beta,\alpha/\beta^2 α/β,α/β2

    形状参数 a = 1.5 a=1.5 a=1.5 ,逆尺度参数 b = 0.96 b=0.96 b=0.96的gamma分布图像如下图所示:
    在这里插入图片描述
    gamma分布的意义为:随机变量 X X X 等到第 α \alpha α 发生所需的等候时间。 α \alpha α 可理解为一件事发生的次数, β \beta β 可理解为事件发生一次所需的概率(单位时间内事件发生的平均次数)。gamma分布常用于可靠性理论和排队论。考虑这样一个实例:当第n个人来公交站站点排队等车时,形成这个队伍需要花多少时间?这里的n就是形状参数 α \alpha α ,单位时间内来的人数就是逆尺度参数 β \beta β

    再回到泊松分布的那个例子, λ \lambda λ 的后验概率密度函数
    p ( λ ∣ x 1 , . . . , x n ) = p ( x 1 , . . . , x n ∣ λ ) p ( λ ) ∫ λ ′ p ( x 1 , . . . , x n ∣ λ ′ ) p ( λ ′ ) d λ ′ ∝ p ( x 1 , . . . , x n ∣ λ ) p ( λ ) ∝ β α Γ ( α ) ∏ i = 1 n x i ! λ α + ∑ i = 1 n x i − 1 e x p ( − ( β + n ) λ ) p(\lambda|x_1,...,x_n)=\frac{p(x_1,...,x_n|\lambda)p(\lambda)}{\int_{\lambda'}p(x_1,...,x_n|\lambda')p(\lambda')d\lambda'}\propto p(x_1,...,x_n|\lambda)p(\lambda)\propto \frac{\beta^{\alpha}}{\Gamma(\alpha)\prod_{i=1}^nx_i!}\lambda^{\alpha+\sum_{i=1}^nx_i-1}exp(-(\beta+n)\lambda) p(λx1,...,xn)=λp(x1,...,xnλ)p(λ)dλp(x1,...,xnλ)p(λ)p(x1,...,xnλ)p(λ)Γ(α)i=1nxi!βαλα+i=1nxi1exp((β+n)λ)
    上式可简化为
    p ( λ ∣ x 1 , . . . , x n ) ∝ λ α + ∑ i = 1 n x i − 1 e x p ( − ( β + n ) λ ) p(\lambda|x_1,...,x_n)\propto \lambda^{\alpha+\sum_{i=1}^nx_i-1}exp(-(\beta+n)\lambda) p(λx1,...,xn)λα+i=1nxi1exp((β+n)λ)
    形状参数 α ′ = α + ∑ i = 1 n x i \alpha'=\alpha+\sum_{i=1}^nx_i α=α+i=1nxi 和逆尺度参数为
    β ′ = β + n \beta'=\beta+n β=β+n
    p ( γ ) ∝ γ α ′ − 1 e x p ( − β ′ γ ) p(\gamma)\propto \gamma^{\alpha'-1}exp(-\beta'\gamma) p(γ)γα1exp(βγ)
    因此, λ \lambda λ 的后验分布是参数为 ( α ′ , β ′ ) (\alpha',\beta') (α,β) 的伽马分布,并且伽马分布是泊松分布参数的共轭先验概率。

最后,我再总结一下共轭先验概率。在贝叶斯统计中,如果先验分布和后验分布属于同一分布或者说同一类,则先验分布和后验分布被称为共轭分布,并且先验分布被称为似然函数的共轭先验

扫描二维码关注公众号,回复: 11993104 查看本文章

确切的讲,就是假定似然函数已知,选取什么样的先验分布 p ( θ ) p(\theta) p(θ) 会让后验分布和先验分布具有相同的数学形式。

2. 方差已知的正态分布的均值估计

令测量数据的密度模型为均值 μ \mu μ 未知而方差 σ 2 \sigma^2 σ2 已知的正态模型,则似然函数 p ( x ∣ μ ) p(x|\mu) p(xμ) 为:

p ( x ∣ μ ) = N ( x ; μ , σ 2 ) = 1 2 π σ e x p { − 1 2 ( x − μ σ ) 2 } p(x|\mu)=N(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\lbrace -\frac{1}{2}(\frac{x-\mu}{\sigma})^2 \rbrace p(xμ)=N(x;μ,σ2)=2π σ1exp{ 21(σxμ)2}

将均值 μ \mu μ 的先验密度为正态分布,该分布的均值为 μ 0 \mu_0 μ0 且方差为 σ 0 2 \sigma_0^2 σ02 μ 0 , σ 0 2 \mu_0,\sigma_0^2 μ0,σ02称为超参数):

p ( μ ) = N ( μ ; μ 0 , σ 0 2 ) = 1 2 π σ 0 e x p { − 1 2 ( μ − μ 0 σ 0 ) 2 } p(\mu)=N(\mu;\mu_0,\sigma_0^2)=\frac{1}{\sqrt{2\pi}\sigma_0}exp\lbrace -\frac{1}{2}(\frac{\mu-\mu_0}{\sigma_0})^2 \rbrace p(μ)=N(μ;μ0,σ02)=2π σ01exp{ 21(σ0μμ0)2}

  • 后验分布

    对于独立测量值 { x 1 , . . . , x n } \lbrace x_1,...,x_n \rbrace { x1,...,xn} ,后验分布由上述似然函数和先验分布可得:

    p ( μ ∣ x 1 , . . . , x n ) = N ( μ ; μ n , σ n 2 ) = 1 2 π σ n e x p { − 1 2 ( μ − μ n σ n ) 2 } p(\mu|x_1,...,x_n)=N(\mu;\mu_n,\sigma_n^2)=\frac{1}{\sqrt{2\pi}\sigma_n}exp\lbrace -\frac{1}{2}(\frac{\mu-\mu_n}{\sigma_n})^2 \rbrace p(μx1,...,xn)=N(μ;μn,σn2)=2π σn1exp{ 21(σnμμn)2}

    其中,

    1 σ n 2 = 1 σ 0 2 + n σ 2 \frac{1}{\sigma_n^2}=\frac{1}{\sigma_0^2}+\frac{n}{\sigma^2} σn21=σ021+σ2n

    μ n = σ n 2 ( μ 0 σ 0 2 + ∑ i x i σ 2 ) \mu_n=\sigma_n^2(\frac{\mu_0}{\sigma_0^2}+\frac{\sum_ix_i}{\sigma^2}) μn=σn2(σ02μ0+σ2ixi)

    可以看到,方差已知的正态分布的均值的共轭先验概率,其本身就是正态分布。后验分布还是非常容易得出来的。

  • 预测密度

    p ( x ∣ x 1 , . . . , x n ) = ∫ p ( x ∣ μ ) p ( μ ∣ x 1 , . . . , x n ) d μ = ∫ 1 2 π σ e x p { − 1 2 ( x − μ σ ) 2 } 1 2 π σ n e x p { − 1 2 ( μ − μ n σ n ) 2 } d μ p(x|x_1,...,x_n)=\int p(x|\mu)p(\mu|x_1,...,x_n)d\mu=\int \frac{1}{\sqrt{2\pi}\sigma}exp\lbrace -\frac{1}{2}(\frac{x-\mu}{\sigma})^2 \rbrace\frac{1}{\sqrt{2\pi}\sigma_n}exp\lbrace -\frac{1}{2}(\frac{\mu-\mu_n}{\sigma_n})^2 \rbrace d\mu p(xx1,...,xn)=p(xμ)p(μx1,...,xn)dμ=2π σ1exp{ 21(σxμ)2}2π σn1exp{ 21(σnμμn)2}dμ
    我们展开指数函数中含 μ \mu μ 的指数项,做一些整理,并注意到
    ∫ e x p { − σ 2 + σ n 2 2 σ 2 σ n 2 ( μ − x σ n 2 + μ n σ 2 σ 2 σ n 2 ) 2 } d μ = 2 π σ 2 σ n 2 σ 2 + σ n 2 \int exp\lbrace -\frac{\sigma^2+\sigma_n^2}{2\sigma^2\sigma_n^2}(\mu-\frac{x\sigma_n^2+\mu_n\sigma^2}{\sigma^2\sigma_n^2})^2 \rbrace d\mu=\sqrt{\frac{2\pi\sigma^2\sigma_n^2}{\sigma^2+\sigma_n^2}} exp{ 2σ2σn2σ2+σn2(μσ2σn2xσn2+μnσ2)2}dμ=σ2+σn22πσ2σn2
    于是有
    p ( x ∣ x 1 , . . . , x n ) = 1 2 π σ σ n 2 π σ 2 σ n 2 σ 2 + σ n 2 e x p { − 1 2 ( x − μ n ) 2 σ 2 + σ n 2 } p(x|x_1,...,x_n)=\frac{1}{2\pi\sigma\sigma_n}\sqrt{\frac{2\pi\sigma^2\sigma_n^2}{\sigma^2+\sigma_n^2}}exp\lbrace -\frac{1}{2}\frac{(x-\mu_n)^2}{\sigma^2+\sigma_n^2} \rbrace p(xx1,...,xn)=2πσσn1σ2+σn22πσ2σn2 exp{ 21σ2+σn2(xμn)2}
    在贝叶斯分类器中,可以将其作为类条件密度估计。

  • 比例性

    p ( μ ∣ x 1 , . . . , x n ) ∝ p ( x 1 , . . . , x n ∣ μ ) p ( μ ) ∝ e x p { − 1 2 [ ( μ − μ 0 σ 0 ) 2 + ∑ i = 1 n ( μ − μ n σ n ) 2 ] } p(\mu|x_1,...,x_n)\propto p(x_1,...,x_n|\mu)p(\mu)\propto exp\lbrace -\frac{1}{2}[(\frac{\mu-\mu_0}{\sigma_0})^2+\sum_{i=1}^n(\frac{\mu-\mu_n}{\sigma_n})^2] \rbrace p(μx1,...,xn)p(x1,...,xnμ)p(μ)exp{ 21[(σ0μμ0)2+i=1n(σnμμn)2]}
    p ( μ ∣ x 1 , . . . , x n ) ∝ e x p { − 1 2 ( μ − μ n σ n ) 2 } p(\mu|x_1,...,x_n)\propto exp\lbrace -\frac{1}{2}(\frac{\mu-\mu_n}{\sigma_n})^2 \rbrace p(μx1,...,xn)exp{ 21(σnμμn)2}

3. 多元正态分布的均值及协方差矩阵估计

现多元正态分布均值和协方差矩阵均未知,其模型为:

p ( x ∣ μ , Σ ) = N ( x ; μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 e x p { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } p(x|\mu,\Sigma)=N(x;\mu,\Sigma)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp\lbrace -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \rbrace p(xμ,Σ)=N(x;μ,Σ)=(2π)d/2Σ1/21exp{ 21(xμ)TΣ1(xμ)}

我们期望估计出给定测量值 x 1 , . . . , x n x_1,...,x_n x1,...,xn 下的 μ \mu μ Σ \Sigma Σ 的后验分布 N ( μ , Σ ) N(\mu,\Sigma) N(μ,Σ) ,而正如之前所讲的共轭先验函数,可以通过给已知形式的似然函数乘以一个特定形式的先验分布,来让先验分布和后验分布保持同样的数学形式。在估计多元正态分布的均值和协方差时,选择的共轭先验分布服从高斯——威沙特分布 ( G u a s s − W i s h a r t ) (Guass-Wishart) (GuassWishart) 。其中,

  • 均值是一种服从均值为 μ 0 \mu_0 μ0 且协方差矩阵为 K − 1 / λ K^{-1}/\lambda K1/λ 的正态分布;

  • K K K(协方差矩阵 Σ \Sigma Σ的逆)是一种服从参数为 α \alpha α β \beta β 的威沙特分布。

  • 威沙特分布

    假设 X X X 是一个 n ∗ p n*p np 的矩阵,其中每一行 X i X_i Xi 都来自 p p p 维多元正态分布且彼此独立:
    X i ∼ N p ( 0 , Σ ) X_i\sim N_p(0,\Sigma) XiNp(0,Σ)
    则,威沙特分布为 p ∗ p p*p pp 的散异矩阵:
    A = X T X = ∑ i = 1 n X i T X i A=X^TX=\sum_{i=1}^nX_i^TX_i A=XTX=i=1nXiTXi
    参数为 α \alpha α β \beta β d ∗ d d*d dd 威沙特分布的概率密度函数为:
    p ( W ; α , β ) = W i d ( W ; α , β ) = c ( d , α ) ∣ β ∣ α ∣ W ∣ ( α − ( d + 1 ) / 2 ) e x p { − T r ( β W ) } p(W;\alpha,\beta)=Wi_d(W;\alpha,\beta)=c(d,\alpha)|\beta|^{\alpha}|W|^{(\alpha-(d+1)/2)}exp\lbrace -Tr(\beta W) \rbrace p(W;α,β)=Wid(W;α,β)=c(d,α)βαW(α(d+1)/2)exp{ Tr(βW)}
    其中, d ∗ d d*d dd 矩阵 A A A 的迹 T r ( A ) = ∑ i = 1 n A i i , 2 α > d − 1 Tr(A)=\sum_{i=1}^nA_{ii},2\alpha>d-1 Tr(A)=i=1nAii,2α>d1 β \beta β d ∗ d d*d dd 对称非奇异矩阵,且
    c ( d , α ) = [ π d ( d − 1 / 4 ) ∏ i = 1 d Γ ( 2 α + 1 − i 2 ) ] − 1 c(d,\alpha)=[\pi^{d(d-1/4)}\prod_{i=1}^d\Gamma(\frac{2\alpha+1-i}{2})]^{-1} c(d,α)=[πd(d1/4)i=1dΓ(22α+1i)]1
    上述威沙特分布的均值 E ( W ) = α β − 1 E(W)=\alpha\beta^{-1} E(W)=αβ1 ,逆矩阵的均值 E ( W − 1 ) = ( α − ( d + 1 ) / 2 ) − 1 β E(W^{-1})=(\alpha-(d+1)/2)^{-1}\beta E(W1)=(α(d+1)/2)1β

注意到,在一维情况下时,即取样于一维正态分布时,威沙特分布就是形状参数 α > 0 \alpha>0 α>0 且逆尺度参数 β > 0 \beta>0 β>0 的伽马分布。

将均值为 m m m 且协方差矩阵的逆为 A A A d d d 维正态分布用符号 N d ( μ ∣ m , A ) N_d(\mu|m,A) Nd(μm,A) 表示,得到以下共轭先验分布

p ( μ , K ) = N d ( μ ; μ 0 , λ K ) W i d ( K ; α , β ) = ∣ λ K ∣ 1 / 2 ( 2 π ) d / 2 e x p { − 1 2 λ ( μ − μ 0 ) T K ( μ − μ 0 ) } ∗ c ( d , α ) ∣ β ∣ α ∣ K ∣ ( α − ( d + 1 ) / 2 ) e x p { − T r ( β K ) } p(\mu,K)=N_d(\mu;\mu_0,\lambda K)Wi_d(K;\alpha,\beta)=\frac{|\lambda K|^{1/2}}{(2\pi)^{d/2}}exp\lbrace -\frac{1}{2}\lambda(\mu-\mu_0)^TK(\mu-\mu_0) \rbrace * c(d,\alpha)|\beta|^{\alpha}|K|^{(\alpha-(d+1)/2)}exp\lbrace -Tr(\beta K) \rbrace p(μ,K)=Nd(μ;μ0,λK)Wid(K;α,β)=(2π)d/2λK1/2exp{ 21λ(μμ0)TK(μμ0)}c(d,α)βαK(α(d+1)/2)exp{ Tr(βK)}

其中, λ \lambda λ 用来权衡 μ 0 \mu_0 μ0 作为初始均值的信度, α \alpha α 用来权衡协方差矩阵的初始信度。

接下来,再介绍另外一种分布——学生分布,以及由一维学生 t t t 分布推广而得的 d d d 维学生分布。

  • t t t 分布

t t t分布常用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果,总体方差已知,则应该用正态分布来估计总体均值。另外有一种, Z Z Z 检定, t t t 检定改进了 Z Z Z 检定,在样本数较大的时候也可以采用 Z Z Z 分布。

X X X Y Y Y 相互独立,且 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0,1),Y\sim\chi^2(n) XN(0,1),Yχ2(n) ,则称随机变量 T = X Y / n T=\frac{X}{\sqrt{Y/n}} T=Y/n X 服从的分布是自由度为 n n n t t t 分布,记为 T ∼ t ( n ) T\sim t(n) Tt(n) ,其概率密度函数表示为:

f ( t ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + t 2 n ) − n + 1 2 f(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2}} f(t)=nπ Γ(2n)Γ(2n+1)(1+nt2)2n+1

在这里插入图片描述

  • 多维学生分布

p ( x ; μ , λ , α ) = S t d ( x ; μ , λ , α ) = Γ ( 1 2 ( α + d ) ) Γ ( α 2 ) ( α π ) d / 2 ∣ λ ∣ 1 / 2 [ 1 + 1 α ( x − μ ) T λ ( x − μ ) ] − ( α + d ) / 2 p(x;\mu,\lambda,\alpha)=St_d(x;\mu,\lambda,\alpha)=\frac{\Gamma(\frac{1}{2}(\alpha+d))}{\Gamma(\frac{\alpha}{2})(\alpha\pi)^{d/2}}|\lambda|^{1/2}[1+\frac{1}{\alpha}(x-\mu)^T\lambda(x-\mu)]^{-(\alpha+d)/2} p(x;μ,λ,α)=Std(x;μ,λ,α)=Γ(2α)(απ)d/2Γ(21(α+d))λ1/2[1+α1(xμ)Tλ(xμ)](α+d)/2
其中, α > 0 \alpha>0 α>0 λ \lambda λ 是一个 d ∗ d d*d dd 对称正定矩阵,分布均值 E [ x ] = μ E[x]=\mu E[x]=μ ,分布方差 V a r [ x ] = λ − 1 ( α − 2 ) − 1 α Var[x]=\lambda^{-1}(\alpha-2)^{-1}\alpha Var[x]=λ1(α2)1α

  • 后验分布

    结合上述公式,有后验分布形式如下:
    p ( μ , K ∣ x 1 , . . . , x n ) = p ( x 1 , . . . , x n ∣ μ , K ) p ( μ , K ) ∫ p ( x 1 , . . . , x n ∣ μ ′ , K ′ ) p ( μ ′ , K ′ ) d μ ′ d K ′ p(\mu,K|x_1,...,x_n)=\frac{p(x_1,...,x_n|\mu,K)p(\mu,K)}{\int p(x_1,...,x_n|\mu',K')p(\mu',K')d\mu'dK'} p(μ,Kx1,...,xn)=p(x1,...,xnμ,K)p(μ,K)dμdKp(x1,...,xnμ,K)p(μ,K)
    同先验分布一样,后验分布的数学形式也是高斯——威沙特分布
    p ( μ , K ∣ x 1 , . . . , x n ) = N d ( μ ; μ n , λ n K ) W i d ( K ; α n , β n ) p(\mu,K|x_1,...,x_n)=N_d(\mu;\mu_n,\lambda_nK)Wi_d(K;\alpha_n,\beta_n) p(μ,Kx1,...,xn)=Nd(μ;μn,λnK)Wid(K;αn,βn)
    相较于先验分布,后验分布的参数修正为:
    { λ n = λ + n α n = α + n / 2 μ n = ( λ μ 0 + n m ) λ n 2 β n = 2 β + ( n − 1 ) S + n λ λ n ( μ 0 − m ) ( μ 0 − m ) T \begin{cases}\lambda_n=\lambda+n \\ \alpha_n=\alpha+n/2 \\ \mu_n=(\lambda\mu_0+nm)\lambda_n\\ 2\beta_n=2\beta+(n-1)S+\frac{n\lambda}{\lambda_n}(\mu_0-m)(\mu_0-m)^T\end{cases} λn=λ+nαn=α+n/2μn=(λμ0+nm)λn2βn=2β+(n1)S+λnnλ(μ0m)(μ0m)T

K K K边缘后验分布服从威沙特分布 W i d ( K ∣ α n , β n ) Wi_d(K|\alpha_n,\beta_n) Wid(Kαn,βn) ,由 K K K 给定的 μ \mu μ后验条件分布服从正态分布 N d ( μ n , λ n K ) N_d(\mu_n,\lambda_nK) Nd(μn,λnK) 。因此可以看出,高斯——威沙特分布是以均值和逆协方差矩阵为参数的多元正态分布的先验分布。其实到这里,就解释了我们为什么选用高斯——威沙特分布作为共轭先验分布。

μ \mu μ后验边缘分布
p ( μ ∣ x 1 , . . . , x n ) = S t d ( μ ; μ n , ( α n − d − 1 2 ) λ n β n − 1 , 2 α n − ( d − 1 ) ) p(\mu|x_1,...,x_n)=St_d(\mu;\mu_n,(\alpha_n-\frac{d-1}{2})\lambda_n\beta_n^{-1},2\alpha_n-(d-1)) p(μx1,...,xn)=Std(μ;μn,(αn2d1)λnβn1,2αn(d1))

  • 预测密度和贝叶斯决策规则

    p ( x ∣ x 1 , . . . , x n ) = S t d ( x ; μ n , ( 2 α n − ( d − 1 ) ) λ n 2 ( λ n + 1 ) β n − 1 , 2 α n − ( d − 1 ) ) p(x|x_1,...,x_n)=St_d(x;\mu_n,\frac{(2\alpha_n-(d-1))\lambda_n}{2(\lambda_n+1)}\beta_n^{-1},2\alpha_n-(d-1)) p(xx1,...,xn)=Std(x;μn,2(λn+1)(2αn(d1))λnβn1,2αn(d1))
    g i = p ( x ∣ x 1 , . . . , x n i ∈ ω i ) p ( ω i ) g_i=p(x|x_1,...,x_{n_i}\in \omega_i)p(\omega_i) gi=p(xx1,...,xniωi)p(ωi),当 g i > g j , i ≠ j , j = 1 , . . . , C g_i>g_j,i\ne j,j=1,...,C gi>gj,i=j,j=1,...,C 时,将 x x x 归入 ω i \omega_i ωi 类。

4. 未知类先验概率的情形

如果类先验概率 p ( ω i ) p(\omega_i) p(ωi) 未知,那么在使用预测型贝叶斯判别规则时就会遇到困难。这时,我们可以将其处理为依靠数据更新的模型参数。

  • 狄利克雷分布

    狄利克雷分布的概率密度函数为

    p ( π 1 , . . . , π C ) = Γ ( ∑ i C α 0 i ) ∏ i C Γ ( α 0 i ) ∏ j = 1 C π j α 0 j − 1 p(\pi_1,...,\pi_C)=\frac{\Gamma(\sum_i^C\alpha_{0i})}{\prod_i^ C\Gamma(\alpha_{0i})}\prod_{j=1}^C\pi_j^{\alpha_{0j}-1} p(π1,...,πC)=iCΓ(α0i)Γ(iCα0i)j=1Cπjα0j1

    其中,把类先验概率表示为 π = ( π 1 , . . . , π C ) , α 0 = ( α 01 , . . . , α 0 C ) , α 0 i > 0 , i = 1 , . . . , C \pi=(\pi_1,...,\pi_C),\alpha_0=(\alpha_{01},...,\alpha_{0C}),\alpha_{0i}>0,i=1,...,C π=(π1,...,πC),α0=(α01,...,α0C),α0i>0,i=1,...,C 是其参数, Γ ( u ) \Gamma(u) Γ(u) 是伽马函数,满足 0 < π i < 1 , i = 1 , . . . , C 0<\pi_i<1,i=1,...,C 0<πi<1,i=1,...,C,且 ∑ i = 1 C π i = 1 \sum_{i=1}^C\pi_i=1 i=1Cπi=1 。因此,是非常适用于为类别分布建模。狄氏分布的分量均值为 E [ π i ] = α i ∑ j = 1 C α j E[\pi_i]=\frac{\alpha_i}{\sum_{j=1}^C\alpha_j} E[πi]=j=1Cαjαi ,通常记为 π ∼ D i C ( π ; α 0 ) \pi\sim Di_C(\pi;\alpha_0) πDiC(π;α0)

类成员的后验概率为

p ( ω i ∣ x , D ) = ( n i + α 0 i ) p ( x ∣ ω i , D ) ∑ j ( n j + α 0 j ) p ( x ∣ ω j , D ) p(\omega_i|x,D)=\frac{(n_i+\alpha_{0i})p(x|\omega_i,D)}{\sum_j(n_j+\alpha_{0j})p(x|\omega_j,D)} p(ωix,D)=j(nj+α0j)p(xωj,D)(ni+α0i)p(xωi,D)

在这个模型中,影响类概率分布 π \pi π 的因素是训练数据测试值 D D D 中的样本的数量 n i , i = 1 , . . . , C n_i,i=1,...,C ni,i=1,...,C 。然而,上述内容是在假设 π \pi π 未知,但可以用能够提供先验信息的训练数据估计出来的前提下展开的。估计结果的有效性有赖于采集数据的方案。

虽然,我们给出了贝叶斯法在正态分布下的预测密度,其积分形式我们已知。但是,在处理较为复杂的概率密度函数时,我们仍有必要进行两个过程的积分,为计算方便,接下来介绍一些数值方法。

5. 结语

五天的时间写出了这篇文章,这一章的难度其实不在于理解贝叶斯法的内涵,反而是统计学中的一些 p d f pdf pdf 具备了一些难度。写到最后发现,文章字数已经达到 8 k 8k 8k 了,希望各位读者喜欢。

猜你喜欢

转载自blog.csdn.net/qq_44868018/article/details/108207880