高斯分布-笔记(1)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shouhuxianjian/article/details/67644341

1 -单变量高斯分布

单变量高斯分布概率密度函数定义为:

p(x)=12πσexp{12(xμσ)2}(1.1)

式中 μ 为随机变量 x 的期望, σ2 x 的方差, σ 称为标准差:
μ=E(x)=xp(x)dx(1.2)

σ2=(xμ)2p(x)dx(1.3)

可以看出,该概率分布函数,由期望和方差就能完全确定。高斯分布的样本主要都集中在均值附近,且分散程度可以通过标准差来表示,其越大,分散程度也越大,且约有95%的样本落在区间 (μ2σ,μ+2σ)

2 - 多元高斯分布

多元高斯分布的概率密度函数。多元高斯分布的概率密度函数定义:

p(x)=1(2π)d2|Σ|12exp{12(xμ)TΣ1(xμ)}(2.1)

其中 x=[x1,x2,...,xd]T d 维的列向量;
μ=[μ1,μ2,...,μd]T d 维均值的列向量;
Σ d×d 维的协方差矩阵;
Σ1 Σ 的逆矩阵;
|Σ| Σ 的行列式;
(xμ)T (xμ) 的转置,且
μ=E(x)(2.2)

Σ=E{(xμ)(xμ)T}(2.3)

其中 μ,Σ 分别是向量 x 和矩阵 (xμ)(xμ)T 的期望,诺 xi x 的第 i 个分量, μi μ 的第 i 个分量, σ2ij 的第 i,j 个元素。则:
μi=E(xi)=xip(xi)dxi(2.4)

其中 p(xi) 为边缘分布:
p(xi)=p(x)dx1dx2dxd(2.5)


σ2ij==E[(xiμi)(xjμj)](xiμi)(xjμj)p(xi,xj)dxidxj(2.6)

不难证明,协方差矩阵总是对称非负定矩阵,且可表示为:
Σ=σ211σ212σ21dσ212σ21dσ222σ22dσ22dσ2dd

对角线上的元素 σ2ii xi 的方差,非对角线上的元素 σ2ij xi xj 的协方差。
由上面可以看出,均值向量 μ d 个参数,协方差矩阵 因为对称,所以有 d(d+1)/2 个参数,所以多元高斯分布一共由 d+d(d+1)/2 个参数决定。
从多元高斯分布中抽取的样本大部分落在由 μ Σ 所确定的一个区域里,该区域的中心由向量 μ 决定,区域大小由协方差矩阵 Σ 决定。且从式子(2.1)可以看出,当指数项为常数时,密度 p(x) 值不变,因此等密度点是使指数项为常数的点,即满足:
(xμ)TΣ1(xμ)=(2.7)

上式的解是一个超椭圆面,且其主轴方向由 的特征向量所决定,主轴的长度与相应的协方差矩阵 Σ 的特征值成正比。
在数理统计中,式子(2.7)所表示的数量:
γ2=(xμ)TΣ1(xμ)

称为 x μ 的Mahalanobis距离的平方。所以等密度点轨迹是 x μ 的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。对应的M式距离为 γ 的超椭球体积为:
V=Vd|Σ|12γd

其中 Vd 是d维单位超球体的体积:
Vd=πd2(d2)!,2dπ(d12)(d12)!d!,dd

如果多元高斯随机向量 x 的协方差矩阵是对角矩阵,则 x 的分量是相互独立的高斯分布随机变量。

2.1 - 多变量高斯分布中马氏距离的2维表示

上面式2.7是样本点 x 与均值向量 μ 之间的马氏距离。我们首先对 Σ 进行特征分解,即 Σ=UΛUT ,这里 U 是一个正交矩阵,且 UTU=I Λ 是特征值的对角矩阵。且:

Σ1=UTΛ1U1=UΛ1UT=i=1d1λiuiuTi

这里 ui U 的第 i 列,包含了第 i 个特征向量。因此可以重写成:
(xμ)TΣ1(xμ)===(xμ)T(i=1d1λiuiuTi)(xμ)i=1d1λi(xμ)TuiuTi(xμ)i=1dy2iλi

这里 yi=uTi(xμ) ,可以看出,当只选择两个维度时,即可得到椭圆公式 :
y21λ1+y22λ2=1

其中该椭圆的长轴与短轴的方向由特征向量而定,轴的长短由特征值大小而定。
ps:所以得出结论,马氏距离就是欧式距离先通过 μ 中心化,然后基于 U 旋转得到的。

2.2多变量高斯分布的最大似然估计

假设有 N 个iid的高斯分布的样本即 xi ~ N(μ,Σ) ,则该分布的期望和方差(这里是协方差):

μ^=1Ni=1Nxi=x¯(2.2.1)

Σ^====1Ni=1N(xix¯)(xix¯)T1Ni=1N(xixTixix¯Tx¯xTi+x¯x¯T)1Ni=1N(xixTi)2x¯x¯T+x¯x¯T1Ni=1N(xixTi)x¯x¯T(2.2.2)

为了求得他们的最大似然估计,需要预先知道如下知识:

这里写图片描述

图2.2.1 书mlapp上公式4.10

xTAx=tr(xTAx)=tr(xxTA)=tr(AxxT)(2.2.3)

因为多元高斯分布可写成:
p(d|μ,Σ)=12πd/2|Σ1|1/2exp[12(xμ)TΣ1(xμ)](2.2.4)

L(μ,Σ)==logp(d|μ,Σ)0+N2log|Λ|12i=1N(xiμ)TΛ(xiμ)(2.2.5)

这里 Λ=Σ1 是协方差矩阵的逆矩阵,也就是精度矩阵。
并假设 yi=xiμ ,采用链式求导法则,且按照图2.2.1第二个公式,得:
ddμ(12(xiμ)TΣ1(xiμ))===ddyi(yTiΣ1yi)dyidμ(Σ1+ΣT)yi(1)(Σ1+ΣT)yi

Σ 是对称矩阵,所以:
ddμL(μ,Σ)====0+ddμ(12i=1N(xiμ)TΛ(xiμ))12i=1N((Σ1+ΣT)yi)i=1NΣ1yiΣ1i=1N(xiμ)=0

从而, 多元高斯分布的期望为 μ^=1NNi=1xi

因为

A1B+A2B=(A1+A2)B

tr(A)+tr(B)=tr(A+B)

所以
tr(A1B)+tr(A2B)=tr[(A1+A2)B]

通过公式2.2.3,且假定 Sμ=Ni=1(xiμ)(xiμ)T 可知公式2.2.5可表示成:
L(μ,Σ)===logp(d|μ,Σ)0+N2log|Λ|12i=1Ntr[(xiμ)(xiμ)TΛ]N2log|Λ|12tr(SμΛ)(2.2.5)

所以:
dL(μ,Σ)dΛ=N2ΛT12STμ=0

ΛT=Λ1=Σ=1NSμ

最后得到了 多元高斯分布协方差的期望值为:
Σ^=1NNi=1(xiμ)(xiμ)T

2.3 基于多元变量高斯分布的分类方法

1 - 各个类别的协方差都相等 Σck=Σ :
并且可以直观的知道:

p(X=x|Y=ck,θ)=N(x|μck,Σck(3.1)

ps:基于第 k 类基础上关于变量 x 的概率,就是先挑选出所有 k 类的样本,然后再计算其多元高斯概率。且如果 Σck 是对角矩阵(即不同特征之间相互独立),则其就等于朴素贝叶斯。

且可知对于多分类问题,给定一个测试样本其特征向量,预测结果为选取概率最大的那个类别:

y^(x)==argmaxckP(Y=ck|X=x)argmaxckP(Y=ck,X=x)P(X=x)(3.2)

因为对于每个类别计算当前测试样本概率时,分母都是相同的,故省略,比较分子大的就行,也就是联合概率大的那个,从而式子3.2等价于:
y^(x)=argmaxckP(X=x|Y=ck)P(Y=ck)

而所谓LDA,就是当每个类别的协方差都相等,即 Σck=Σ ,所以:
P(X=x|Y=ck)=1(2π)d/2|Σ|1/2exp[12(xμck)TΣ1(xμck)]
P(Y=ck)=πck
从而,可发现:
P(Y=ck|X=x)====πckexp[12(xμck)TΣ1(xμck)]πckexp[12xTΣ1x+12xTΣ1μck+12μTckΣ1x12μTckΣ1μck]πckexp[12xTΣ1x+μTckΣ1x12μTckΣ1μck]exp[μTckΣ1x12μTckΣ1μck+logπck]exp[12xTΣ1x]exp[μTckΣ1x12μTckΣ1μck+logπck]exp[12xTΣ1x]

从而上式的分母又可以省略
假定 γck=12μTckΣ1μck+logπck ,而 βck=Σ1μck
从而:
P(Y=ck|X=x)=exp(βTckx+γck)|c|k=1exp(βTckx+γck)=S(η)ck

这里 η=[βTc1x+γc1,βTc2x+γc2,...,βTc|c|x+γc|c|] ,可以发现它就是一个softmax函数,即:
S(η)ck=exp(ηck)|c|k=1exp(ηck)

softmax之所以这样命名就是因为它有点像max函数。
对于LDA模型,假设将样本空间划分成n个互相独立的空间,则线性分类面,就是该分类面两边的类别预测概率相等的时候,即:
P(Y=ck|X=x)=P(Y=ck|X=x)
βTckx+γck=βTckx+γck
xT(βckβck)=ηckηck

参考资料:
[] 边肇祺。模式识别 第二版
[] Machine learning A Probabilistic Perspective
[] William.Feller, 概率论及其应用(第1卷)

猜你喜欢

转载自blog.csdn.net/shouhuxianjian/article/details/67644341