抽样分布简单地说就是统计量服从的分布,正态分布时最常用的总体分布,因此研究正态总体的抽样分布是相当重要的。一般我们研究下面这三种分布:卡方分布、t分布、F分布。关于统计量的内容可以参考统计理论的第一篇。这一讲介绍多元正态分布,之后逐个介绍这三种分布。
多元正态分布
假设
X是
n个独立标准正态随机变量构成的列向量,则多元正态随机变量被定义为
X的有限个线性函数:
Y=AX+μ,A∈Rm×n,μ∈Rm×1
记为
Y∼Nm(μ,AA′),
X的分布可以记为
X∼Nn(0,In)。不妨假设
m<n。多元正态分布具有如下性质:
-
Z=BY+d,B∈Rl×m,d∈Rl×1,则
Z∼Nl(Bμ+d,BAA′B′)
-
Y=(Y1′,Y2′)′,μ=(μ1′,μ2′)′,Y1,μ1∈Rr×1,Y2,μ2∈R(m−r)×1,
AA′=[V11V21V12V22],
V11∈Rr×r,V22∈R(m−r)×(m−r),V12∈Rr×(m−r),V21∈R(m−r)×r,则
Y1∼Nr(μ1,V11), Y2∼Nm−r(μ1,V22)
显然2就是1的特例,性质1根据定义可以直接看出来:
Z=BY+d=B(AX+μ)+d=BAX+(Bμ+d)∼Nl(Bμ+d,BAA′B′)
性质1说明多元正态随机变量的线性变换也是多元正态随机变量;性质2说明多元正态随机变量的部分元素也服从多元正态分布。
矩母函数
现在考虑记
V=AA′,并假设
det(V)=0,则
Y∼Nm(μ,V),我们来尝试推导它的矩母函数。先考虑
X∼Nn(0,In)的矩母函数,
MX(t)=Eet′X=Ee∑i=1ntiXi=i=1∏nEetiXi=i=1∏ne−21ti2=exp(−21t′t)
因为
Y=AX+μ,
MY(t)=Eet′Y=Eet′AX+t′μ=et′μEet′AX,记
t′A=s′,则
Eet′AX=Ees′X=exp(−21s′s)=exp(−21t′AA′t)
所以多元正态随机变量的矩母函数为
MY(t)=exp(t′μ−21t′AA′t)=exp(t′μ−21t′Vt)
概率密度
接下来推导密度函数:
fY(y)=(2π)−m/2(det(V))−1/2exp(−21(y−μ)′V−1(y−μ))
首先,
X就是
n个标准正态简单随机样本,它的密度函数是
f(X)(x)=(2π)−n/2exp(−21x′x)
把
Y看成是基于
X的变换,
P(Y≤a)=∫Ax+μ≤a(2π)−n/2exp(−21x′x)dx
假设
Y的密度函数为
fY(y),则
P(Y≤a)=∫y≤afY(y)dy
计算
fY(y)的思路是对
x的积分做积分换元,使积分域与对
y的积分的积分域相同。积分换元公式只能处理用满秩的
C1变换换元的情况,考虑到
Y=AX+μ不是一个满秩的变换,我们可以把它补成满秩的。定义
T=[A′,B′]′∈Rn×n,其中
B∈R(n−m)×n满足
AB′=0, BB′=In−m,记
u1=Ax,u2=Bx,u=Tx,因为
T是满秩的,因此
x=T−1u,
Ax+μ≤a⇒u1+μ≤a,
TT′=(AB)(A′B′)=diag(V,In−m)(TT′)−1=diag(V−1,In−m), det(TT′)−1=det(V−1)x′x=u′(TT′)−1u=u1′V−1u1+u2′u2det(T−1)=(det(T))−1=(det(TT′))−1/2=(det(V))−1/2
根据积分换元公式,
P(Y≤a)=∫Ax+μ≤a(2π)−n/2exp(−21x′x)dx=∫u1+μ≤a(2π)−n/2(det(V))−1/2exp(−21(u1′V−1u1+u2′u2))du=∫μ1+μ≤a(2π)−m/2(det(V))−1/2exp(−21u1′V−1u1)du1
再做变换
w=u1+μ,则上式可进一步化简,
RHS=∫w≤a(2π)−m/2(det(V))−1/2exp(−21(w−μ)′V−1(w−μ))dw
根据一阶微分的唯一性,
fY(y)=(2π)−m/2(det(V))−1/2exp(−21(y−μ)′V−1(y−μ))
多元正态分布的矩
对于
Y∼Nm(μ,V),称
μ是
Y的期望,
V是
Y的协方差矩阵:
μ=EY, V=Var(Y)=Cov(Y,Y)=E((Y−μ)(Y−μ)′)
他们有如下性质:
-
E[AX]=AE[X]
-
E[AXB]=AE[X]B
-
Var(AX)=AVar(X)A′
-
Cov(AX,BY)=ACov(X,Y)B′
前两条就是期望的线性性,第三条是第四条的特例,在第四条中取
B=A,Y=X即可,下面说一下第四条:
Cov(AX,BY)=E[(AX−AE[X])(BY−BE[Y])′]=E[AXY′B′]−AE[X]E[Y′]B′=A{E[XY′]−E[X]E[Y′]}B′=ACov(X,Y)B′
条件分布
现在考虑多元正态分布性质2中的分块:
Y=(Y1′,Y2′)′,μ=(μ1′,μ2′)′,Y1,μ1∈Rr×1,Y2,μ2∈R(m−r)×1,
AA′=[V11V21V12V22],
V11∈Rr×r,V22∈R(m−r)×(m−r),V12∈Rr×(m−r),V21∈R(m−r)×r,则
E[Y1∣Y2]=μ1+V12V22−1(Y22−μ2)Var(Y1∣Y2)=V11,2=V11−V12V22−1V11
其中
V12V22被称为
Y1关于
Y2的回归系数阵,
V11,2被称为条件协方差矩阵。这两个公式的推导不需要额外的技巧,思路是计算条件分布
Y1∣Y2即可,因为边缘密度和联合密度都有,所以按定义仔细计算就好。
独立性
对于随机向量
X与
Y,称
X,Y独立,如果
P(X<a,Y<b)=P(X<a)P(Y<b),∀a,b
关于多元正态分布的独立性有如下性质:
-
X∼N(0,In),
Y=AX+μ,Z=BX+ν,AA′>0,BB′>0,则
Y与
Z独立的充要条件是
AB′=0
-
Y1与
Y2互相独立的条件是
V12=0
因为
V12=Cov(Y1,Y2),所以第二条性质也是说明多元的情况下,独立性也是协方差为0的充分条件。这个性质比较明显,因为协方差为0保证在计算概率的时候可以使用Fubini定理。接受了这一点后再看性质1就会比较显然了,
Cov(Y,Z)=Cov(AX+μ,BX+ν)=Cov(AX,BX)=AB′
当
AB′=0的时候协方差会等于0,因此二者独立。