UA MATH564 概率论VI 数理统计基础2

多元正态分布

矩母函数
概率密度

多元正态分布的矩
条件分布
独立性

抽样分布简单地说就是统计量服从的分布，正态分布时最常用的总体分布，因此研究正态总体的抽样分布是相当重要的。一般我们研究下面这三种分布：卡方分布、t分布、F分布。关于统计量的内容可以参考统计理论的第一篇。这一讲介绍多元正态分布，之后逐个介绍这三种分布。

多元正态分布

假设 $X$ 是 $n$ 个独立标准正态随机变量构成的列向量，则多元正态随机变量被定义为 $X$ 的有限个线性函数：
$Y = AX + \mu,A \in \mathbb{R}^{m \times n},\mu \in \mathbb{R}^{m \times 1}$
记为 $Y \sim N_m(\mu,AA')$ ， $X$ 的分布可以记为 $X \sim N_n(0,I_n)$ 。不妨假设 $m<n$ 。多元正态分布具有如下性质：

$Z = BY+d,B \in \mathbb{R}^{l \times m},d \in \mathbb{R}^{l \times 1}$ ，则 $Z \sim N_l(B\mu+d,BAA'B')$
$Y = (Y_1',Y_2')',\mu = (\mu_1',\mu_2')',Y_1,\mu_1 \in \mathbb{R}^{r \times 1},Y_2,\mu_2 \in \mathbb{R}^{(m-r) \times 1}$ ， $AA' = \left[ \begin{matrix} V_{11} & V_{12} \\ V_{21} & V_{22} \end{matrix} \right]$ ， $V_{11} \in \mathbb{R}^{r \times r},V_{22} \in \mathbb{R}^{(m-r)\times (m-r)},V_{12} \in \mathbb{R}^{r \times (m-r)},V_{21} \in \mathbb{R}^{(m-r) \times r}$ ，则 $Y_1 \sim N_r(\mu_1,V_{11}),\ Y_2 \sim N_{m-r}(\mu_1,V_{22})$

显然2就是1的特例，性质1根据定义可以直接看出来：
$Z = BY + d = B(AX+\mu) + d = BAX + (B\mu + d) \sim N_l(B\mu + d,BAA'B')$
性质1说明多元正态随机变量的线性变换也是多元正态随机变量；性质2说明多元正态随机变量的部分元素也服从多元正态分布。

矩母函数

现在考虑记 $V = AA'$ ，并假设 $\det(V) \ne 0$ ，则 $Y \sim N_m(\mu,V)$ ，我们来尝试推导它的矩母函数。先考虑 $X \sim N_n(0,I_n)$ 的矩母函数，
$M_X(t) = Ee^{t'X} = Ee^{\sum_{i=1}^n t_i X_i} = \prod_{i=1}^n Ee^{t_iX_i} = \prod_{i=1}^n e^{-\frac{1}{2}t_i^2} = \exp \left( -\frac{1}{2}t't \right)$
因为 $Y = AX + \mu$ ， $M_Y(t) = Ee^{t'Y} = Ee^{t'AX+t'\mu} = e^{t'\mu}Ee^{t'AX}$ ，记 $t'A = s'$ ，则
$Ee^{t'AX} =Ee^{s'X} = \exp \left( -\frac{1}{2}s's \right) = \exp \left( -\frac{1}{2}t'AA't \right)$
所以多元正态随机变量的矩母函数为
$M_Y(t) = \exp \left( t'\mu - \frac{1}{2}t'AA't \right) = \exp \left( t'\mu - \frac{1}{2}t'Vt \right)$

概率密度

接下来推导密度函数：
$f_Y(y) = (2\pi)^{-m/2}(\det(V))^{-1/2}\exp \left( -\frac{1}{2}(y-\mu)'V^{-1}(y-\mu) \right)$
首先， $X$ 就是 $n$ 个标准正态简单随机样本，它的密度函数是
$f_(X)(x) = (2\pi)^{-n/2}\exp \left( -\frac{1}{2} x'x\right)$
把 $Y$ 看成是基于 $X$ 的变换，
$P(Y \le a) = \int_{Ax+\mu \le a} (2\pi)^{-n/2}\exp \left( -\frac{1}{2} x'x\right) dx$
假设 $Y$ 的密度函数为 $f_Y(y)$ ，则
$P(Y \le a) = \int_{y \le a} f_Y(y)dy$
计算 $f_Y(y)$ 的思路是对 $x$ 的积分做积分换元，使积分域与对 $y$ 的积分的积分域相同。积分换元公式只能处理用满秩的 $C^1$ 变换换元的情况，考虑到 $Y = AX + \mu$ 不是一个满秩的变换，我们可以把它补成满秩的。定义 $T = [A',B']' \in \mathbb{R}^{n \times n}$ ，其中 $B \in \mathbb{R}^{(n-m)\times n}$ 满足 $AB'=0,\ BB' = I_{n-m}$ ，记 $u_1 = Ax,u_2 = Bx,u=Tx$ ，因为 $T$ 是满秩的，因此 $x=T^{-1}u$ ， $Ax + \mu \le a \Rightarrow u_1 + \mu \le a$ ，
$TT' = \left( \begin{matrix} A \\ B \end{matrix} \right)\left( \begin{matrix} A' & B' \end{matrix} \right) = diag(V,I_{n-m})\\ (TT')^{-1} = diag(V^{-1},I_{n-m}),\ \det(TT')^{-1} = \det(V^{-1}) \\ x'x = u'(TT')^{-1}u = u_1'V^{-1}u_1 + u_2'u_2 \\ \det(T^{-1}) = (\det(T))^{-1} = (\det(TT'))^{-1/2} = (\det(V))^{-1/2}$
根据积分换元公式，
$P(Y \le a) = \int_{Ax+\mu \le a} (2\pi)^{-n/2}\exp \left( -\frac{1}{2} x'x\right) dx \\ = \int_{u_1 + \mu \le a} (2\pi)^{-n/2}(\det(V))^{-1/2}\exp \left( -\frac{1}{2} (u_1'V^{-1}u_1 + u_2'u_2)\right) du \\ = \int_{\mu_1 + \mu \le a} (2\pi)^{-m/2}(\det(V))^{-1/2}\exp \left( -\frac{1}{2} u_1'V^{-1}u_1\right) du_1$
再做变换 $w = u_1 + \mu$ ，则上式可进一步化简，
$RHS = \int_{w \le a} (2\pi)^{-m/2}(\det(V))^{-1/2}\exp \left( -\frac{1}{2} (w-\mu)'V^{-1}(w-\mu)\right) dw$
根据一阶微分的唯一性，
$f_Y(y) = (2\pi)^{-m/2}(\det(V))^{-1/2}\exp \left( -\frac{1}{2}(y-\mu)'V^{-1}(y-\mu) \right)$

多元正态分布的矩

对于 $Y \sim N_m(\mu,V)$ ，称 $\mu$ 是 $Y$ 的期望， $V$ 是 $Y$ 的协方差矩阵：
$\mu = EY,\ V =Var(Y) =Cov(Y,Y)= E((Y-\mu)(Y-\mu)')$
他们有如下性质：

$E[AX] = AE[X]$
$E[AXB] = AE[X]B$
$Var(AX) = AVar(X)A'$
$Cov(AX,BY) = ACov(X,Y)B'$

前两条就是期望的线性性，第三条是第四条的特例，在第四条中取 $B=A,Y=X$ 即可，下面说一下第四条：
$Cov(AX,BY) = E[(AX-AE[X])(BY-BE[Y])'] \\ = E[AXY'B']-AE[X]E[Y']B' = A\{E[XY']-E[X]E[Y']\}B' = ACov(X,Y)B'$

条件分布

现在考虑多元正态分布性质2中的分块：
$Y = (Y_1',Y_2')',\mu = (\mu_1',\mu_2')',Y_1,\mu_1 \in \mathbb{R}^{r \times 1},Y_2,\mu_2 \in \mathbb{R}^{(m-r) \times 1}$ ， $AA' = \left[ \begin{matrix} V_{11} & V_{12} \\ V_{21} & V_{22} \end{matrix} \right]$ ， $V_{11} \in \mathbb{R}^{r \times r},V_{22} \in \mathbb{R}^{(m-r)\times (m-r)},V_{12} \in \mathbb{R}^{r \times (m-r)},V_{21} \in \mathbb{R}^{(m-r) \times r}$ ，则
$E[Y_1|Y_2] = \mu_1 + V_{12}V_{22}^{-1}(Y_{22} - \mu_2) \\ Var(Y_1|Y_2) = V_{11,2} = V_{11} - V_{12}V_{22}^{-1}V_{11}$
其中 $V_{12}V_{22}$ 被称为 $Y_1$ 关于 $Y_2$ 的回归系数阵， $V_{11,2}$ 被称为条件协方差矩阵。这两个公式的推导不需要额外的技巧，思路是计算条件分布 $Y_1|Y_2$ 即可，因为边缘密度和联合密度都有，所以按定义仔细计算就好。

独立性

对于随机向量 $X$ 与 $Y$ ，称 $X,Y$ 独立，如果
$P(X<a,Y<b) = P(X < a)P(Y<b),\forall a,b$
关于多元正态分布的独立性有如下性质：

$X \sim N(0,I_n)$ ， $Y = AX + \mu,Z = BX + \nu,AA'>0,BB'>0$ ，则 $Y$ 与 $Z$ 独立的充要条件是 $AB'=0$
$Y_1$ 与 $Y_2$ 互相独立的条件是 $V_{12}=0$

因为 $V_{12} = Cov(Y_1,Y_2)$ ，所以第二条性质也是说明多元的情况下，独立性也是协方差为0的充分条件。这个性质比较明显，因为协方差为0保证在计算概率的时候可以使用Fubini定理。接受了这一点后再看性质1就会比较显然了，
$Cov(Y,Z) = Cov(AX + \mu,BX+\nu) = Cov(AX,BX) = AB'$
当 $AB'=0$ 的时候协方差会等于0，因此二者独立。

UA MATH564 概率论VI 数理统计基础2 多元正态分布