搞懂多变量高斯分布的由来

多变量高斯分布(multivariate Gaussian distribution)的形式如下:

\begin{aligned} \Bbb {N}(\mathbf x|\mathbf{\mu},\mathbf \Sigma)  &=\frac{1}{(2\pi)^{\frac{d}{2}}\left|\Sigma\right|^\frac{1}{2}} \exp\{{-\frac{1}{2}(\mathbf x-\mu)^T\Sigma^{-1}(\mathbf x-\mu)} \} \end{aligned} \quad\quad\quad(1)

其中,\mu 是D维 mean vector,\SigmaD \times D 协方差矩阵,里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差|\Sigma|代表协方差矩阵的行列式。

二维高斯分布的图如下所示(来自wikipedia),它的每一个维度都是高斯分布

本文主要就是讲式(1)的由来。

前置知识:雅可比矩阵和雅可比行列式

f : \mathbb {R}_n \to \mathbb {R}_m 是一个函数,它的输入是向量 \mathbf x \in \mathbb {R}_n,输出是向量 \mathbf y=f(\mathbf x) \in \mathbb {R}_m:

\begin{cases} y_1=f_1(x_1,\dots,x_n) \\ y_2=f_2(x_1,\dots,x_n) \\  \dots \\ y_m=f_n(x_1,\dots,x_n)  \end{cases}

那么雅可比矩阵是一个m×n矩阵:

{\displaystyle \mathbf {J} ={\begin{bmatrix}{\dfrac {\partial \mathbf {f} }{\partial x_{1}}}&\cdots &{\dfrac {\partial \mathbf {f} }{\partial x_{n}}}\end{bmatrix}}={\begin{bmatrix}{\dfrac {\partial f_{1}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{1}}{\partial x_{n}}}\\\vdots &\ddots &\vdots \\{\dfrac {\partial f_{m}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{m}}{\partial x_{n}}}\end{bmatrix}}}

由于矩阵描述了向量空间中的运动——变换,而雅可比矩阵看作是将点 (x_1,\dots,x_n) 转化到点 (y_1,\dots,y_m) ,或者说是从一个n维的欧式空间转换到m维的欧氏空间。

如果m = n, 可以定义雅可比矩阵\mathbf {J}的行列式,也就是雅可比行列式(Jacobian determinant)

在微积分换元中,也就是给出了 从x到y的n维体积的比率,

\rm dy_1...dy_n=|J| \,\, dx_1...dx_n

二维雅可比矩阵的几何意义

在二维情况(有直观的图),雅可比行列式代表xy平面上的面积微元与uv平面上的面积微元的比值。

x=x(u,v),\quad y=y(u,v)

雅可比行列式是:

\mathbf J=|\frac{\partial (x,y)}{\partial (u,v)}| =
        \begin{vmatrix}
        x_u & x_v  \\
        y_u & y_v  \\
        \end{vmatrix}

Jacobi变换

如图所示:dA代表dx和dy张成的平行四边形的面积,如果du和dv充分接近于0,那么dA:

dA=dxdy=|\frac{\partial (x,y)}{\partial (u,v)}|du dv

二重积分换元:

\iint_D f(x,y) dxdy = \iint_{D'}f[x(u,v),y(u,v)] |\frac{\partial(x,y)}{\partial(u,v)}|dudv

n维度情况以此类推。

多变量高斯分布

首先考虑单变量标准正态分布,概率密度函数为:

f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})\quad\quad\quad(2)

然后考虑 n 维独立标准高斯分布,就是 n 个独立的一维标准正态分布随机变量的联合分布:

p(x_1,\dots,x_n) = p(x_1)\dots p(x_n) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{{x_1}^2+ \dots +{x_n}^2}{2} \right)\quad\quad\quad(3)

为了表达方便,用向量的形式来表示,设 \mathbf{x} = (x_1\,\dots \,x_n)^T,式(3)写作:

f(\mathbf{x}) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{1}{2}\mathbf{x}^T\mathbf{x} \right)\quad\quad\quad(4)

一般的,设\mathbf{y}\mathbf{x} 的线性变换得到:

\mathbf{y} =  A\mathbf{x} + \mu \quad\quad\quad(5)

其中A是 n \times n非奇异矩阵\mu是n维向量

可把\mathbf{x}\mathbf{y} 表示:

\mathbf{x} = A^{-1} (\mathbf{y} - \mu)\quad\quad\quad(6)

注意到,式(6)线性变换的雅可比行列式|\mathbf A^{-1}| ,因此:

\rm d \mathbf x = |A^{-1}| d \mathbf y\quad\quad\quad(7)

\Sigma^{-1}=(A^{-1})^T A^{-1},则\displaystyle |A|=|\Sigma|^{\frac{1}{2}},由联合概率分布密度的定义,有:

\begin{aligned} 1= \int \dots \int f(\mathbf{x}) d \mathbf x &= \int \dots \int f(A^{-1} (\mathbf{y} - \mu))  |\mathbf A^{-1}| d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |A|} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T (A^{-1})^T A^{-1} (\mathbf{y} - \mu) \right] d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y  \end{aligned} \quad\quad(10)

因此,向量 \mathbf y 的联合概率概率密度函数是:

f(\mathbf y)=\frac{1}{(2\pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y  \quad\quad(11)

也就得到式(1)

可以看出:多变量高斯分布是单变量高斯分布向多维的推广。


猜你喜欢

转载自juejin.im/post/5b5830c36fb9a04f9963ae77