理解多维高斯分布

前言

在数理统计和机器学习中，经常用到高斯分布，这里根据网上的资源和理解，对多维高斯分布做一个小总结。

如有谬误，请联系指正。转载请注明出处。

联系方式：
e-mail: [email protected]
QQ: 973926198
github: https://github.com/FesianXu

一维高斯分布

标准的一维高斯分布是0均值和单位方差的，数学形式如(1)：

\begin{matrix} (1) & p (x) = \frac{1}{\sqrt{2 π}} e x p (- \frac{x^{2}}{2}) \end{matrix}

$p(x) = \frac{1}{\sqrt {2\pi}} exp(-\frac{x^2}{2}) \tag{1}$
为了扩展成一般的一维高斯分布，我们引入一个线性变换

x := A (x - μ)

$x := A(x-\mu)$ ，结合(1)，有：

\begin{matrix} (2) & \begin{aligned} (5) & p (x) & = \frac{| A |}{\sqrt{2 π}} e x p (- \frac{A^{2} (x - μ)^{2}}{2}) \end{aligned} \end{matrix}

$\begin{align} p(x) &= \frac{|A|}{\sqrt{2\pi}} exp(-\frac{A^2(x-\mu)^2}{2}) \\ \tag{2} \end{align}$
令

σ = 1 / A

$\sigma=1/A$ ，式(2)变为:

\begin{matrix} (3) & p (x) = \frac{1}{σ \sqrt{2 π}} e x p (- \frac{(x - μ)^{2}}{2 σ^{2}}) \end{matrix}

$p(x) = \dfrac{1}{\sigma\sqrt{2\pi}} exp(-\frac{(x-\mu)^2}{2\sigma^2}) \tag{3}$
从这里可以看出

A

$A$ 和

σ

$\sigma$ 存在关系。在系数前乘上

| A |

$|A|$ 是为了整个分布的积分为1。这里的

| \cdot |

$|\cdot|$ 表示绝对值，在多变量下，则表示行列式。

在一维高斯分布上，通过调整均值 $\mu$ 和方差 $\sigma^2$ 可以调整分布的形状，使得其向左右平移，或者拉伸其”顶峰”。

这里写图片描述

多维高斯分布

多维高斯分布其变量为 $n$ 维变量，每个变量之间可能会存在关系，为了描述这种关系，我们引入了协方差矩阵 $\Sigma$ ，其大小为 $n \times n$ ，其中每一个元素为:

\begin{matrix} (4) & \begin{aligned} (2) & Σ_{i, j} & = c o n v (X_{i}, X_{j}) \\ (3) & = E (X_{i} X_{j}) - E (X_{i}) E (E_{j}) \end{aligned} \end{matrix}

$\begin{align} \Sigma_{i,j} &= conv(X_i, X_j) \\ &= E(X_iX_j)-E(X_i)E(E_j) \end{align} \tag{4}$
我们首先看看标准二维高斯分布的数学表达式(5)，因为是标准二维高斯分布，所以每个变量之间是独立的:

\begin{matrix} (5) & p (x, y) = p (x) p (y) = \frac{1}{2 π} e x p (- \frac{x^{2} + y^{2}}{2}) \end{matrix}

$p(x,y) = p(x)p(y) = \frac{1}{2\pi} exp(-\frac{x^2+y^2}{2}) \tag{5}$
为了向量化公式，用向量

v = [x y]^{T}

$\textbf{v}=[x \ \ y]^T$ ，有：

\begin{matrix} (6) & p (v) = \frac{1}{2 π} e x p (- \frac{1}{2} v^{T} v) \end{matrix}

$p(\textbf{v}) = \frac{1}{2\pi} exp(-\frac{1}{2} \textbf{v}^T\textbf{v}) \tag{6}$
这个时候，用

v = A (x - μ)

$\textbf{v} = \textbf{A}(\textbf{x}-\mu)$ ，其中的

A

$\textbf{A}$ 为

v

$\textbf{v}$ 中每个分量的线性组合系数，也就是说

A

$\textbf{A}$ 表示了每个变量的线性关系。有：

\begin{matrix} (7) & p (v) = \frac{| A |}{2 π} e x p (- \frac{1}{2} (x - μ)^{T} A^{T} A (x - μ)) \end{matrix}

$p(\textbf{v}) = \frac{|\textbf{A}|}{2\pi} exp(-\frac{1}{2} (\textbf{x}-\mu)^T \textbf{A}^T \textbf{A} (\textbf{x}-\mu)) \tag{7}$
用

Σ = (A^{T} A)^{- 1}

$\Sigma=(\textbf{A}^T\textbf{A})^{-1}$ 表示其协方差，其中

| A |

$|\textbf{A}|$ 为行列式，有：

\begin{matrix} (8) & p (v) = \frac{1}{2 π | Σ |^{1 / 2}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)) \end{matrix}

$p(\textbf{v}) = \frac{1}{2\pi |\Sigma|^{1/2}} exp(-\frac{1}{2}(\textbf{x}-\mu)^T \Sigma^{-1} (\textbf{x}-\mu)) \tag{8}$
当维度大于2时，情形类似，

n

$n$ 维的高斯分布公式为：

\begin{matrix} (9) & p (v) = \frac{1}{(2 π)^{n / 2} | Σ |^{1 / 2}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)) v \in R^{n} \end{matrix}

$p(\textbf{v}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} exp(-\frac{1}{2}(\textbf{x}-\mu)^T \Sigma^{-1} (\textbf{x}-\mu)) \\ \textbf{v} \in \mathbb{R}^n \tag{9}$

多维高斯分布的图像性质

这里写图片描述
以上三个图形的期望都为： $\mu =[0,0]^T$ ，最左端图形的协方差 $\Sigma=I$ ，中间的 $\Sigma=0.6I$ ，最右端的 $\Sigma=2I$ ，我们可以看出：当变小时，图像变得更加“瘦长”，而当增大时，图像变得更加“扁平”。

这里写图片描述