VAE系列之KL散度推导和理解

储备知识

多维高斯公式的表达和推导

一维正态分布都为大家所熟知：
$N(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
对于多维高斯分布， $\vec x = (x_1,x_2,...,x_n)$ 各个随机变量相互独立，可以表示为
$f(x_1,x_2,..,x_n) = f(x_1)f(x_2)...f(x_n)$
$f(\vec x) = \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})*\frac{1}{\sqrt{2\pi\sigma_2^2}}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})*...*\frac{1}{\sqrt{2\pi\sigma_n^2}}exp(-\frac{(x-\mu_n)^2}{2\sigma_n^2}) = \frac{1}{\sqrt{(2\pi)^n\Pi_{i=1}^{i=n}\sigma_i^2}}exp(\sum_{i=1}^{i=n}-\frac{(x_i-\mu_i)^2}{2\sigma_i^2}) \qquad (1)$
当然，深度学习这本书中给出的公式如下：
$N(x;\mu,\Sigma) = \sqrt\frac{1}{(2\pi)^2det(\Sigma)}exp\lgroup(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\rgroup \qquad (2)$
其中 $\Sigma$ 和 $\det(\Sigma)$ 分别表示的是 $\vec x$ 的协方差矩阵和协方差矩阵的行列式。对于相互独立的变量来说，任意两个变量的 $cov(x_i,x_j) = 0$ ，其中 $\ne j$ 。
$\Sigma = \begin{bmatrix} \sigma_{11}^2 & 0 & \cdots & 0 \\ 0 & \sigma_{22}^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots\ &\sigma_{nn}^2 \\ \end{bmatrix}$
所以方程式1和方程式2是等价的，前者用元素表达，后者用矩阵表达。

信息论之KL散度来源

信息论的一个基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息[1]。
首先定义一个事件 $X = x$ 的自信息(self-information)
$-\log P(x)$
其中I(x)的单位为奈特(net)，以e为底。一奈特表示以 $\frac{1}{e}$ 的概率观测到一个事件的信息量。以2为底成为比特(bit)，或者香农(shannons)。
我们可以用香农熵来对整个概率分布中的不确定性总量进行量化：
$-E_{x\sim P}[\log P(x)]$

Jensen不等式

待续

The evidence lower bound

待续

[1] 深度学习