VAE系列之KL散度推导和理解

储备知识

多维高斯公式的表达和推导

一维正态分布都为大家所熟知:
N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − ( x − μ ) 2 2 σ 2 ) N(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2}) N(x;μ,σ2)=2πσ2 1exp(2σ2(xμ)2)
对于多维高斯分布, x ⃗ = ( x 1 , x 2 , . . . , x n ) \vec x = (x_1,x_2,...,x_n) x =(x1,x2,...,xn)各个随机变量相互独立,可以表示为
f ( x 1 , x 2 , . . , x n ) = f ( x 1 ) f ( x 2 ) . . . f ( x n ) f(x_1,x_2,..,x_n) = f(x_1)f(x_2)...f(x_n) f(x1,x2,..,xn)=f(x1)f(x2)...f(xn)
f ( x ⃗ ) = 1 2 π σ 1 2 e x p ( − ( x − μ 1 ) 2 2 σ 1 2 ) ∗ 1 2 π σ 2 2 e x p ( − ( x − μ 2 ) 2 2 σ 2 2 ) ∗ . . . ∗ 1 2 π σ n 2 e x p ( − ( x − μ n ) 2 2 σ n 2 ) = 1 ( 2 π ) n Π i = 1 i = n σ i 2 e x p ( ∑ i = 1 i = n − ( x i − μ i ) 2 2 σ i 2 ) ( 1 ) f(\vec x) = \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})*\frac{1}{\sqrt{2\pi\sigma_2^2}}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})*...*\frac{1}{\sqrt{2\pi\sigma_n^2}}exp(-\frac{(x-\mu_n)^2}{2\sigma_n^2}) = \frac{1}{\sqrt{(2\pi)^n\Pi_{i=1}^{i=n}\sigma_i^2}}exp(\sum_{i=1}^{i=n}-\frac{(x_i-\mu_i)^2}{2\sigma_i^2}) \qquad (1) f(x )=2πσ12 1exp(2σ12(xμ1)2)2πσ22 1exp(2σ22(xμ2)2)...2πσn2 1exp(2σn2(xμn)2)=(2π)nΠi=1i=nσi2 1exp(i=1i=n2σi2(xiμi)2)(1)
当然,深度学习这本书中给出的公式如下:
N ( x ; μ , Σ ) = 1 ( 2 π ) 2 d e t ( Σ ) e x p ⟮ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ⟯ ( 2 ) N(x;\mu,\Sigma) = \sqrt\frac{1}{(2\pi)^2det(\Sigma)}exp\lgroup(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\rgroup \qquad (2) N(x;μ,Σ)=(2π)2det(Σ)1 exp(21(xμ)TΣ1(xμ)(2)
其中 Σ \Sigma Σ det ⁡ ( Σ ) \det(\Sigma) det(Σ)分别表示的是 x ⃗ \vec x x 的协方差矩阵和协方差矩阵的行列式。对于相互独立的变量来说,任意两个变量的 c o v ( x i , x j ) = 0 cov(x_i,x_j) = 0 cov(xi,xj)=0,其中 i ≠ j i \ne j i=j
Σ = [ σ 11 2 0 ⋯ 0 0 σ 22 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯   σ n n 2 ] \Sigma = \begin{bmatrix} \sigma_{11}^2 & 0 & \cdots & 0 \\ 0 & \sigma_{22}^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots\ &\sigma_{nn}^2 \\ \end{bmatrix} Σ=σ112000σ2220 00σnn2
所以方程式1和方程式2是等价的,前者用元素表达,后者用矩阵表达。

信息论之KL散度来源

信息论的一个基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息[1]。
首先定义一个事件 X = x X=x X=x的自信息(self-information)
I ( x ) = − log ⁡ P ( x ) I(x) = -\log P(x) I(x)=logP(x)
其中I(x)的单位为奈特(net),以e为底。一奈特表示以 1 e \frac{1}{e} e1的概率观测到一个事件的信息量。以2为底成为比特(bit),或者香农(shannons)。
我们可以用香农熵来对整个概率分布中的不确定性总量进行量化:
H ( x ) = − E x ∼ P [ log ⁡ P ( x ) ] H(x) = -E_{x\sim P}[\log P(x)] H(x)=ExP[logP(x)]

Jensen不等式

待续

The evidence lower bound

待续

[1] 深度学习

猜你喜欢

转载自blog.csdn.net/xinxiang7/article/details/103517133