深度学习之KL散度

前言

最近在看GAN相关的文章，经常提到KL散度这一概念，为了加深印象以及方便复习，特意写在博客上。

KL散度用来做什么？

KL散度的用途：比较两个概率分布的接近程度。
在统计应用中，我们经常需要用一个简单的，近似的概率分布 $f^*$ 来描述
观察数据 DD或者另一个复杂的概率分布 $f$ 。这个时候，我们需要一个量来衡量我们选择的近似分布 $f^*$ 相比原分布 $f$ 究竟损失了多少信息量，这就是KL散度起作用的地方。

熵

为了更好的理解KL散度，在这里首先抛出熵的概念。在信息论这门学科中，一个很重要的目标就是量化描述数据中含有多少信息。为此，提出了熵的概念，记作H，一个概率分布所对应的熵表达如下：

H

$H$ =

- \sum_{i = 1}^{N} p (x_{i}) \cdot l o g (p (x_{i}))

$-\sum_{i=1}^{N}p(x_i)\cdot log(p(x_i))$

如果我们使用 log2log⁡2 作为底，熵可以被理解为：我们编码所有信息所需要的最小位数。需要注意的是：通过计算熵，我们可以知道信息编码需要的最小位数，却不能确定最佳的数据压缩策略。怎样选择最优数据压缩策略，使得数据存储位数与熵计算的位数相同，达到最优压缩，是另一个庞大的课题。

KL散度的计算

现在，我们能够量化数据中的信息量了，就可以来衡量近似分布带来的信息损失了。KL散度的计算公式其实是熵计算公式的简单变形,在原有概率分布 $p$ 上，加入我们的近似概率分布 $q$ ，计算他们的每个取值对应对数的差：

D_{K} L (p | | q)

$D_KL(p||q)$ =

\sum_{i = 1}^{N} p (x_{i}) \cdot (l o g (p (x_{i})) - l o g (q (x_{i})))

$\sum_{i=1}^{N}p(x_i)\cdot (log(p(x_i))-log(q(x_i)))$

换句话说，KL散度计算的就是数据的原分布与近似分布的概率的对数差的期望值。在对数以2为底时，log2 ，可以理解为“我们损失了多少位的信息”
写成期望形式:

D_{K} L (p | | q)

$D_KL(p||q)$ =

E [l o g (p (x)) - l o g (q (x))]

$E[log(p(x))-log(q(x))]$

更常见的是以下形式：

D_{K} L (p | | q)

$D_KL(p||q)$ =

\sum_{i = 1}^{N} p (x_{i}) \cdot l o g \frac{p (x_{i})}{q (x_{i})}

$\sum_{i=1}^{N}p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}$

散度不可逆

D_{K} L (p | | q)

$D_KL(p||q)$

\neq

$\neq$

D_{K} L (q | | p)

$D_KL(q||p)$

因为KL散度不具有交换性，所以不能理解为“距离”的概念，衡量的并不是两个分布在空间中的远近，更准确的理解还是衡量一个分布相比另一个分布的信息损失(infomation lost)。

KL散度的应用

通过不断改变预估分布的参数，我们可以得到不同的KL散度的值。在某个变化范围内，KL散度取到最小值的时候，对应的参数是我们想要的最优参数。这就是使用KL散度优化的过程。神经网络进行的工作很大程度上就是“函数的近似”(function approximators) 所以我们可以使用神经网络学习很多复杂函数，学习过程的关键就是设定一个目标函数来衡量学习效果。也就是通过最小化目标函数的损失来训练网络(minimizing the loss of the objective function) 使用KL散度来最小化我们近似分布时的信息损失，让我们的网络可以学习很多复杂分布。