Auto-Encoding Variational Bayes

文章目录

论文地址：https://arxiv.org/abs/1312.6114
来源：CoRR, 2013
作者：Diederik P Kingma, Max Welling
关键词：Variational Bayes, Auto-Encoding, Bayes Inference, Probalistic Model

1. 前言

论文为bayes概率图模型难以求解的问题提供了一种有效的思路，利用auto-encoding方法结合variational lower bound求解bayes图模型隐变量的后验分布。

在推断和学习中，我们可以认为数据是根据某个隐变量生成的 — 可以从数据得到隐变量，也能够根据隐变量得到数据 — 就像一个编码、解码的过程。但是，通常隐变量的分布是未知的、复杂的，难以通过假定一个已知的分布来近似隐变量的真实分布。

简单谈一下个人对隐变量的理解：宽泛的讲，隐变量就像现实背后的某种神秘的、未知的因素，我们所见的现实背后蕴含着这种神秘的因素 — 隐变量，但我们通常是看不到隐变量的，也无法对它进行直接的观测，比如直接描述它是什么、它的形式、它发生的概率等等。但当我们得知隐变量后我们就像获得了某种神奇的力量，知道隐变量发生后现实中会发生什么。从数据的角度来看，隐变量可以是数据背后的“真理” — 特征、数据产生的原因。当我们能够描述隐变量后，我们就能够根据隐变量生成我们想要的数据。这就像一个编码-解码的过程，将原始数据编码为特征，再根据特征产生数据。

在这里插入图片描述

那么问题来了：如何得到隐变量呢？

2. 变分下界

如上图所示，图中实线可以看作生成（即解码）过程 — $p_{\theta}(\boldsymbol{z})p_{\theta}(\boldsymbol{x}|\boldsymbol{z})$ ，虚线可以看作编码过程 — $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 。 $\theta$ 表示真实的分布的参数， $\phi$ 表示近似ho后验分布的参数 — 该近似分布用于近似真实的后验分布 $p_{\theta}(\boldsymbol{z}|\boldsymbol{x})$ 。为了使近似分布 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 和真实分布 $p_{\theta}(\boldsymbol{z}|\boldsymbol{x})$ 尽量相同，可以使用KL散度进行衡量。
在这里插入图片描述
由上述公式可得，对于训练数据中的每一个样本有：
$\log p_{\theta}(\boldsymbol{x}^{(i)}) = KL(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}^{(i)})||p_{\theta}(\boldsymbol{z}|\boldsymbol{x}^{(i)})) + \mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)})$
其中,
$\mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)}) = E_{q_{\phi}(\boldsymbol{z}|\boldsymbol{x})}[ -\log q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) + \log p_{\theta}(\boldsymbol{z},\boldsymbol{x})]$
因为KL是大于等于零的，那么显然有这样的关系： $\log p_{\theta}(\boldsymbol{x}^{(i)}) \ge \mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)})$ 。所以 $\mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)})$ 又叫做变分下界（variational lower bound）。 $\log p_{\theta}(\boldsymbol{x}^{(i)})$ 相当于样本的对数似然函数，当给定了数据后，其实 $\log p_{\theta}(\boldsymbol{x}^{(i)})$ 应该是确定的，那么为了使近似分布尽量接近真实分布，那么则应该让变分下界尽可能的大，这样近似分布就会尽可能地接近真实分布。OKAY！现在问题转化成了最大化 $\mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)})$ 了。

那么问题又来了：如何最大化变分下界呢？

经过一顿操作后，变分下界可写为：
$\mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)}) = -KL(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}^{(i)})||p_{\theta}(\boldsymbol{z})) + E_{q_{\phi}(\boldsymbol{z}|\boldsymbol{x}^{(i)})}[\log p_{\theta}(\boldsymbol{x}^{(i)}|\boldsymbol{z})]$
其中第一项可以看作正则化项（当增加隐变量的数量时，可以防止过拟合），第二项可以看作重构损失。为了最大化变分下界，可以使用梯度下降的方法，但是上式中变分下界难以计算，且近似分布 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x}^{(i)})$ 是未知的。如果直接使用蒙特卡洛方法计算变分下界，将会带来较大方差。论文中针对这个问题使用了重参数化（reparameterization）来表示隐变量： $\hat{\boldsymbol{z}} = g_{\phi}(\boldsymbol{\epsilon}, \boldsymbol{x})$ ，其中 $\boldsymbol{\epsilon}$ 服从于某个分布 $p(\boldsymbol{\epsilon})$ 。那么问题就转化成了选择合适的函数 $g$ 和分布 $p(\boldsymbol{\epsilon})$ 。已知一个函数关于其自变量的后验分布的的蒙特卡洛估计为下式：
$E_{q_{\phi}(\boldsymbol{z}|\boldsymbol{x}^{(i)})}[f(\boldsymbol{z})] = E_{p(\boldsymbol{\epsilon})}[f(g_{\phi}(\boldsymbol{\epsilon}, \boldsymbol{x}^{(i)} ) ) ] \simeq \frac{1}{L} \sum_{l=1}^{L} f(g_{\phi}(\boldsymbol{\epsilon}^{(l)}, \boldsymbol{x}^{(i)} ) )$
其中 $L$ 为对每个数据 $\boldsymbol{x}^{(i)}$ 进行蒙特卡洛采样的次数。那么使用蒙特卡洛估计重参数化后的变分下界，形式为：
$\mathcal{L}(\theta, \phi; \boldsymbol{x}^{(i)}) = \frac{1}{L} \sum_{l=1}^{L} \log p_{\theta}(\boldsymbol{z}^{(i, l)},\boldsymbol{x}^{(i)}) - \log q_{\phi}(\boldsymbol{z}^{(i, l)}|\boldsymbol{x}^{(i)})$
其中， $\boldsymbol{z}^{(i, l)}=g_{\phi}(\boldsymbol{\epsilon}{(i, l)}, \boldsymbol{x}{(i)}), \boldsymbol{\epsilon}^{(l)} \sim p(\boldsymbol{\epsilon})$ 。之后便可以使用小批量的随机梯度下降算法优化参数 $\theta, \phi$ 。