[Deep Learning] Variational Autoencoders (VAEs)

文章目录

Autoencoder
- 结构
- 训练
- 应用
Variational Autoencoder (VAE)
- 结构
- 训练
- 应用

Autoencoder

Autoencoder是一种无监督学习方法，用于从未标记的训练数据中学习较低维度的特征表示。这种表示通常被称为latent space features(潜在空间特征)或encoder，其目标是找到输入数据的有效压缩表示。

结构

Encoder

Encoder是一个将输入 $x$ 映射到特征 $z$ 的函数，其可以是深度学习模型，也可以是线性或非线性模型。常见的非线性函数有sigmoid和ReLU等。编码器的架构可以是fully-connected，也可以是卷积神经网络。Encoder的目标是降维，所以特征 $z$ 的维度通常小于输入 $x$ 的维度。

$f_{\theta}(x)$

其中 $\theta$ 是Encoder的参数， $f_{\theta}$ 是Encoder的函数。
Decoder

Decoder是一个将特征 $z$ 映射回输入空间的函数，生成重构的输入 $\hat x$ 。Decoder的目标是从压缩的特征 $z$ 中重建原始输入 $x$ 。Decoder的架构可以是深度的、线性或非线性的，也可以是fully-connected的或卷积的（例如上卷积）。

$\hat x = g_{\phi}(z)$

其中 $\phi$ 是Decoder的参数， $g_{\phi}$ 是Decoder的函数。

训练

Autoencoder的训练目标是使重构的输入 $\hat x$ 尽可能接近原始输入 $x$ 。常用的损失函数是L2 loss：

$\hat x) = \|x-\hat x\|^2$

通过最小化此损失函数，可以学习到Encoder和Decoder的参数。

应用

训练完Autoencoder后，通常会丢弃Decoder，仅使用Encoder从输入数据中提取特征。如果需要，还可以将Encoder与分类器进行联合微调。

$\rightarrow z \rightarrow \hat y$

在此过程中， $\hat y$ 是通过Encoder和分类器得到的预测标签， $y$ 是真实标签。可以使用softmax损失函数来优化分类任务。

Autoencoder可以重构数据，并能学习到初始化监督模型的特征。这些特征能够捕获训练数据中的变化因素。

我们可以使用Autoencoder来生成新的图像，但这通常不是它们的主要用途。使用Autoencoder生成新图像的典型方式是从Autoencoder学习到的潜在空间进行采样，并通过Decoder生成新的图像。

Variational Autoencoder (VAE)

VAE是一种生成模型，它使用了Autoencoder的架构并加入了概率理论。与传统的Autoencoder不同，VAE的Encoder输出的不是一个确定的编码，而是编码的概率分布的参数。

结构

Encoder

Encoder的目标是将输入 $x$ 映射到潜在空间的分布参数，通常是一个多元高斯分布的均值向量 $m$ 和方差向量 $\sigma$ 。

$f_{\theta}(x),\ \sigma = g_{\theta}(x)$
Sampling

采样步骤从Encoder学习到的分布中生成编码 $z$ 。这通过下面的公式实现：

$c_i = \exp(\frac{\sigma_i}{2})e_i+m_i$

在这里， $\sigma_i$ 代表的是潜在空间的log-variance，所以 $\exp(\frac{\sigma_i}{2})$ 就是标准差， $e_i$ 是从标准正态分布中采样的随机数。
Decoder

Decoder将采样得到的 $z$ 映射回输入空间，生成重构的输入 $\hat x$ 。

$\hat x = h_{\phi}(c)$

训练

VAE的训练目标是最小化重构误差和KL散度(Kullback-Leibler divergence)。其中，重构误差度量了输入 $x$ 和重构输入 $\hat x$ 的差异，可以使用均方误差(MSE)或者交叉熵(cross entropy)作为损失函数。KL散度则度量了Encoder学习到的潜在分布与先验分布(通常是标准正态分布)的差异。所以，总的损失函数可以写为：

$\text{MSE}(x, \hat x) + D_{KL}(p_{\theta}(z|x)||p(z))$

在上式中， $D_{KL}$ 表示KL散度， $p_{\theta}(z|x)$ 表示Encoder学习到的潜在分布， $p (z)$ 是先验分布。通常，KL散度的形式为：

$D_{KL}(p_{\theta}(z|x)||p(z)) = \frac{1}{2}\sum (1+\sigma_i-(m_i)^2-\exp(\sigma_i))$

通过最小化重构误差和KL散度，VAE可以在生成能够重构输入数据的同时，使潜在空间的分布接近于预设的先验分布，通常是标准正态分布。这有助于Decoder从潜在空间中生成新的、有意义的样本。

应用

当VAE生成数据时，我们只使用解码器部分并从先验分布中对 $z$ 进行采样。解码器接受来自潜在空间的向量 $z$ ，并生成对应的数据。在VAE中，这个潜在空间通常被训练为接近于某种已知的分布（通常是高斯分布）。这就意味着我们可以通过简单地从这个已知分布中抽取样本，然后将其传入解码器来生成新的数据。

$\sim p(z),\ \hat x = h_{\phi}(z)$

在标准的VAE中，我们使用重构误差（例如均方误差或交叉熵）来评估输入数据 $x$ 和重构数据 $\hat x$ 的相似度。然而，这种评估方法有时候不能完全捕捉到数据的所有复杂性，尤其是在图像等高维数据中。

在VAE-GAN模型中，我们保留了VAE的Encoder和Decoder，但是用GAN的判别器来代替传统的重构误差。具体来说，判别器的目标是区分来自于先验分布的样本和由Encoder产生的样本。这使得VAE-GAN不仅能学习有效的潜在空间表示，还能生成高质量的样本，即使是在处理高维复杂数据的时候。