深层高斯混合自动编码器用于聚类

概述

出于聚类目的的特征表示包括将输入空间显式或隐式映射到易于聚类或分类的特征空间上。

本文依靠对抗性自动编码器作为构建适合聚类的低维代码空间的一种手段。我们在该空间之前施加了可调高斯混合，从而允许同时进行优化方案。我们得出了手写数字图像（MNIST）上具有竞争力的无监督分类结果，该结果通常在有监督框架内进行分类。

在本文中，通过结合自动编码器（Vincent等人，2010）和高斯混合模型（McLachlan＆Peel，2004）在代码空间中实现聚类。我们提出了一种算法，用于使用对抗性自动编码器框架（称为“ DAC”）进行深度对抗性聚类，以执行无监督聚类。确实，我们假设生成方法（即调高斯混合模型）可以在原始空间中捕获显式的潜在模型，这是观测数据的来源。

深层高斯混合自动编码器用于聚类 DAC

在我们的方法中，嵌入步骤的作用是使数据表示比在初始空间中更易于分类。我们选择GMM的原因是其良好的理论特性（Fraley＆Raftery，2002； Biernacki等，2000）。此外，众所周知，这种聚类算法在低维设置中效果更好，这激发了我们使用自动编码器在此处执行的降维。

在聚类中，我们有一个点（x1，…，xi，…，xn）的数据集，其中每个数据点xi都生活在D维空间中。首先，我们建立一个自动编码器，该编码器由基于神经网络的编码器E和分别由θE和θD参数化的解码器D组成。编码器E将数据点从其原始空间映射到代码d维空间（d <D）。解码器D将它们从代码空间映射回原始空间，以使每个数据点xi通过编码器和解码器D（E（xi））xi xi大致重构。这个想法是，如果重建可行，那么我们就压缩了每个示例的信息而不会造成太多损失。

第二，类似于Makhzani等人的工作。（2015年），我们对系统添加了一个对抗部分：
（i）基于高斯混合的随机生成器H，对于k = 1…K，其比例（πk），均值（μk）和协方差矩阵（Σk）K由θH参数化。这种生成的随机向量的实例记为zi，并且生活在与上述相同的代码d维空间中。

（ii）基于神经网络的对抗性鉴别器A，其权重和偏差由θA参数化，其作用是连续迫使代码空间先于高斯混合。

最后，我们通过反向传播（BP）通过随机梯度下降（SGD）方案优化了三个目标：

在这里插入图片描述

实验

对于我们的经验实验，我们使用了10组70000位图像的MNIST数据集。在整个实验中，我们使用了Xie等人的相同架构。（2015）和Jiang等。（2016）D-500-500-2000-d（D是输入空间的维数，例如MNIST的784，d = 10是代码空间的维数）用于公平比较。此外，我们将d-100-10-1神经网络体系结构用于鉴别器，从而将尺寸为d的代码作为输入，并以一个概率作为从真实数据点或生成的随机向量的输出。
在这里插入图片描述