深层高斯混合自动编码器用于聚类 DAC 总结

深层高斯混合自动编码器用于聚类

概述

出于聚类目的的特征表示包括将输入空间显式隐式映射到易于聚类或分类的特征空间上。

本文依靠对抗性自动编码器作为构建适合聚类的低维代码空间的一种手段。我们在该空间之前施加了可调高斯混合,从而允许同时进行优化方案。我们得出了手写数字图像(MNIST)上具有竞争力的无监督分类结果,该结果通常在有监督框架内进行分类。

在本文中,通过结合自动编码器(Vincent等人,2010)和高斯混合模型(McLachlan&Peel,2004)在代码空间中实现聚类。我们提出了一种算法,用于使用对抗性自动编码器框架(称为“ DAC”)进行深度对抗性聚类,以执行无监督聚类。确实,我们假设生成方法(即调高斯混合模型)可以在原始空间中捕获显式的潜在模型,这是观测数据的来源。

深层高斯混合自动编码器用于聚类 DAC

在我们的方法中,嵌入步骤的作用是使数据表示比在初始空间中更易于分类。 我们选择GMM的原因是其良好的理论特性(Fraley&Raftery,2002; Biernacki等,2000)。 此外,众所周知,这种聚类算法在低维设置中效果更好,这激发了我们使用自动编码器在此处执行的降维。

在聚类中,我们有一个点(x1,…,xi,…,xn)的数据集,其中每个数据点xi都生活在D维空间中。首先,我们建立一个自动编码器,该编码器由基于神经网络的编码器E和分别由θE和θD参数化的解码器D组成。编码器E将数据点从其原始空间映射到代码d维空间(d <D)。解码器D将它们从代码空间映射回原始空间,以使每个数据点xi通过编码器和解码器D(E(xi))xi xi大致重构。这个想法是,如果重建可行,那么我们就压缩了每个示例的信息而不会造成太多损失。

第二,类似于Makhzani等人的工作。 (2015年),我们对系统添加了一个对抗部分:
(i)基于高斯混合的随机生成器H,对于k = 1…K,其比例(πk),均值(μk)和协方差矩阵(Σk)K由θH参数化。这种生成的随机向量的实例记为zi,并且生活在与上述相同的代码d维空间中。

(ii)基于神经网络的对抗性鉴别器A,其权重和偏差由θA参数化,其作用是连续迫使代码空间先于高斯混合。

最后,我们通过反向传播(BP)通过随机梯度下降(SGD)方案优化了三个目标:

在这里插入图片描述

实验

对于我们的经验实验,我们使用了10组70000位图像的MNIST数据集。 在整个实验中,我们使用了Xie等人的相同架构。 (2015)和Jiang等。 (2016)D-500-500-2000-d(D是输入空间的维数,例如MNIST的784,d = 10是代码空间的维数)用于公平比较。 此外,我们将d-100-10-1神经网络体系结构用于鉴别器,从而将尺寸为d的代码作为输入,并以一个概率作为从真实数据点或生成的随机向量的输出。
在这里插入图片描述

图1:生成的数字图像。 从左到右,我们有十个由DAC找到的类,并通过匈牙利算法对其进行了排序。 从上到下,我们从质心向随机方向走得越来越远(第一行是解码的质心)。

结果

DAC的结果优于表(1)中的最新技术。 借助Ensemble聚类方法,该方法将来自多个随机初始化的多个输出进行组合,从而使准确性进一步提高。
在这里插入图片描述
我们的实验表明,由于基于自动编码器,因此自动编码器可显着改善所有聚类结果。 此外,我们的对抗性贡献优于所有以前的算法。

在图(1)的第一行上,我们显示了已解码的GMM重心,每个重心对应于一组数字。 在其他行上,我们离质心越来越远,可以看到数字的样式随着垂直轴的变化而变得更奇特。

结论

在上面提出的算法的上下文中,某些共生确实在聚类和非线性嵌入之间进行,同时保留了重构能力。 可以进行改进的主要目的是克服对抗部分,在线高斯混合模型和更好的自动编码器方面的问题。

发布了64 篇原创文章 · 获赞 9 · 访问量 4353

猜你喜欢

转载自blog.csdn.net/Avery123123/article/details/103314246
今日推荐