[ICML19] Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

谷歌等一篇名为《挑战无监督分离式表征的常见假设》的论文,表明 (没有归纳偏置的) 无监督方法学不到可靠的分离式表征 (Disentangled Representations) 。本篇是ICML2019的两篇best paper之一。


Abstract

分离式表征的无监督学习背后的关键思想是,真实世界的数据是由几个解释变量生成的,这些变量可以用无监督学习算法恢复。本文对这一领域的最新进展进行了冷静的分析,并对一些常见的假设提出了挑战。我们首先从理论上证明,如果没有模型和数据上的归纳偏差,分离式表征的无监督学习基本上是不可能的。然后,我们训练了超过12000个模型,涵盖了最重要的方法和评估指标,对七个不同的数据集进行了可重复的大规模实验研究。我们观察到,虽然不同的方法成功地执行了相应损失所鼓励的属性,但如果没有监督,似乎无法识别出良好的分离式表征模型。此外,增加分离式表征似乎不会降低下游任务学习的样本复杂度。我们的研究结果表明,未来关于分离式表征学习的工作应该明确归纳偏见和(隐式)监督的作用,研究强制分离式表征的具体好处,并考虑覆盖多个数据集的可重现实验设置。


1. Introduction

在表征学习中,通常假设真实世界的观察x(例如,图像或视频)是由两步生成过程生成的。首先,从一个分布P(z)中抽取一个多变量潜在随机变量z。直观说,z对应于观测值变化的语义意义因素(例如,图像中物体的内容+位置)。然后,在第二步中,从条件分布P(x|z)中采样观察到的x。这个模型背后的关键思想是,高维数据x可以解释为大幅降低维度和语义上有意义的潜变量z映射到高维观测空间x。非正式地,表征学习的目标是找到有用的转换r(x)更容易提取有用的信息在构建分类器或其他因素(Bengio et al ., 2013)。

最近的一项研究表明,被分离的表征是朝着更好的表征学习迈出的重要一步(Bengio et al., 2013;Peters等,2017;LeCun等,2015;Bengio等,2007;Schmidhuber, 1992;Lake等,2017;Tschannen等,2018)。它们应该以紧凑且可解释的结构包含x中呈现的所有信息(Bengio et al., 2013;Kulkarni等,2015;独立于手头的任务时(Goodfellow et al., 2009;Lenc,Vedaldi, 2015)。它们应该对下游任务的(半)监督学习、转移和少量镜头学习有用(Bengio et al., 2013;Scholkopf等,2012;Peters等,2017)。他们应该能够整合出讨厌的因素(Kumar等,2017),进行干预,并回答反事实的问题(Pearl, 2009;Spirtes等,1993;Peters等,2017)。

虽然还没有一个被广泛接受的统一的形式化的分离式概念,但关键的直觉是,分离式表征应该分离数据中不同的、信息丰富的变异因素(Bengio et al., 2013)。zi的单个潜在因子的变化应该导致表征学习r(x)的单个因子的变化。这一假设可以扩展到一系列因素,如Bouchacourt et al.(2018)或Suter et al.(2018)。基于这一思想,利用表征学习与变异的基本真值因子之间的统计关系,提出了多种分离式评估协议。然后将解缠作为一种特殊的结构来测量这些关系的性质(Higgins et al., 2017a; Kim & Mnih, 2018; Eastwood & Williams, 2018; Kumar et al., 2017; Chen et al., 2018; Ridgeway & Mozer, 2018).

最先进的无监督分离式学习方法主要基于变分自编码器(VAEs) (Kingma &Welling, 2014):假设潜在空间上存在一个特定的先验P(z),然后使用深度神经网络对条件概率P(x|z)进行参数化。同样地,分布P(z|x)用变分分布Q(z|x)近似,再用深度神经网络参数化。然后,通过最小化对负对数似然的适当逼近来训练模型。r(x)的表征通常取近似后验分布Q(z|x)的均值。提出了几种不同的VAEs,其动机是它们能导致更好的解缠t (Higgins et al., 2017a; Burgess et al., 2017; Kim & Mnih, 2018; Chen et al., 2018; Kumar et al., 2017; Rubenstein et al., 2018)。所有这些方法背后的共同主题是,它们试图执行分解聚合后\int_{\mathbf{x}} Q(\mathbf{z} | \mathbf{x}) P(\mathbf{x}) d \mathbf{x},这应该会鼓励分离式。

我们的贡献。本文从理论和实践两方面对这一领域中普遍存在的假设提出了挑战。我们的主要贡献可概括如下:

  • 我们从理论上证明(也许并不令人意外),无监督学习的分离式表征是根本不可能的,无论是在考虑的学习方法和数据集归纳偏见。
  • 我们在一项可重复的大规模实验研究中研究了当前的方法及其归纳偏差,该研究采用了完善的无监督解缠学习实验方案。我们实现了六种最新的无监督分离式学习方法以及六种从头开始的分离式措施,并在七个数据集上训练了12000多个模型。
  • 我们发布了disentanglement_lib2,这是一个用于训练和评估分离式表征的新库。由于复制我们的结果需要大量的计算工作,我们还发布了10000多个训练有素的模型,可以作为未来研究的baseline。
  • 我们分析实验结果和共同信仰的挑战在无监督学习解开纠结:(i)而被认为是所有方法证明有效地确保聚合后的各个维度(采样)不相关,我们观察到的尺寸表征(的意思)是相关的。我们没有发现任何证据由于随机种子和超参数似乎比模型的选择更重要,所考虑的模型可用于以无监督的方式可靠地学习分离式表征。此外,如果不访问ground-truth标签,即使允许跨数据集传输良好的超参数值,似乎也无法识别训练有素的模型。(iii)对于所考虑的模型和数据集,我们无法验证以下假设,即解缠对于下游任务是有用的,例如通过降低学习的样本复杂性。
  • 基于这些经验证据,我们提出了进一步研究的三个关键领域:(i)归纳偏差的作用和内隐和外显监督应明确:无监督模型选择仍然是一个关键问题。应证明执行一个具体的概念,以澄清所习得的表象的具体实际利益。(iii)实验应在不同难度的数据集上建立可重复的实验装置。

2. Other related work

与分离式类似,(非线性)独立成分分析(Comon, 1994; Bach & Jordan, 2002; Jutten & Karhunen, 2003; Hyvarinen & Morioka, 2016)研究了信号中独立分量的恢复问题。其基本假设是存在一个生成模型,该模型由统计独立的非高斯分量组合而成。虽然线性ICA的可识别性结果(Comon, 1994)被证明是经典因子分析理论的一个里程碑,但对于非线性情况,通常无法获得类似的结果,并且无法识别产生数据的潜在来源(Hyvarinen &Pajunen, 1999)。非线性ICA中几乎没有任何可识别的结果,这一直是该方法(Hyvarinen et al., 2018)和部分激励的替代机器学习方法(Desjardins et al., 2012;Schmidhuber, 1992;科恩,威林,2015)。考虑到无监督算法最初在现实场景中表现不佳,其他大多数作品都考虑了某种或多或少显式的监督形式(Reed et al., 2014;朱等,2014;杨等,2015;Kulkarni等,2015;张等,2015;马蒂厄等,2016;Narayanaswamy等,2017;Suter等,2018)。(Hinton等,2011;科恩,Welling, 2014)假设一些关于变量的影响因素的知识,即使它们没有被观察到。还可以利用不同样本中已知因素之间的关系(Karaletsos et al., 2015;Goroshin等,2015;惠特尼等,2016;Fraccaro等,2017;丹顿,Birodkar, 2017;许等,2017;极为不满,或显式归纳偏差(Locatello等2018)。这并不是一个有限的假设,尤其是在序列数据中。,视频。我们的研究集中在变化因素完全不可观测的情况下,即我们只观察来自P(x)的样本。


3. Impossibility result

我们研究的第一个问题是,无监督解缠学习是否可能用于任意生成模型。定理1本质上表明,如果没有模型和数据集上的归纳偏差,这个任务基本上是不可能完成的。证据见附录A。

Theorem 1. 对于d> 1,让\mathbf{z} \sim P表示允许任何密度p(\mathbf{z})=\prod_{i=1}^{d} p\left(\mathbf{z}_{i}\right)的分布。那么,存在一个无限的双射函数族f : \operatorname{supp}(\mathbf{z}) \rightarrow \operatorname{supp}(\mathbf{z})\frac{\partial f_{i}(\boldsymbol{u})}{\partial u_{j}} \neq 0,使得对于所有i和j(即z和f(z)完全分离),对于所有u \in \operatorname{supp}(\mathbf{z})P(\mathbf{z} \leq \boldsymbol{u})=P(f(\mathbf{z}) \leq \boldsymbol{u})(即,它们的边缘分布相同)。

考虑一下通常使用的直观的解缠概念,该概念主张一个基本真理因素的变化应该导致表征法的一个变化。在这种情况下,定理1暗示无监督分离式学习对于任意的生成模型是不可能的,它有一个因子分解的先验3:假设我们有p(z)和一些p(x|z)定义一个生成模型。考虑任意一种无监督解缠方法,并假设它在生成模型中找到了一个相对于z完全分离式表征r(x)。然后,定理1意味着有一个等效生成模型与潜变量z = f (z) z是完全分离对z也因此r (x):所有条目在f的雅可比矩阵非零,改变单一维度的z z变化意味着所有维度。此外,由于f是确定性的,且p(z) = p(z)几乎在所有地方,两个生成模型通过构造得到的观测x的边际分布相同,即, P(x) = R P(x |z) P(z)dz = R P(x |z) P(z)dz。由于(无监督)解缠方法只能访问观测值x,因此无法区分两个等价的生成模型,因此必须分离至少其中一个。

对于熟悉因果关系和ICA文献的读者来说,这可能并不奇怪,因为这与下面的论点是一致的:在观察x之后,我们可以构造无限多个生成模型,它们都具有相同的x的边际分布。这些模型中的任何一个都可以是数据真正的因果生成模型,仅给出x的分布不能确定正确的模型(Peters et al., 2017)。在非线性ICA (Hyvarinen &Pajunen, 1999)。定理1的主要新颖之处在于,它允许显式构造潜在空间z和完全分离在一起的z (Bengio et al., 2013)。我们注意到,虽然这个结果对于多元高斯非常直观,但对于旋转不固定的分布(例如多元均匀分布)也是如此。

虽然定理1表明,对于任意生成模型,无监督解缠学习是根本不可能的,但这并不一定意味着它在实践中是不可能的。毕竟,现实世界的生成模型可能具有某种结构,可以通过适当选择的归纳偏差加以利用。然而,定理1清楚地表明,无论是对于模型(以便我们找到一组特定的解决方案)还是对于数据集(以便这些解决方案匹配真正的生成模型),归纳偏差都是必需的。因此,我们认为归纳偏差的作用应该明确,并在接下来的实验研究中进一步研究。


4. Experimental design

Considered methods. 所有的考虑方法增强VAE损失调整:在β-VAE(希金斯et al ., 2017),介绍了一种hyperparameter KL调整前的香草va约束VAE的容量瓶颈。AnnealedVAE (Burgess et al., 2017)逐步增加了瓶颈容量,这样编码器就可以专注于学习一个变化因素(一个对小重构误差贡献最大的因素)。工厂vae (Kim &Mnih, 2018)和β-TCVAE(陈et al ., 2018)惩罚总相关(渡边,1960)和对抗的训练(Nguyen et al ., 2010;(Sugiyama et al., 2012)或分别使用易于处理但有偏倚的蒙特卡罗估计量。DIP-VAE-I和DIP-VAE-II (Kumar et al., 2017)都对聚合后验和分解前验之间的不匹配进行了惩罚。实现细节和对方法的进一步讨论可以在附录B和G中找到。

Considered metrics. BetaVAE度量(Higgins et al., 2017a)将解缠度作为预测固定变异系数指标的线性分类器的精度来度量。金,Mnih(2018)通过使用不同特征向量上的多数投票分类器来处理FactorVAE度量中使用该度量的几个问题,该特征向量在BetaVAE度量中占一个角情况。互信息差(MIG) (Chen et al., 2018)衡量r(x)中最高坐标与第二坐标之间的互信息归一化差的各变异因子。相反,模块化(山脊路,Mozer, 2018)利用r(x)的相互信息来衡量r(x)的每个维度是否最多依赖于一个变异因子。Ridgeway &的分离式度量Mozer(2018)(为了清晰,我们称之为DCI分离式)通过对表征学习的每个维度的重要性进行标准化,从而计算出分布的熵。SAP评分(Kumar et al., 2017)是每个因素两个最具预测潜力维度预测误差的平均值。实现细节和进一步的描述可以在附录C中找到。

Data sets. 我们考虑四个数据集,其中x作为z的确定性函数得到:dSprites (Higgins et al., 2017a), Cars3D (Reed et al., 2015), SmallNORB (LeCun et al., 2004), Shapes3D (Kim &Mnih, 2018)。我们还介绍了三个数据集,其中x是随机的观测x的变化因素z:彩色dsprites,噪声dsprites和尖叫dsprites。在彩色dsprites中,形状的颜色是随机的。在噪声dsprites中,我们考虑在噪声背景下的白色图形。最后,在Scream- dsprites中,背景被一个随机色块替换,色块的颜色是随机的,颜色是取自著名的《尖叫》(Munch, 1893)。通过反转图像像素的颜色,将dSprites形状嵌入到图像中。有关数据预处理的进一步细节见附录H。

Inductive biases. 为了公平地评估不同的方法,我们将正则化的效果(以模型选择和正则化强度的形式)与其他归纳偏差(例如,神经结构的选择)分开。每个方法都使用相同的卷积体系结构、优化器、优化器的超参数和批大小。所有的方法都使用高斯编码器,其中每个潜在因素的均值和对数方差由深度神经网络参数化,一个伯努利解码器和潜在维数固定为10。我们注意到这些都是之前工作中的标准选择(Higgins et al., 2017a;金,Mnih, 2018)。

我们选择了六种不同的正则化强度,即,为所考虑的每个方法的超参数值。关键的思想是使用足够广泛的集合,以确保每个方法的不同设置都有有用的超参数,而不是专注于已知的用于特定数据集的特定值。然而,这些值部分基于文献中规定的范围(包括作者建议的超参数)。

我们预先修正了我们的实验设置,并在50个不同随机种子的每个数据集上运行所有经过考虑的方法,然后在经过考虑的指标上对它们进行评估。关于实验设置的完整细节在附录g中提供。我们的实验设置、本研究的局限性以及与以前实现的不同之处在附录D-F中进行了广泛的讨论。


5. Key experimental results

在本节中,我们将重点介绍我们的主要发现,并特别挑选了一些图表来代表我们的主要结果。在附录I中,我们为不同的方法、数据集和分离式度量提供了完整的实验结果图。

5.1. Can current methods enforce a uncorrelated aggregated posterior and representation?

虽然许多经过考虑的方法都是为了执行因子分解,从而实现不相关的聚合后验(例如,对采样表征的总相关进行正则化),但是它们使用高斯编码器的均值向量作为表表征示,而不是高斯编码器的样本。这看起来像是一个无关紧要的小改动;然而,不清楚因子分解聚合后验是否也能确保平均表征的维数不相关。为了检验这种影响,我们对每个数据集、模型和超参数值(详见附录C和I.2)计算基于拟合高斯分布的平均值和采样表征形式的总相关性。

图1(左)显示了除颜色dsprites上的AnnealedVAE外,每个方法的正则化强度与采样表征的拟合高斯的总相关关系。我们观察到,样本表征的总相关性一般随正则化强度的增大而减小。另一方面,图1(右)显示了绘制的平均值表征与正则化强度的总体相关性。很明显,均值表征的总体相关性一般随正则化强度的增大而增大。唯一的例外是DIP-VAE-I,我们观察到均值表征的总相关性始终较低。这并不奇怪,因为DIP-VAE-I目标直接优化了均值表征的协方差矩阵是对角的,这意味着相应的总相关(正如我们测量的那样)是低的。我们在附录I.2(特别是图8-9)中考虑了所有不同数据集的详细实验结果证实了这些发现。此外,如果我们考虑表征的不同维度之间的平均互信息而不是总相关,那么我们观察到的模式基本上是相同的(参见附录J中的图26-27)。

Implications.

总的来说,这些结果使我们得出结论,除了少数例外,考虑的方法是有效的强制一个聚合后验,其个体维度不相关,但这似乎并不意味着平均表征的维度(通常用于表征)是不相关的。

5.2. How much do the disentanglement metrics agree?

由于没有单一的、通用的分离式定义,一个有趣的问题是要看看所提议的度量标准在多大程度上是一致的。图2显示了噪声dsprites上不同分离式度量之间的Spearman秩相关性,而附录I.3中的图12显示了所有不同数据集的相关性。我们观察到,除了模块性之外,所有的度量指标在数据集dSprites、Color-dSprites和screen -dSprites上似乎都有很强的相关性,而在其他数据集上相关性较弱。这些度量标准中似乎有两对捕获了特别相似的概念:BetaVAE和FactorVAE评分,以及MIG和DCI解缠。

Implications. 除模块性外,所有的分离式度量似乎都是相关的。然而,不同数据集之间的相关性水平会发生变化。

5.3. How important are different models and hyperparameters for disentanglement?

经过考虑的方法背后的主要动机是,它们应该导致更好的解缠。这就提出了一个问题,解缠是如何受到模型选择、超参数选择和随机性(以不同随机种子的形式)。为了研究这个问题,我们为每个训练过的模型计算所有考虑过的分离式度量。

在图3(左)中,我们展示了Cars3D上每种方法的FactorVAE得分范围。我们观察到这些范围对于不同的模型是严重重叠的,这使得我们(定性地)得出这样的结论:超参数和随机种子的选择似乎比目标函数的选择重要得多。这些结果证实了完整的实验结果在所有的数据集在图13附录I.4:虽然某些模型似乎在特定的数据集和解开纠结达到更好的最高成绩指标,我们不遵守任何一致的模式一直比另一个模型。在这一点上,我们注意到,在我们的研究中,我们预先将每个模型的超参数范围固定为6个不同的值,并且没有根据结果探索额外的超参数(因为这会影响我们的研究)。然而,这也意味着,如果我们选择了一组不同的超参数,特定模型的性能可能比图13(左)中更好。

在图3(右)中,我们进一步展示了随机种子形式的随机性对解缠分数的影响。每个小提琴图显示了因子vae度量在所有50个训练过的因子vae模型上的分布,用于Cars3D上的每个超参数设置。我们清楚地看到,随机性(以不同的随机种子的形式)对获得的结果有很大的影响,并且在很多情况下,一个好的运行与一个坏的超参数可以击败一个坏的运行与一个好的超参数。再次,这些发现与附录I.4图14所示的完整图块一致。

最后,我们进行方差分析,试图预测不同解开纠结分数为每个数据集用普通最小二乘法:如果我们允许分数只取决于目标函数(作为一个分类变量),我们只能够解释37%的平均得分的方差(参见表5在附录I.4详情)。同样的,如果分数依赖于目标函数和正则化强度的笛卡尔积(同样是分类的),我们可以解释59%的方差,而其余的是随机种子。

Implication.

无监督模型的解缠分数受随机(以随机种子的形式)和超参数选择的影响较大(以正则化强度的形式)。目标函数的影响似乎较小。

5.4. Are there reliable recipes for model selection?

在本节中,我们将研究如何选择好的超参数,以及如何区分好的和坏的训练运行。在这篇文章中,我们主张,模型选择不应该依赖于被认为是解开纠结得分有以下原因:无监督学习的点表征分离是没有访问标签,否则我们可以把他们会比较semi-supervised和充分监督方法。本文考虑的所有分离式度量都需要大量的基本真值标签或完整的生成模型(例如BetaVAE和FactorVAE度量)。因此,通过基于(监督的分离式度量调优超参数,可能会严重影响研究结果。此外,我们认为,它不足以解决一组hyperparameters先验然后显示其中一个hyperparameters特定随机种子达到一个好的解开纠结得分,因为它显示一个好的模型的存在,但并不指导从业者找到它。最后,在许多实际环境中,我们甚至可能无法获得足够的标签,因为如果我们考虑到数据模式比图像更不适合人类解释,就很难确定变异的真正潜在因素。

因此,在本节的其余部分中,我们将研究和评估如何选择超参数和良好的模型运行的不同方法。在本研究中,我们重点选择了与损失函数相对应的学习模型和正则化强度。然而,我们注意到,在实践中,这个问题可能更加困难,因为实践者可能还想调优其他建模选择,比如体系结构或优化器。

General recipes for hyperparameter selection. 我们首先研究是否可以找到选择超参数的普遍适用的经验规则。为此,我们在图4(左)中绘制了针对Cars3D数据集上每个模型的不同正则化强度的FactorVAE评分,而附录I.5中的图16显示了所有数据集和分离式度量的相同图。对应的值中值获得的值在50为每个模型随机种子,hyperparameter和数据集。总的来说,似乎没有模型始终主导所有他人,为每个模型似乎并未有一致的战略选择正则化力量最大化解开纠结的分数。此外,即使我们能够确定一个好的目标函数和相应的超参数值,我们仍然不能区分一个好的和一个坏的训练运行。

Model selection based on unsupervised scores. 另一种方法是根据非监督分数来选择超参数,如重建误差、先验和近似后验之间的KL散度、证据下界或样本表征的估计总相关性(均值表征给出了类似的结果)。这样做的好处是我们可以选择特定的训练模型,而不只是良好的超参数设置,其中值训练模型将执行得很好。为了测试这种方法是否有效,我们计算了这些无监督度量与分离式度量之间的秩相关,并在Shapes3D的图4(中心)和附录I.5的图16中给出了所有不同数据集的秩相关。虽然我们确实观察到了一些相关性,但没有清晰的模式出现,这使我们得出结论,即这种方法不太可能在实践中成功。

Hyperparameter selection based on transfer. 我们考虑的超参数选择的最终策略是基于跨数据集传输良好的设置。关键的思想是,好的超参数设置可以在具有可用标签的数据集(如dSprites)上推断出来,然后应用于新的数据集。图4(右)显示了用于DCI解缠的不同数据集之间的秩相关关系(而附录I.5中的图17显示了所有数据集之间的秩相关关系)。我们发现dSprites和Color-dSprites之间有很强的一致性。虽然这些结果表明一些hyperparameters转移是可能的,它不允许我们去区分好的和坏的随机种子在目标数据集。

为了说明这一点,我们比较基于此类转移hyperparameter选择随机模型选择方法如下:首先,我们样品的50个随机种子,一个随机解开纠结指标和一个数据集,使用它们来选择hyperparameter设置达到最高的分数。然后,我们将所选择的超参数设置与基于相同或随机不同度量的相同或随机不同数据集的随机选择模型以及随机抽样的种子进行比较。最后,我们在表1中报告了这种转移策略在10000个试验中优于或与随机模型选择相同的试验的百分比。如果我们选择相同的度量和相同的数据集(但不同的随机种子),我们得到80.7%的得分。如果我们的目标是跨数据集传输相同的度量,我们可以达到59.3%左右。最后,如果我们跨度量和数据集传输,我们的性能将下降到54.9%。

Implications.

无监督模型选择仍然是一个未解决的问题。在度量和数据集之间传递好的超参数似乎不起作用,因为似乎没有无监督的方法来区分目标任务上的好种子和坏种子。

5.5. Are these disentangled representations useful for downstream tasks in terms of the sample complexity of learning?

分离式表征背后的一个关键动机是,它们被假定对稍后的下游任务有用。特别是,有人认为解缠应该导致更好的学习样本复杂性(Bengio et al., 2013;Scholkopf等,2012;Peters等,2017)。在本节中,我们考虑最简单的下游分类任务,其目标是使用多类逻辑回归(LR)或梯度增强树(GBT)从表征学习中恢复变化的真实因素。

图5显示了dSprites上的分离式度量和下游性能之间的等级关联。我们观察到,除了模块化之外,所有指标似乎都与dSprites不同变体的下游性能的提高有关,在一定程度上与Shapes3D有关,但与其他数据集无关。然而,尚不清楚这是由于分离式表征性能更好的事实,还是这些分数中的一些实际上(部分地)也捕获了被评估表征的信息。此外,附录I.6图19中的完整结果表明,其他数据集(如Cars3D)的相关性较弱或不存在。

为了评估样本复杂度参数,我们为每个训练过的模型计算一个统计效率得分,我们将其定义为基于100个样本的平均准确度除以基于10000个样本的平均准确度。图6显示了学习的样本效率(基于GBT)与dSprites上的FactorVAE评分。我们没有观察到更高的解缠分数可靠地导致更高的样品效率。这一发现似乎与附录一.6图20-23的结果一致。

Implications.

虽然本节的实证结果是否定的,但也应谨慎解释。毕竟,我们在前面的小节中已经看到,本研究中考虑的模型不能可靠地生成分离式表征。因此,如果考虑一组不同的模型,例如半监督或完全监督的模型,本节中的结果可能会发生变化。此外,还有许多潜在的有用性概念,如可解释性和公平性,我们没有考虑在我们的实验评估。然而,我们认为,由于缺乏有用的分离式表征的具体例子,因此有必要对分离式方法进行进一步的研究,使这一点更加明确。而之前的工作(Steenbrugge等,2018;Laversanne-Finot等,2018;奈尔等,2018;希金斯等,2017b;2018)成功地应用解开纠结方法如β-VAE各种下游任务,目前尚不清楚,这些方法和训练模型表现良好,因为解开纠结。


6. Conclusions

在这项工作中,我们首先从理论上证明,无监督学习的分离式表征是根本不可能没有归纳偏见。然后我们进行了大规模的实证研究有六个最先进的清理方法,6解开纠结指标7个数据集和结论如下:(i)分解聚合后(采样)似乎并不一定意味着表征的维度(的意思)是不相关的。随机种子和超参数似乎比模型更重要,但调优似乎需要监督。(iii)我们没有观察到,增加解缠意味着下游任务学习的样本复杂度降低。基于这些发现,我们提出了未来研究的三个主要方向

Inductive biases and implicit and explicit supervision. 我们在第3节的理论不可能性结果强调了归纳偏见的必要性,而我们的实验结果表明监督的作用是至关重要的。由于目前在无监督学习中还没有一个可靠的超参数选择策略,我们认为未来的工作应该使归纳偏见和内隐和外显监督的作用更加明显。我们将鼓励和激励未来的工作,以摆脱分离式表征学习偏离静态的,纯无监督的设置考虑在这项工作。有前途的设置(在某种程度上已经探索)例如(i)似乎解开纠结学习与交互(Thomas et al ., 2017),(2)当弱形式的监督如通过分组信息是可用的(Bouchacourt et al ., 2018),或(3)当时间结构学习问题。考虑到非线性ICA (Hyvarinen &盛冈,2016)。

Concrete practical benefits of disentangled representations. 在我们的实验中,我们研究了更高的解缠分数是否会提高下游任务的样本效率,但没有发现证据证明这一点。虽然这些结果只适用于我们研究中使用的设置和下游任务,但我们也没有意识到其他先前的工作强有力地显示了分离式表征的有用性。因此,我们认为,未来的工作应该致力于展示分离式表征的具体好处。可解释性、公平性以及交互设置似乎是评估有用性的特别有希望的候选者。包含归纳偏差、提供可解释性和泛化的一种潜在方法是独立因果机制的概念和因果推理框架(Pearl, 2009;Peters等,2017)。

Experimental setup and diversity of data sets. 我们的研究还强调,为了得出有效的结论,需要在不同的数据集上建立一个健全、健壮和可重复的实验设置。我们注意到,如果只考虑方法、度量和数据集的子集,那么很容易从实验结果中得出错误的结论。因此,我们认为,对未来的工作至关重要的是对各种数据集进行实验,看看结论和见解是否普遍适用。这在解缠学习的设置中尤其重要,因为实验主要是在类似玩具的数据集上执行的。出于这个原因,我们发布了distanglment_lib,这是我们创建的库,用于训练和评估多个数据集上的不同分离式方法。我们还发布了10000多个经过培训的模型,为未来的方法和度量提供了坚实的基线。

发布了261 篇原创文章 · 获赞 137 · 访问量 20万+

猜你喜欢

转载自blog.csdn.net/weixin_37993251/article/details/91813835