Generative Models as a Data Source for Multiview Representation Learning

Generative Models as a Data Source for Multiview Representation Learning

生成模型现在能够产生高度逼真的图像,这些图像看起来与它们所训练的数据几乎没有区别。这就提出了一个问题:如果我们有足够好的生成模型,我们还需要数据集吗?我们在从黑盒生成模型而不是直接从数据中学习通用的视觉表征的背景下研究这个问题。给定一个现成的图像生成器,但不能获得其训练数据,我们从这个生成器输出的样本中训练表征。

我们表明,对于对比性方法来说,这种multiview data 可以自然而然地用于识别positive pairs (在潜空间中很近)和negative pairs(在潜空间中相距很远)。我们发现,所产生的表征可以与那些直接从真实数据中学习到的表征相媲美,但良好的性能需要对所应用的采样策略和训练方法加以注意。生成模型可以被看作是数据集的一个压缩的副本,我们设想,在未来,越来越多的 "model zoos"激增,而数据集变得越来越不方便、缺失或者隐私。本文提出了在这样的未来处理视觉表现学习的几种技术。. Code is released on our project page https://ali-design.github. io/GenRep/

1. Introduction

我们的工作针对的是一个之前很少受到关注的问题环境:如果只接触到一个训练有素的生成模型,而没有接触到训练它的数据集,我们能否学到有效的视觉表征?为此,我们在从预先训练的生成模型中取样的合成数据的背景下,对表征学习进行了探索性研究:我们分析了哪些表征学习算法是适用的,它们的效果如何,以及如何修改它们以利用深度生成网络提供的特殊结构。

在这里插入图片描述

图1. 视觉表征学习通常包括训练一个图像embedding函数,F:x → e。在我们的工作中(下行),我们研究给定一个黑盒生成模型G如何学习表征。生成模型允许我们对连续的合成数据流进行采样学习。通过对输入到模型的潜在向量z进行变换 T z T_z Tz,我们可以创建多个数据 “视图”,作为表征学习者的有效训练数据。

在这里插入图片描述

图2. 对同一 "内容 "创建多个视图的不同方法。(a) SimCLR[8]通过用标准的像素空间(X)数据增量对输入图像进行转换来创建视图(示例图像来自[8])。(b) 有了生成模型,我们可以通过对潜在空间Z中的附近点进行采样来创建视图,利用潜在空间中的附近点往往会产生相同语义对象的图像这一事实。请注意,这些例子都是说明性的,取得最佳效果的实际转换见图5。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XKT31eJC-1624354818369)(003.jpg)]

图1列出了我们研究的框架:我们比较了从真实数据 x ∼ { x i } i = 1 N x∼\{x_i\}^N_{i=1} x{ xi}i=1N和从生成的数据x∼G控制的视觉embedding函数F。我们研究了有和无类标签的生成和表示学习,并根据几个目标测试表示学习者。我们通过对所持有的数据集和任务的转移性能来评估表示。

所持有的数据集和任务的转移性能来评估表示。

对于表征学习来说,我们主要关注的是对比性的方法,这些方法可以学习关联同一场景的多个 “视图”。这些观点可能是共同出现的感觉信号,如图像和声音(例如,[11]),也可能是同一图像的不同增强或转换版本(例如,[2,8])。有趣的是,生成模型也可以创建一个图像的多个视图:通过在其潜伏空间中的转向,他们可以实现相机和颜色的转换[30]以及更多[24,65]。图2显示了目前流行的设置,其中视图作为数据转换生成,与我们关注的设置相比,视图是通过潜在的转换生成的。

おすすめ

転載: blog.csdn.net/weixin_37958272/article/details/118112096