Unsupervised Visual Representation Learning by Context Prediction（2015

2015年

仅给定一个大的、未标记的图像集合，我们从每个图像中提取随机的片对，并训练卷积神经网络来预测第二个片相对于第一个片的位置。我们认为，要做好这项工作，需要模型学会识别物体及其组成部分。我们证明了使用这种图像内上下文学习的特征表示确实捕获了跨图像的视觉相似性。

最近，新的计算机视觉方法已经利用了数百万标记样本的大型数据集来学习丰富、高性能的视觉表示[29]。然而，将这些方法扩展到真正互联网规模的数据集(即，数千亿张图像)的努力受到了所需人工注释的巨大费用的阻碍。不幸的是，尽管经过了几十年的不懈努力，无监督的方法还不能从大量全尺寸的真实图像中提取有用的信息。毕竟没有标签，连应该表征什么都不清楚。

这将一个明显无监督的问题(寻找单词之间良好的相似性度量)转化为一个“自监督”的问题:从给定的单词到它周围的单词学习一个函数。

我们的基本假设是，做好这项任务需要理解场景和物体，也就是说，这项任务的良好视觉表示需要提取物体及其角色，以便推理它们的相对空间位置。

尽管是用目标函数一次操作一个图像来训练的，我们的表示概括了所有的图像。也就是说，实例级监督似乎可以提高类别级任务的性能。

考虑好的图像表示的一种方式是作为合适的生成模型的隐变量。一个理想的自然图像的生成模型既要根据图像的自然分布来生成图像，又要简洁，即寻找不同图像的共同原因并在它们之间共享信息。即使对于相对简单的模型来说，推断给定图像的隐结构也是困难的。

无监督表示学习也可以被公式化为学习嵌入(即，每个图像的特征向量)，其中语义相似的图像靠近，而语义不同的图像远离。

我们认为，当前基于重建的算法难以处理底层现象，如随机纹理，甚至难以衡量模型是否生成良好。

这些方法必须解决的关键问题是，预测像素比预测单词困难得多，因为同一语义对象可能产生大量不同的像素。在文本领域，一个有趣的想法是从纯粹的预测任务转换到辨别任务[38，9]。在这种情况下，q前置任务是从随机替换单词的相同片段中辨别出真实的文本片段。

然而，在2维图像领域，这样的任务将是没用的，因为辨别低级别的颜色统计和照明就足够了。为了使任务更加困难和高级，在本文中，我们改为在从同一图像采样的patch的多种可能配置之间进行分类，这意味着它们将共享照明和颜色统计。

从图像进行无监督学习的另一项工作旨在使用手工制作的特征和各种形式的聚类来发现目标类别。这种表征法丢失了形状信息，而且很容易发现树叶的cluster。

我们最终希望学习对单个patch的特征嵌入，使得视觉上相似的patch(跨不同图像)在嵌入空间中是接近的。

在本文中，低层次的线索，如边缘模式或patches间连续的纹理，可能会成为这样的捷径。因此，对于相对预测任务，在patch之间包含一个间隙是很重要的(在本文中，大约是patch宽度的一半)。即使有间隙，跨越长距离的相邻patch也可能给出正确答案。另一个无效解trivial solution是色差，色差是由透镜聚焦不同波长的光的方式不同引起的。一旦网络学习了镜头上的绝对位置，求解相对位置任务就变得微不足道了。

为了计算效率，我们只从网格状的图案中采样patch，这样每个采样的patch可以参与多达8个单独的配对。我们通过(1)均值减法,( 2)投影或丢弃颜色(见上文),( 3)随机地将一些patch向下采样到总共100个像素，然后向上采样，以建立对像素化的鲁棒性。因此，我们的最终实现采用了批标准化，这迫使网络激活因样本而异。

微调后的性能比Imagenet稍差，但仍比从头开始的模型有相当大的提升。

视觉数据挖掘[41，13，47，42]或无监督目标发现[48，44，20]，旨在使用大型图像集合来发现碰巧描述相同语义对象的图像片段。

鸟类和躯干的发现——它们是出了名的可变形——为我们的算法所学习的不变性提供了进一步的证据。

我们的算法相对于[12]的主要缺点是1)一些纯度损失，以及2)我们当前不能自动确定目标遮挡(尽管可以想象动态地向每个候选对象添加更多的子patch)。如图9所示，我们在覆盖率方面取得了实质性的进展，这表明我们所学特征的不变性增加了。

前置任务如此困难的一个可能原因是，对于每个图像中的大部分patches，任务几乎是不可能的。因此，虽然我们的算法对物体很敏感，但它对图像其余部分的布局几乎同样敏感。

Unsupervised Visual Representation Learning by Context Prediction（2015

猜你喜欢