Abstract

用于无监督视觉表示学习的对比学习方法已经达到了显著的迁移性能水平。我们认为对比学习的力量尚未完全释放，因为当前的方法仅在实例级前置任务上进行训练，导致表示对于需要密集像素预测的下游任务可能不是最佳的。在本文中，我们介绍了用于学习密集特征表示的像素级前置任务。第一项任务直接在像素级别应用对比学习。我们还提出了一个 像素到传播pixel-to-propagation 的一致性任务，它可以产生更好的结果，甚至大大超过了最先进的方法。具体来说，当迁移到使用 ResNet-50 骨干网络的 Pascal VOC 目标检测（C4）、COCO 目标检测（FPN/C4）和 Cityscapes 语义分割时，它实现了 60.2 AP、41.4 / 40.5 mAP 和 77.2 mIoU，比以前基于实例级对比学习的最佳方法好 2.6 AP、0.8 / 1.0 mAP 和 1.0 mIoU。此外，像素级前置任务被发现不仅对常规主干网络的预训练有效，而且对用于密集下游任务的头部网络也有效，并且是对实例级对比方法的补充。这些结果证明了在像素级别定义前置任务的强大潜力，并为无监督视觉表示学习提出了一条新的前进道路。

代码可在 https://github.com/zdaxie/PixPro 获得。

1. Introduction

根据 Yann LeCun 的说法，“如果智能是一块蛋糕，那么蛋糕的大部分是无监督学习”。这句话反映了他的信念，即人类对世界的理解主要是从其中大量未标记的信息中学习的。机器智能的研究越来越多地朝着这个方向发展，在无监督和自监督学习方面取得了实质性进展[34、18、25、8、30]。在计算机视觉中，最近的进展在很大程度上可以归因于 称为实例辨别的前置任务的使用，该任务将训练集中的每个图像视为一个单独的类，并旨在学习区分所有类的特征表示。

尽管自监督学习已被证明非常成功，但我们认为仍有大量未开发的潜力。在当前方法中指导表示学习的自监督是基于图像级比较。因此，预训练表示可能非常适合图像级推理，例如图像分类，但可能缺乏需要像素级预测的下游任务所需的空间灵敏度，例如目标检测和语义分割。如何在像素级别执行自监督表示学习是一个迄今为止相对未被探索的问题。

在本文中，我们通过引入用于自监督视觉表示学习的像素级前置任务来解决这个问题。受最近的实例辨别方法的启发，我们的第一个尝试是构建一个像素级对比学习任务，其中图像中的每个像素都被视为一个类，目标是将图像中的每个像素与其他像素区分开来。来自同一像素的特征通过包含该像素的两个随机图像裁剪提取，这些特征用于形成正训练对。另一方面，从不同像素获得的特征被视为负对。通过以这种自监督的方式收集的训练数据，应用对比损失来学习表示。我们将这种方法称为 PixContrast。

除了这种对比方法之外，我们还提出了一种 基于像素到传播一致性的方法，其中通过两个非对称流程 从同一像素中提取特征来获得正对。第一条流程是带有投影头的标准骨干网络。另一个具有类似的形式，但以提出的像素传播模块结尾，该模块通过 向像素传播相似像素的特征来过滤像素的特征。这种过滤 引入了一定的平滑效果，而标准特征 保持了空间敏感性。

这种方法与 PixContrast 的对比方法的不同之处 在于它 鼓励正对之间的一致性而不考虑负对。虽然已知对比学习的性能在很大程度上受到负对处理方式的影响 [18, 8]，但在这种基于一致性的前置任务中避免了这个问题。根据经验，我们发现这种我们称之为 PixPro 的像素到传播一致性方法在各种下游任务上明显优于 PixContrast 方法。

除了学习良好的像素级表示之外，所提出的像素级前置任务被发现不仅对骨干网络而且对用于密集下游任务的头部网络的预训练都有效，与实例级判别相反，在实例级判别中，只有主干网络被预训练和迁移。这对于注释数据有限的下游任务特别有利，因为所有层都可以很好地初始化。

此外，所提出的像素级方法是对现有实例级方法的补充，前者擅长学习空间敏感表示，后者提供更好的分类能力。这两种方法的结合利用了它们的优势，同时在预训练中保持计算效率，因为它们都可以共享数据加载器和骨干编码器。

提出的 PixPro 在需要密集预测的常见下游基准上实现了最先进的迁移性能。具体来说，使用 ResNet-50 主干，它在使用 Faster R-CNN 检测器（C4 版本）的 Pascal VOC 目标检测上获得 60.2 AP，在使用 Mask R-CNN 检测器（FPN / C4 版本，1× 设置）和使用 FCN 方法的 77.2 mIoU Cityscapes 语义分割，比领先的无监督/监督方法好 2.6 AP、0.8 / 1.0 mAP 和 1.0 mIoU。尽管 过去对无监督表示学习的评估大多偏向于 ImageNet 上的线性分类，但我们提倡将注意力转移到下游任务的性能上，这是无监督表示学习的主要目的，也是像素级方法的有前途的设置。

2.相关作品

Instance discrimination 实例辨别

无监督视觉表征学习目前由实例辨别的前置任务支配，该任务将每个图像视为单个类，并通过将每个图像与所有其他图像区分来学习表征。这条研究路线可以追溯到[14]，经过多年的发展[34，29，21，38，1，35]，MoCo [18]在一系列下游任务中实现了优于监督方法的迁移性能。在这个里程碑之后，相当多的注意力都集中在这个方向上[8，30，3，17，5]。虽然后续工作已经使用ResNet-50主干将ImageNet-1K上的线性评估精度(top-1) 从大约60% [18] 快速提高到75% [5]以上，但 对下游任务(如Pascal VOC和COCO上的目标检测)的改进仍然微不足道。

我们的工作不是使用实例级别的前置任务，而是 在像素级别探索前置任务，用于无监督的特征学习。我们专注于将性能迁移到下游任务，如目标检测和语义分割，这在先前的研究中得到了有限的考虑。我们表明，像素级表示学习可以大大超过现有的实例级方法，证明了这一方向的潜力。

使用单个图像的其他前置任务

除了实例辨别之外，还存在许多其他前置任务，包括上下文预测[13]、灰度图像着色[36]、拼图解决[26]、split-brain 自动编码[37]、旋转预测[16]、学习聚类[4] 和缺失部分预测[21、32、7]。由于这些无监督特征学习任务的性能较差，且在架构或训练策略方面更为复杂，因此对这些任务的兴趣已大幅下降。在这些方法中，与我们最相关的方法是缺失部分预测[21，32，7]，其灵感来自自然语言处理中成功的前置任务[12，2]。像我们的像素传播一致性技术一样，这种方法也在局部运行。然而，它们要么将图像分割成patches [32，21]，要么 需要特殊的架构/训练策略 才能很好地执行[21，7]，而 我们的方法直接对像素进行操作，对编码网络没有特殊要求。用我们的方法进行训练也很简单，几乎没有花里胡哨(bells and whistles)。更重要的是，我们的方法在重要的密集预测任务（目标检测和语义分割）上实现了最先进的迁移性能。

3. Method

3.1. Pixel-level Contrastive Learning 像素级对比学习

最先进的无监督表示学习方法都建立在实例辨别的前置任务上。在本节中，我们展示了实例判别的思想也可以应用于像素级别，用于学习能够很好地推广到下游任务的视觉表示。我们采用普遍的对比损失 来 实例化像素级判别任务，并将此方法称为PixContrast。

与大多数实例级对比学习方法一样，PixContrast 首先从同一图像中采样两个增强视图。这两个视图都被调整为固定分辨率（例如，224×224），并通过常规编码器网络和动量编码器网络[18，9，17] 来计算图像特征。编码器网络由骨干网络和投影头网络组成，前者可以是任何图像神经网络( 我们默认采用ResNet )，后者由两个连续的1 × 1卷积层(分别为2048和256个输出通道)组成，中间有一个批归一化层和一个ReLU层，以 产生具有一定空间分辨率 (例如7 × 7) 的图像特征图。虽然先前的方法为每个增强视图计算单个图像特征向量，但 PixContrast 计算可以应用像素级前置任务的特征图。然后，学习的主干表示用于特征转移。图2展示了该体系结构。

像素对比

利用从两个视图计算的两个特征图，我们可以构建用于表征学习的像素对比前置任务。首先将特征图中的每个像素扭曲到原始图像空间，并且 计算来自两个特征图的所有像素对之间的距离。距离被归一化为特征图bin 的对角线长度，以 考虑增强视图之间的比例差异，并且归一化距离用于生成正和负样本对，基于阈值T:

其中 i 和 j 是来自两个视图中的每一个的像素；dist（i，j）表示原始图像空间中像素 i 和 j 之间的归一化距离；并且阈值默认设置为T＝0.7。

与实例级对比学习方法类似，我们采用了表征学习的对比损失：

其中 i 是第一视图中也位于第二视图中的像素；和是第二视图中相对于像素i 分别被指定为正和负的像素集合；xi 和 xj' 是两个视图中的像素特征向量；τ是标量温度超参数，默认设置为0.3。损失是第一个视图中位于两个视图相交处 所有像素的 平均值。类似地，还计算并平均第二视图上的像素 j 的对比损失。最后的损失是小批量中所有图像对的平均值。

如稍后的实验所示，将实例级对比学习直接扩展到像素级在表示学习中表现良好。

3.2. Pixel-to-Propagation Consistency 像素传播一致性

学习表示的 空间灵敏度 和 空间平滑度 可能影响需要密集预测的下游任务的迁移性能。

前者衡量 区分空间上接近的像素的能力，这是在标签改变的边界区域进行准确预测所需的。

后一个属性 鼓励空间上接近的像素相似，这可以帮助预测属于同一标签的区域。

上一小节中描述的 PixContrast方法只鼓励学习的表示具有空间敏感性。在下文中，我们提出了一个新的像素级前置任务，该任务在表示学习中另外引入了空间平滑度。

这个新的前置任务 涉及两个关键部分。

第一个是像素传播模块，它通过向像素传播相似像素的特征来过滤像素的特征。这种传播对学习的表示 具有特征去噪/平滑效果，从而在像素级预测任务中 导致像素之间的更加一致的解。

第二个组件是非对称架构设计，其中一个分支生成常规的特征图，而另一个分支包含像素传播模块。

前置任务 寻求来自两个分支的特征之间的一致性，而不考虑负样本对。一方面，由于常规分支，这种设计在一定程度上保持了所学表示的空间敏感性。另一方面，虽然已知对比学习的表现受到负样本对处理的严重影响 [18，8]，但 不对称设计 使表征学习 仅依赖于正样本对之间的一致性，而不面临仔细调整负样本对的问题[17]。我们将此前置任务称为 pixel-to-propagation consistency 像素到传播一致性（PPC），并在下面描述这些主要组件。

像素传播模块

对于每个像素特征 xi，像素传播模块 通过从同一图像Ω中的所有像素xj 传播特征 来计算其平滑变换 yi，如

其中 s(·, ·) 为相似度函数 定义为

以γ为指数，控制相似函数的锐度，默认为2；g(·)是一个转换函数，可以由 l 个线性层实例化，两个连续层之间为批归一化和ReLU层。当 l = 0时，g(·)为恒等函数，Eq(3)为非参数模块。根据经验，我们发现 l ={0,1,2} 的性能都很好，我们默认设置l = 1，因为它的结果略好。图3说明了所提出的像素传播模块。

像素到传播的一致性损失

在非对称架构设计中，有两种不同的编码器：一种是常规编码器，其后应用像素传播模块以产生平滑的特征，另一种是不带传播模块的动量编码器。两个增强视图都通过两个编码器，并且鼓励来自不同编码器的特征保持一致：

其中 i 和 j 是根据等式（1）中的分配规则来自两个增强视图的 正像素对； xi' 和 yi 分别是动量编码器和传播编码器的 像素特征向量。这种损失对每个图像的所有正对进行平均，然后进一步对小批次图像进行平均以驱动表示学习。

与 PixContrast 的比较

像素到传播一致性(PPC)方法的整体架构 如图2所示。与3.1节中描述的PixContrast方法(参见图2中的蓝色损失)相比，有两个不同之处：引入了像素传播模块(PPM)，并 用一致性损失代替了对比损失。表2(c)和表3表明，这两种变化对特征的迁移性能都至关重要。

计算复杂度

所提出的 PixContrast 和 PixPro 方法采用与基于实例辨别的表示学习方法相同的数据加载器和主干结构。因此，预训练中的计算复杂度与对应的实例级方法(即BYOL [17])的计算复杂度相似：使用ResNet-50主干架构的8.6G与8.2G FLOPs，其中 head 和 loss 产生约0.4G FLOPs开销。

3.3.将预训练与下游网络对齐

以前的视觉特征预训练方法 通常仅限于分类主干。对于有监督的预训练，即通过 ImageNet 图像分类前置任务，标准做法是仅将预训练的骨干特征迁移到下游任务。最近的无监督预训练方法延续了这种做法。一个原因是预训练方法在 实例级别 运行，这使得它们与头部网络下游任务所需的密集预测不太兼容。

相比之下，像素级前置任务的细粒度空间推理更自然地与密集的下游任务对齐。为了检验这一点，我们考虑了一种用于密集 COCO 检测的目标检测方法 FCOS [31]。 FCOS [31] 应用从 P3（8 倍下采样）到 P7（128 倍下采样）[22] 的特征金字塔网络（FPN），随后是 ResNet 主干的输出特征图上的两个独立的卷积头网络（所有金字塔层级共享）以产生分类和回归结果。

从输入图像到头部的第三个 3×3 卷积层，我们采用相同的架构。在 FPN 中，我们涉及从 P3 到 P6 的特征图，由于分辨率太低而省略了 P7。具有共享权重的像素传播模块 (PPM) 和第 3.2 节中描述的像素传播一致性 (PPC) 损失应用于每个金字塔级别。最终损失首先在每个金字塔层级上平均，然后在所有金字塔上平均。

预训练用于下游任务的 FPN 层和头部网络 通常可以提高迁移精度，如表 5 和表 6 所示。

3.4 结合实例对比

所呈现的像素级前置任务采用与最先进的实例级辨别方法 [18、17] 相同的 data loader 数据加载器和编码器，从每个图像中采样两个增强视图并将其馈送到主干编码器。因此，我们的像素级方法可以通过共享相同的数据加载器和骨干编码器，方便地与实例级前置任务相结合，而预训练开销很小。

具体来说，实例级前置任务应用于 res5 阶段的输出，使用独立于像素级任务的投影头。在这里，我们使用流行的实例级方法 SimCLR [8]，并使用动量编码器与像素级前置任务对齐。在这种组合中，像素级和实例级前置任务的两个损失 由乘法因子 α（默认设置为 1）平衡，如

一般来说，这两个任务是互补的：像素级前置任务学习有利于空间推理的表示，而实例级前置任务有利于学习分类表示。表 4 显示，额外的实例级对比损失可以显著改善 ImageNet-1K 线性评估，表明学习了更好的分类表示。可能是因为更好的分类能力，它在 FCOS [31] COCO 目标检测的下游任务中实现了显著提高的迁移精度（大约 1 mAP 改进）。

4. Experiments

4.1. Pre-training Settings

数据集

我们采用广泛使用的 ImageNet-1K [11] 数据集进行特征预训练，其中包含约 128 万张训练图像。

架构

根据最近的无监督方法 [18、17]，我们采用 ResNet-50 [20] 模型作为我们的骨干网络。两个分支使用不同的编码器，一个使用常规主干网络和常规投影头，另一个使用具有常规主干网络和投影头参数移动平均值的动量网络。所提出的像素传播模块 (PPM) 应用于常规分支。还在一些实验中测试了具有 P3-P6 特征图的 FPN 架构。

数据增强

在预训练中，数据增强策略遵循[17 BYOL]，其中图像中的两个随机裁剪被独立采样并通过随机水平翻转调整为 224×224，然后是颜色失真、高斯模糊和曝光操作。我们跳过没有重叠的裁剪对的损失计算，它们只占所有裁剪对的一小部分。

优化 Optimization

我们将训练长度从 50 到 400 个epoch不等，并在我们的消融研究中使用 100 个时期的训练。在训练中采用具有余弦学习率调度器和 1.0 基础学习率的 LARS optimizer，其中 学习率与批大小线性缩放为 lr = lrbase × #bs/256。权重衰减设置为 1e-5。总批量大小设置为 1024，使用 8 个 V100 GPU。对于动量编码器，动量值从 0.99 开始增加到 1，遵循[17] 。在训练期间启用 Synchronized batch normalization 同步批归一化（SyncBN）。

4.2.下游任务和设置

我们评估了四个下游任务的特征迁移性能：Pascal VOC [15] 上的目标检测、COCO [23] 上的目标检测、Cityscapes [10] 上的语义分割和 COCO [28] 上的半监督目标检测。在一些实验中，我们还报告了 ImageNet-1K [11] 线性评估性能以供参考。

Pascal VOC 目标检测

我们严格遵循 [18] 中介绍的设置，即具有 ResNet50-C4 主干的 Faster R-CNN 检测器 [27]，它使用 conv4 特征图来生成目标提议，并使用 conv5 stage 进行建议分类和回归。在微调中，我们同步所有批归一化层并优化所有层。在测试中，我们在 test2007 集上报告 AP、AP50 和 AP75。 Detectron2 [33] 用作代码库。

COCO 目标检测和实例分割

我们分别采用具有 ResNet50 FPN 和 ResNet50-C4[19，22]骨干的Mask R-CNN检测器。在优化中，我们遵循1×设置，同步所有批次标准化层，并微调所有层[18]。我们采用Detector2[33]作为这些实验的代码库。

我们还考虑了具有完全卷积架构的其他检测器，例如FCOS[31]。对于这些实验，我们遵循1×设置，并使用 mmdetection 代码库[6]。

半监督目标检测

我们还检查了COCO上用于目标检测的半监督学习。为此，从训练集随机采样的一小部分（1%-10%）图像被分配标签并用于微调。对每种方法的五次随机试验结果进行平均。

ImageNet-1K线性评估

在该任务中，我们 固定预训练的特征，仅微调了一个额外的线性分类层，完全遵循 MoCo 的设置[18]。我们报告这些结果以供参考。

4.3. Main Transfer Results 主要迁移结果

表1将所提出的方法与先前的4个下游任务的无监督预训练方法进行了比较，这些方法都需要 密集预测。我们的 PixPro 在Pascal VOC目标检测（R50-C4）、COCO目标检测（R40-FPN/R50-C4）和 Cityscapes语义分割（R50）上实现了60.2 AP、41.4/40.5 mAP和77.2 mIoU。它在 Pascal VOC上以2.6 AP、COCO上以0.8/1.0 mAP 和 Cityscapes上以1.0 mIoU 的表现优于之前的最佳无监督方法。

4.4. Ablation Study 消融研究

我们使用Pascal VOC（R50-C4）和 COCO 目标检测（R50-FPN）任务进行消融研究。在一些实验中，包括 FCOS检测器在COCO上的结果和半监督结果。

PixPro的超参数

表2 检查了 PixPro 对超参数的敏感性。对于每个超参数的消融，我们将所有其他超参数固定为以下默认值：C5的特征图，距离阈值T=0.7，锐度指数γ=2，像素到传播模块的转换层数 l=1，训练长度为100个时期。

表2（a-b）使用 C5 和 P3 的特征图 消融了距离阈值。对于这两种情况，T=0.7 会产生良好的性能。由于P3的分辨率更大，结果更稳定。

表2（c）消融了锐度指数γ，其中 γ=2 显示了最佳结果。过于平滑或过于尖锐的相似性函数会损害迁移性能。

表 2 (d) 消融了 g(·) 中的变换层数，其中 l=1显示出比其他层稍好的性能。注意，l＝0在像素传播模块（PPM）中没有可学习的参数，也表现得相当好，而移除PPM模块会导致模型崩溃。PPM模块中的平滑操作 引入了相对于其他常规分支的不对称性，从而避免了崩溃[17]。

表 2 (e) 消融了特征图的选择。可以看出，使用 P3 和 P4 的更高分辨率特征图与使用 C5 的性能相似。使用所有 P3-P6 特征图显著提高了 COCO 目标检测的迁移精度，但在 Pascal VOC 目标检测上不如其他方法。由于 Pascal VOC 数据集使用 ResNet-C4 主干，而 COCO 数据集使用 ResNet-FPN 主干，这一结果表明预训练和下游任务之间的一致架构可能会提供更好的结果。

表 2 (f) 消融了训练长度的影响。增加训练长度通常会带来更好的迁移性能。我们的最大训练长度是 400。与 200 个 epoch 训练相比，它在 Pascal VOC 上带来了 0.7 的 AP 增益，而在 COCO 上几乎饱和。我们将在未来的工作中检查更长时间训练的结果。

PixPro 和 PixContrast 的比较

表 3 消融了 PixContrast 在不同 τ 和有/没有像素传播模块 (PPM) 的情况下的迁移性能。它还包括使用/不使用 PPM 的 PixPro 方法的结果。可以看出，虽然 PixContrast 方法实现了合理的迁移性能，但 PixPro 方法更好，特别是在 Pascal VOC 和 COCO 上分别比 PixContrast 方法好 0.7 AP 和 2.0 mAP。

包含像素传播模块 (PPM) 会导致 PixContrast 方法的性能下降，这可能是因为 过度平滑。相比之下，对于 PixPro，添加 PPM 可将 Pascal VOC 上的迁移性能提高 0.8 AP，在 COCO 上提高 1.1 mAP，并避免使用超参数 τ。请注意，虽然直接删除 PPM 会导致模型崩溃，但我们添加了一个线性转换层来避免此类崩溃问题。另请注意，这种空间平滑度在表示学习中的好处也在表 2(c) 中得到证明，其中太平滑或太尖锐的相似性函数会损害迁移性能。

结合实例级对比方法

表 4 消融了将所提出的 PixPro 方法与用于表示学习的实例级前置任务 (SimCLR*) 相结合的效果。由于数据加载器和编码器的共享，该组合需要边际增加的计算。可以看出，额外的实例级前置任务可以显著提高 ImageNet-1K 上的线性评估精度，同时保持 COCO（mask R-CNN R50-FPN）和 Pascal VOC 上的迁移精度。我们还观察到在某些任务上 1.2 mAP 的显著传输改进，例如，COCO 上的 FCOS [31]，如表 5 所示。

头部网络预训练效果

表 5 消融了 COCO 目标检测的头部网络预训练（或使用与微调任务中更相似的架构）。对于 COCO 目标检测，我们使用完全卷积的 FCOS 检测器。我们使用额外的 FPN 架构评估迁移性能，这是一个包含三个连续卷积层的头部网络。可以看出，更多的预训练层导致下游任务的迁移精度更高。

半监督目标检测结果

表 6 显示了在 COCO 上使用 1% 和 10% 标记数据的半监督结果。测试了 Mask R-CNN (R50-FPN) 检测器。我们最好的预训练模型比以前的实例级监督/无监督方法表现得更好。使用 1% 和 10% 的训练数据时，增益分别为 +3.9 mAP 和 +2.3 mAP。

结果表明 在预训练和下游任务之间对齐网络 的优势。在预训练中包括额外的 FPN 层比仅预训练普通骨干网络的方法带来 +0.9 和 +0.7 mAP 增益（14.1 和 26.6 对比 13.2 和 25.9）。

在 ImageNet-1K 预训练之后，我们还包括一个额外的 COCO 预训练阶段，使用提出的像素级前置任务 120 个时期。当分别使用 1% 和 10% 的训练数据时，它会导致额外的 +0.7 mAP 增益和 +0.2 mAP 增益。当只有稀缺的标记数据可用时，直接对下游未标记数据进行额外的预训练可能有利于学习。

5. Conclusion

本文探讨了 使用像素级前置任务来学习密集特征表示。我们首先直接在像素级别应用对比学习，从而在需要密集预测的下游任务上实现合理的迁移性能。我们另外提出了一个像素到传播一致性任务，它在表示学习过程中引入了一定的平滑先验，并且不需要处理负样本。这种名为 PixPro 的方法在将学习到的表示转移到 Pascal VOC（Faster R-CNN R50-C4）和 COCO 对象检测（mask R-CNN R50FPN / R50- C4)，比之前最好的有监督/无监督预训练方法好2.6 AP和0.8 / 1.0 mAP。这些结果证明了在像素级别定义前置任务的强大潜力，并为无监督视觉表示学习提出了一条新的前进道路。作为在单个图像上学习更强表示的通用前置任务，所提出的方法也适用于视频和多模态信号的视觉表示学习。

【自监督论文阅读笔记】Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representat