（2022）

Abstract：

无监督预训练旨在学习有利于下游任务的可迁移特征。然而，大多数最先进的无监督方法专注于学习图像级分类任务的全局表示，而不是判别性的局部区域表示，这限制了它们对区域级下游任务（例如目标检测）的可迁移性。为了提高预训练特征到目标检测的可迁移性，本文提出了深度无监督图像块重识别（DUPR），这是一种简单而有效的无监督视觉表示学习方法。

patch Re-ID任务将单个patch视为 pseudo-identity，并在两个视图中对比学习其对应关系，使我们能够获得用于目标检测的有判别性的局部特征。然后本文提出的patch Re-ID 以深度无监督的方式执行，吸引 通常需要多级特征图 的目标检测。大量实验表明，DUPR 在与目标检测相关的各种下游任务上优于最先进的无监督预训练，甚至是 ImageNet 监督预训练。

INTRODUCTION：

当使用深度模型处理计算机视觉问题时，预训练然后微调是一种广泛使用的范式[1]、[2]、[3]、[4]。近年来，目标检测任务中的微调一直由ImageNet监督的预训练控制[1]、[3]、[5]、[6]。然而，在图像级分类预训练和进行区域级预测的目标检测任务之间存在未对齐。消除misalignment 不对齐的一个解决方案[7]是直接在大规模和高质量的目标检测数据集上预先训练表示；但是这种数据集的注释既费时又费力，在某些领域甚至很难获得。

另外，无监督学习的目的是在没有人类注释的情况下预训练表示，这允许我们用大量未标记的数据免费预训练表示[8]，[9]，[10]，[11]，[12]，[13]。其中，对比学习方法[8]、[14]、[15]在图像分类、目标检测、语义分割等许多下游任务中都取得了与ImageNet监督预训练相当的性能。对比学习可以通过最大化正视图对之间的相似性而最小化负视图对之间的相似性来学习视图不变表示。

最近最先进的对比学习方法将同一图像的全局视图作为正对，将不同图像的视图作为负对。精心设计的增强[14]，[16]，包括随机调整大小的裁剪，用于生成这些视图。这样就可以学习全局的空间不变表示，从而有利于分类。例如，分类模型应该对由同一幅图像生成的两个视图预测相同的类别“狗”，在左下角和左上角包含一条狗(见图1)。因此，这两个包含相同对象但位于不同位置的视图应该具有相似的全局表示。通过对比全局视图学习的表示可以编码大量与类别相关的信息，极大地提高了ImageNet线性评价的性能，接近监督分类[14]，[17]，[18]，[19]的精度。

然而，预训练全局表示与区域级下游任务（例如目标检测）之间存在差距。与图像级分类通过全局空间不变特征预测整个图像的类别不同，目标检测是区域级任务，通过区域特征预测多个区域的类别和回归目标。不同位置的区域特征应该是有区别的，因为这些区域的预测目标是不同的。例如，感兴趣的区域(RoIs)被分配为前景或背景类别。此外，在不同位置重叠对象的前景ROIs应该预测不同的回归目标。基于以上原因，特征图中不同位置的特征应该映射到局部特征空间中相距较远的点（见图3）。因此，之前仅在全局平均池化后优化单个特征的方法对于目标检测来说是有问题的，因为它们没有在特征图中学习判别性的局部表示。因此，以前在 ImageNet 分类上具有更高性能的方法并不总是能在目标检测上带来更好的迁移性能 [17]、[19]、[20]（另见表 5）。

此外，以前的工作侧重于在最终层(例如，在32×特征图上)学习判别性特征[8]，[14]。然而，大多数基于深度学习的目标检测器需要从多级表示中提取特征(如FPN [21] 和 PANet [22])。因此，目标检测需要不同特征层的判别性特征，而不仅仅是最终层。

为了解决上述问题，本文提出通过 深度无监督的patch重识别(DUPR) 来 预训练跨多级特征图的区域级区分表示，用于目标检测。patch Re-ID的任务是 匹配两个视图的对应patch标识 (在图1中由相同的数字表示)，这是由在不同观察条件下匹配相机之间的人类身份的行人重识别（person Re-ID）所启发的。通过用 patch Re-ID进行预训练，匹配的patches的特征应该比局部特征空间中的不匹配patches 更相似(见图3)，因此特征图中不同位置处的区域表示是有区别的，并且有利于区域级任务，例如目标检测。

此外，本文提出了一种深度无监督的训练策略来学习多层表示。具体来说，我们从不同的中间层提取特征来 构建图像级和 patch级对比损失。本文的DUPR独立于详细的自监督学习框架。本文简单地采用MoCo框架[8]、[17]和 InfoNCE [23]作为本工作中的损失函数，但patch Re-ID也可用于其他自监督学习框架[14]、[19]。整个流水线如图3所示。

本文的贡献可以总结如下：

• 本文提出了一个名为 patch Re-ID 的自监督前置任务，它学习在两个视图之间匹配相同的 patch 身份以 获得区域级别的判别特征图，这是为目标检测量身定制的。

• 本文提出了一种深度无监督训练策略，以提高预训练模型到目标检测的可迁移性，这需要从多级特征图中提取特征以进行预测。

• 在作为微调的初始化时，本文的 DUPR 预训练优于其他无监督和监督预训练。例如，当在 MS COCO [24] 上微调 Mask R-CNN R-50-FPN 时，DUPR DUPR 在所有不同的迭代中都优于 MoCo v2 [17] 和监督预训练，如图 2 所示。更重要的是，它当作为其他位置敏感任务的微调初始化时，例如 VOC [25]目标检测 (+2.4 APbb 75)、Cityscapes [26] 语义分割 (+1.0 mIoU) 和 LVIS，优于强基线 MoCo v2 [27] 实例分割（+1.0 APmk）。

2 相关工作

2.1 目标检测

目标检测的任务是在图像中定位目标并对其进行分类。与图像级别的分类预测任务不同，目标检测是区域级别的预测任务：它需要 同时对每个区域进行位置回归和对象类别分类。在两阶段目标检测器 [3]、[5] 中，区域特征是通过 RoI Align [3] 从候选框中提取的（通过选择性搜索 [28] 或 RPN [5] 生成）。对于单级目标检测器 [6]、[29]、[30]、[31]，区域特征是从滑动窗口中提取的。

对于图像中的不同区域，预测目标是不同的。对于每个区域，分类分支 通常预测类别的置信度分数（RPN [5] 中的前景和背景，或单级检测器 [6] 和 R-CNN [1] 中的对象类别）。如果一个感兴趣区域（RoI）与真值框的IoU重叠高于阈值，则它被指定为一个正例；否则，它被指定为负例。因此，类别预测目标对区域的变化敏感 (当IoU从低于阈值变化到高于阈值时，或者从一个对象变化到具有不同类别的另一个对象时)。

定位分支 通常预测相对于锚点的回归目标 (参见[29]、[1]中回归目标的定义)，不同的正ROI应预测不同的回归目标。例如，与对象具有高IoU重叠的RoI应该预测小的回归目标，而与对象具有低IoU重叠的RoI应该预测大的回归目标(参见图5)（我理解为是数值大小）。因此，在不同位置的局部区域表示应该被映射到局部特征空间中相距较远的点，以便进行目标检测。此外，目标检测也是区域级分类和定位的结合。特征需要对用于目标定位的特征图的位置敏感，同时保持用于分类的强语义信息。

目标检测也需要多级表示，因为预测是通过使用多级特征[29] 或多级特征图的融合[21]，[22]直接做出的。例如，FPN [21]是目标检测中广泛使用的结构，用于处理尺度变化，它通过自顶向下的连接将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合。因此，本文的工作将集中在从多层学习判别性的区域级特征来预训练表示，这是为目标检测而定制的。

2.2 目标检测的预训练

R-CNN [1]已经表明，ImageNet监督的预训练，然后在小数据集上进行特定领域的微调，是学习高容量表示的有效范式。目标检测的预训练极大地提高了小数据集上的性能[1]，[32]，并且还加速了目标检测器的收敛[32]。然而，ImageNet监督的预训练在定位方面较弱，如果下游任务对定位敏感，则帮助较小[1]，[32]。为了获得目标检测的更好的预训练表示，提出了Objects365 [7]。在这个大规模、高质量的目标检测数据集上进行预训练，在收敛速度和mAP上可以显著超越ImageNet监督预训练。由于目标检测的注释是昂贵的，弱监督预训练[33]已经被探索用于目标检测。然而，弱监督预训练流水线[33]是复杂的，并且仍然需要注释。与这些工作相比，本文提出了一种用于目标检测的无监督预训练方法，这在以前很少被研究。

2.3 自监督视觉表征学习

自监督视觉表示学习利用输入数据本身作为前置任务的监督。预训练后，特征被迁移到下游任务。自监督表示学习的早期前置任务包括旋转预测 [34]、相对位置预测 [35] 和拼图 [36] 等。这些手工制作的前置任务取得了可喜的结果，但与 ImageNet 监督的预训练相比仍有很大差距。最近，自监督学习中最成功的方法是 通过实例辨别的前置任务 [15]、[8]、[40] 进行 对比学习 [37]、[8]、[23]、[14]、[16]、[38]、[39]、[18]、[19]、[ 20] 。对比学习的核心思想是将正面视图对拉在一起，同时将负面视图对分开。

对比学习的成功与学习一组相似视图（正对）的不变表示有关。在视图上正对和数据增强的选择很重要，并且在不同的方法中有所不同。例如，CPC [23] 和 CPC v2 [39] 将上下文和未来作为正对。 Deep infomax [41] 和 AMIDIM [42] 将全局和局部特征作为两个正对。 MoCo [8] 和 SimCLR [14] 采用实例辨别任务 [40]、[15]，该任务从同一图像中随机增强全局视图作为两个正对。 SimCLR 还研究了许多数据增强策略来生成视图。 SwAV 还提出了一种新的 multi-crop 数据增强，它 增加了局部视图的数量并最大化了全局视图和局部视图之间的相似性。 [16]、[43] 研究了增强和视图选择对不同下游任务的影响。不同的下游任务有不同的最佳正视图对选择。 [16] 已经证明，最佳视图 应该共享在下游任务中表现良好 所需的最少信息。然而，InfoMin [16] 仍然将分类作为下游任务并设计增强以提高分类性能。

之前的大多数方法都 最大化了空间未对齐视图之间的相似性，并专注于学习图像级分类的全局空间不变表示，尽管细节有所不同。然而，线性探测的更好的分类精度并不总是导致更好的目标检测迁移性能。例如，SwAV [20] 和 BYOL [19] 在 ImageNet 线性探测中远高于 MoCo v2 [17]，但在目标检测的迁移性能方面较低（见表 5）

与这些作品不同，本文的方法最大化了空间一致的局部视图和局部视图之间的相似性，旨在学习空间敏感的、multi-level多层的、完整的特征图，用于区域级任务，如目标检测。在提取局部视图的方式中，大多数以前的方法从初始图像 向网络发送额外的patches，例如 SwAV [20] 和 CPC [23]，[39]。相比之下，我们的方法 直接从特征图中提取局部表示，效率更高。

2.4 无监督密集表示学习

有一些与像素或区域级表示学习相关的早期工作。自动编码器 [44]、[45]、[46] 通过在输入空间中生成或建模像素进行训练。然而，像素级生成在计算上非常昂贵，并且需要下游任务不使用的额外重型解码器。视频序列中时间的循环一致性[47]、[48]使用自监督跟踪作为前置任务，学习视频序列中的像素级对应关系。然而，这些作品的目的是直接部署在视频中的视觉对应任务中而不进行微调，而不是迁移到其他下游任务。

最近，VADeR [49] 探索了用于迁移到多个密集预测任务的像素级对比学习。但是 VADeR 需要MoCo [8]的初始化并且 只优化局部表示；我们的模型是 从头开始训练的，并优化了全局和局部表示。 VADeR [49] 在目标检测方面也表现不佳。

与我们的工作同时进行的是，有几种自监督学习方法 [50]、[51]、[52]、[53]、[54] 针对目标检测和语义分割。 InstLoc [50] 裁剪两个空间未对齐的patches 并将它们粘贴到两个背景图像上以形成用于对比学习的两个正视图，这与我们的方法有很大不同。 DetCo [52] 关注分类和目标检测任务之间的权衡，并建议使用全局和局部对比学习。 Self-EMD [51]、DenseCL [54] 和 PixPro [53] 是三种密集的自监督学习方法。 Self-EMD [51] 和 DenseCL [54] 通过patches 特征之间的相似性找到正patches 特征对，如果初始化不好，这些特征是不稳定的。与这两种方法不同的是，DUPR 是根据它们在原始图像中的位置来找到正patches ，更加准确和稳定。

PixPro [53] 主要与我们的工作相关，因为它也根据原始图像中的位置找到了正样本对；但是我们在构建正对的细节上有所不同，如图 4 所示。PixPro [53] 在两个空间未对齐的网格中找到匹配的 patches，并引入了未对齐patches 之间的距离阈值。相反，我们在两个视图的交集上应用 RoI Align [3]，并生成具有空间对齐网格的特征图。所以我们 可以自然地获得匹配的patches，而不需要额外的超参数。 PixPro [53] 还引入了像素传播模块 (PPM) 以进一步提高性能。比 PixPro [53] 更简单，我们的方法表现稍好，如 Tab1 和 Tab2 所示。

3 方法

3.1 预备：对比学习

对比学习的主要思想是将正视图聚集在一起，同时将负视图分开。以 MoCo [8] 为例，假设 I 是原始图像，I1 和 I2 可以认为是同一图像的不同增强的两个视图。将 v1 和 v2,+ 表示为 I1 和 I2 的归一化嵌入。对比学习的目标是将正对 (v1, v2,+) 拉在一起，同时将负对 (v1, v2,j) 分开。传统的学习目标是 InfoNCE [23] 损失：

这里 τ 是温度超参数。 v1·v2,j 是余弦相似度，用来衡量两个图像特征之间的距离。它可以被认为是一个非参数的基于 softmax 的分类器来将 v2,+ 识别为 v1。

选择正对对于对比学习很重要 [15]，[41]，因为它们将针对应用于正对的变换学习不变的表示。表示应该对什么样的变换保持不变由下游任务决定，并且在不同的下游任务之间变化[16]，[43]。例如，假设下游任务是分类；在这种情况下，表示对于图像内对象的位置应该是不变的，因为位置的变化不会改变语义类别。并且，假设下游任务是 预测对象的位置。在这种情况下，表示不应该对位置不变。但是其他因素（例如，类别和光照条件）是不相关的信息，表示应该是不变的。

在以前的作品中，v1 和 v2,+ 是一对全局-局部特征 [42]、[41] 或空间未对齐的全局-全局特征 [8]、[14]。一方面，这些全局平均特征会丢失空间信息。另一方面，正对在空间上没有对齐。因此，这些基于全局视图的方法倾向于学习全局空间不变特征，这适用于图像级分类但不适用于区域级和位置敏感的任务，例如目标检测。与以前的方法相比，我们的方法可以被认为是空间对齐的local-local 视图选择，其中表示对目标的位置敏感，同时对其他因素不变。

3.2 深度无监督patch重识别

DUPR 的流水线如图 3 所示，它由跨多特征级别的并行的 patch级和图像级对比学习组成。patch级对比学习在平均池化之前直接优化整个特征图，并最大化匹配的patch之间的相似性（在图 3 中用相同的数字表示）以增强定位的空间信息。由于目标检测是定位和分类的结合，我们还包括 图像级对比学习以加强分类的语义信息。对于对比学习框架，我们简单地选择 MoCo v2 [17] 作为我们的强基线，尽管其他对比学习框架也是可能的。

最后，我们 将patch级和图像级对比损失相加到多特征级别，因为大多数目标检测器需要多级表示，例如 FPN [21] 和 PANet [22]。总损失定义为：

其中 M 是特征图的数量。 L(m) image 和 L(m) patch 是第 m 级特征图的图像和 patch 对比损失。 αm 和 βm 是平衡不同级别重要性的权重。我们将在下面描述跨多级特征图的patch级和图像级对比学习的细节。

3.2.1 patch级对比损失。

以前的方法优化全局表示并且 不学习有区别的局部表示。然而，对于位置敏感的任务，特征图中不同块的特征应该不同，因为它们的预测目标不同。例如，不同的区域可能代表不同类别的对象或背景。不同区域的回归目标也不同（见图5）。因此，匹配块的局部特征应映射到局部特征空间中的附近点，而不同块的局部特征应映射到局部特征空间中相距较远的点，如图 3 所示。

为了学习patch级别的判别表示，我们设计了patch Re-ID 前置任务 来匹配两个视图的相同patch标识（在图 3 中用相同的数字表示）。首先，我们从同一族增强中采样两个增强（t ∈ T 和 t'∈ T）：每个增强都是多个变换的组合（例如，裁剪、调整大小、翻转和颜色失真）。然后我们将增强应用到输入图像 I 并得到两个视图：I1 = t(I) 和 I2 = t'(I)。记录原始图像I中I1和I2对应的矩形区域，记为：

其中 (tlx, tly) 表示左上角顶点，(brx, bry) 表示矩形区域的右下角顶点。然后我们可以从 R1 和 R2 计算交叉区域 B = (tl(B)x , tl(B)y , br(B)x , br(B)y ) 为：

I1和I2坐标系中的交叉 B 可由B1=T1(B)和B2=T2(B)得到，其中T1和T2分别是 I到I1 和 I到I2 的坐标变换。我们没有使用丢失空间信息的全局平均特征，而是将两个视图的 B1 和 B2 分成 S × S 块，并最大化相应块特征之间的相似性（用相同的数字表示）。对于第 m 个特征图的详细实现，我们应用 RoI Align [3] 来提取区域特征，然后是 由 1×1 卷积实现的逐像素 MLP 层，实现为：

其中 g1(m) 和 g2(m) 分别是 MLP 层和动量 MLP 层。 r1(m) 和 r2(m) 是固定形状（C，S×S）的区域特征。则r1,p(m) 和 r2,p(m) 是一对正的归一化特征向量，其中下标p ∈ [0, S × S) 表示相交区域内的位置。尽管我们的patch Re-ID 前置任务独立于损失函数，但我们简单地采用 InfoNCE [23] 损失 并遵循 MoCo v2 [17] 使用动态内存库来 存储动量更新编码器的特征。

我们将第 m 个特征图的 patch级对比损失构造为：

其中是内存库中 其他图像的patch特征。 m 表示特征图的索引。通过最小化patch级对比损失，我们的编码器可以学习两个视图之间身份的逐patch匹配。这种匹配能力会产生空间敏感的特征图，从而有助于目标检测。请注意，如果 R1 和 R2 之间没有重叠，我们将忽略 patch级对比损失。这种情况的概率非常低（例如，1472 个正对中有 51 个），因此对结果影响不大。

3.2.2 图像级对比损失。

我们还优化了图像级对比损失，因为它对提高分类能力很重要，这也是目标检测所需要的。将和表示为归一化的图像特征正对。为了简单起见，我们忽略了规范化的符号。

第 m 个特征图的图像级对比损失可以写为：

3.2.3 实施细节。

我们使用未标记的 ImageNet 为我们的实验预训练我们的模型。对于消融实验，我们遵循 [17] 中的数据增强设置。对于主要实验，我们遵循 [16] 添加 Rand-Augmentation [56]。我们选择 ResNet 50 [57] 作为我们的主干，并从 conv2 x、conv3 x、conv4 x 和 conv5 x 中提取多级特征。每个特征图的步幅分别为{4×，8×，16×，32×}。默认情况下，我们为等式 (2)设置 α0:3 = (0.1, 0.4, 0.7, 1.0) 和 β0:3 = (0, 0, 1, 1)。conv5 x 和 conv4 x 上的patch特征的 RoI 大小 S 为 14 和 7。消融实验的 τ 为 0.2，主实验的 τ 为 0.15。除非另有说明，否则我们以 256 的批量大小训练 200 个时期。我们使用 0.06 的学习率和余弦衰减时间表。

我们为方程式 (2) 中的 每个图像级和patch级对比损失维护一个独特的内存库。对于 Lpatch(m) ，内存库存储其他图像的第 m 个特征图的 patch 特征。对于，memory bank存储其他图像的第m个特征图的图像特征。我们为每个内存库存储 65536 个keys。对于patch 特征，单个图像上的单个级别有 S×S 个特征，其中 S = 7 在 conv5 x 上，S = 14 在 conv4_x 上。在具有 256 张图像的批次中，有 256 × S × S 块特征。由于单个图像中的大多数patch 特征都是相似的，因此当我们对一批patch 特征进行入队和出队时，我们每批采样 32 个patch 特征。

目标检测、实例分割和语义分割的所有算法都 在detectron2中实现。对于Mask R-CNN R-50-FPN、Mask R-CNN R-50-C4 和 Faster R-CNN-C4，我们遵循MoCo [8] 中的设置。对于 RetinaNet R-50-FPN，我们还添加了一个额外的归一化层，类似于 MoCo [8] 中的 Mask R-CNN R-50-FPN。 PIRL[58]、InsDis[15]的预训练权重是从Pycontrast下载的，而SwAV的预训练权重是从官方代码下载的。

4 实验分析

我们评估我们的 DUPR 并将其与最近最先进的无监督和监督对应物在各种目标检测相关的下游任务中进行比较。 PASCAL VOC [25] 目标检测的结果在 Sec4.1 中报告。 COCO [24] 目标检测和实例分割的结果在第 4.2 节中介绍。其他定位敏感任务（COCO 关键点检测、Cityscapes [26] 语义分割、实例分割和 LVIS 实例分割 [27]）在第 4.3 节中介绍。与目标检测中其他方法的比较分类性能在第 4.4 节中报告。然后我们在 Sec4.5 中分析了一些消融实验，并在 Sec4.6 中给出了特征的可视化。

4.1 Pascal VOC 目标检测

4.1.1 实验设置。

PASCAL VOC [25] 是一种广泛使用的用于目标检测的小型数据集，在该数据集上，即使训练时间更长，从头开始的训练也无法赶上预训练数据集的性能[32]。我们在 Pascal VOC trainval07+12 上使用 R-50-C4 骨干微调 Faster R-CNN，并在 test2007 上评估结果。所有设置与 MoCo [8] 相同。在这个检测器中，RPN 建立在 conv 4x 特征图上，R-CNN 建立在 conv 5x 特征图上。网络的所有参数都经过端到端微调。图像大小在训练中为 [480, 800]，在推理时为 800。在微调期间，我们训练并同步所有批量归一化层。 batch normalization 用于新初始化的 RoI head layer。微调总共需要 24k 次迭代。

4.1.2 结果比较。

表 1 中的结果表明 DUPR 优于其他无监督方法和有监督方法。大多数非监督方法在AP75(需要高定位精度)中优于有监督方法，这表明监督分类学习的表示可能会丢失许多与分类无关但对定位有用的信息。然而，以前的无监督预训练方法仍然是为分类而设计的。

相比之下，我们的DUPR设计为显式编码空间信息。DUPR预训练在AP75中比MoCo v2强基线高出2.4 个百分点，在AP50中高出 0.8个百分点，进一步显著提高了定位精度。DUPR还在AP和AP50中获得了最先进的性能。当与通过监督分类的预训练相比时，DUPR将AP75大大提高了7.3个点。它验证了 DUPR 比 MoCo v2 和 ImageNet监督预训练 包含更多的空间信息。

4.2 COCO 目标检测与分割

4.2.1 实验设置。

我们将 Mask R-CNN R-50-FPN、Mask R-CNN R-50-C4 和 RetinaNet R-50-FPN 的微调结果与其他无监督和 ImageNet 监督对应项（包括不同骨干的单阶段和双阶段检测器）进行比较。我们使用 118k 图像在 COCO train2017 上微调这些检测器，并在 COCO val2017 上进行测试。对于所有检测器，输入图像在训练期间随机调整到 [640, 800] 范围内的比例，并固定在 800 以进行推理。所有层都经过端到端的训练。对于 Mask R-CNN R-50-FPN 和 Mask R-CNN R-50-C4，我们严格遵循 MoCo [8] 中的设置。对于 Mask R-CNN R-50-FPN 和 RetinaNet R-50FPN，在新初始化的 FPN 中使用 batch normalization。 RetinaNet 的其他参数遵循 Detectron2 [60] 的默认设置。我们探索了这些检测器的标准 1× 和 2× schedule。对于 Mask R-CNN R-50FPN，我们还在更少的训练迭代（12k、18k 和 36k 迭代）下将微调结果与强基线 MoCo v2 [17] 进行比较，以研究收敛速度。

4.2.2 Mask R-CNN R-50-FPN。

Mask RCNN、R-50-FPN、1× schedule 的结果如表 2 (a) 所示。 DUPR 优于其他无监督方法和监督方法（例如，在 mAP 中超过 MoCo v2 基线 1.1 个点）。在 2× schedule 中，DUPR 在 mAP 中优于 MoCo v2 0.7 点，在 mAP 中优于监督对手 1.0 点，如表 2 (c) 所示。

4.2.3 Mask R-CNN R-50-C4。

如表 2 (b) 所示，在 1× schedule 中，DUPR 优于所有其他无监督和监督方法（例如，在 mAP 上超过 MoCo v2 1.2 点）。与 ImageNet 监督预训练相比，AP75 的增益大于 AP50（2.4 点对 1.9 点），表明 DUPR 预训练提高了定位能力。在 2× schedule 中，预训练不太重要，我们的方法在 mAP 中仍然优于 MoCo v2 0.5 个点和 ImageNet 监督的预训练 1.5 个点，如表 2 (d) 所示。

4.2.4 RetinaNet R-50-FPN。

我们选择以 1× 和 2× schedule在 COCO 上使用 R-50-FPN 微调 RetinaNet [6]。如表 3 所示，在 1× schedule 中，MoCo v2 具有与监督对手相同的 AP。我们的方法在 AP 中优于 MoCo v2 预训练和监督对手 0.7 个点。我们的方法 在单阶段目标检测器上很好地泛化。

4.2.5 用更少的迭代进行微调。

预训练可以加速目标检测器的收敛[32]。因此，在图2中，当作为12k、18k、36k、90k和180k迭代的微调 Mask R-CNN R-50-FPN的初始化时，我们探索不同的无监督预训练模型的性能。我们的DUPR在所有迭代中都优于MoCo v2，甚至优于ImageNet监督的预训练。当仅使用12k次迭代进行微调时，DUPR在mAP中显著优于MoCo v2 2.9个点。结果表明，与其他方法相比，DUPR提供了更好的初始化和更快的收敛速度。当使用90次迭代进行微调时，DUPR仍然优于受监督的对应方1.1个点。

4.3 其他定位敏感的任务

4.3.1 Cityscapes上的实例分割

Cityscapes [26]是一个专注于城市街道场景语义理解的数据集。我们根据MoCo的设置对R-CNN R-50-FPN进行了微调。在FPN之前添加了批处理规范化。所有层都是端对端训练的。其他超参数遵循Detectron2 [60]的默认设置。我们在train_fine集合(2975个图像)上对模型进行90k次迭代的微调，并在val集合上进行测试。如表4所示，在mAP中，DUPR优于MoCo v2 0.5个点，这表明DUPR预训练具有良好的泛化能力。

4.3.3 COCO上的关键点检测。

关键点检测的任务是同时检测人和定位他们的关键点。我们在COCO train2017上对Mask R-CNN R-50-FPN(关键点版)进行微调，并在COCO val2017上进行评测，遵循[8]。如表4所示，在mAP中，DUPR比受监督的同行高出1.3个百分点。

4.4 目标检测 v.s. 分类

目标检测包括分类和定位。为了更好地理解为什么DUPR改进了目标检测，我们还在ImageNet上报告了线性探测的结果，以供参考，从而获得更多的见解。我们在表5中比较了各种无监督预训练方法的分类精度和检测图。我们注意到，在这些设置下，对于比较的模型，ImageNet分类和目标检测性能之间几乎不存在相关性。例如，MoCo v2 [17]在ImageNet准确性方面比BYOL [19]低3.1个百分点，但在VOC AP方面比BYOL [19]高1.7个百分点。与MoCo v2基线相比，DUPR和DenseCL [54]在ImageNet线性评估中下降了3.7个点。这种下降可能是由于patch级和图像级对比损失的联合优化，这种联合优化更加困难，并且将影响图像级对比损失的优化。在分类的全局表示和定位的局部表示之间实现更好的平衡是可能的，但这不是本文的重点。我们可以得出结论，DUPR在目标检测方面的改进不是来自更好的分类能力，而是来自更好的定位能力。

4.5 消融实验

4.5.1 实验设置。

消融实验是在使用 Faster R-CNN R-50-C4 的 PASCAL VOC 和使用 R-50-FPN 的 COCO 上进行的。我们还报告了 PASCAL VOC 上的 SVM 分类，遵循 [61] 中的设置，其中特征是固定的并用于在 PASCAL VOC 分类任务上训练 SVM 分类器。

4.5.2 α0:3对图像对比损失的影响。

在这个消融研究中，β0:3 被设置为 (0, 0, 0, 0)。表 6 (a) 中的结果表明：(1) αm 的所有配置都可以提高VOC 检测中的AP，尤其是对于高 IoU 指标 AP75，这表明 中间层的对比损失可以提高定位能力； (2) 只有 (0.1, 0.4, 0.7, 1.0) 的配置对 VOC 和 COCO 检测都有改进。浅层上的大权重（即配置（1, 1, 1, 1））降低COCO检测性能的原因有两个方面：（1）浅层上的大权重将影响深层的优化，这对于分类来说比浅层更重要； (2) COCO比VOC包含更多的类，COCO上的性能更依赖于分类能力。事实上，为深层设置更大的权重是 [62]、[63]、[64]、[65] 中的常见做法，尽管它们的任务与我们的不同。

现在我们研究中间层的分类能力。从表 6 (b) 中可以看出，α0:3 的所有三种配置都大大提高了浅层的分类性能。例如，当设置α0:3 = (0.1, 0.4, 0.7, 1.0)时，conv3 x的分类性能提高了10个点，conv4 x的分类性能提高了6.3个点。我们还注意到 conv5 x 的分类性能略有下降，这是有道理的，因为多级对比损失的优化比单级对比损失更具挑战性。结合 Tab 6 (a) 和 Tab 6 (b) 我们可以得出结论：更好的浅层表示可以提高迁移性能，特别是对于目标检测的定位方面。

4.5.3 RoI 大小的影响。

在此消融研究中，我们设置 α0:3 = (0.1, 0.4, 0.7, 1.0) 和 β0:3 = (0, 0, 0, 1)。表 7 (a) 中显示了不同 RoI 大小的结果。我们可以看到，在目标检测中，RoI 大小为 1 的 β0:3 = (0, 0, 0, 1) 与 β0:3 = (0, 0, 0, 0) 相比没有太大差异，其中 patch Re -ID 退化为全局视图对比学习并且对局部表示没有约束，尽管它在空间上是对齐的。较大的 RoI 尺寸提高了性能，这表明较大的 RoI 尺寸可以获得用于目标检测的更具辨别力的区域级表示。但它并不总是越大越好：如果 RoI 大小大于特征图的大小，则它不会获得更多有用的信息。例如，当 RoI 大小大于 7（即 conv5 x 特征图的大小）时，改进变得饱和。所以我们默认将 conv5 x 上的 RoI 大小设置为 7。同理，conv4 x 的大小为 14，所以我们默认将 conv4 x 上的 RoI 大小设置为 14。

4.5.4 β0:3 对 Patch 对比损失的影响。

在这个消融研究中，我们设置 α0:3 = (0.1, 0.4, 0.7, 1.0)。简单地将patch损失添加到 conv5 x（通过设置 β0:3 = (0, 0, 0, 1)）将 AP 在 VOC 中提高 0.7 个点，在 COCO 中提高 0.3 个点。并且向 conv4 x 和 conv5 x 添加patch损失（通过设置 β0:3 = (0, 0, 1, 1)）特征图进一步将 AP 在 COCO 中提高 0.5 个点，在 VOC 中提高 0.2 个点，如表 7 ( b)所示，说明 中间的监督和 patch对比损失是互补的。

4.5.5 图像级 v.s.patch级对比损失。

我们在表 7 (c) 中比较了 conv5 x 上的单个图像级和patch级对比损失。与图像级对比损失相比，patch级对比损失提高了定位能力，但略微降低了分类能力。例如，在 VOC 检测中，patch级对比损失显著提高了 AP75（与定位能力更相关）1.0 个点，但略微降低了 AP50 0.2 个点。它还将 COCO AP 略微降低了 0.1 个点，因为 分类能力对 COCO 比 VOC 更重要（注意 COCO 有 80 个类别，而 VOC 有 20 个类别）。当我们结合图像级和 patch级对比损失并实现分类和定位之间的平衡时，如表 7 (b) 的底线所示，我们实现了最佳性能。

4.6 可视化

4.6.1 空间敏感度的可视化

为了验证 patch Re-ID 可以学习空间敏感特征，我们绘制了 IoU-相似度曲线：曲线中的每个点都是通过计算 RoI 与真值框之间的 IoU 和相似度得到的。我们从 ImageNet 验证集中随机选择 1000 张图像。对于每张图像，我们采样 20 个与真值框有着不同IoU（范围从 0 到 1）的 RoIs。然后我们使用 RoI Align 根据真值框和 RoIs 从 conv4 x特征图中提取区域特征。将从真值框中提取的特征表示为 q，从 RoI 中提取的特征表示为 kα，其中 α 表示真值框和 RoI 之间的 IoU。 q 和 kα 的形状都是 (C, S ×S)。我们计算 q 和 kα 之间的余弦相似度平均值为：

其中qp和kα,p是区域特征的位置p处的归一化特征。我们在图6中比较了DUPR和MoCo v2。该可视化显示了DUPR对IoU更敏感：DUPR比MoCo v2具有更陡的斜率。当RoI和真值框之间的IoU在0.5以上时(通常在目标检测中指定为正样本[5])，DUPR具有较高的相似性；当IoU低于0.3时(通常被指定为负样本)，DUPR具有较低的相似性。这种性质使得 表示容易抑制假负样本的RoIs。

4.6.2 对应关系的可视化。

我们使用学习到的表示来可视化两个视图之间的对应关系。首先，我们按照[8]中的设置，通过随机数据增强创建两个视图。我们将图像大小设置为448。我们使用conv4_x的特征图(形状为(1024，28，28))进行匹配。对于一个视图中的每个patch (28 × 28中的一个)特征，我们在另一个视图中找到具有最高相似性的patch 。为了可视化，我们使用点来表示patch。图7所示的结果表明，patch Re-ID 比MoCo v2 更好地匹配相应的patch。

5 结论

本文提出了一种名为 DUPR 的无监督视觉表示学习方法，以弥合无监督预训练和下游目标检测任务之间的差距。与之前仅在最后一层学习判别图像级表示的方法不同，我们的方法学习判别性的区域级多级表示。因此，当迁移到与目标检测相关的下游任务时，我们的方法优于其他无监督模型，甚至优于监督模型。此外，我们的方法对各种目标检测器、微调迭代具有鲁棒性。我们希望我们简单而有效的方法可以作为目标检测任务的无监督预训练的基线。

值得注意的是，本文提出的 DUPR 从静态图像中学习目标检测的表征。与静态图像相比，我们人类从视频中学到更多，视频不仅包含空间配置，还包含丰富的时间信息。因此，扩展所提出的 DUPR 以在未来从视频中学习时空表示非常有意义。此外，我们当前的 DUPR 实现基于 MoCov2 [17]，需要多个内存库。为了节省内存占用，我们将进一步研究 如何将 DUPR 应用于其他自监督学习方法（例如 BYOL [19] 或 SimSiam [18]）。除了前置任务，未来还可以研究如何为密集预测任务设计更合适的数据增强管道。

【自监督论文阅读笔记】Deeply Unsupervised Patch Re-Identification for Pre-training Object Detectors