Abstract

VIT很难用于密集检测任务，作者提出了PVT，(1)不同于产生低分辨率输出和引起高计算和内存成本的VIT，PVT不仅可以训练密集分区的图像来实现高输出分辨率，也使用图像金字塔来减少大型特征地图的计算。(2) PVT继承了CNN和transformer的优点，使其成为各种transformer架构的视觉任务的统一骨干，可以作为CNN骨干的直接替代。(3)我们通过大量的实验验证了PVT，结果表明它提高了许多下游任务的性能优异，包括目标检测、实例和语义分割。

1. Introduction

虽然ViT适用于图像分类，它是很难直接适应像素级密集预测如目标检测和分割，因为(1)其输出特征地图是单尺度和低分辨率，和(2)其计算和内存成本相对较高即使对于常见的输入图像大小(800*800）

为了解决上述局限性，本工作提出了一种纯的transformer主干，称为PVT，它可以作为许多下游任务中CNN主干的替代方案，包括图像级预测和像素级密集预测。具体来说，如图1 (c)所示，我们的PVT克服了传统transformer的困难：(1)以细粒度的图像补丁（即每个补丁4×4像素）作为输入来学习高分辨率表示，这对于密集的预测任务是必不可少的；(2)随着网络的加深，减少transformer的序列长度，显著降低计算成本，(3)在学习高分辨率特征时采用空间减少注意（SRA）层，进一步降低资源消耗。

总的来说，所提出的PVT具有以下优点。首先，与传统的CNN骨干网局部接受域随着网络深度的增加而增加（见图1 (a)）相比，我们的PVT总是产生一个全局的接受域，更适合检测和分割。其次，与ViT相比（见图1 (b)）相比，由于其先进的金字塔结构，我们的方法可以更容易地插入许多具有代表性的密集预测管道，如RetinaNet和Mask R-CNN [21]。第三，我们可以通过将我们的PVT与其他特定任务的transformer解码器相结合，构建一个无卷积的管道，如PVT+DETR [6]。据我们所知，这是第一个完全无卷积的对象检测管道。

我们的主要贡献如下：

(1)我们提出了PVT，这是第一个为各种像素级密集预测任务设计的纯transformer主干。结合我们的PVT和DETR，我们可以构建一个端到端目标检测系统，而不需要卷积和手工制作的组件，如密集的锚点和非最大抑制（NMS）。

(2)通过设计一个渐进收缩的金字塔和一个空间减少注意（SRA），我们克服了将transformer移植到密集预测时的许多困难。这些都能够减少transformer的资源消耗，使PVT能够灵活地学习多尺度和高分辨率的特性。

(3)我们在图像分类、目标检测、实例和语义分割等不同任务上评估了所提出的PVT，并将其与流行的ResNets [22]和ResNeXts [73]进行了比较。如图2所示.

3. Pyramid Vision Transformer (PVT)

3.1. Overall Architecture

我们的目标是将金字塔结构引入变压器框架，使它可以生成多尺度特征映射的密集预测任务（如目标检测和语义分割）。图3描述了PVT的概述。与CNN骨干[22]类似，我们的方法有四个阶段来生成不同尺度的特征图。所有的阶段都有一个相似的架构，由一个补丁嵌入层和Li变压器编码器层组成。

在第一阶段，给定一个大小为H×W×3的输入图像，我们首先将其划分为 $\frac{HW}{4^{2}}$ 补丁，每个补丁的大小为4×4×3。然后，我们将patch序列输入线性投影，得到大小为的嵌入patch。然后，向patch加入位置编码,通过L1层transformer编码器，输出重塑为大小为的特征图F1。同样，使用前一阶段的特征图作为输入，我们得到了以下特征图： F2、F3和F4，它们相对于输入图像的步幅分别为8、16和32像素。利用特征金字塔{F1、F2、F3、F4}，我们的方法可以很容易地应用于大多数下游任务，包括图像分类、目标检测和语义分割。

3.2. Feature Pyramid for Transformer

与CNN骨干网络使用不同的卷积步幅来获得多尺度特征图不同，我们的PVT使用一种渐进收缩策略，通过补丁嵌入层来控制特征图的尺度。

这节的含义是特征图的缩小的实现:

对于输入的特征图，首先将其划分为大小为的patch,然后在经过线性投影映射到C_i个通道，此时特征图维度为

3.3. Transformer Encoder

阶段i中的变压器编码器具有Li编码器层，每个编码器层由注意层和前馈层[64]组成。由于PVT需要处理高分辨率（例如，4步幅）特征图，我们提出了一个空间减少注意（SRA）层来取代编码器中传统的多头注意（MHA）层[64]。

具体来说,就是类似于上一节特征图的缩小，首先将特征图划分为的patch，此时特征图的维度为，然后再经过线性层将通道数投影回 $C_{i}$ 通道，公式如下:

其核心思想就是通过重构特征矩阵并进行线性投影映射减少key和value的特征图的HW，以达到减少运算的目的，由于通道数C依然不改变，因此对value无影响

从源码具体实现的角度，首先经过一层kernel=R*R ,stride=R的卷积，卷积后C保持不变，此时query [B,HW,C],key [B,HW/R^2,C],value [B,HW/R^2,C],首先[email protected](-2,-1)，矩阵运算为 attn=[B,HW,C]*[B,C,HW/R^2]=[B,HW,HW/R^2]，经过softmax后，点乘value,即attn*value=[B,HW,HW/R^2]*[B,HW/R^2,C]=[B,HW,C]