Transformer

1 Introduction
2 原始Transformer
3 Transformer for classfication

Transformer是一种基于注意力的编码器-解码器架构，它彻底改变了自然语言处理领域。受这一重大成就的启发，最近一些开创性的工作已经完成，将类似Transformer的架构适应于计算机视觉(CV)领域，这些工作已经证明了它们在各种CV任务中的有效性。与现代卷积神经网络(CNN)相比，凭借具有竞争力的建模能力，视觉Trans在ImageNet、COCO和ADE20k等多个基准上取得了令人印象深刻的性能。在本文中，我们为三个基本的CV任务(分类、检测和分割) 提供了超过100种不同的视觉Trans的全面回顾，其中提出了一种分类法，根据它们的动机、结构和使用场景来组织这些方法。由于训练设置和定向任务的不同，我们也在不同的配置上评估这些方法，以方便和直观的比较，而不是只是各种基准。此外，我们还揭示了一系列重要但尚未开发的方面，这些方面可能使Transformer从众多架构中脱颖而出，例如，松散的高层语义嵌入，以弥补视觉和顺序Transformer之间的差距。最后，提出了三个值得进一步探索的未来研究方向。

1 Introduction

Transformer作为一种基于注意力的结构，首次展示了在序列建模和机器翻译任务中的巨大力量。如图1所示，Transformer已经逐渐成为自然语言处理(NLP)的主要深度学习模型。最近最主要的模型是一些自我监督的Transformer，从足够的数据集预先训练，然后在小的和特定的下游任务上进行微调[2]-[9]。生成式预训练Transformer(GPT)系列[2]-[4]利用Transformer解码器执行自回归语言建模任务，而来自Transformer(BERT)[5]及其变体[6]、[7]的双向编码器表示作为构建在Transformer编码器上的自动编码器语言模型。
在这里插入图片描述
在计算机视觉(CV)领域，卷积神经网络(CNN)先于视觉Transformer模型成为一种占主导地位的范例[10]-[12]。受到NLP[1]、[13]中自我注意机制的巨大成功的启发，一些基于CNN的模型试图通过在空间[14]-[16]或通道水平[17]-[19]中增加一个自我注意层来捕捉长期依赖，而另一些模型则试图用全局[20]或局部自我注意块[21]-[25]完全取代传统的卷积。尽管Cordonnier等人。从理论上证明了自我注意阻滞的有效性和效率[26]，但在主流基准上，这些纯注意力模型仍然不如当前最先进的(SOTA)CNN模型。

如上所述，基于注意力的模型在视觉识别领域受到了极大的关注，而vanilla Transformer 则在自然语言处理领域取得了巨大的成功。受此启发，最近有许多作品将“Transformer”移植到CV任务中，并取得了类似的结果。例如，Dosovitski等人。[27]提出了一种利用图像块作为输入进行图像分类的纯Transformer，并在多个图像分类基准上实现了SOTA。此外，Visual Transformers还在其他CV任务中获得了出色的性能，例如检测[28]、分割[29]、跟踪[30]、图像生成[31]和增强[32]。

如图1所示，继[27]、[28]之后，在过去的一年里，数百种基于Transformer的模型被提出用于各个领域。因此，系统的文献调查非常需要对这些新出现的视觉Transformer的性能进行识别、分类和批判性评估。考虑到读者可能来自不同的地区，我们将重点放在这些现有的视觉Transformer上，以完成三个基本的CV任务，包括分类、检测和分割。如图2所示，这项调查根据它们的任务、动机和结构特征将所有这些现有的方法归类为多个组。它们中的一些可能会部分重叠。例如，一些改进不仅提高了主干在图像分类中的性能，而且还提高了密集预测任务(即检测和分割)的性能，而且许多深度和层次的方法也通过CNN和注意力的改进来实现。

去年，Tay等人发表了几篇关于Transformer的评论。[86]回顾NLP中Transformer的效率，Khan等人。[87]和han等人的研究成果。[88]总结了早期的视觉Transformer和以往的注意模型，以及一些没有系统方法的语言模型。对Transformer的最新评论是由Lin等人介绍的，它提供了对Transformer的各种变体的系统回顾，并粗略地提到了视觉应用[89]。基于这些观察，本文旨在对最近的视觉Transformer进行全面的回顾，并对这些现有的方法系统地进行分类。

在这里插入图片描述

(1)全面性和可读性：本文针对分类、检测和分割三个基本任务，对100多种视觉Transformer进行了全面的综述。如图2所示，我们选取了50多个具有代表性的模型进行分析。我们不仅对每个模型进行了单一视角的穷尽分析，而且通过递进分析、对比分析和多视角分析等某种意义上建立了它们之间的内在联系。

(2)直观比较：由于这些Transformer在不同的任务中遵循不同的培训方案和超参数设置，本调查通过将他们分成不同的数据集和限制来呈现多个横向比较。更重要的是，我们总结了为每个任务设计的一系列有前途的组件，包括：用于主干的分层结构的浅层局部卷积，用于颈部检测器的稀疏关注的空间先验加速，以及用于分割的通用掩码预测方案。

(3)深入分析，在从顺序任务到视觉任务的转换过程、Transformer与其他视觉网络的对应关系、不同任务中采用的可学习嵌入(即类表征、对象查询、掩码嵌入)的相关性等方面提供了有意义的见解。最后，对未来的研究方向进行了展望。例如，编解码器Transformer主干可以通过学习嵌入来统一三个子任务。

2 原始Transformer

原始Transformer[1]首先应用于顺序到顺序的自回归任务。与以前的序列转导模型[90]、[91]相比，Transformer继承了编解码器的结构，但通过使用多头注意机制和点式前馈网络完全摒弃了递归和卷积。在接下来的小节中，我们将描述四个关键组件，并提供原始Transformer的体系结构概述。

1注意力机制Attention Mechanism

在这里插入图片描述

2多头注意力机制Multi-Head Attention Mechanism

在这里插入图片描述

3Position-wise Feed-F orward Networks

在这里插入图片描述

4Positional Encoding

在这里插入图片描述

5Transformer Model

在这里插入图片描述

3 Transformer for classfication

在这里插入图片描述

受Transformer在NLP[2]-[5]，[8]中的显著发展的启发，一些研究者尝试将Transformer引入图像分类中。视觉Transformer(VIT)[27]首先在主流分类基准上实现了与传统CNN相似甚至更好的性能。这一部分全面回顾了2021年6月之前出版的40多个Transformer主干，并根据它们的动机和实现方式将其分为六大类，如图5所示。在我们分类的基础上，我们首先介绍了VIT，这是最初的用于图像分类的可视化Transformer。然后讨论了Transformer Enhanced CNN方法，即利用Transformer来增强对CNN主干的远程依赖性。Transformer具有很强的全局建模能力，但在早期忽略了局部信息。因此，CNN增强型Transformer方法利用适当的卷积感应偏置来增强Transformer，而局部注意力增强型Transformer方法则重新设计贴片分区和注意块，以增强Transformer的局部性并保持无卷积的架构。此外，CNN在性能和计算效率上都从层次结构和深层结构中获得了经验上的好处[93]。受此启发，层次化变换和深度变换方法应运而生。前者用金字塔茎代替了固定分辨率的柱状结构，后者则避免了注意图的过度平滑，增加了深层注意图的多样性。此外，我们还回顾了当前可用的自我监督视觉Transformer的方法。最后，我们评估了这些Transformer的性能，分析了有希望的改进，并回答了一个常见的问题以供进一步研究。

1Original Visual Transformer

在这里插入图片描述

VIT由Dosovitski等人提出，是第一个用于图像分类的Transformer主干[27]。由于Vanilla Transformer需要一个令牌序列输入，因此首先将输入图像分割成一系列不重叠的块，然后投影到块嵌入中。与Transformer的原始操作类似，每个面片都添加了一维可学习的位置编码以保留其空间信息，并且联合嵌入被馈送到编码器(图6)。与BERT[5]类似，VIT插入一个学习的[class]嵌入，其在Transformer编码器的输出端的状态用作执行分类的表示。此外，2D插值补充了预先训练的位置编码，以在以任意分辨率馈送图像时保持补丁的一致顺序。通过使用大型私有数据集(由3亿张图像组成的JFT-300M)进行预训练，VIT在多个图像识别基准(即ImageNet、CIFAR-10和CIFAR-100)上取得了与大多数流行的CNN方法相似甚至更好的结果。VIT已经证明了Transformer在CV任务中的有效性，尽管它在训练数据不足的情况下无法很好地推广。

VIT论文链接

2Transformer Enhanced CNN

如前所述，Transformer有两个关键部分：MHSA和FFN。最近，Cordonnier et al.。证明了卷积层可以用具有足够头部的MHSA来近似[26]。董等人的研究成果。结果表明，MHSA可能对“令牌均匀性”有很强的诱导偏向，没有跳跃连接和FFN[94]。因此，从理论上讲，Transformer比CNN具有更强大的建模能力。然而，由于自我关注，不可避免地带来了很大的计算量，特别是对于浅层机制，它与功能分辨率呈二次曲线增长。与先前基于注意的方法[14]、[22]、[95]类似，一些方法试图将Transformer插入CNN主干或用Transformer层[43]、[44]替换部分卷积块。

1VTs

考虑到卷积等价地匹配所有像素，而不考虑它们的优先级，Visual Transformer(VT)[43]将输入图像的语义概念解耦到不同的通道中，并通过Transformer编码块将它们紧密地联系在一起。详细地说，VT块由三个部分组成。1)记号器通过使用缩放关注层将输入解耦成视觉记号的不同语义集合。2)转换器编码器聚集这些视觉标记之间的语义信息。3)投影仪通过令牌图像交叉关注层实现原始像素空间特征的重构。此外，用VT-块代替ResNet[11]的最后卷积阶段，构建了另一种可视化Transformer-ResNets(VT-ResNets)。与标准ResNet相比，VT-ResNet在ImageNet上以更少的参数和更少的浮点实现了4.6-7%的准确率.

2BoTNet

与以前的基于注意力的模块相比，Vaswani等人只在结构上用注意力块替换了最后阶段的卷积。提出了一种概念上的重新定义，即具有自我注意机制的连续瓶颈块可以被视为瓶颈Transformer(僵尸网络)[44]块，尽管短连接形式不同。受[22]-[24]，[95]中的相对位置编码[96]的启发，僵尸网络利用这种位置感知来进一步逼近Transformer。基于ResNet-50，僵尸网络在ImageNet基准上超越了大多数参数设置类似的CNN模型，在751M参数下达到了84.7%的TOP-1准确率。这种模拟Transformer的方法进一步证明了Transformer在标准卷积模型上的有效性。

3CNN Enhanced Transformer

归纳偏差可以表示为关于数据分布或解空间的一组假设，其在卷积中的表现是局部性和平移不变性。局部性侧重于空间上接近的元素，并将它们与远端隔离。平移不变性体现了在输入[97]的不同位置重复使用相同的匹配规则。因为局部邻域6内的协方差很大，并且在图像上趋于逐渐平稳，所以这些卷积偏差可以有效地处理图像数据。然而，强烈的偏见也限制了CNN拥有足够数据集的上限。最近的努力试图利用适当的卷积偏置来增强Transformer并加速其收敛。这些应用可以概括为：软近似[38]、[45]、直接局部性处理[46]、[47]、位置编码的直接替换[48]、[49]以及结构组合[37]、[50]。

1Deit

为了缓和VIT对大数据集的依赖，Touvron等人进行了研究。提出一种数据高效的图像转换器(Deit)[38]，以提高其在ImageNet-1k上训练时的适用性。在VIT-B[27]的基础上，Deit-B利用现有的数据增强和正则化策略，在ImageNet上实现了83.1%的TOP-1准确率。此外，在预培训中使用了师生策略，这是一个在形式上类似于班级令牌的精炼令牌，但受到教师的伪标签的监督。从经验上看，CNN是比Transformer更好的老师，而且一个有趣的发现是，提炼出的模型比它的老师表现更好。这些观察结果可以用[98]来解释：CNN老师可以通过知识升华以一种温和的方式将其归纳偏见传递给Transformer的学生。基于这种基于令牌的精馏方法，Deit-B在没有外部数据的情况下达到了85.2%的TOP-1准确率。此外，协同训练[99]是否可以作为一种新的方法在半监督下整合Transformer的感应偏置，这是一个值得研究的问题。

2Convit

类似于基于双路径注意的模型[22]、[100]，Convit[45]将一个平行的卷积分支附加到Transformer分支，通过门控位置自我注意(GPSA)柔和地施加卷积感应偏向。具体地说，GPSA可以分为香草自我注意权重和模仿卷积权重。它首先被初始化以近似卷积层的局部性，然后通过调整学习的门控参数来显式地给予每个注意力头部自由以逃避局部性。GPSA的功能可以表示为
在这里插入图片描述

在ImageNet上，Convit比Deit高出0.6-3.2%的Top-1准确率。

3Ceit&LocalVit

除了软学习感应偏差的方法[38]、[45]外，还有一些简单的方法。Ceit[46]和LocalViT[47]通过在FFN中直接添加深度卷积来提取局部性。基于点向卷积和位置向FFN的等价性，LocalViT将这种卷积形式的FFN扩展到倒置残差块[101]，以构建沿深度的卷积框架。使用相同的操作，CEIT还重新设计了补丁到令牌的方案，并在转换器的顶部添加了分层类令牌注意(LCA)，以聚合多层表示。这样，它们都比原始的Deit产生更高的性能[38]。

4CPVT&REST

有些方法试图利用卷积固有的位置信息来推广变量的求解输入。从一个角度来看，REST[49]假定位置编码和输入之间存在相关性。因此，它们之间的求和运算可以看作是对像素输入加权的乘法，通过填充为1的3×3深度卷积来实现。从另一个角度来看，根据[102]的观察，具有零填充的卷积的边界可以编码绝对位置信息，CPVT[48]用一系列卷积取代了位置编码。这两种方法都得益于这种卷积位置嵌入，特别是在模型较小的情况下，将REST-Lite和PVT-TINY分别提高了1.3%和1.4%。

5Early Conv. & CoAtNet

除了“内部”融合之外，目前更多的方法侧重于根据不同的视觉Transformer的结构进行“明显”的组合。对于标准柱状结构，肖等人提出了自己的观点。用几个堆叠的步长-23×3核[50]代替原来的补丁茎(单个不重叠的大核)。这一概念简单但功能强大的STEM在ImageNet-1k上提高了1-2%的TOP-1准确率，并促进了VIT在下游任务中的稳定性和通用性。对于层次结构，Dai et al.。[37]研究混合模型的最佳组合，以实现性能权衡。通过对一系列混合模型的比较，他们提出了卷积和注意力网络(CoAtNet)来结合CNN和Transformer的优势。具体地说，他们观察到深度卷积可以自然地整合到注意块中，并且在浅层垂直堆积卷积比原来的分层方法更有效。CoAtNet在多个数据集上实现了最新的SOTA性能。

4 Local Attention Enhanced Transformer

VIT[27]将输入图像视为一系列补丁。这种粗略的补丁嵌入过程忽略了语言和图像之间的间隙，这可能会破坏图像的局部信息。作为局部提取器，卷积通过相对固定的滤波器聚合特征。这种模板匹配过程可以有效地处理大多数小数据集，但在处理大型数据集时会面临表示的组合爆炸。与卷积相比，局部注意机制可以根据局部元素之间的关系[51]、[95]动态地生成关注权重。为了增强局部特征提取能力并保持无卷积的结构，一些工作[33]、[52]、[53]、[56]尝试通过局部自注意机制来适应斑块结构。

1TNT

VIT[27]只关注全局补丁聚合，而忽略了其内部交互。类似于Network in Network(NIN)系列[103]，han et al.。利用TransformeriN-Transformer(TNT)[52]模型聚合面片和像素级表示。具体地说，TNT的每一层由两个连续的块组成，内部块模拟每个面片内部像素方向的交互，外部块从面片嵌入中提取全局信息。它们由映射像素的线性投影层连接在一起到它们相应的补丁上。因此，TNT在浅层比以前保留了更丰富的局部特征。

2Swin Transformer

时间移位模块(TSM)[104]通过沿时间维度移位部分信道来促进相邻帧之间的信息交换(图7(A))。与2D TSM类似，Liu等人提出了一种移位窗口(Swin)Transformer[33]，它利用沿空间维度的移位窗口来模拟全局和边界特征。具体地说，分层结构通过分块和合并操作实现空间缩减和通道扩展。此外，两个连续的视窗视觉层促进了跨视窗互动(图7(B)-©)，类似于CNN中的接受场扩展概念。该算法在关注层的计算复杂度也从(2n2C)降低到(4m2nC)，其中和M分别表示补丁长度和窗口大小。Swin Transformer在ImageNet-1K和最新SOTA的多个密集预测基准(如COCO和ADE20k)上实现了84.2%的TOP-1准确率。

3Twins&VIL

作为一个局部-全局分离的Transformer，Twin[53]用空间上可分离的自我注意机制(SSSA)取代了Swin Transformer[33]的复杂设计。它在形式上类似于深度卷积[101]或窗口TNT块[52]。具体而言，局部关注层聚合每个子窗口内的相邻块以增强细粒度特征，全局子采样关注层致力于捕获远距离特征。另一种单独的形式是VIL[55]，它用一系列本地嵌入(称为全局存储器)替换单个全局令牌。每个局部嵌入只与其他及其对应的2D空间邻居交互。得益于这种简单的外形，两者都获得了与典型Swin Transformer相当的性能。

4VOLO

Vision Outlooker(VOLO)[42]使用Outlook注意力来关注比其他基于注意力的模块更精细的功能。从形式上讲，它由三个操作组成：展开、线性关注和重新折叠。这条管道类似于补丁动态卷积，尽管Volo强调它是一个没有CNN的模型。在LV-VIT[41]的基础上，VOLO将LV-VIT的TOP-1准确率提高了0.4%-1.2%，这是一种新的SOTA on ImageNet-1k基准，无需外部数据。

5 Hierarchical Transformer

由于VIT[27]在整个网络中继承了原始的具有固定分辨率的柱状结构，因此忽略了细粒度特征，并带来了很大的计算成本。继分层CNN之后，最近的著作[34]，[39]，[55]-[57]将类似的结构应用于Transformer。

1T2T-VIT

分层转换器的范例首先由令牌到令牌VIT(T2T-VIT)VIT[56]引入。在T2T-VIT中，分层的T2T Transformer用于将相邻令牌聚合为一个单一令牌。这种由重叠展开操作实现的周围聚集可以同时执行分层结构和局部性。然而，由于重叠的冗余性，转换层的存储和计算负担很大。

2PVT

分层Transformer的另一个例子是金字塔视觉Transformer(PVT)[39]。如前所述，冗余令牌的重用导致了T2T-VIT的低效。与重叠展开Transformer不同的是，PVT依靠不重叠的块划分来减少序列长度，并依靠线性块嵌入来保持通道维度的一致性。这种金字塔结构可以使Transformer适应密集的预测任务，这些任务需要大量的输入和具有计算效率的细粒度特征。具体地说，空间降低注意力(SRA)层被应用于通过学习每个关注块中的低分辨率键值对来显著降低计算复杂度(图9)。PVT在许多基准测试中展示了Hierarchical Transformer的可用性。
在这里插入图片描述

3PIT&CVT

与PVT[39]的收缩策略类似，基于池化的视觉转换器(PIT)[57]和卷积视觉转换器(CVT)[34]分别利用池化和卷积来执行令牌嵌入。此外，CVT通过用卷积投影代替线性层来改善PVT的SRA。基于卷积引入的这些局部上下文信息，CVT可以在不进行位置编码的情况下对变量输入进行泛化。

6 Deep Transformer

经验上，增加模型的深度使网络能够学习更复杂的表示[11]。最近的工作将这种深层结构应用到Transformer中，并进行了大量的实验，通过分析交叉线[60]和跨层[35]、[59]的相似性以及剩余块[40]的贡献来考察其可扩展性。在深层Transformer中，更深层的特征往往不那么具有代表性(注意力崩溃[59])，而补丁被映射成无法区分的潜在表示(补丁过度平滑[60])。为了弥补上述局限性，这些方法还从多个方面提出了相应的解决方案。

1CaiT

从结构上讲，Touvron等人。介绍了图像Transformer(CAIT[40])中的有效课堂注意，包括两个阶段。1)多个自我注意阶段，没有阶级表征。在每一层中，利用由小值初始化的学习对角线矩阵来动态更新信道权重，从而为信道调整提供自由度。2)最后几个类注意阶段采用冰冻补丁嵌入。随后的类令牌将插入到模型中全局表示，类似于具有编解码器结构的DETR(图9©)
这种显式分离是基于这样的假设，即类令牌对于前向传递中的补丁嵌入的梯度是无效的。通过蒸馏训练策略[38]，CAIT在没有外部数据的情况下在ImageNet-1k上实现了新的SOTA(TOP-1准确率为86.5%)。

在这里插入图片描述

2DeepViT&Refiner

深层Transformer有注意力崩溃和过度平滑的问题，但仍然在很大程度上保留了不同头部之间注意力地图的多样性。在此基础上，周等人对此进行了研究。提出了深度视觉Transformer(DeepViT)[59]，它聚合了交叉头部注意图，并通过使用线性层来增加跨层特征多样性来重新生成新的关注图。此外，精炼器[35]应用线性层来扩展注意图的维度(间接增加头数)以促进多样性。然后，采用分布式局部注意(DLA)对局部特征和全局特征进行更好的建模，并通过对注意图进行头部卷积来实现。毕竟，在拥有81M参数的ImageNet上，Refiner达到了86%的TOP-1准确率。

3Diverse Patch

从训练策略上看，龚某等人。提出了三种用于深层Transformer的patch-wise loss functions，它们可以显著地鼓励面片的多样性，并弥补过平滑问题[60]。与[105]类似，补丁余弦损失可以最小化补丁之间的成对余弦相似度。斑块对比性损失使较深的斑块被其对应的早期斑块规则化。受CutMix[106]的启发，基于补丁的混合损失会混合两个不同的图像，并迫使每个补丁只关注同一图像中的补丁，而忽略不相关的补丁。与LV-VIT[41]相比，它们具有相似的损失功能，但动机不同。前者侧重于补丁多样性，后者侧重于令牌标注方面的数据扩充。

7 Transformers with Self-Supervised Learning

自我监督的Transformers 在NLP中是成功的[5]，但是受监督的预先训练的Transformers 仍然在CV领域占据主导地位[33]，[38]。最近的工作也尝试在生成性[61]-[63]和判别性[64]-[66]中设计各种视觉Transformers 的自监督学习方案。

1iGPT

对于生成性任务，Chen et al.提出了一种用于视觉自监督学习的图像产生式预训练Transformers (IGPT)[61]。不同于面片嵌入在VIT[27]中，iGPT直接将图像调整到较低的分辨率，将其展平为一维像素序列，然后将生成的序列输入GPT-2[4]进行自回归像素预测任务。IGPT能够直接对像素级信息建模，并在低分辨率数据集上达到中等精度，但它需要相当大的计算量(预训练大约2500 V100天1)。尽管如此，生成式视觉Transformers 仍然是一种很有前途的方法，值得进一步研究

2Beit

Bao等人没有直接生成原始像素。通过在潜在空间中重建掩蔽图像，提出了一种Bert式[5]视觉Transformers (Beit)[63]。与BERT中的字典类似，基于离散变分自动编码器(DV AE)[107]的图像标记器将图像矢量化为离散视觉标记符。这些令牌充当一组用于预训练的伪标签。然后，带有随机遮蔽补丁的图像被馈送到Transformers 主干中。每个输出掩蔽嵌入的目的是在预训练过程中通过最大化后验概率对数似然来恢复其对应的视觉标记。这样，Beit避免了学习冗余的像素表示，并且比最新的自监督方法(Dino[65]，0.4%)和典型监督方法(Deit-B[38]，1.4%)性能更好，在ImageNet-1K上达到了83.2%的TOP-1准确率。

3MOCO v3

对于辨别性任务，Chen等人。[64]回到基础，调查几个基本组件(例如，批次大小、学习率和标准化)对自我监督VIT培训的影响。通过密切监测VIT的精确度曲线，他们观察到它“看起来很好”，但在训练过程中会出现局部急剧下降(称为DIP)，这对最终的性能有轻微影响。为了追踪不稳定的问题，他们监测了梯度的大小，发现第一层(面片投影)中的梯度突然变化会延迟几次迭代，最终导致精度下降。因此，他们提出了MoCo v3，这是VIT的一系列根本性改进(例如，冻结补丁投影层、BatchNorm和较小的补丁大小)，它超过了ResNet，特别是在大型模型上。

4DINO

卡隆等人。[38]演示监控Transformers 的蒸馏效果。最近，他们将这种师生食谱进一步扩展到自我监督学习，并提出了Dino[65]。Dino的核心概念可以概括为三点。带有附加居中和锐化层的动量编码器用作教师模型，输出具有批次平均表示的居中伪标签，这是从其早期的SWAV[109]继承而来的。没有预测头的在线编码器充当学生模型，以适应教师的输出。标准的交叉熵损失将自我训练和知识升华联系起来。在线性评估中，Dino在ImageNet上达到了80.1%的TOP-1准确率。更有趣的是，自我监督的VIT可以学习用于分割的蓬勃发展的特征，而这通常是监督变形金刚或CNN无法实现的。

8讨论

1)实验评估与比较分析

根据我们的分类方法，我们将所审查的监督模型分为六类。表I总结了主流分类基准上引人注目的变形金刚，并为每个型号分配了专门的颜色。为了客观、直观地评价它们，下面三个图说明了它们在不同配置(例如，模型大小、FLOPS和训练方案)下在ImageNet-1k上的比较。
图10(A)总结了每种模型在2242输入分辨率下的性能。
由于变压器中的触发器随输入尺寸呈二次曲线增长，因此图10(B)将触发器作为水平轴，重点关注它们在较高分辨率下的性能。
图10©重点介绍了带有外部数据集的预先训练的模型。
根据这些数据，我们简要分析了对模型性能、效率和可扩展性有益的几个改进：·

通常，大多数结构改进方法针对特定的模型大小、问题或特定的输入分辨率进行优化，而其他基本训练策略，如Deit[38]和LV-Vit[41]，对于不同的模型、任务和输入更为通用。·
对于Transformers 来说，局部性是必不可少的，这一点分别体现在Volo[42]和Swin[33]在分类和密集预测任务中的优势。·
卷积Patchify茎(VITC[50])和早期卷积阶段(CoAtNet[37])显著提高了Transformers的精度，特别是在大型模型上，因为这样的组合可以为捕获浅层的细粒度局部特征提供相互帮助。·
深层变压器潜力巨大，如RefinedViT[35]和Cait[40]。随着模型尺寸与沟道尺寸的二次曲线增长，深井变压器中模型尺寸与沟道尺寸之间的权衡问题值得进一步研究。·
Ceit[46]和CVT[34]在训练中小型模型(0−40m)时显示出显著的优势，这表明这类针对轻量级模型的混合型注意块值得进一步探索。

在这里插入图片描述

2)可视化Transformers 发展趋势综述

Transformers 骨干近一年如雨后春笋般涌现。当我们的系统学与这些模型的时间线相匹配时，我们可以清楚地跟踪图像分类的Transformers 的发展趋势(图1)。
视觉Transformers 作为一种自我注意机制，主要根据NLP中的香草结构(Vit[27]和iGPT[61])或CV中基于注意的模型(VTs[43]和僵尸网络[44])进行重新设计。
于是，许多方法开始将CNN的层次结构或深层结构扩展到可视Transformers 。

T2T-VIT[56]、PVT[39]、CVT[34]和PIT[57]的共同动机是将分层结构转换为Transformers ，但是它们执行下采样的方式不同。
CAIT[40]、Variable Patch[60]、DeepViT[59]和Refiner[35]将重点放在深层Transformers的问题上。
此外，一些方法转移到内部组件以进一步增强以前的Transformers中的图像处理能力，即位置编码[48]、[112]、[113]、MHSA[26]和MLP[94]。
Transformers的下一波浪潮是地方性范式。它们大多通过引入局部注意机制[33]、[42]、[52]、[53]或卷积[45]-[47]将局部性引入Transformers。

如今，最新的有监督Transformers正在探索结构组合[37]，[50]和比例律[36]，[114]。除了监督Transformers，自我监督学习在视觉Transformers中占有相当大的比重[61]-[66]。然而，目前还不清楚哪些任务和结构更有利于自监督Transformers在CV中的应用。

3)方案简述

在可视化Transformers的开发过程中，最常见的问题是Transformers能否取代卷积。通过回顾过去一年的改进历史，这里没有任何替代劣势的迹象。视觉Transformers从纯粹的结构回归到混合形态，全局信息逐渐回归到与局部信息的混合阶段。

虽然Transformer可以等同于卷积，甚至具有比卷积更好的建模能力，但这种简单有效的卷积运算足以处理浅层的局部性和低层语义特征。在未来，两者相结合的精神将推动图像分类的更多突破。

Transformers用于检测与分割见Transformer综述大全（2）

Transformer综述大全（1）【A Survey of Visual Transformers】

Transformer

1 Introduction

2 原始Transformer

1注意力机制Attention Mechanism

2多头注意力机制Multi-Head Attention Mechanism

3Position-wise Feed-F orward Networks

4Positional Encoding

5Transformer Model

3 Transformer for classfication

1Original Visual Transformer

2Transformer Enhanced CNN

1VTs

2BoTNet

3CNN Enhanced Transformer

1Deit

2Convit

3Ceit&LocalVit

4CPVT&REST

5Early Conv. & CoAtNet

4 Local Attention Enhanced Transformer

1TNT

2Swin Transformer

3Twins&VIL

4VOLO

5 Hierarchical Transformer

1T2T-VIT

2PVT

3PIT&CVT

6 Deep Transformer

1CaiT

2DeepViT&Refiner

3Diverse Patch

7 Transformers with Self-Supervised Learning

1iGPT

2Beit

3MOCO v3

4DINO

8讨论

1)实验评估与比较分析

2)可视化Transformers 发展趋势综述

3)方案简述

猜你喜欢