Transformer

4 TRANSFORMER FOR DETECTION目标检测
TRANSFORMER FORSEGMENTATION分割
VI. DISCUSSION ANDCONCLUSION

接上篇Transformer综述大全（1）【A Survey of Visual Transformers】中介绍完原始Transformer与提出用于分类的网络，本文介绍Transformer用于目标检测与分割所提出的网络。

4 TRANSFORMER FOR DETECTION目标检测

在本部分中，我们将详细介绍用于目标检测的可视Transformers，它们可以分为两类：作为颈项的Transformer和作为主干的Transformer。颈部检测器主要基于一种指定给Transformer结构的新表示，称为对象查询，它是一组学习参数相等地聚合全局特征的表示。他们试图从收敛加速或性能改进的角度来解决最优融合范例。除了专门为检测任务设计的各种颈部外，一部分骨干检测器也考虑到了特定的策略。最后，我们在表II和表III中对它们的性能进行了比较，并分析了Transformers检测器的一些潜在的改进之处。

1Transformer Neck

我们首先回顾了DETR[28]，它提供了一种新的表示对象查询的方法，将对象检测描述为集合预测问题。由于其对小目标精度不高，收敛速度慢，人们从稀疏关注度、空间优先和结构重新设计三个方面对其进行了改进。此外，我们还回顾了自我监督应用程序[74]。

1)原始检测器

使用TRTransformer检测(DETR)[28]是第一个端到端Transformer 检测器，消除了手工设计的表示法[115]-[118]和非最大抑制(NMS)后处理，通过引入对象查询和集合预测直接检测所有对象。具体地说，DETR使用编解码器Transformer 作为颈部，使用FFN作为预测头(图11)。输入由CNN主干提取，压平成一维序列，附加位置编码，然后送入Transformer 编码器。一小部分称为对象查询的可学习位置编码被附加到零输入，然后并行地馈送到Transformer解码器。在解码器中，自我注意块处理解码器嵌入关系，交叉注意块将全局特征聚合到嵌入中。然后，预测头通过简单的三层FFN将解码器输出直接转换为框坐标和每个对象的类分数。
总体而言，DETR为端到端的目标检测提供了一种新的方法。对象查询在与图像特征交互的过程中逐渐学习实例特征。二部匹配使得直接集合预测可以很容易地适应Oneto-One标签分配任务，从而消除了传统的后处理。DETR在COCO基准上获得了有竞争力的性能，但在小对象上存在收敛速度慢和性能差的问题。

2)稀疏关注的Transformer

在DETR中，解码器嵌入和全局特征12之间的密集交互消耗了巨大的计算资源，并减缓了DETR的收敛速度。因此，一些努力旨在设计依赖于数据的稀疏关注来解决这一问题，例如可变形DETR[67]和ACT[？]。

可变形DETR Deformable DETR
在他们先前工作的基础上[120]，朱等人。提出了可变形DETR[67]，其中包含用于收敛加速的可学习稀疏可变形注意和用于提高精度的多尺度结构。与原始DETR相比，可变形DETR具有更高的精度(特别是在小目标上)，训练周期减少了10倍。受fpn[121]的启发，多尺度可变形注意被称为多尺度注意块，如图12所示。给定特征图X1∈Rh1×WL×C和查询序列eZ∈RNq×C，多尺度变形注意力通过两个线性层在每一层的头部对Nk个样本关键字的每个查询的∆p∈R2进行偏移。在对关键点特征进行采样的同时，将线性投影层应用于查询，
ACT
通过可视化DETR的注意图[28]，郑等人。观察到语义相似且空间接近的元素在编码器中总是具有相似的注意图[68]。为了消除编码器的冗余查询，他们提出了一种自适应聚类Transformer(ACT)。基于多轮精确欧几里得局部性敏感散列(E2LSH)[122]，ACT可以动态地将查询聚类成不同的原型，然后通过将每个原型广播到它们对应的查询来近似查询-关键关注图。与DETR相比，ACT减少了15GFLOP，仅损失0.7%的AP。

3)空间先验Transformer

与锚点或其他由内容和几何特征直接生成的表示不同[115]、[123]，对象查询隐式地对空间信息进行随机初始化建模，这可能与边界框弱相关。目前，空间先验应用的主要方法有具有经验空间信息的一级检测器[69]、[70]和几何坐标初始化的两级检测器[67]、[71]。

SMCA
利用经验空间先验来增强对象查询和边界框之间的联系，高晓松等人提出了一种基于经验空间先验的对象查询方法。提出了一种称为空间调制交叉注意(SMCA)[69]的一阶段方法来显式估计每个对象查询的空间先验。具体地，SMCA动态预测每个对象查询对应的方框的初始中心和尺度，生成一个类高斯权重图，然后与相应的交叉注意图相乘。此外，SMCA利用多比例功能来增强DETR。在编码器中，尺度内的自我注意处理每个尺度内的特征像素，而多尺度的自我注意平等地聚集不同尺度上所有空间位置的视觉特征。 对于解码器，由每个对象查询生成的比例选择关注度权重被自动应用于为每个框选择比例特征。通过这种方式，SMCA在COCO数据集上获得了令人印象深刻的性能(45.6%的MAP)，训练周期比DETR少5倍。
Conditional DETR
在DETR解码器的交叉注意中，对象查询和编码器位置编码之间的空间注意图可以从查询键注意图中分离出来。通过比较不同训练时期的空间注意图，Meng et al.。发现在训练时间较短的模型中，极值区域的偏差较大。鉴于此，他们提出了一种新的空间先验，称为条件空间嵌入[70]，以显式地表示对象的极端区域，从而缩小了定位不同区域的空间范围。条件空间嵌入是从用于交叉注意的参考点和解码器嵌入中学习的，其中参考点用作被对象查询替换的学习参数或来自对象查询的输出预测。与DETR的原始预测头不同，条件DETR使用参考点作为额外的输入来定位候选框。这两个改进使DETR在COCO上的收敛速度提高了8倍，盒MAP提高了1.8%。
两阶段可变形DETR
在[67]中，Zhe等人。此外，还支持两阶段方案以增强空间优先级。它不需要学习对象查询，而是从编码器输出生成Top-K区域建议，并将它们作为替代输入到Transform解码器进行进一步细化。与以前的两级检测器[115]类似，它显著提高了可变形DETR的准确性，但略微增加了培训成本。
高效DETR
在可变形DETR[67]中，对象查询可以可视化为一系列参考点。有趣的是，在多次训练迭代之后，不同的初始化点总是趋向于相似的分布。鉴于这一观察结果，Yao et al.。提出了一种由密集方案生成和稀疏集预测部分组成的两阶段高效DETR算法[71]。其整体结构类似于两级可变形DETR[67]，但密集和稀疏部分共用一个检测头。采用单一解码层，高效的DETR获得了与DETR相当的结果，训练周期减少了14倍。更有趣的是，观察到两个堆叠解码器层会带来轻微的改善，但堆叠越多，结果就越差。如何改进深层堆叠解码器以实现高效的DETR是一个值得进一步研究的问题。

4)Transformer with Redesigned Structure

重新设计了结构的Transformer：除了针对交叉注意的修改外，一些工作还重新设计了仅编码器的结构，以直接避免解码器的问题。例如，TSP[72]继承了集合预测[28]的思想，并产生解码器和对象查询。YOLOS[73]结合了DETR的编解码器颈部和VIT的仅编码器主干，重新设计了仅编码器检测器。

TSP：Sun等人通过监测每个Transformer层中注意力图的稀疏性(负熵)。[72]指出训练过程较长的主要原因是交叉注意收敛速度较慢，提出了一种基于前人表示[115]、[123]的仅编码DETR，称为TSP-FCOS和TSP-RCNN，以加快模型的收敛速度.TSP-FCOS和TSP-RCNN被称为TSP-FCOS和TSP-RCNN.。具体地说，它们生成一组固定大小的感兴趣特征(FOI)[123]或建议[115]，然后将其送入输入Transformer编码器。此外，为了解决二部匹配的不稳定性，特别是在训练的早期阶段，采用了匹配蒸馏的方法。与原DETR算法相比，TSP算法的性能提高了5−，训练成本降低了10倍，推理速度提高了1.5−2倍。
YOLOS：受到VIT[27]和DETR[28]的启发，方等人。提出了YOLOS[73]，一种纯序列到序列Transformer来统一分类和检测任务。它继承了VIT的结构，用固定大小的学习检测令牌取代了单一的类令牌，类似于DETR解码器的输入。这些对象令牌和补丁被串联成一个序列，并输入到Transformer编码器。该算法首先在分类任务中预先训练对象令牌的传递能力，然后在检测基准上对预先训练好的对象令牌进行微调。YOLO不仅提高了DETR的性能，还提供了可视化任务的通用框架。

5)Transformer Detector with Self-Supervised Learning

受成功的预培训NLP Transformer的启发[3]、[5]，戴等人。提出了一种无监督的预培训DETR(UP-DETR)[74]，从三个方面来辅助监督培训。

1)将给定图像中的一个随机裁剪的面片分配给所有对象查询。解码器的目标是定位补丁位置。
2)为了避免训练前过度偏向于局部，提出了一种保留特征区分的辅助重建任务。
3)多查询定位在单查询块的基础上，将多个块分配给不同的目标查询，以模拟多目标检测任务，加快收敛速度。每个面片查询通过掩码关注和对象查询洗牌独立预测。
在小数据集上，UP-DETR比DETR具有更高的准确率和更快的收敛速度，在训练数据充足的情况下，UP-DETR的性能甚至更好。

2Transformer Backbone

在第三节中，我们回顾了许多基于Transformer的主干用于图像分类[27]、[38]。这些主干可以很容易地合并到各种框架中(例如，Mask R-CNN[124]、RetinaNet[117]、DETR[28]等)执行密集的预测任务。

除了一般的改进外，它们的比例也有利于密集的预测任务。与PVT[39]、[58]一样，分层结构将Transformer构建为一个从高到低分辨率的过程来学习多尺度特征。局部增强结构将主干构建为局部到全局的组合，以有效地提取短期和远程视觉依赖，并避免二次计算开销，例如SwinTransformer[33]、VIL[55]和Focus Transformer[54]。表三比较了密集预测任务中基于不同框架的这些模型。基于Transformer的主干比现代CNN模型的性能高出2-6.8%，这证明了Transformer在密度预测方面的有效性。

类似于FPN[121]，Zhang et al.。通过结合非局部[14]和多尺度特征的特点，提出了一种专用于密集预测任务的特征金字塔Transformer(FPT)[75]。它利用三个注意力成分来模拟空间和尺度上的交互，包括自我注意、自上而下的交叉注意和自下而上的跨渠道注意。FPT作为密集预测任务的通用主干，在许多SOTA模型的基础上得到了进一步的推广。

3讨论

本节根据表II和表III对Transformer检测器进行简要比较和分析。

对于Transformer颈部，我们只关注它们在单尺度特征结构中的触发器，而不是多尺度特征，因为它们应用了不同的层数。
从稀疏注意力(SA)的角度来看，可变形DETR[67]减少了8个GFLOP，训练时间加快了12倍，而ACT-DC5[68]将计算量从187个减少到156个GFLOP，而性能损失很小。
从空间先验(SP)的角度来看，一级检测器将空间先验与对象查询明确分离，带来了快速收敛和较高的准确率。SMCA[69]和Conditional DETR[70]分别获得了42.7%和43%的MAP，共108个训练周期。两阶段检测器和TSP-RCNN[72]都用建议替换学习对象查询。这种基本上相同但结构不同的方法大大提高了探测器的准确性。
从多尺度(MS)特征的角度来看，它可以补偿Transformer在小目标检测方面的性能。例如，可变形DETR[67]和SMCA[69]使DETR分别提高5.2%和3.1%的APS。仅编码器结构减少了Transformer层数，但过度增加了触发器，例如具有537 GFLOP的YOLOS-B。相反，编码器-解码器结构是GFLOP和层数之间的一种很好的折衷，但较深的解码器层可能会导致较长的训练过程和过度平滑的问题。因此，将SA与MS和SP集成到深度解码器中是值得进一步研究的。在分类方面有许多骨干改进，但很少有工作涉及密集预测任务。根据第三节提出的分类方法，可以很容易地将现有的方法分为两部分：分层Transformer和局部增强型Transformer。在未来，我们预计Transformer主干将加入深度高分辨率网络[127]来解决密集预测任务。

在这里插入图片描述

TRANSFORMER FORSEGMENTATION分割

Transformer被广泛应用于分割，主要有两种方式：patch-based Transformer和query-based Transformer。后者可以进一步分解为Transformer with object query 与 Transformer with mask embedding。

Patch-Based Transformer

作为接受场扩展策略，CNN需要大量的解码器栈来将高层特征映射到原始的空间分辨率。相反，依靠全局建模功能，基于面片的Transformer将输入图像视为面片序列，并将其送入柱状Transformer编码器。这种分辨率不变策略使Transformer能够只集成一个相对简单的解码器并获得分割任务所需的性能。

此外，一些工作[76]-[78]试图研究基于贴片的Transformer和不同分割框架之间的最佳组合[124]、[128]。

SETR

受VIT[27]启发，郑某等人。将视觉Transformer扩展到语义分割任务，提出了分割Transformer(SETR)[76]。SETR用Transformer编码器替代CNN主干，除了类令牌外，遵循VIT的输入输出结构。此外，它还采用了三种解码器方式进行每像素分类：朴素上采样(NAIVE)、渐进上采样(PUP)和多层特征聚合(MLA)。SETR证明了Transformer编码器在分割任务中的巨大可行性，但它依赖于昂贵的GPU集群和额外的RAM，这归因于堆栈层的数量和二次计算成本。

TransUNet

TransUNet[77]是第一个用于医学图像分割的视觉Transformer。它可以看作是带有MLA解码器[76]的SETR的变体，或者是U-Net[128]和Transformer的混合模型。这种结构虽然概念简单，但取得了很好的效果，证明了视觉Transformer在这一领域的有效性。

Segformer

Segformer[78]利用一系列简单实用的方法来改进Transformer的语义分割任务，如层次结构[39]、重叠块投影[34]、高效的注意机制[34]、[39]和卷积位置嵌入[48]、[53]。与CNN解码器使用重叠层扩展接收范围不同，Segformer重新设计了一个只有四个MLP层的轻量级解码器，作为Transformer编码器强大的全局集成能力。实验表明，SegformerB5在ADE20K上获得了新的SOTA结果，MIU值为51.8%，比SETR小4倍。此外，在具有多种破坏类型的城市景观数据集上进行测试时，Segformer表现出比DeepLabv3更强的鲁棒性。

Query-Based Transformer

Query是在Transformer解码器的输入和输出处的可学习嵌入。与面片嵌入相比，查询嵌入能更“公平”地整合每个面片的信息。具有设置预测损失的基于查询的Transformer能够删除其他手工制作的表示和后处理。最近，许多努力试图将这种表示推广到分段任务它们可以分为两类。
一种类型的框架由对象查询驱动，该对象查询也由检测任务监督。
另一种类型的查询仅由分割任务监督，称为掩码嵌入。

1)带对象查询的Transformer

基于对象查询的方法有三种训练方式。
基于DETR的预先训练的对象查询，通过分割任务进一步细化具有该查询的掩码头部(图13(A))。
代替多阶段训练过程，对象查询由一些端到端框架中的检测和分割任务并发建模[79]。
另一种类型[81]试图弥合用混合级联网络构建的不同任务分支之间的差距，其中盒输出用作掩码头部的输入(图13©)。

Panoptic DETR
基于查询的Transformer首先由DETR[28]引入，用于检测任务。它还通过基于预先训练的对象查询训练掩模头来将这种形式扩展到全景分割。具体地，应用对象查询和编码特征之间的交叉注意块来为每个对象生成关注图。在FPN样式的CNN上采样之后，空间argmax操作将得到的二进制掩码融合到非重叠预测。在实践中，它达到了45.1%的全景质量(PQ)[129]的可可全景基准。
CELL-DETR
类似于从更快的RCNN[115]扩展到Mask R-CNN[124]，Prangemeier等人。利用DETR[28]执行端到端单元实例分割(术语Cell-DETR)[79]。它继承了DETR中原始屏蔽头的交叉注意，并用像素自适应卷积[130]代替加法运算来进行特征融合。与DETR的串行训练过程不同，它同时为每个任务分配不同的头/分支，其中不重叠的掩码由U-Net[128]分支生成，类别标签用作每个查询的输出。单元格-DETR在活细胞显微镜数据集上实现了SOT
VisTR
另一个扩展是视频实例分割Transformer(VisTR)[80]，它将视频实例分割(VIS)任务表述为一个直接的并行序列预测问题。VisTR的核心思想是基于实例序列水平的二部匹配损失来维持输出的顺序，可以直接强制进行一对一预测。详细地说，2D CNN主干提取每一帧的特征，并使用具有3D位置编码的编解码器Transformer来建模像素级和实例级特征的相似性。与Cell-DETR[79]类似，两个平行头用于同时预测不同帧的每个实例的框和掩码序列。实验表明，VisTR在Y ouTube VIS数据集上达到了35.3%的准确率，是单一模型方法中性能最好的。
QueryInst
另一个扩展是QueryInst[81]，它使混合任务级联结构能够在两个相对独立的分支之间架起桥梁。QueryInst的目标是通过一系列具有共享查询的并行动态掩码头部，实现掩码ROI特征和对象查询之间的一对一对应。基于稀疏R-CNN[131]和级联掩码R-CNN[132]的更新策略，QueryInst根据前级查询和本级边界框预测来预测掩码。动态屏蔽头可以被并行训练，以便于检测和分割任务之间的通信。此外，还共享了查询嵌入和MSA，以鼓励两个子任务互惠互利。QueryInst基于SwinTransformer对CoCo实例分段基准获得最新的SOTA结果。

2)带掩码嵌入的Transformer

另一个框架致力于利用查询直接预测掩码，我们将这种基于掩码的学习查询称为掩码嵌入。与对象查询不同，掩码嵌入只受分割任务的监督。如图13(D)所示，两组互不相交的查询被并行地用于不同的任务。对于语义分割和无框框架，一些研究从基于查询的Transformer中去除对象查询，并直接通过掩码嵌入来预测掩码(图13(E))。

ISTR&SOLQ
为了使一维序列输出直接由2D掩模标签监督，ISTR[82]提出了一种掩模预编码方法，将地面真实空间掩模编码为低维掩模嵌入，例如用于分割。与ISTR相似，董等人也提出了类似于ISTR的结论。提出了一种更简单的流水线SOLQ[83]，并探索了掩码嵌入的三种可逆压缩编码方法(稀疏编码、PCA和DCT)。具体地，应用一组统一的查询来并行执行多个表示学习：分类、框回归和掩码编码。SOLQ算法在DETR[134]原有探测头的基础上，通过MLP增加掩模分支，产生掩模嵌入损耗。ISTR和SOLQ都获得了相似的结果，并且即使在基于近似的次优嵌入的情况下也优于以往的方法。然而，它们导致了APbox与APseg在性能上的巨大差距，这是值得进一步探索的。
Max-DeepLab
受到端到端Transformer检测器的启发[28]，Wang等人。提出了第一个基于查询的端到端TransformerMax-DeepLab[29]，用于全景分割。Max-DeepLab通过PQ式的两部分匹配损耗和双路径Transformer结构，直接强制执行一组独特的标签掩模预测。在给定一组掩码嵌入和一幅图像输入的情况下，Max-DeepLab分别在记忆路径和CNN路径中对它们进行处理，然后分别使用FFN和点积交叉乘法预测未标记的掩码和相应的标签。这种端到端无盒Transformer在COCO测试开发集上实现了新的SOTA，PQ为51.3%，但由于其过高的辅助损耗和高分辨率特征上的双路径结构处理，导致了较高的计算成本。
Segmenter
Strudel等人不是在双路径结构中处理2D点阵和记忆序列[29]。提出了一种简单的无卷积模型分割器[84]，该分割器将语义分割任务视为序列到序列的问题。在分段器中，一个预先训练好的Transformer骨干汇聚各块之间的关系，分配给每一类的一组掩码嵌入到Transform编码器中，与这些块一起，然后嵌入和块之间的标量积为每个块生成标记掩码预测。因此，Segmenter在主流语义分割基准(即ADE20K、Pascal上下文数据集和城市景观)上超过了最新的Sota CNN。
MASKFORM
与主流语义分割方法在像素级别预测掩码不同，Cheng等人。观语义分割任务作为掩码预测问题，并使这种输出格式能够基于查询的Transformer，因此术语掩码[85]。详细地说，并行TransformerCNN解码器分别处理掩模嵌入和每像素特征。然后，该模型通过具有S型激活的点积来预测一组重叠的二进制掩码。在语义推理时，矩阵乘法将它们组合起来生成最终预测(图15)。MaskFormer不仅在大类语义分割数据集上的性能优于目前的单像素分类SOTA(在ADE20K上为55.6Mou)，而且被推广到全景分割任务中(COCO上为52.7PQ)。

讨论

作为一项基本但仍然具有挑战性的任务，分割也受益于不断发展的视觉Transformer。我们根据三个不同的分段子任务来总结这些Transformer。

表四重点介绍了用于语义分割任务的ADE20K验证集(170个类)。我们发现Transformer在具有大量类而不是较小类的数据集上进行训练后，性能有了很大的提高。

表V重点介绍了COCO TEST-DEV 2017数据集，例如细分任务。显然，带掩膜嵌入的Transformer在分割和检测任务上都超过了以前流行的模型。这些方法显著地提高了盒的准确率，但对分割的改善却很小，导致APbox的性能与APseg的性能相差甚远。

基于级联框架，QueryInst[81]在Transformer模型中达到了SOTA性能。Transformer与混合任务级联结构的结合值得进一步研究。

表VI重点介绍了全景分割任务。Max-DeepLab[29]一般是通过掩码预测格式来解决全景分割任务中的前景和背景，而Maskform[85]则成功地将这种格式用于语义分割，并将语义级和实例级分割任务统一起来。根据它们在全景分割领域的表现，可以得出结论：Transformer可以将多个分割任务统一到一个具有掩码预测的无盒框架中。
在这里插入图片描述

VI. DISCUSSION ANDCONCLUSION

近期改进情况

根据上述比较和讨论，我们现在就以下三项基本任务的近期改进情况简要介绍一下。

分类
对于分类，深层分层Transformer主干可以有效地降低计算复杂度[39]，避免深层特征过度平滑[35]、[40]、[59]、[60]。同时，早期卷积[37]足以捕捉底层特征，可以显著增强算法的鲁棒性，降低浅层的计算复杂度。此外，卷积投影[46]、[47]和局部注意机制[33]、[42]都能改善Transformer的局部性。前者[48]、[49]也可以是用位置编码取代的新方法。·
检测
对于检测，Transformer得益于编码器-解码器结构，计算量比仅编码器的Transformer检测器少[73]。因此，解码器是必要的，但是由于其缓慢的收敛[72]，所以需要很少的堆栈[71]。此外，稀疏关注度[67]有利于降低计算复杂度，加快Transformer的收敛速度，而空间先验[67]、[69]、[70]则有利于提高Transformer的性能，收敛速度稍快。·
分割
对于分割，编解码器Transformer模型可以通过一系列可学习的掩码嵌入将三个分割子任务统一为掩码预测问题[29]、[84]、[137]。这种无框方法在多个基准上实现了最新的SOTA[137]。此外，基于箱式Transformer的特定混合任务级联模型[81]在实例分割任务中获得了更高的性能。

关于视觉Transformer的讨论

尽管有大量的视觉Transformer模型和应用，但对视觉Transformer的“本质”理解仍然是低效的。因此，我们将重点关注一些关键问题，以帮助解决读者的困惑。

1)如何搭建语言和视觉之间的桥梁

transformer 最初是为机器翻译任务设计的。在语言模型中，句子中的每个单词都被看作是一个基本单位，代表着高层次、高维度的语义信息。这些单词可以嵌入到低维向量空间表示中，因此称为单词嵌入。在视觉任务中，图像的每个像素都是低层次的低维语义信息，这与嵌入特征不匹配。因此，将图像转换为视觉任务的关键是建立图像到矢量的转换，并保持图像的特征。例如，vit [27]通过强松弛条件将图像转换为具有多个低级信息的补丁嵌入，而早期 conv[50]和 coatnet [37]利用卷积提取高级信息并减少从补丁中的冗余特征。

2)Transformer、自我注意与 cnn 之间的关系

从卷积的角度，如第二章所述。其归纳偏差主要表现为局部性、平移不变性、权重分配和稀疏连接。这种简单的卷积核能够有效地进行模板匹配，但由于感应偏置较强，其上限低于Transformer。从自我注意机制的角度，如证券交易委员会。Iii-b 和 sec。当给定足够数量的磁头时，它理论上可以表示任何卷积层。这种全注意操作可以交替地将局部注意和全局注意结合起来，并根据特征之间的关系动态地产生注意权重。即便如此，它的实用性还是比较差，准确度和计算复杂度都比 sota cnn 低。从Transformer的角度，董等人论证了自我注意层对“令牌一致性”表现出强烈的归纳偏见时，训练深层没有短连接或 ffns [94]。结果表明，Transformer由两个关键部件组成: 一个自注意层聚合了标记之间的关系，一个位置方向的 ffn 提取输入特征。尽管 transformer 具有强大的全局建模能力，如 sec 所示。Iii-c 和 vi-b1，卷积可以有效地处理低层特征[37] ，[50] ，增强Transformer[45] ，[70]的局部性，并通过填充[48] ，[49] ，[102]追加位置特征。

3)可学习嵌入不同视觉任务

Transformer模型使用可学习嵌入来执行不同的视觉任务。从监控任务的角度来看，这些嵌入可以分为类标记、对象查询和掩码嵌入。从结构的角度看，二者之间存在着内在的联系。现有的Transformer方法主要采用两种不同的模式，即编码结构和编解码结构。如图16所示，每个结构由三个嵌入应用程序级别组成。从位置层面上，将学习嵌入在编码器Transformer中的应用分解为初始令牌[27]、[73]和后续令牌[40]、[84] ，将学习位置编码[28]、[70]、[137]和学习解码器输入嵌入[67]应用到编码器结构中。从数量级来看，编码器专用设计应用不同数量的令牌。例如，vit [27]、[38] family 和 yolos [73]在初始层中附加不同的数字标记，而 cait [40]和 segmenter [84]利用这些标记在不同的任务中表示最后几个层的特性。在编解码器结构中，对象查询[28]、[70]或掩码嵌入[137]中所学习的解码器位置编码被显式[28]、[137]或隐式[69]、[70]附加到解码器输入端。与常量输入不同，可变形分离器[67]采用学习嵌入作为输入，并注意编码器的输出。
受多头注意设计的启发，采用多重初始令牌策略进一步提高分类性能。然而，deit [38]指出这些额外的标记会向相同的结果收敛，这对 vit 没有好处。从另一个角度来看，yolos [73]提供了一种通过使用多个初始标记来统一分类和检测的范例，但是这种只使用编码器的设计会导致过多的计算复杂性。基于 cait [40]的观察，后一种类令牌可以减少Transformer的几次浮点运算，并略有提高(从79.9% 提高到80.5%)。Segmenter [84]也显示了这种策略在分割任务中的效率。与之后使用仅编码器Transformer的多个令牌相比，编码器-解码器结构节省了更多的计算。它通过使用一小组对象查询(掩码嵌入)来标准化检测[28]和分割[137]字段中的Transformer方法。结合多个后续标记和对象查询(掩码嵌入)的形式，以对象查询和可学习解码器嵌入(相当于多个后续标记)为输入的可变形分离器[67]结构，可以将基于不同任务的可学习嵌入统一到Transformer编码器-解码器中。

未来的研究

视觉Transformer方法取得了巨大的进步，并显示了有希望的结果，接近或超过 sota cnn 方法的记录在多个基准。然而，该技术还不成熟，不足以打破卷积在中国植物遗传育种领域的主导地位。根据 sec 的分析。在 vi-b 中，我们指出了一些有希望的未来方向的可视化Transformer，为进一步的全面连接。

1)设置预测: 正如在 sec 中提到的。Vi-b3，由于损失函数的梯度相同，额外的类令牌将一致收敛[38]。二分损失函数集合预测策略在许多密集预测任务中被广泛应用于视觉Transformer,如上所述，在分类任务中考虑集合预测设计是很自然的，如多类令牌Transformer通过集合预测预测混合补丁图像，这类似于 lvvit [41]的数据增强策略。此外，集合预测策略中的一对一标记分配导致了早期训练的不稳定性，从而降低了最终结果的准确性。改进集合预测与其他标签分配和损失可能有助于新的检测框架。

2)自监督学习: 自监督Transformer预训练已经标准化了 nlp 领域，并在各种应用中取得了巨大的成功[2] ，[5]。卷积连体网络作为自我监督的范式，采用对比学习方法进行自我监督的预训练，这与 nlp 中的掩码自动编码器有所不同。近年来，一些研究尝试设计一种自监督的视觉Transformer，以弥补视觉与语言之间预训练方法的不足。他们大多继承了神经语言处理或对比学习方案中隐藏的自动编码器。但是，目前还没有一种像 nlp 中的 gpt-3这样革命性的视觉Transformer监督方法。如证券交易委员会所述。在 vi-b3中，编解码器结构可以通过学习解码器嵌入和位置编码来统一视觉任务。编解码器Transformer的自监督学习方法值得进一步研究。

结论

vit 在 cv 任务中的有效性得到验证后，视觉Transformer得到了相当多的关注，并逐渐削弱了 cnn 的主导地位。在本文中，我们全面回顾了100多种已经成功应用于各种视觉任务的Transformer模型，包括分类、检测和分割。针对每个任务，提出了一个特定的分类法来组织最近开发的Transformer方法，并对它们的性能进行了各种主流基准测试的评估。本文通过对这些方法的综合分析和系统比较，总结了目视Transformer的显著改进，讨论了目视Transformer的三个基本问题，并提出了今后可能的研究方向。希望本文能帮助读者在深入探索之前更好地理解视觉变形体。

Transformer综述大全（2）【A Survey of Visual Transformers】