【读点论文】A survey of the Vision Transformers and its CNN-Transformer based Variants近年来这个方向的文献阅读记录

A survey of the Vision Transformers and its CNN-Transformer based Variants

Abstract

视觉Transformer作为卷积神经网络(cnn)的可能替代品，在各种计算机视觉应用中越来越受欢迎。这些transformer能够专注于图像中的全局关系，提供了很大的学习能力。然而，它们可能会受到有限的泛化，因为它们不倾向于模拟图像中的局部相关性。近年来，在视觉transformer中出现了卷积运算和自关注机制的混合，以同时利用局部和全局图像表示。这些混合视觉transformer，也被称为CNN-Transformer架构，在视觉应用中表现出显著的效果。鉴于混合视觉transsformer的数量迅速增长，有必要对这些混合架构进行分类和解释。这项调查提出了最近的视觉变压器架构的分类，更具体地说，是混合视觉transformer。此外，还讨论了这些结构的关键特征，如注意机制、位置嵌入、多尺度处理和卷积。与之前主要关注单个视觉traansfformer架构或cnn的调查论文相反，本调查独特地强调了混合视觉transformer的新兴趋势。通过展示混合视觉transformer在一系列计算机视觉任务中提供卓越性能的潜力，本调查揭示了这种快速发展的架构的未来方向。

Introduction

数字图像本质上是复杂的，并展示高级信息，如对象、场景和模式。这些信息可以通过计算机视觉算法进行分析和解释，以提取有关图像内容的有意义的见解，例如识别物体，跟踪运动，提取特征等。由于计算机视觉在各个领域的应用，它一直是一个活跃的研究领域。然而，由于亮度、姿态、背景杂波等的变化，从图像数据中提取高级信息可能具有挑战性。
卷积神经网络(cnn)的出现给计算机视觉领域带来了革命性的变革。这些网络已成功应用于各种计算机视觉任务，尤其是图像识别、目标检测和分割。cnn之所以受欢迎，是因为它能够从原始图像中自动学习特征和模式。一般来说，局部模式，称为特征图案，系统地分布在整个图像中。卷积层中的不同过滤器被指定用于捕获不同的特征基元，而cnn中的池化层被用于降维并结合对变化的鲁棒性。cnn的这种局部处理可能会导致空间相关性的丧失，从而影响其在处理更大和更复杂模式时的性能。
最近在计算机视觉领域，在Vaswani等人于2017年首次将transformer引入文本处理应用程序之后，出现了一些向transformer的变体。2018年，Parmer等人利用transformer进行图像识别任务，并展示了出色的结果。从那时起，人们对将transformer应用于各种视觉相关应用的兴趣越来越大。2020年，Dosovitskiy等人推出了专为图像分析而设计的transformer架构Vision transformer (ViT)，并显示出具有竞争力的结果。ViT模型的工作原理是将输入图像分成一定数量的小块，每个小块随后被压平并馈送到一系列transformer层。transformer层使模型能够学习斑块和它们对应的特征之间的关系，从而使其能够在图像的全局尺度上识别特征主题。与具有局部接受野的cnn不同，ViTs利用其自关注模块来建模长期关系，这使它们能够捕获图像的全局视图。vit的全局接受野帮助它们保持全局关系，从而识别分布在图像上的复杂视觉模式。在这种情况下，Maurício等人报道，与cnn相比，vit在各种应用中可能显示出有希望的结果。
除了设计和捕获视觉模式的方式不同(如下图所示)，cnn和vit在归纳偏差上也存在差异。cnn严重依赖于相邻像素之间的相关性，而vit假设最小的先验知识，使得它们明显依赖于大型数据集。虽然ViT模型在对象识别、分类、语义分割和其他计算机视觉任务上取得了突出的成果，它们不是一个放之四海而皆通的解决方案。在训练数据较小的情况下，尽管vit的学习能力很大，但与cnn相比，它们可能表现出有限的性能。此外，它们巨大的接受野需要更多的计算。因此，引入了混合视觉transformer(HVT)的概念，也称为CNN-Transformer，以结合cnn和ViTs的功率。这些混合模型利用cnn的卷积层来捕获局部特征，然后将这些特征馈送到vit中，以使用自注意机制获得全局上下文。hvt在许多图像识别任务中显示出改进的性能。
- 多重自注意(MSA)机制描述及卷积运算。MSA倾向于捕获全局关系，而卷积操作具有局部接受域来模拟图像中的像素邻域信息。
最近，已经进行了不同的有趣的调查，以讨论transformer的最新架构和实施进展。这些调查文章中的大多数要么关注特定的计算机视觉应用，要么深入讨论专门为自然语言处理(NLP)应用开发的transformer模型。相比之下，这篇调查论文强调了结合cnn和transformer概念的HVTs (CNN-Transformer)的最新发展。它提供了一个分类法，并探讨了这些混合模型的各种应用。此外，本调查还提出了一般vit的分类，并旨在根据其核心架构设计对新兴方法进行彻底分类。
本文首先介绍了ViT网络的基本组成部分，然后讨论了各种最新的ViT体系结构。所报道的ViT模型根据其不同的特征大致分为六类。此外，还包括对hvt的详细讨论，强调了他们对利用卷积操作和多注意机制的优势的关注。调查报告涵盖了hvt的最新架构和在各种计算机视觉任务中的应用。此外，提出了hvt的分类法，根据这些体系结构将卷积操作与自关注机制相结合的方式对它们进行分类。这种分类法将hvt分为七大类，每一类都反映了利用卷积和多注意操作的不同方式。下表列出了常用的缩写。
本文结构

Fundamental Concepts in ViTs

下图说明了transformer的基本架构布局。最初，输入图像被分割、平面化并转换为称为Patch embeddings的低维线性嵌入。然后将位置嵌入和类标记附加到这些嵌入中，并将其馈送到 transformer 的编码器块中，以生成类标签。除了多头注意(MSA)层之外，编码器块还包含一个前馈神经网络(FFN)、一个规范化层和一个残差连接。最后，最后一个头(MLP层或解码器块)预测最终输出。下面的小节将详细讨论每个组件。
- ViT的详细架构。首先将输入图像分割成小块，然后将其线性变换后的嵌入与位置信息结合，通过多个编码器/解码器块进行处理，完成下游任务。

Patch embedding

补丁嵌入是ViT体系结构中的一个重要概念。它涉及将图像补丁转换为矢量表示，这使得ViT能够使用基于转换器的方法将图像处理为标记序列。输入图像被分割成固定大小的非重叠部分，平面化成一维向量，并使用具有 D 嵌入维数的线性层投影到高维特征空间。这种方法使ViT能够学习不同补丁之间的长期依赖关系，从而在涉及图像的任务上获得有希望的结果。
- $X^{N*D}_{patch}=R(I^{A*B*C}_{image}),(1)$
  - 输入图片为 $I_{image}$ ，其中它的维度为 $A * B * C$ 。R()方法为将图片reshape成 N 个 D维度的 $X_{patch}$ 。其中N=A/PXB/P；D= PXPXC；其中P为划分patch的数量，C为输入特征图的通道数。

Positional embedding

vit利用位置编码将位置信息添加到输入序列中，并在整个网络中保留它。通过位置嵌入捕获补丁之间的顺序信息，并将其合并到补丁嵌入中。自vit发展以来，许多位置嵌入技术被建议用于学习序列数据。这些技术可分为三类:

Absolute Position Embedding (APE)

在编码器块之前使用APE将位置嵌入集成到补丁嵌入中。 $X=X_{patch}+X_{pos}$ 。式中，transformer 输入用 X 表示， $ X_{patch} $表示贴片嵌入，$ X_{pos} $为可学习位置嵌入。$ X_{patch}$ & $X_{pos}$ 都有维度(N+ 1)×D，其中D表示嵌入的维度。可以训练 $X_{pos}$ 对应于可以学习的单个或两个集合的位置嵌入。

Relative Position Embedding (RPE)

相对位置嵌入(Relative Position Embedding, RPE)技术主要用于将与相对位置相关的信息整合到注意模块中。这种技术是基于斑块之间的空间关系比它们的绝对位置更重要的想法。为了计算RPE值，使用了一个基于可学习参数的查找表。查找过程由补丁之间的相对距离决定。尽管RPE技术可以扩展到不同长度的序列，但它可能会增加训练和测试时间。

Convolution Position Embedding (CPE)

卷积位置嵌入(CPE)方法考虑了输入序列的二维特性。D卷积利用二维特性利用零填充来收集位置信息。卷积位置嵌入(CPE)可用于在ViT的不同阶段合并位置数据。CPE可以专门引入到自注意模块、前馈网络(FFN) ，或者在两个编码器层之间。

Attention Mechanism

ViT体系结构的核心组件是自关注机制，它在显式表示序列中实体之间的关系方面起着至关重要的作用。它通过根据全局上下文信息表示每个实体并捕获它们之间的交互来计算一个项目对其他项目的重要性。自注意模块将输入序列转换为三个不同的嵌入空间，即查询、键和值。将带有查询向量的键值对集合作为输入。输出向量是通过对softmax运算符后面的值进行加权和来计算的，其中权重由评分函数计算。
- $Attention(Q,K,V)=softmax(\frac{Q·K^T}{\sqrt{d_k}})·V$
- 其中，Q、V、K^T分别为查询矩阵、值矩阵和转置键矩阵。1√dk是比例因子，dk是键矩阵的维数。

Multi-Head Self-Attention (MSA)

单头自注意模块的有限容量往往导致其只关注少数位置，而可能忽略其他重要位置。为了解决这个限制，使用了MSA。MSA利用自注意块的平行堆叠来提高自注意层的有效性。它通过将各种表示子空间(查询、键和值)分配给注意层来捕获序列元素之间的各种复杂交互。MSA由多个自注意块组成。每个都为查询、键和值子空间配备了可学习的权重矩阵。然后将这些块的输出连接起来，并使用可学习参数 $W_o$ 将其投影到输出空间。这使得MSA能够关注多个部分，并有效地捕获所有领域中的关系。注意过程的数学表示如下:
- $MSA(Q,K,V) = Concat(head_1, head_2,..,head_h)· W_o\\ head_i = Attention(Q_i,K_i,V_i), and i= 1,2,..., h$
- 与卷积处理相比，自注意动态计算每个输入序列的滤波器的能力是一个显著的优势。与通常是静态的卷积过滤器不同，自关注可以根据输入数据的特定上下文进行调整。自关注对输入点数量或其排列的变化也具有鲁棒性，这使得它成为处理不规则输入的好选择。另一方面，传统的卷积过程不太适合处理具有可变对象的输入，并且需要类似网格的结构，如2D图像。自我关注是对序列数据建模的强大工具，在包括NLP在内的各种任务中都很有效。

Transformer layers

ViT编码器由若干层组成，用于处理输入序列。这些层包括MSA机制、前馈神经网络(FFN)、残差连接和归一化层。这些层被安排以创建一个统一的块，该块被重复多次以学习输入序列的复杂表示。

Feed-forward network

模型采用 Transformer 专用前馈网络(FFN)从输入数据中获取更复杂的属性。它包含多个完全连接的层和一个非线性激活函数，如层之间的GELU。自关注模块之后的每个编码器块都使用FFN。FFN的隐藏层的维数通常为2048。这些ffn或MLP层是局部的，在转换上等同于全局自关注层。
- $FFN(X)=b_2+W_2*σ(b_1+W_1*X)$
- 非线性激活函数GELU用σ表示。网络的权重表示为W1和W2，而b1和b2对应于层特定偏差

Residual connection

编码器/解码器块中的子层(MSA和FFN)利用残差链路来提高性能并加强信息流。将原始输入位置嵌入作为附加信息加入到MSA的输出向量中。然后在残差连接之后进行层归一化操作。
- $X_{output}=LayerNorm(X⊕ O_{SL})$
- 其中 X 为原始输入，O_{SL}为各子层的输出，⊕表示剩余连接。

Normalization layer

层归一化有多种方法，如预层归一化(pre-layer normalization, Pre-LN)，这是常用的方法。规范化层位于MSA或FFN之前，并位于剩余连接内部。其他归一化过程，包括批归一化，已经被建议用于增强变压器模型的训练，然而，由于特征值的变化，它们可能不那么有效。

Hybrid Vision Transformers (CNN-Transformer Architectures)

在计算机视觉任务领域，vit已经越来越受欢迎，但与cnn相比，它们仍然缺乏图像特定的归纳偏差，通常被称为先验知识。这种归纳偏差包括平移和尺度不变性等特征，这是由于不同空间位置的共享权重。在cnn中，局部性、平动等方差和二维邻域结构根植于整个模型的每一层。此外，核利用相邻像素之间的相关性，这有助于快速提取良好的特征。另一方面，在ViT中，图像被分割成线性块(令牌)，通过线性层馈入编码器块，以模拟图像中的全局关系。然而，线性层在提取局部相关性方面缺乏有效性。
许多HVT设计都专注于卷积在捕获图像局部特征方面的效率，特别是在图像处理工作流程开始时进行补丁和标记。例如，卷积视觉transformer(CvT)使用卷积投影来学习图像补丁中的空间和低级信息。它还利用分层布局，逐步减少令牌数量和增加令牌宽度来模拟cnn中的空间降采样效果。类似地，卷积增强的图像Transformer(CeiT)利用卷积操作通过图像到令牌模块提取低级特征。紧凑卷积Transformer(CCT)提出了一种新的序列池化技术，它还集成了卷积池重塑块来进行标记化。当从头开始训练时，它在较小的数据集(如CIFAR10)上的准确率约为95%，这对于其他传统的vit来说通常很难实现。
在没有额外数据的情况下，CoAtNets独特的深度卷积架构和相对自关注实现了出色的ImageNet top-1精度。为了创建更强的跨补丁连接，Shuffle Transformer提供了Shuffle操作和CoAT是一种混合方法，它结合了深度卷积和交叉注意来编码各种尺度上的令牌之间的关系。另一种方法“Twins”建立在PVT的基础上，结合了可分离深度卷积和相对条件位置嵌入。最近，混合架构MaxVit引入了多轴关注的思想。他们的混合块由基于mb卷积的卷积组成，然后是块智能自注意和网格智能自注意，当重复多次时，该块创建分层表示，并能够完成图像生成和分割等任务。分块关注层和网格关注层分别能够提取局部和全局特征。卷积和Transformer模型的优势将在这些混合设计中结合起来。

Architectural level modifications in ViTs

近年来，在ViT架构中进行了不同的修改。这些修改可以根据它们的注意机制、位置编码、预训练策略、架构变化、可伸缩性等进行分类。ViT架构可以根据架构修改的类型大致分为五类，即(i)基于补丁的方法，(ii)基于知识转移的方法，(iii)基于移动窗口的方法，(iv)基于注意力的方法，以及(v)基于多transformer的方法。然而，随着CNN的归纳偏置引入ViTs，其性能得到了提升。在这方面，我们亦按结构设计将混合视觉transformer 分为七类。ViT架构的分类如下图所示。
- 视觉ViT架构的分类。

Patch-based approaches

在ViT中，首先将图像划分为补丁网格，随后将其平面化以生成线性嵌入，并将其作为标记序列处理。将位置嵌入和类标记添加到这些嵌入中，然后将其提供给编码器进行特征学习。一些研究利用不同的斑块提取机制来提高ViTs的性能。这些机制包括固定大小的补丁，动态补丁和重叠补片。在这方面，我们将讨论几种体系结构及其补丁标准。

Tokens-to-Token Vision Transformer (T2T-ViT)

token -to- token视觉transformer(T2T-ViT)采用固定大小和迭代方法生成补丁。它利用所提出的Token-to-Token模块迭代地从图像中生成补丁。然后将生成的补丁馈送到T2T-ViT网络以获得最终预测。

Transformer in Transformer (TNT-ViT)

Transformer ViT中的Transformer (TNT-ViT)提出了一种多级修补机制，以学习不同大小和位置的对象的表示。它首先将输入图像分割成小块，然后将每个小块进一步分割成子小块。随后，该体系结构利用不同的转换块对补丁和子补丁之间的关系进行建模。大量的实验证明了TNT-ViT在ImageNet数据集上的图像分类效率。

Deformable Patch-based Transformer (DPT)

基于变形补丁的Transformer(Deformable patch -based Transformer, DPT)提出了一种自适应补丁嵌入模块DePatch 。Transformer中固定大小的补片会造成语义信息的丢失，从而影响系统的性能。为此，本文提出的DPT中的DePatch模块对图像进行自适应分割，获得大小可变、语义信息强的patch。

CrowdFormer

Yang等人开发了一个ViT架构CrowdFormer，用于人群计数。所提出的体系结构利用其重叠的修补变压器块来捕获人群的全局上下文信息。为了考虑不同尺度和自上而下的图像，利用重叠修补层，其中使用滑动窗口来提取重叠补丁，而不是固定大小的补丁。这些重叠的斑块倾向于保留有效人群计数的相关上下文信息。

Knowledge transfer-based approaches

这个类别列出了那些利用知识转移(知识蒸馏)方法的ViT架构。它涉及到将知识从一个较大的网络传递到一个较小的网络，就像老师向学生传授知识一样。教师模型通常是一个复杂的模型，具有丰富的学习能力，而学生模型则更简单。知识提炼的基本思想是促进学生模式获取和吸收教师模式的鲜明特征。这对于计算资源有限的任务特别有用，因为较小的ViT模型可以比较大的ViT模型更有效地部署。

Data-efficient Image Transformers (DeiT)

Deit是ViT的一个更小、更高效的版本，它在各种任务上都表现出了有竞争力的表现。它为教师使用预训练的ViT模型，为学生使用较小的ViT模型。通常，有监督学习和无监督学习结合使用，教师网络监督学生网络，产生类似的结果。除了DeiT的快速推理时间和有限的计算资源外，它还具有改进的泛化性能，因为学生模型已经学会了捕获数据中最重要的特征和模式，而不仅仅是记忆训练数据。

Target-aware Transformer (TaT)

目标感知转换器(Target-aware Transformer, TaT) 利用一对多关系从教师网络到学生网络交换信息。该方法首先将特征图划分为多个patch，然后在每个patch中将所有教师的特征转移到所有学生的特征上，而不是利用所有空间区域之间的相关性。然后将贴片内的所有特征平均为单个向量，使知识转移计算更加高效。

Tiny Vision Transformer (TinyViT)

Wu等人提出了一种快速蒸馏方法以及一种新的架构，称为TinyViT。他们的主要概念是在预训练过程中将大型预训练模型的学习特征传递给小型预训练模型(下图)。除了事先在磁盘上进行编码的数据扩充外，还对教练模型的输出logit进行了简化并存储，以节省内存和计算资源。然后，学生模型使用解码器重建保存的数据增强，并通过输出logits传输知识，两个模型都独立训练。结果证明了TinyViT在大规模测试集上的有效性。
- Detailed workflow of knowledge transfer-based approach (TinyViT).

Shifted window-based approaches

一些ViT体系结构采用了基于窗口的转换方法来增强其性能。这种方法首先由Liu et al .在他们的Swin Transformer。Swin Transformer具有与ViT相似的架构，但具有移位的窗口方案，如下图所示。它通过在每个不重叠的局部窗口内计算自关注计算来控制自关注计算，同时仍然提供跨窗口连接以提高效率。这是通过将基于移位窗口的自关注实现为两个连续的Swin Transformer块来实现的。第一个块使用常规的基于窗口的自我关注，第二个块移动这些窗口并再次应用常规的基于窗口的自我关注。改变窗口的想法是使跨窗口连接成为可能，这可以帮助网络提高其模拟全局关系的能力。
- Architectural diagram of Swin Transformer (shifted window-based approach).
Song等人提出了一种新的用于视觉目标跟踪的ViT架构，命名为CSWinTT，该架构利用了多尺度下基于循环移动窗口的注意力。该方法将像素注意力增强为窗口注意力，并使跨窗口的多尺度注意力聚合为不同尺度的注意力。这保证了跟踪对象的完整性，并为目标对象生成最佳的精细匹配。此外，循环移位技术利用位置信息扩展了窗口样本，提高了精度和计算效率。通过将位置信息整合到注意机制中，该模型可以更好地处理物体位置随时间的变化，并且可以更有效地跟踪物体。总体而言，所提出的体系结构在使用基于视点的模型提高视觉目标跟踪的准确性和效率方面显示出良好的效果。

Attention-based approaches

已经提出了许多改进自关注模块以提高其性能的ViT架构。其中一些模型利用密集的全局注意机制，而其他使用稀疏注意机制在没有空间相关性的图像中捕获全局级依赖关系。众所周知，这些类型的注意力机制在计算上非常昂贵。在性能和计算复杂度方面，已经做了许多工作来改进注意力模块。

Class attention layer (CaiT)

Touvron等人提出了一种新的方法来提高深层 Transformer 的性能。它们的体系结构名为CaiT，包含一个自关注模块和一个类关注模块。自关注模块就像普通的ViT体系结构一样，但是在初始层中没有添加类令牌(类信息)。类嵌入被添加到类关注模块中，稍后在体系结构中添加。他们的方法在少量参数下显示出良好的结果。

Deformable attention transformer (DAT)

Xia等人提出了一种数据依赖的注意力机制，将注意力集中在更可靠的区域。他们的架构采用模块化设计，每个阶段都有一个局部注意层，然后是每个阶段的可变形注意层。提出的DAT体系结构在基准数据集上显示了典型的性能。

Patch-based Separable Transformer (SeT)

Sun等人在他们的ViT架构中使用了两种不同的注意力模块来完全捕捉图像中的全局关系(下图)。他们提出了一个像素级的注意力模块来学习初始层中的局部交互。后来，他们使用了一个局部注意模块来提取全局级别的信息。SeT在ImageNet和MS COCO数据集上的结果优于其他方法。
- 基于贴片的可分离Transformer(SeT)的结构，通过引入两个不同的注意块来改进其MSA层。

Multi-transformer-based approaches

许多方法在其体系结构中利用多个vit来提高其在需要多尺度特征的各种任务上的性能。本节讨论这种基于多Transformer的ViT架构。

Cross Vision Transformer (CrossViT)

Chen等人提出了一种具有双分支的ViT架构，他们将其命名为CrossViT 。该模型的关键创新之处在于将不同大小的图像块组合在一起，从而使CrossViT能够生成高度域相关性的图像特征。较小和较大的补丁令牌使用具有不同计算复杂性的两个独立分支进行处理。这两个分支使用高效的交叉注意模块多次融合在一起。该模块通过创建非补丁令牌来实现分支之间的知识传递。通过这个过程，注意力图的生成是线性的，而不是二次的。这使得CrossViT比其他使用二次注意力的模型计算效率更高。

Dual Vision Transformer (Dual-ViT)

双视觉Transformer(Dual- Vision Transformer, Dual-ViT)是一种新的ViT架构，它降低了自关注机制的计算和成本。该体系结构利用两个单独的路径来捕获全局和本地级别的信息。语义分支学习粗糙的细节，而像素路径捕获图像中的更精细的细节。这两个分支都是并行集成和训练的。与其他已有模型相比，该模型在参数较少的ImageNet数据集上取得了较好的效果。

Multiscale Multiview Vision Transformer (MMViT)

多尺度多视图视觉Transformer(MMViT)将多尺度特征映射和多视图编码集成到Transformer模型中。MMViT模型利用多个特征提取阶段来并行处理不同分辨率的多个输入视图。在每个尺度阶段，利用交叉注意块来合并不同视角的数据。这种方法使MMViT模型能够在多个分辨率下获得输入的高维表示，从而获得复杂且鲁棒的特征表示。

Multi-Path Vision Transformer (MPViT)

MPViT利用多尺度补丁技术和基于多路径的ViT架构来学习不同尺度下的特征表示。他们提出的多尺度补丁技术利用cnn来创建不同尺度的特征图(下图)。随后，他们利用多个Transformer编码器来处理多尺度补丁嵌入。最后，它们聚合来自每个编码器的输出以生成聚合输出。与ImageNet数据集上的现有方法相比，所提出的MPViT显示出更好的结果。
- 基于多Transformer的MPViT体系结构，该体系结构利用了多Transformer。

Taxonomy of HVTs (CNN-Transformer architectures)

尽管取得了成功的表现，但vit面临三个主要问题:
- a)无法通过考虑局部邻域的相关性来捕获低级特征;
- b)由于其MSA机制，在计算和内存消耗方面代价高昂;
- c)固定大小的输入令牌，嵌入。
为了克服这些问题，2021年后将出现cnn和vit的杂交热潮。hvt结合了cnn和Transformer架构的优势，创建了捕获图像中的局部模式和全局上下文的模型。由于在几个图像相关任务中取得了有希望的结果，它们在研究界获得了宝贵的关注。研究人员通过利用不同的方法合并cnn和Transformer，在该领域提出了各种架构。这些方法包括但不限于在Transformer块中添加一些CNN层，在cnn中引入了多注意机制，或者使用cnn提取局部特征和Transformer来捕获远程依赖关系。在这方面，我们基于卷积运算与ViT体系结构的集成模式定义了一些子类别。这些包括(1)早期层集成，(2)横向层集成，(3)顺序集成，(4)并行集成，(5)块集成，(6)分层集成，(7)基于注意力的集成，以及(8)通道促进集成，如下图所示。
- Taxonomy of Hybrid ViTs.

Early-layer integration

vit可以很好地捕获图像中的远程依赖关系，但由于没有归纳偏差，训练它们需要大量数据。另一方面，cnn固有图像相关的归纳偏差，捕获图像局部存在的高相关性。因此，研究人员正专注于设计 HVTs，以融合cnn和变压器的优点。在Transformer结构中，为了找到最优的方法来融合卷积和注意力，人们做了大量的工作。cnn可以在不同的级别上使用，以将局部性纳入体系结构。各种研究表明，首先捕获局部模式，然后学习远程依赖关系，以获得更优化的图像局部和全局视角是有益的。
第一个ViT架构是由Dosovitskiy等人在2020年提出的。在他们的工作中，他们提出了将图像补丁视为标记序列并将其输入基于Transformer的网络以执行图像识别任务的想法。在他们的论文中，他们提出了一种混合版本的ViT，为hvt奠定了基础。在混合架构中，输入序列从CNN特征图中获得，而不是从原始图像补丁中获得。输入序列通过在空间上平坦化特征映射来创建，并使用1x1滤波器产生补丁。他们利用ResNet50架构获取特征映射作为ViT的输入。此外，他们还进行了大量的实验，以确定特征映射提取的最佳中间块。
Detection Transformer (DETR)：Carion等人提出了一种检测Transformer(Detection Transformer, DETR)，用于2020年对自然图像进行目标检测。在他们提出的端到端方法中，他们首先使用CNN来处理输入，然后将其提供给ViT架构。来自CNN主干的特征映射与固定大小的位置嵌入相结合，为ViT编码器创建输入。ViT解码器的输出随后被馈送到前馈网络以做出最终预测。与Faster R-CNN等其他革命性的检测模型相比，DETR表现出更好的性能。他们的详细想法如下图所示。
- DETR的架构，以CNN集成为初始干块。
LeNet-based Vision Transformer (LeViT)：Graham等人在2021年提出了混合ViT“LeViT”。在他们的模型中，他们最初使用卷积层来处理输入。该架构结合了CNN和ViT架构的MSA，从输入图像中提取局部和全局特征。LeViT架构首先利用四层CNN模型来降低图像分辨率并获得局部特征表示。然后将这些表示馈送到具有MLP和注意层的viti启发的多阶段架构中以生成输出。
Conditional Positional Encodings for Vision Transformers (CPVT)：CPVT由Chu et al .于2023年提出。在他们的工作中，他们设计了一种新的条件位置嵌入方案来提高vit的性能(下图)。在这方面，他们提出了位置编码生成器(peg)，它利用深度卷积使位置嵌入更加局部和平移等效。他们还根据提出的方案开发了一个ViT，利用他们的peg将更多的位置信息合并到他们的体系结构中，并取得了良好的效果。此外，他们还表明，在最终MLP层之上的全局平均池化层而不是类令牌可以提高性能。Xiao等人在他们的研究中估计，在vit的早期层使用CNN层可以提高其性能。相比之下，他们用卷积系统取代了传统的ViT补丁，并报告了更广泛和增强的性能。
- CPVT的体系结构，它将CNN合并到其PEG块中。

Lateral-layer integration

在Transformer网络的末端使用CNN层或块的模型，例如代替最后一个线性层，或作为后处理层属于这一类。
Dense Prediction Transformer (DPT)：Ranftl等人提出了一种用于自然图像分割的密集预测Transformer “DPT”。DPT具有基于编码器-解码器的设计，其中ViT作为编码器，CNN作为解码器。它通过骨干体系结构捕获了全局视角和远程依赖关系。然后利用CNN将学习到的全局表示解码为基于图像的嵌入。对基于vit的编码器的输出进行不同级别的解码，以进行密集预测。
Local Vision Transformer (LocalViT)：Li等人在他们的研究中也将局部性纳入了ViT架构中用于图像分类。LocalViT的体系结构就像传统的ViT，其MSA模块专门用于捕获图像的全局级特征。ViT编码器中的前馈网络通过从注意力模块中获取学习编码的输入来执行最终预测。LocalVit通过使用深度卷积修改其FFN，将局部信息合并到其架构中。

Sequential integration

这个类别描述了一些流行的混合ViT，它们通过遵循一些顺序集成，在其ViT架构中利用了CNN的优势(。
Convolution and Attention Networks (CoAtNet)：Dai等人进行了广泛的研究，以找出在单个架构中合并卷积和注意机制的最优和最有效的方法，以提高其泛化和容量。在这方面，他们引入了CoAtNet，通过垂直堆叠几个卷积和Transformer块。对于卷积块，他们采用了基于深度卷积的MBConv块。他们的研究结果表明，将两个卷积块与两个变形块依次堆叠，可以显示出有效的结果。
CNNs Meet Transformers (CMT)：尽管取得了成功的表现，但vit面临三个主要问题:
- a)无法通过考虑局部邻域的相关性来捕获低级特征;
- b)由于其MSA机制，在计算和内存消耗方面代价高昂;
- c)固定大小的输入令牌，嵌入。
为了克服这些问题，2021年后将出现cnn和vit的杂交热潮。Guo等人在2021年也提出了一种混合ViT，命名为CMT (cnn Meet Transformers)。受CNN的启发， CMT也由一个初始的干块组成，然后是CNN层和CMT块的顺序堆叠。设计的CMT模块受到了ViT架构的启发，因此包含了一个轻量级的MSA模块来代替传统的MSA，并且MLP层被一个反向残差前馈网络(IRFFN)取代。此外，在CMT块中增加了一个本地感知单元(LPU)，以提高网络的表示能力。其架构如下图所示。
- Architecture of CMT, with integration of CNN in sequential order
Bottleneck Transformers (BoTNet)：由于卷积层捕获的底层特征是图像中许多结构元素的主要构建块，因此Srinivas等人引入了混合ViT, BoTNet(视觉识别的瓶颈Transformer)，以从CNN和ViT中受益。BoTNet 的架构只是ResNet块的顺序组合，其中注意力机制被合并在最后三个块中。ResNet块包含两个1x1卷积和一个3x3卷积。添加MSA来代替3x3卷积，以捕获除本地特征外的长期依赖关系。

Parallel integration

这一类包括并行使用cnn和Transformer架构的HVT架构，然后将它们的预测结合在一起。
Convolution-augmented Transformer (Conformer)：2021年，Peng等人进行了对自然图像进行视觉识别的研究。在这方面，他们提出了一个名为Conformer的架构。由于vit的普及，Conformer的架构也基于vit。为了提高网络的感知能力，他们将CNN的优点与多头自注意机制相结合。Conformer是一种混合ViT，包含两个独立的分支，一个CNN分支用于捕获局部感知，一个Transformer分支用于捕获全局特征。从CNN分支到Transformer分支建立后续连接，使每个分支具有本地-全局上下文感知。最后通过CNN分类器和Transformer分类器进行预测。采用交叉熵损失函数对分类器进行训练。Conformer比其他表现优异的ViT架构(如DeiT和ViT)表现出更好的性能。
MobileNet-based Transformer (Mobile-Former)：Chen等人提出了一种具有CNN和Transformer两种不同路径的并发混合ViT架构。与其他混合ViTs一样，Mobile-Former使用CNN模型学习空间相关性，并使用Transformer捕获图像中的长期依赖关系，从而融合了局部相关性和全局表示。CNN架构基于MobileNet，它使用了参数数量减少的倒立残差块。两个分支之间的信息通过连接进行同步，使得CNN路径能够感知全局信息，Transformer能够感知局部信息。然后将两个分支的输出与池化层连接到一个两层分类器中进行最终预测。下图显示了它们的详细结构。
- Architecture of Mobile-former (CNN and transformer with parallel integration)
Block-wisely Self-supervised Neural Architecture Search (BossNAS)：Li等人开发了一个搜索空间(HyTra)来评估混合架构，并建议每个块应该单独训练。在HyTra搜索空间的每一层，他们以并行和自由选择的形式使用了不同分辨率的CNN和transformer块。这个广泛的搜索区域包括具有逐渐变小的空间尺度的传统cnn和具有固定内容长度的纯Transformer。

Hierarchical integration

那些采用分层设计的HVT架构，类似于cnn，属于这一类。这些模型中的许多都设计了一个统一的块来集成CNN和ViT，然后在整个体系结构中重复(Tu等人2022b)。
Multi-Axis Attention-based Vision Transformer (MaxViT)：MaxViT是ViT架构的一个变体，由Tu等人在他们的论文“MultiAxis Attention - Based Vision Transformer”中介绍。引入了局部注意力阻塞和全局注意力扩张的多轴注意机制。与以前的体系结构相比，它被证明是一种高效且可扩展的注意力机制。引入了一种新的混合块作为基本单元，它由基于mb卷积的卷积和基于多轴注意的混合块组成。在多个阶段重复基本混合块以获得分层主干，类似于基于cnn的主干，可用于分类，目标检测，分割和生成建模。MaxViT可以看到本地和全局的整个网络，包括早期阶段。
Convolutional Vision Transformer (CvT)：CvT于2021年由Wu et al引入。CvT的体系结构像cnn一样包含了多个阶段，构成了一个分层的框架。他们以两种方式在他们的架构中加入了卷积。首先，他们使用卷积令牌嵌入来提取令牌序列，不仅考虑了网络的局部性，而且逐渐缩短了序列长度。其次，他们提出了一种卷积投影，使用深度可分离卷积来取代编码器块中每个自注意块前的线性投影。CvT在图像识别方面优于其他方法。
Vision-Friendly Transformer (Visformer)：Visformer于2020年作为视觉友好型Transformer推出，采用模块化设计，具有高效的性能。该体系结构对传统的ViT网络进行了一些修改。在Visformer中，用全局平均池化代替分类令牌，用批归一化代替层归一化。此外，他们利用了受ResNeXt 启发的卷积块，而不是每个阶段的自关注，以有效地捕获空间和局部特征。然而，为了对全局依赖性进行建模，他们在最后两个阶段采用了自我关注。Visformer架构中另一个值得注意的修改是在MLP块中增加了3x3个卷积。
Vision Transformer Advanced by Exploring intrinsic Inductive Bias (ViTAE)：作者提出了一种名为ViTAE的新型ViT架构，它结合了两种不同的基本细胞类型(如下图所示):还原cells(RC)和正常cells(NC)。rc用于缩小输入图像并将其嵌入到丰富的多尺度上下文令牌中，而nc用于在令牌序列中同时建模本地和长期依赖关系。这两种类型的细胞的底层结构也很相似，由并行注意模块、卷积层和FFN组成。RC通过在金字塔缩减模块中使用具有不同膨胀率的几个卷积来包含令牌中的上下文信息。作者还提出了一个更优化的版本，ViTAEv2，比早期的方法表现出更好的性能。
- Architectural diagram of ViTaE
Convolution-Transformer Network (ConTNet)：为了解决计算机视觉任务中面临的挑战，提出了一种新颖的卷积-变压器网络(ConTNet)。ConTNet是通过堆叠多个cont块来实现的(如下图所示)。ConT块将标准变压器编码器(STE)视为类似于卷积层的独立组件。具体来说，特征图被分成几个大小相等的patch，每个patch被平面化成一个(超级)像素序列，然后输入到STE中。在重塑补丁嵌入之后，得到的特征映射被传递到下一个卷积层或STE模块。
- ConTNet的架构，将CNN和ViT集成在其contt块中，形成层次结构。

Attention-based integration

本节讨论了那些HVT架构，这些架构在其注意力机制中利用cnn来结合局部性。
Evolving Attention with Residual Convolutions (EA-AA-ResNet)：由于独立自注意层在捕获令牌之间的潜在依赖关系方面的泛化能力有限，Wang等人通过添加卷积模块扩展了注意机制。具体来说，他们采用了一个带有残差连接的卷积单元，通过利用从前一层继承的知识来概括每一层的注意力图，称为进化注意力(EA)。提出的EA-AA-ResNet架构通过桥接不同层的注意图和使用卷积模块学习一般的注意模式来扩展注意机制。
ResNet Transformer (ResT)：一种混合架构，在其注意力机制中集成了卷积操作，使其能够有效地捕获全局和局部特征。作者在他们的体系结构中使用了一种新的高效Transformer块，用它的高效变体取代了传统的MSA块。在提出的高效多头自注意中，他们在计算注意函数之前，采用深度卷积降低输入标记映射的空间维度。
Convolution-Enhanced Image Transformer (CeiT)：CeiT由Yuan等人于2021年在其论文《将卷积设计纳入视觉变形器》中提出。提出的CeiT结合了cnn和vit在提取低级特征、捕获局部性和学习远程依赖关系方面的优势。在他们的CeiT中，他们在传统的ViT架构中做了三个主要的改进。他们修改了补丁提取方案，MLP层，并在ViT架构之上添加了最后一层。对于补丁提取，他们提出了一个图像到令牌(I2T)模块，其中他们利用基于cnn的块来处理输入。他们没有使用原始输入图像，而是使用从初始卷积块中学习到的低级特征来提取补丁。I2T在其架构中包含卷积层、最大池化层和批处理归一化层，以充分利用cnn在vit中的优势。他们在ViT编码器中使用了局部增强前馈(LeFF)层来代替传统的MLP层，其中使用深度卷积来捕获更多的空间相关性。此外，设计了最后一类令牌注意(LCA)层，系统地组合了ViT不同层的输出。CeiT不仅在几个图像和场景识别数据集(包括ImageNet、CIFAR和Oxford-102)上显示出令人鼓舞的结果，而且与ViT相比，计算效率也很高。

Channel boosting-based integration

信道增强(CB)是一种用于深度学习中提高CNN模型表示学习能力的思想。在CB中，除了原始通道之外，还使用基于迁移学习的辅助学习器生成增强通道，以从图像中捕获多样化和复杂的模式。基于cbs的cnn (CB-CNN)在各种与视觉相关的任务中表现出出色的性能。在Ali等人的一项研究中，他们提出了一种基于cb的HVT架构。在CB-HVT中，他们利用cnn和基于vit的辅助学习器来生成增强频道。基于cnn的通道捕获了图像模式的局部多样性，而基于金字塔视觉转换(PVT)的通道学习了全局的上下文信息。作者在淋巴细胞评估数据集上评估了CBHVT，在那里它显示出合理的性能。他们的架构概述如下图所示。
- CB-HVT概述，其中PVT (VIT)在CNN架构中使用信道增强相结合。

Empirical comparison of different methods

在本节中，我们对几种ViT和HVT架构进行了简要而全面的实证比较，这些架构在各种计算机视觉任务中表现出卓越的性能。为了深入了解它们的优缺点，我们在下表中提供了详细的概述。此外，我们还强调了在每个模型中所做的主要修改，以及根据其分类法进行的基本原理。
- 基于各种ViT架构的优点、缺点、基本原理和基准数据集上的性能，对它们进行经验比较(为了比较，我们报告了上述架构中性能最好的变体的结果)。

Applications of HVTs

近年来，hvt在一系列基于视觉的应用中变得越来越普遍，其中图像和视频识别，目标检测，分割，图像恢复，以及医学图像分析。cnn和基于Transformer的模块结合起来创建hvt，这是一种有效的方法，可以解释复杂的视觉模式。下面将讨论一些值得注意的hvt应用。

Image/video recognition

cnn由于能够从视觉数据中自动提取复杂信息而被广泛用于图像和视频处理。尽管如此，vit已经彻底改变了计算机视觉领域，在各种具有挑战性的任务上取得了出色的表现，包括图像和视频识别。vit的成功可归因于其自我注意机制，使其能够捕获图像中的远程依赖。近年来，HVTs 越来越受欢迎，因为它们结合了cnn和Transformer的功率。已经提出了基于hvt的各种方法用于图像和视频的识别。Xiong等人提出了一种基于ViT和CNN的混合多模方法来增强细粒度3D物体识别。他们的方法使用ViT网络对物体的全局信息进行编码，并通过物体的RGB和深度视图使用CNN网络对物体的局部表示进行编码。他们的技术优于cnn和viti的基线。在另一项技术中，Tiong等人提出了一种新的混合注意视觉Transformer(HA-ViT)来进行人脸-眼周交叉识别。HA-ViT在其混合注意模块中并行利用深度卷积和基于卷积的MSA，以整合局部和全局特征。该方法在人脸眼周交叉识别(FPCI)精度方面优于三个基准数据集。Wang等人提出了一种基于hvt架构的视觉位置识别新方法。他们的方法旨在通过结合CNN和ViT来捕获局部细节、空间上下文和高级语义信息，从而提高视觉位置识别系统的鲁棒性。为了识别车辆，Shi等人开发了一个融合网络，该网络使用SE-CNN架构进行特征提取，然后使用ViT架构捕获全局上下文信息。他们提出的方法证明了道路识别任务的良好精度值。

Image generation

图像生成是计算机视觉中一个有趣的任务，可以作为许多下游任务的基线。生成对抗网络(gan)广泛用于各个领域的图像生成。此外，基于Transformer 的gan在这项任务中表现出了很好的性能。最近，研究人员也利用了基于hvt的gan，并在各种基准数据集上展示了出色的性能。Torbunov等人报道了UVCGAN，一种用于图像生成的混合GAN模型。UVCGAN模型的架构基于原始的CycleGAN模型，并进行了一些修改。UVCGAN的生成器是基于UNet和ViT瓶颈的混合架构。实验结果表明，与早期表现最好的模型相比，该模型的性能更好，同时保留了原始图像和生成图像之间的强相关性。在另一项工作中，Zhao等人将SwinGAN引入MRI重建。他们使用了Swin Transformer基于u-net的发生器网络和基于cnn的鉴别器网络。由于SwinGAN能够捕获更多有效信息，因此其生成的MRI图像具有较好的重建质量。Tu等人在他们提出的SWCGAN中结合了Swin Transformer和CNN层。在他们的架构中，他们最初使用CNN层来捕获局部级别的特征，然后在后来的层中使用残差密集Swin变压器块“RDST”来捕获全局级别的特征。与现有的遥感图像重构方法相比，该方法具有良好的重构性能。最近，Bao等人提出了一种空间注意力引导的CNN-Transformer聚合网络(SCTANet)来重建面部图像。他们在混合注意聚合(HAA)块中同时使用CNN和transformer进行深度特征提取。实验结果表明，其性能优于其他技术。Zheng等人在他们的方法中提出了一种基于hvt的GAN网络，用于医学图像生成。在他们称为L-former的方法中，他们在浅层使用Transformer，在深层使用cnn。与传统的GAN架构相比，他们的方法表现出了优异的性能。

Image segmentation

尽管cnn和基于vit的方法在复杂的图像相关任务(如图像分割)中表现出优异的性能，但目前强调将两种方法的优势结合起来以实现提升的性能。在这方面，Wang等人提出了一种新的语义分割方法，称为DualSeg，用于葡萄分割。他们的方法结合了Swin Transformer和CNN，以利用全局和局部特征的优势。在另一项工作中，Zhou及其合作者提出了一种名为SCDeepLab的混合方法来分段隧道裂缝。他们的方法在隧道衬砌裂缝分割方面优于其他仅基于cnn和仅基于Transformer的模型。Feng等对金属耦合器进行分割识别，检测断裂面。为此，他们提出了一种端到端的基于hvt的方法，利用CNN进行自动特征提取，利用混合卷积和Transformer(HCT)模块进行特征融合和全局建模。最近，Xia和Kim开发了Mask2Former，一种HVT方法，以解决ViT或基于cnn的系统的局限性。与ADE20K和cityscape数据集上的其他技术相比，开发的方法取得了更好的结果。Li等人提出了一种基于hvt的遥感图像语义分割方法MCAFNet。

Image Restoration

图像恢复是计算机视觉中的一项重要任务，即从损坏的图像中恢复原始图像。基于图像恢复的系统已经从使用cnn转向使用ViT模型，最近转向使用结合cnn和Transformer优点的hvt 。Yi等人提出了一种基于自编码器的混合方法来实现单幅红外图像的盲去模糊。他们的方法利用混合卷积-Transformer块来提取对象及其背景之间的上下文相关信息。为了加快训练过程的收敛速度，获得更好的图像去模糊效果，本研究还采用了多阶段训练技术和混合误差函数。在另一种技术中，Chen等人开发了一种高效的图像恢复架构，称为Dual-former，它结合了卷积的局部建模能力和自关注模块的全局建模能力。所提出的架构在多个图像恢复任务上实现了卓越的性能，同时消耗的GFLOPs比以前提出的方法要少得多。为了解决高计算复杂度的问题，Fang等人利用混合网络HNCT来实现光/光图像超分辨率。HNCT利用了CNN和ViT的优点，并提取了考虑局部和非局部先验的特征，从而形成了一个轻量级但有效的超分辨率模型。实验结果表明，与现有的参数较少的方法相比，HNCT的结果有所改善。Zhao等人开发了一种混合去噪模型，称为变压器编码器和卷积解码器网络(TECDNet)，用于高效有效的真实图像去噪。TECDNet在保持较低的计算成本的同时取得了出色的去噪效果。最近，Chen等人提出了一种端到端基于hvt的图像融合方法，用于红外和可见光图像融合。该技术由两个分支的CNN模块和ViT模块组成，前者用于提取粗特征，后者用于获取图像的全局关系和空间关系。他们的方法能够关注全局信息，并克服了基于cnn的54种方法的缺陷。此外，为了保留图像的纹理和空间信息，设计了专门的损失函数。

Feature extraction

特征提取是计算机视觉识别和提取图像中相关视觉信息的关键。最初cnn被用于此目的，但现在 Transformer 由于其在图像分类以及其他应用如姿态估计和人脸识别方面的令人印象深刻的结果而受到关注。Li和Li在他们的工作中提出了一种混合方法ConVit，将cnn和Transformer的优点结合起来，进行有效的特征提取，以识别作物病害。实验结果表明，该方法在植物病害识别任务中具有良好的性能。Li等人提出了一种级联方法用于重新捕获的场景图像识别。在他们的方法中，他们最初使用CNN层来提取局部特征，后来在更深的层中，他们使用Transformer 块来学习全局级别的图像表示。该方法具有较高的精度值，证明了其在识别重捕获图像方面的有效性。李等人开发了HVT结构来检测带钢表面的缺陷。他们的方法利用一个CNN模块，然后是一个补丁嵌入块和两个变压器块来提取高域相关特征。与现有方法相比，他们的实验显示了良好的分类性能。最近，Rajani等人在他们的方法中提出了一种编码器-解码器方法来对不同的海底类型进行分类。他们开发的方法是基于vit的架构，将MLP块替换为基于cnn的特征提取模块。改进后的体系结构在满足实时计算要求的同时，取得了较好的效果。

Medical image analysis

基于cnn的方法经常用于分析医学图像，因为它们能够捕获各种复杂的模式。然而，由于需要对全局级图像表示进行建模，研究人员受到启发，在医学图像分析领域利用 Transformer。最近，一些研究提出整合cnn和Transformer来捕获医学图像中的局部和全局图像特征，从而进行更全面的分析。这些混合架构(CNN-transformer)在许多医学图像相关应用中显示出巨大的性能。Tragakis等人提出了一种新的全卷积变换(FCT)方法来分割医学图像。FCT在其架构上采用了ViT和CNN，将CNN学习有效图像表示的能力与Transformer捕获长期依赖关系的能力相结合。与其他现有架构相比，所开发的方法在各种医疗挑战数据集上表现出出色的性能。在另一项工作中，Heidari等人提出了HiFormer，这是一种利用Swin Transformer模块和基于cnn的编码器捕获多层特征表示的HVT。实验结果证明了HiFormer在各种基准数据集上分割医学图像的有效性。在他们的论文中，Yang及其同事提出了一种名为TSEDeepLab的新型混合方法，该方法将卷积操作与变压器块结合起来分析医学图像。具体来说，该方法在早期阶段利用卷积层来学习局部特征，然后通过转换块对其进行处理以提取全局模式。该方法在多个医学图像分割数据集上表现出优异的分割精度和较强的泛化性能。

Object Detection

物体检测是一项至关重要的计算机视觉任务，在现实世界中有着广泛的应用，如监控、机器人、人群计数和自动驾驶。多年来，深度学习的进步对目标检测的进步做出了重大贡献。由于其自注意机制，ViTs在目标检测方面也表现出令人印象深刻的性能，该机制允许它们捕获图像像素之间的长期依赖关系，并识别整个图像中的复杂目标模式。最近，人们对hvt将cnn与自注意机制相结合以提高目标检测性能产生了很大的兴趣。Beal等人提出了一种HVT方法，命名为ViT-FRCNN，用于自然图像中的目标检测。在他们的方法中，他们利用了基于vit的主干来实现更快的RCNN目标检测器。ViT-FRCNN的检测结果有所改善，具有更好的泛化能力。Chen等人介绍了一种用于遥感图像检测的单级混合探测器。他们提出的方法，MDCT在其架构中利用了cnn和Transformer，并且与其他单级检测器相比表现出更好的性能。Lu等人开发了一种基于hvt的无人机(UAV)图像目标检测方法。该方法利用基于Transformer的主干提取具有全局水平信息的特征，然后将其送入FPN进行多尺度特征学习。与先前的方法相比，所提出的方法具有良好的性能。Yao和他的同事提出了一种融合网络，利用单个Transformer和基于cnn的分支来学习全局和局部级别的特征。实验结果表明，与其他方法相比，该方法具有良好的性能。

Pose Estimation

人体姿态估计倾向于识别各种场景中的重要点。cnn和Transformer在姿态估计任务中都表现出了典型的性能。目前，研究人员正致力于将cnn和变换以统一的方法结合起来，以结合局部和全局级别的信息来进行准确的姿态估计。赵等提出了一种新的用于人体姿态估计的双管道集成Transformer“DPIT”。在Zhao的方法中，首先使用两个基于cnn的分支来提取局部特征，然后使用Transformer编码器块来捕获图像中的长距离依赖关系。在另一种技术中，Wang等人使用CNN和Transformer分支来学习局部和全局图像表示，然后将其集成以生成最终输出。与其他现有的方法相比，他们的方法有了显著的改进。Hampali及其合作者开发了一种混合姿态估计方法，称为关键点Transformer。在提出的方法中，他们利用CNN和基于Transformer的模块来有效地估计人体关节作为二维关键点。实验结果表明，该方法在包括InterHand2.6M在内的数据集上取得了典型的效果。

Challenges

hvt不仅在计算机视觉领域，而且在许多其他领域都表现出优异的性能。然而，将卷积运算有效地集成到Transformer体系结构中给HVTs带来了一些挑战。这些挑战包括:
- Transformer中的MSA机制和cnn中的卷积运算都依赖于密集矩阵乘法来捕获数据依赖关系。然而，HVT架构(cnn - transformer)可能面临较高的计算复杂度和内存开销。因此，当试图对密集的应用程序(如体积分析和分割)建模时，它们可能会遇到挑战。
- 由于hvt的计算复杂性，训练hvt需要gpu等强大的硬件资源。由于硬件限制和相关成本，这可能会限制它们在实际应用程序中的部署，特别是在边缘设备上。
- HVT架构面临的一个主要挑战是有效地合并来自Transformer层和卷积层的学习特征。当Transformer层学习独立于空间位置的全局特征时，卷积层学习空间相关的局部特征。在体系结构方面，MSA和CNN层的有效统一可以潜在地提高各种视觉任务的性能。
- hvt具有较高的学习能力，能够准确地处理复杂的图像数据。然而，这也意味着他们需要大量的训练数据集来有效地从数据中学习和推广。这是一个挑战，特别是在医学图像领域，获得大量的注释数据通常是困难和耗时的。获取大量标记数据的需求可能是一个重大障碍，消耗宝贵的资源和时间，并阻碍hvt在医学成像中的发展和应用。

Future directions

hvt是具有数十亿个参数的大型模型，这就需要轻型架构。它们的高复杂性可能导致推理延迟和显著的能耗开销。有必要探索新的创新设计原则，以实现具有显着推理率的高效 HVTs，使其能够在实际应用、边缘设备和计算有限的系统(如卫星)中实际部署。通过将知识从高容量模型转移到更简单的模型，知识蒸馏作为一种有前途的方法出现在生成数据高效和紧凑的模型中。
hvt结合了cnn和Transformer的优势，在图像分析和计算机视觉方面取得了重大进展。然而，为了充分利用它们的潜力，探索将卷积和自注意机制集成到特定视觉应用中的合适方法是很重要的。这涉及到基于不同情境下集成方法适用性的深度分析，如早期层集成、横向层集成、顺序集成、并行集成、分层集成、基于注意的集成和基于注意的集成。
HVT的局部和全局处理能力使其在广泛的视觉应用中非常有前途，除了视觉相关的任务之外，还有潜在的好处。为了进一步提高hvt的性能，深入了解图像内容和相关操作非常重要，这有助于设计更好的混合和深度架构。在不久的将来，研究人工操作符与CNN-Transformer架构的混合和动态特征提取机制的潜在利用可能特别重要。利用卷积和自注意机制开发新的有效块也是一个有前途的研究领域。
综上所述，hvt的未来是光明的，在图像分析、计算机视觉等领域有着巨大的应用潜力。在我们看来，更好的方法是将HVT架构内的自关注层和卷积层合并在一起，用于特定的视觉任务。这种关注还应该扩展到理解图像内容和操作，开发结合卷积和自关注的有效块，在ViT和HVT架构中利用多模态和多任务处理。

Conclusion

由于在特定的图像相关任务中具有良好的性能，ViT在研究中得到了相当大的关注。这一成功可归功于集成到ViT体系结构中的MSA模块，它支持对图像内的全局交互进行建模。为了提高它们的性能，引入了各种架构改进。这些改进可以分为基于补丁的、基于知识蒸馏的、基于注意力的、基于多转换器的和混合方法。本文不仅研究了ViT的体系结构分类，还探讨了ViT体系结构的基本概念。
虽然vit具有令人印象深刻的学习能力，但由于缺乏可以捕获图像局部关系的归纳偏差，它们在某些应用中可能会受到有限的泛化影响。为了解决这个问题，研究人员开发了hvt，也被称为cnn -Transformer，它利用自关注和卷积机制来学习局部和全局信息。
一些研究提出了将卷积特定的感应偏置集成到Transformer中的方法，以提高Transformer的通用性和容量。集成方法包括早期层集成、横向层集成、顺序集成、并行集成、分层集成和基于渠道提升的集成。除了介绍基于集成方法的HVT体系结构的分类之外，我们还概述了它们如何在各种现实世界的计算机视觉应用中使用。尽管目前面临诸多挑战，但我们相信，HVTs具有巨大的潜力，因为它们有能力在局部和全局层面进行学习。

【读点论文】A survey of the Vision Transformers and its CNN-Transformer based Variants近年来这个方向的文献阅读记录

A survey of the Vision Transformers and its CNN-Transformer based Variants

Abstract

Introduction

Fundamental Concepts in ViTs

Patch embedding

Positional embedding

Absolute Position Embedding (APE)

Relative Position Embedding (RPE)

Convolution Position Embedding (CPE)

Attention Mechanism

Multi-Head Self-Attention (MSA)

Transformer layers

Feed-forward network

Residual connection

Normalization layer

Hybrid Vision Transformers (CNN-Transformer Architectures)

Architectural level modifications in ViTs

Patch-based approaches

Tokens-to-Token Vision Transformer (T2T-ViT)

Transformer in Transformer (TNT-ViT)

Deformable Patch-based Transformer (DPT)

CrowdFormer

Knowledge transfer-based approaches

Data-efficient Image Transformers (DeiT)

Target-aware Transformer (TaT)

Tiny Vision Transformer (TinyViT)

Shifted window-based approaches

Attention-based approaches

Class attention layer (CaiT)

Deformable attention transformer (DAT)

Patch-based Separable Transformer (SeT)

Multi-transformer-based approaches

Cross Vision Transformer (CrossViT)

Dual Vision Transformer (Dual-ViT)

Multiscale Multiview Vision Transformer (MMViT)

Multi-Path Vision Transformer (MPViT)

Taxonomy of HVTs (CNN-Transformer architectures)

Early-layer integration

Lateral-layer integration

Sequential integration

Parallel integration

Hierarchical integration

Attention-based integration

Channel boosting-based integration

Empirical comparison of different methods

Applications of HVTs

Image/video recognition

Image generation

Image segmentation

Image Restoration

Feature extraction

Medical image analysis

Object Detection

Pose Estimation

Challenges

Future directions

Conclusion

猜你喜欢