一、Transformer(6篇)

1.1 Replacing softmax with ReLU in Vision Transformers

用RELU取代Vision Transformers中的Softmax

https://arxiv.org/abs/2309.08586

在这里插入图片描述
以前的研究观察到，当用ReLU等逐点激活替换attention softmax时，准确性会下降。在Vision Transformers的上下文中，我们发现，这种退化被减轻时，除以序列长度。我们在ImageNet-21 k上训练小到大的Vision Transformers的实验表明，ReLU注意力可以在作为计算函数的缩放行为方面接近或匹配softmax-attention的性能。

1.2 Leveraging the Power of Data Augmentation for Transformer-based Tracking

利用数据增强的力量实现基于Transformer的跟踪

https://arxiv.org/abs/2309.08264

在这里插入图片描述
由于长距离相关性和强大的预训练模型，基于变换器的方法已经在视觉对象跟踪性能方面取得了突破。以前的工作集中在设计适合跟踪的有效架构，但忽略了数据增强对于训练性能良好的模型同样重要。在本文中，我们首先通过系统的实验，探索一般的数据增强对基于变压器的跟踪器的影响，并揭示这些常见的策略的有效性有限。出于实验观察，然后，我们提出了两个数据增强方法定制跟踪。首先，我们通过动态搜索半径机制和模拟边界样本优化现有的随机裁剪。其次，我们提出了一个令牌级特征混合增强策略，使模型能够应对背景干扰等挑战。在两个基于变压器的跟踪器和六个基准上进行的广泛实验证明了我们的方法的有效性和数据效率，特别是在具有挑战性的设置下，如单次跟踪和小图像分辨率。

1.3 Cartoondiff: Training-free Cartoon Image Generation with Diffusion Transformer Models

Cartoondiff：基于扩散Transformer模型的免训练卡通图像生成

https://arxiv.org/abs/2309.08251

在这里插入图片描述
图像卡通化是图像生成领域的一个研究热点。然而，大多数现有的图像卡通化技术需要使用卡通风格的图像重新训练模型。在本文中，我们提出了CartoonDiff，一种新的无训练采样方法，使用扩散Transformer模型生成图像卡通化。具体来说，我们分解的反向过程中的扩散模型的语义生成阶段和细节生成阶段。此外，我们实现了图像卡通化过程中规范化的高频信号的噪声图像在特定的去噪步骤。CartoonDiff不需要任何额外的参考图像、复杂的模型设计或多个参数的繁琐调整。大量的实验结果表明，我们的CartoonDiff强大的能力。项目页面位于：https://cartoondiff.github.io/

1.4 UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection

UNIST：视频显著预测和检测的统一显著转换器

https://arxiv.org/abs/2309.08220

在这里插入图片描述
视频显著性预测和检测是蓬勃发展的研究领域，使计算机能够模拟视觉注意力的分布，类似于人类感知动态场景的方式。虽然许多方法已经为视频显着性预测或视频显着对象检测任务制作了特定于任务的训练范例，但很少有人关注设计一个通用的显着性建模框架，该框架无缝地桥接了这两个不同的任务。在这项研究中，我们介绍了统一显着性Transformer（UniST）框架，它综合利用视频显着性预测和视频显着对象检测的基本属性。除了提取帧序列的表示之外，显著性感知Transformer被设计为以逐渐增加的分辨率学习时空表示，同时结合有效的跨尺度显著性信息以产生鲁棒的表示。此外，任务特定的解码器，建议执行每个任务的最终预测。据我们所知，这是第一个探索设计Transformer结构的显着性建模任务。令人信服的实验表明，所提出的UniST在7个具有挑战性的基准测试两个任务，并显着优于其他国家的最先进的方法实现了卓越的性能。

1.5 Salient Object Detection in Optical Remote Sensing Images Driven by Transformer

Transformer驱动的光学遥感图像中的显著目标检测

https://arxiv.org/abs/2309.08206

在这里插入图片描述
现有的光学遥感图像显著目标检测（ORSI-SOD）方法主要采用卷积神经网络（CNN）作为主干，如VGG和ResNet。由于CNN只能提取某些感受野内的特征，因此大多数ORSI-SOD方法通常遵循本地到上下文的范式。在本文中，我们提出了一种新的全球提取本地探索网络（GeleNet）的ORSI-SOD以下的全球到本地的范例。具体来说，GeleNet首先采用Transformer主干来生成具有全局长程依赖性的四级特征嵌入。然后，GeleNet采用方向感知洗牌加权空间注意力模块（D-SWSAM）及其简化版本（SWSAM），以增强本地交互，并采用知识转移模块（KTM），以进一步增强跨级别的上下文交互。D-SWSAM通过方向卷积全面感知最底层特征中的方向信息，以适应ORSIs中显著对象的各种方向，并通过改进的注意机制有效增强显著对象的细节。SWSAM丢弃了D-SWSAM的方向感知部分，专注于定位最高级别特征中的显著对象。KTM基于自注意机制，对两个不同尺度的中间层特征的上下文相关知识进行建模，并将知识转移到原始特征中，以生成更具区分性的特征。最后，使用显著性预测器来基于上述三个模块的输出来生成显著性图。在三个公共数据集上的大量实验表明，所提出的GeleNet优于相关的最先进的方法。我们的方法的代码和结果可在https://github.com/MathLee/GeleNet获得。

1.6 Interpretability-Aware Vision Transformer

可解释性视觉转换器

https://arxiv.org/abs/2309.08035

在这里插入图片描述
Vision Transformers（ViTs）已经成为解决各种视觉任务的突出模型。然而，ViTs的可解释性并没有跟上他们有前途的表现。虽然人们对开发{\it post hoc}解决方案来解释ViTs的输出的兴趣激增，但这些方法并不能推广到不同的下游任务和各种Transformer架构。此外，如果ViT没有用给定的数据进行适当的训练，并且没有优先考虑感兴趣的区域，则方法将不太有效。而不是开发另一种方法，我们引入了一种新的训练过程，从本质上增强了模型的可解释性。我们的可解释性感知ViT（IA-ViT）从一个新的见解中汲取灵感：类补丁和图像补丁都一致地生成预测分布和注意力图。IA-ViT由特征提取器、预测器和解释器组成，它们与可解释性感知训练目标一起训练。因此，解释器模拟预测器的行为，并通过其单头自我注意机制提供忠实的解释。我们全面的实验结果表明，IA-ViT在几个图像分类任务的有效性，模型的性能和可解释性的定性和定量评价。源代码可从：https://github.com/qiangyao1988/IA-ViT。

【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递（9 月 18 日论文合集）

文章目录