【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递（9 月 19 日论文合集）

文章目录

一、Transformer(11篇)

一、Transformer(11篇)

1.1 CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

CATR：用于视听视频分割的组合依赖音频查询转换器

https://arxiv.org/abs/2309.09709

视听视频分割（AVVS）旨在生成图像帧内发声对象的像素级映射，并确保映射忠实地遵守给定音频，例如识别和分割视频中的唱歌人。然而，现有方法表现出两个限制：1）它们分别处理视频时间特征和视听交互特征，忽略组合音频和视频的固有时空依赖性，以及2）它们在解码阶段期间不充分地引入音频约束和对象级信息，导致不符合音频指令的分割结果。为了解决这些问题，我们提出了一个解耦的音频-视频Transformer，结合音频和视频的功能，从各自的时间和空间维度，捕捉他们的组合依赖。为了优化内存消耗，我们设计了一个块，当堆叠时，能够捕获音频视觉细粒度组合依赖性的存储器高效的方式。此外，我们在解码阶段引入音频约束查询。这些查询包含丰富的对象级信息，确保解码后的掩码符合声音。实验结果证实了我们的方法的有效性，我们的框架实现了一个新的SOTA性能的所有三个数据集使用两个骨干。代码可在\url{https：//github.com/aspirinone/CATR.github.io}获得

1.2 Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation

用于检测和接地多模式操作的统一频率辅助Transformer框架

https://arxiv.org/abs/2309.09667

由于人脸伪造和文本错误信息的广泛传播，多模态媒体操纵（DGM^4 ）的检测和基础变得越来越重要。在本文中，我们提出了统一的频率辅助Transformer框架，名为UFAFormer，以解决DGM^4 的问题。与以前的国家的最先进的方法，仅专注于图像（RGB）域来描述视觉伪造的功能，我们还引入了频域作为一个补充的观点。通过利用离散小波变换，我们将图像分解成几个频率子带，捕捉丰富的人脸伪造文物。然后，我们提出的频率编码器，结合带内和带间的自我注意，明确地聚合伪造功能内和跨不同的子带。此外，为了解决图像和频率域之间的语义冲突，伪造感知的相互模块的开发，以进一步使不同的图像和频率特征的有效交互，从而对齐和全面的视觉伪造表示。最后，基于视觉和文本伪造功能，我们提出了一个统一的解码器，包括两个对称的跨模态交互模块负责收集特定模态的伪造信息，以及融合的交互模块聚合的两种方式。建议的统一解码器制定我们的UFAFormer作为一个统一的框架，最终简化了整体架构，促进优化过程。DGM^4数据集上的实验结果，包含几个扰动，证明了我们的框架比以前的方法优越的性能，在该领域树立了一个新的基准。

1.3 HiT: Building Mapping with Hierarchical Transformers

Hit：使用分层Transformer构建映射

https://arxiv.org/abs/2309.09643

近年来，基于深度学习的方法已被广泛探索用于从高分辨率遥感图像自动绘制建筑物地图。虽然大多数建筑物映射模型为地理和映射系统生成建筑物的矢量多边形，但主流方法通常将多边形建筑物提取分解为一些子问题，包括分割，多边形化和正则化，导致复杂的推理过程，精度低，泛化能力差。在本文中，我们提出了一个简单而新颖的建筑物映射方法与分层Transformers，称为HiT，提高多边形建筑物映射质量的高分辨率遥感图像。HiT通过添加平行于分类和边界框回归头的多边形头建立在两阶段检测架构上。HiT同时输出建筑物边界框和矢量多边形，这是完全端到端可训练的。多边形头部将建筑物多边形表述为具有双向特性的序列化顶点，这是一种简单而优雅的多边形表示法，避免了起始或结束顶点假设。在这种新的视角下，多边形头部采用了一个Transformer编码解码器结构来预测串行化顶点的设计的双向多边形损失监督。此外，在多边形头部编码器中引入了一种结合卷积运算的分层关注机制，提供了在顶点和边两级构建多边形的更多几何结构。两个基准测试（CrowdAI和Inria数据集）的综合实验表明，我们的方法实现了一个新的国家的最先进的实例分割和多边形度量相比，国家的最先进的方法。定性结果验证了该模型在复杂场景下的优越性和有效性。

1.4 Collaborative Three-Stream Transformers for Video Captioning

用于视频字幕的协作式三流转换器

https://arxiv.org/abs/2309.09611

主语、谓语和宾语是句子中最关键的组成部分，在视频字幕任务中需要特别注意。为了实现这个想法，我们设计了一个新的框架，命名为COllaborative三流Transformers（COST），模型的三个部分分别和互补，以更好的表示。具体而言，COST是由三个分支的Transformers形成，以利用视频和文本，检测到的对象和文本，以及动作和文本之间的不同粒度的视觉语言交互。同时，我们提出了一个跨粒度的注意力模块来对齐由三个分支的Transformers器建模的交互作用，然后三个分支的转换器可以相互支持，利用不同粒度的最具鉴别力的语义信息来准确预测字幕。整个模型以端到端的方式训练。在三个大规模具有挑战性的数据集上进行了广泛的实验，即，YouCookII，ActivityNet字幕和MSVD，证明所提出的方法执行有利的国家的最先进的方法。

1.5 Target-aware Bi-Transformer for Few-shot Segmentation

基于目标感知的双TransformerFew-Shot分割算法

扫描二维码关注公众号，回复： 16805794 查看本文章

https://arxiv.org/abs/2309.09492

传统的语义分割任务需要大量的标签，并且难以识别未学习的类别。Few-Shot语义分割（FSS）的目的是使用有限的标记支持图像来识别分割的新类别的对象，这是非常实用的现实世界。以往的研究主要是基于原型或相关性。由于同一图像中的颜色、纹理和风格相似，我们认为查询图像可以被视为自己的支持图像。本文提出了目标感知的双变换器网络（TBTNet），以等效地处理支持图像和查询图像。一个强有力的目标感知Transformer层（TTL）也被设计为提取相关性，并迫使模型专注于前景信息。它把超相关作为一个功能，从而显着减少了特征通道的数量。得益于这一特性，我们的模型是迄今为止最轻的，只有0.4M可学习的参数。此外，与传统方法相比，TBTNet仅在10%至25%的训练时期内收敛。在PASCAL-5i和COCO-20 i标准FSS基准测试中的优异性能证明了该方法的有效性。还进行了广泛的消融研究，以评价Bi-Transformer架构和TTL的有效性。

1.6 FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pre-Training

FactoFormer：具有自我监督预训练的因子化高光谱转换器

https://arxiv.org/abs/2309.09431

高光谱图像包含了丰富的光谱和空间信息。受Transformers在自然语言处理和计算机视觉领域的成功的启发，它们已经显示出在输入数据内学习长程依赖关系的能力，最近的研究集中在将变压器用于HSI。然而，目前的国家的最先进的高光谱Transformers只标记的输入HSI样本沿光谱维度，导致在空间信息的利用不足。此外，Transformers是已知的数据饥饿，其性能严重依赖于大规模的预训练，这是具有挑战性的，由于有限的注释高光谱数据。因此，HSI Transformers的全部潜力尚未完全实现。为了克服这些限制，我们提出了一种新的因式分解的频谱空间Transformer，它采用了因式分解的自监督预训练程序，从而显着提高了性能。输入的因式分解允许光谱和空间Transformers更好地捕获高光谱数据立方体内的相互作用。受掩蔽图像建模预训练的启发，我们还设计了有效的掩蔽策略，用于预训练每个光谱和空间Transformers。我们在三个公开的HSI分类任务数据集上进行了实验，并证明我们的模型在所有三个数据集上都达到了最先进的性能。我们模型的代码将在https://github.com/csiro-robotics/factoformer上提供。

1.7 Effective Image Tampering Localization via Enhanced Transformer and Co-attention Fusion

基于增强型变换和共注意力融合的图像篡改定位

https://arxiv.org/abs/2309.09306

强大的操纵技术使得数字图像伪造容易地被创建并且广泛地使用，而不会留下视觉异常。篡改区域的盲定位对图像取证具有重要意义。在本文中，我们提出了一个有效的图像篡改定位网络（EITLNet）的基础上的双分支增强型Transformer编码器与注意力为基础的特征融合。具体地，设计了一个特征增强模块来增强Transformer编码器的特征表示能力。基于坐标注意的融合模块在多尺度下有效地融合了从RGB和噪声流中提取的特征。大量的实验结果表明，该方案在各种基准数据集上都具有最先进的泛化能力和鲁棒性。代码将在https://github.com/multimediaFor/EITLNet公开。

1.8 Image-level supervision and self-training for transformer-based cross-modality tumor segmentation

基于Transformer的跨通道肿瘤分割的图像级监控和自训练

https://arxiv.org/abs/2309.09246

深度神经网络通常用于自动化医学图像分割，但模型通常难以很好地在不同的成像模态中推广。由于注释数据的可用性有限，这一问题尤其成问题，使得难以在更大规模上部署这些模型。为了克服这些挑战，我们提出了一种新的半监督训练策略，称为MoDATTS。我们的方法是专为准确的跨模态3D肿瘤分割不配对的双模态数据集。成像模态之间的图像到图像转换策略用于产生注释的伪目标体积并改进对未注释的目标模态的泛化。我们还使用强大的Vision Transformer架构，并引入迭代的自我训练程序，以进一步缩小模态之间的域差距。MoDATTS还允许通过利用具有无监督目标的图像级标签将训练扩展到无注释的目标数据，该目标鼓励模型通过将肿瘤从背景中解开来执行3D疾病到健康的转换。与CrossMoDA 2022挑战赛中参与团队的其他方法相比，所提出的模型实现了更好的性能，其VS分割的最高Dice得分为0.87+/-0.04。MoDATTS还在交叉模态脑肿瘤分割任务上产生了Dice评分的一致改善，该任务由来自BraTS 2020挑战数据集的四种不同对比组成，其中达到了95%的目标监督模型性能。我们报告说，99%和100%的最大性能可以实现，如果20%和50%的目标数据额外注释，这进一步表明，MoDATTS可以利用，以减少注释负担。

1.9 MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision Transformer

MMST-VIT：基于多模时空视觉变换的气候变化作物产量预测

https://arxiv.org/abs/2309.09067

精确的作物产量预测为农业规划和决策过程提供了有价值的信息。然而，及时预测作物产量仍然具有挑战性，因为作物生长对生长季节天气变化和气候变化很敏感。在这项工作中，我们开发了一种基于深度学习的解决方案，即多模态时空Vision Transformer（MMST-ViT），通过考虑生长季节短期气象变化和长期气候变化对作物的影响，预测美国县级的作物产量。具体来说，我们的MMST-ViT由一个多模态Transformer，一个空间变换器，和一个时间变换器。多模态Transformer利用视觉遥感数据和短期气象数据来模拟生长季节天气变化对作物生长的影响。Spatial Transformer学习各县之间的高分辨率空间依赖关系，以实现准确的农业跟踪。时间Transformer捕获长期时间依赖性，以了解长期气候变化对作物的影响。同时，我们还设计了一种新的多模态对比学习技术来预训练我们的模型，而无需广泛的人类监督。因此，我们的MMST-ViT利用卫星图像和气象数据捕捉短期天气变化和长期气候变化对作物的影响。我们已经在美国200多个县进行了广泛的实验，实验结果表明，我们的MMST-ViT优于同行在三个性能指标的利益。

1.10 RingMo-lite: A Remote Sensing Multi-task Lightweight Network with CNN-Transformer Hybrid Framework

Ringmo-lite：一种CNN-Transformer混合框架的遥感多任务轻量级网络

https://arxiv.org/abs/2309.09003

近年来，RingMo等遥感（RS）视觉基础模型应运而生，并在各种下游任务中取得了优异的性能。然而，对计算资源的高需求限制了这些模型在边缘设备上的应用。为了支持遥感图像的在轨解译，需要设计一个更加轻量级的基础模型。现有的方法面临的挑战，在实现轻量级的解决方案，同时保留在RS图像解释的泛化。这是由于RS图像中复杂的高频和低频光谱分量，这使得传统的单个CNN或Vision Transformer方法不适合该任务。因此，本文提出了RingMo-lite，RS多任务轻量级网络与CNN-Transformer混合框架，有效地利用RS的频域属性来优化解释过程。该算法将Transformer模块作为低通滤波器，通过双分支结构提取遥感图像的全局特征;将CNN模块作为层叠高通滤波器，有效提取细粒度细节。此外，在预训练阶段，所设计的频域掩蔽图像建模（FD-MIM）结合每个图像块的高频和低频特性，有效地捕捉RS数据中的潜在特征表示。如图1，与RingMo相比，所提出的RingMo-lite在各种RS图像解译任务中减少了60%以上的参数，在大多数场景中平均精度下降不到2%，并且与类似大小的模型相比达到SOTA性能。此外，我们的工作将在不久的将来集成到MindSpore计算平台。

1.11 Biased Attention: Do Vision Transformers Amplify Gender Bias More than Convolutional Neural Networks?

有偏见的注意：视觉Transformer比卷积神经网络更能放大性别偏见吗？

https://arxiv.org/abs/2309.08760

计算机视觉中使用的深度神经网络已被证明表现出许多社会偏见，如性别偏见。Vision Transformers（ViTs）在计算机视觉应用中越来越受欢迎，在图像分类等许多任务中表现优于卷积神经网络（CNN）。然而，鉴于减轻计算机视觉偏差的研究主要集中在CNN上，因此评估不同网络架构对偏差放大潜力的影响非常重要。因此，在本文中，我们引入了一种新的度量标准来衡量体系结构中的偏差，精度差。当属于这两种架构的模型用作大型多模态模型的一部分时，我们研究了偏差放大，评估了对比语言图像预训练的不同图像编码器，这是许多生成模型（如DALL-E和稳定扩散）中使用的重要模型。我们的实验表明，架构可以发挥作用，放大社会偏见，由于不同的技术所采用的模型的特征提取和嵌入，以及他们不同的学习属性。这项研究发现，ViTs比CNN更大程度地放大了性别偏见