【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(9 月 20 日论文合集)

一、Transformer(5篇)

1.1 MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings

Magic-TBR:群体环境下基于Transformer的人体行为识别的多视角注意融合

https://arxiv.org/abs/2309.10765

在这里插入图片描述
身体行为语言是一种重要的社会线索,其自动分析有助于增强对人工智能系统的理解。此外,行为语言线索是必不可少的积极参与社会代理为基础的用户交互。尽管计算机视觉在头部和身体姿势估计等任务方面取得了进展,但仍然需要探索更精细的行为检测,如手势,梳理或摸索。本文提出了一种多视点注意力融合方法MAGIC-TBR,通过基于变换的方法将从视频中提取的特征与其相应的离散余弦变换系数相结合。在BBSI数据集上进行了实验,实验结果表明了该方法的有效性。该代码可从以下网址获得:https://github.com/surbhimadan92/MAGIC-TBR

1.2 Interpret Vision Transformers as ConvNets with Dynamic Convolutions

将视觉转换器解释为具有动态卷积的ConvNet

https://arxiv.org/abs/2309.10713

在这里插入图片描述
关于Vision Transformers和ConvNets之间的优越性一直存在争议,作为计算机视觉模型的支柱。虽然它们通常被认为是两种完全不同的架构,但在本文中,我们将Vision Transformers解释为具有动态卷积的ConvNets,这使我们能够在统一的框架中描述现有的转换器和动态ConvNets,并并排比较它们的设计选择。此外,我们的解释也可以指导网络设计,因为研究人员现在可以从ConvNets的设计空间中考虑Vision Transformers,反之亦然。我们通过两项具体研究证明了这种潜力。首先,我们检查了softmax在Vision Transformers中作为激活函数的作用,并发现它可以被常用的ConvNets模块(如ReLU和Layer Normalization)所取代,从而获得更快的收敛速度和更好的性能。其次,在深度卷积的设计之后,我们创建了一个相应的深度Vision Transformer,它更高效,性能相当。所提出的统一解释的潜力并不局限于给定的例子,我们希望它可以启发社区,并产生更先进的网络架构。

1.3 RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing

RoadFormer:用于RGB-Normal语义道路场景解析的双工转换器

https://arxiv.org/abs/2309.10356

在这里插入图片描述
深度卷积神经网络的最新进展在道路场景解析领域显示出了巨大的前景。然而,现有的工程主要集中在自由空间检测,很少注意危险的道路缺陷,可能损害驾驶安全和舒适性。在本文中,我们介绍了RoadFormer,一种新的基于Transformer的数据融合网络开发道路场景解析。RoadFormer利用双工编码器架构从RGB图像和表面法线信息中提取异质特征。编码的特征随后馈送到一个新颖的异构特征协同块,用于有效的特征融合和重新校准。像素解码器然后从融合和重新校准的异构特征中学习多尺度长距离依赖性,随后由Transformer解码器处理以产生最终的语义预测。此外,我们还发布了SYN-UDTIRI,这是第一个大规模道路场景解析数据集,其中包含超过10,407个RGB图像、密集深度图像以及针对不同形状和大小的自由空间和道路缺陷的相应像素级注释。对我们的SYN-UDTIRI数据集以及三个公共数据集(包括KITTI道路,CityScapes和ORFD)进行了广泛的实验评估,证明RoadFormer优于所有其他国家的最先进的道路场景解析网络。具体而言,RoadFormer在KITTI道路基准中排名第一。我们的源代码、创建的数据集和演示视频可在mias.group/RoadFormer上公开获得。

1.4 Deep Prompt Tuning for Graph Transformers

图形转换器的深度提示调谐

https://arxiv.org/abs/2309.10131

在这里插入图片描述
图Transformers通过解决传统图神经网络所面临的挑战,在各种基于图的任务中得到了普及。然而,自注意操作的二次复杂性和图Transformer架构中的广泛分层在将它们应用于基于图的预测任务时提出了挑战。微调是一种常见的方法,是资源密集型的,需要存储大型模型的多个副本。我们提出了一种称为深度图提示调整的新方法,作为在下游基于图的预测任务中利用大型图Transformer模型进行微调的替代方案。我们的方法将可训练的特征节点引入到图中,并将特定于任务的令牌预先添加到图Transformer中,从而增强了模型的表达能力。通过冻结预训练的参数并仅更新添加的令牌,我们的方法减少了自由参数的数量,并消除了对多个模型副本的需求,使其适用于小数据集并可扩展到大型图形。通过对不同大小的数据集进行广泛的实验,我们证明了深度图提示调优可以实现与微调相当甚至更好的性能,尽管使用的特定于任务的参数要少得多。我们的贡献包括引入图Transformers,它的应用程序,图变压器和消息传递图神经网络,提高效率和资源利用率,并引人注目的实验结果的提示调整。这项工作使人们注意到一种有前途的方法,即在基于图的预测任务中利用预先训练的模型,并为探索和推进图表示学习提供了新的机会。

1.5 Learning Dynamic MRI Reconstruction with Convolutional Network Assisted Reconstruction Swin Transformer

利用卷积网络辅助重建SwinTransformer学习动态MRI重建

https://arxiv.org/abs/2309.10227

在这里插入图片描述
动态磁共振成像(DMRI)是用于需要对特定解剖结构进行运动跟踪的诊断任务的有效成像工具。为了加速DMRI采集,通常沿着空间或空间-时间域对k空间测量进行欠采样。恢复有用信息的难度随着欠采样率的增加而增加。压缩感测是为此目的而发明的,并且已经成为最流行的方法,直到基于深度学习(DL)的DMRI重建方法在过去十年中出现。然而,现有的DL网络在长距离顺序依赖性理解和计算效率方面仍然受限,并且没有完全自动化。考虑到Transformers位置嵌入和“摆动窗口”的自我注意力机制在视觉社区,特别是自然的视频理解的成功,我们在此提出了一种新的架构命名为重建Swin变压器(RST)的4D MRI。RST继承了Video Swin Transformer的骨干设计,并引入了一种新型的重建头来恢复像素级强度。在RST学习之前,使用称为SADXNet的卷积网络快速初始化2D MR帧,以有效降低模型复杂度、GPU硬件需求和训练时间。心脏4D MR数据集中的实验结果进一步证实了RST的优越性,在9倍加速验证序列上实现了0.0286 +/- 0.0199的最低RMSE和0.0872 +/- 0.0783的1 - SSIM。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/133092476