我们真的需要视觉Transformers中的Position Encodings吗?

本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络

Do We Really Need Explicit Position Encodings for Vision Transformers?

  • 代码:https://github.com/Meituan-AutoML/CPVT
  • 论文下载链接:https://arxiv.org/abs/2102.10882
  • 作者单位:美团, 阿德莱德大学

几乎所有的视觉Transformers(例如ViT或DeiT)都依赖于预定义的positional encodings来合并每个输入token的顺序。这些编码通常被实现为不同频率的可学习的固定维度矢量或正弦函数,无法适应可变长度的输入序列。这不可避免地限制了Transformer在视觉领域的广泛应用,在视觉领域中,许多任务需要即时更改输入大小。

在这里插入图片描述
在本文中,我们提出采用条件position encoding方案,该方案以输入token的局部邻域为条件。它被轻松实现为我们所谓的Position Encoding Generator(PEG),可以将其无缝集成到transformer框架中。我们使用PEG的新模型称为Conditional Position encoding Visual Transformer (CPVT),可以自然地处理任意长度的输入序列。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

主要贡献:

在这里插入图片描述

实验结果

我们证明,与预定义的位置编码相比,CPVT可以产生视觉上相似的注意力图,甚至具有更好的性能。与迄今为止的视觉transformer相比,我们在ImageNet分类任务中获得了最先进的结果。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/114047841#comments_22710534