我们真的需要视觉Transformers中的Position Encodings吗？

企业开发 2022-08-08 23:14:54 阅读次数: 0

本文提出CPVT：条件Position encoding视觉Transformer，可以自然地处理任意长度的输入序列，其中PEG模块可以无缝集成到现有框架中，性能优于DeiT、ViT等网络

Do We Really Need Explicit Position Encodings for Vision Transformers?

代码：https://github.com/Meituan-AutoML/CPVT
论文下载链接：https://arxiv.org/abs/2102.10882
作者单位：美团, 阿德莱德大学

几乎所有的视觉Transformers（例如ViT或DeiT）都依赖于预定义的positional encodings来合并每个输入token的顺序。这些编码通常被实现为不同频率的可学习的固定维度矢量或正弦函数，无法适应可变长度的输入序列。这不可避免地限制了Transformer在视觉领域的广泛应用，在视觉领域中，许多任务需要即时更改输入大小。

在这里插入图片描述
在本文中，我们提出采用条件position encoding方案，该方案以输入token的局部邻域为条件。它被轻松实现为我们所谓的Position Encoding Generator（PEG），可以将其无缝集成到transformer框架中。我们使用PEG的新模型称为Conditional Position encoding Visual Transformer (CPVT)，可以自然地处理任意长度的输入序列。

在这里插入图片描述

主要贡献：

在这里插入图片描述

实验结果

我们证明，与预定义的位置编码相比，CPVT可以产生视觉上相似的注意力图，甚至具有更好的性能。与迄今为止的视觉transformer相比，我们在ImageNet分类任务中获得了最先进的结果。

在这里插入图片描述

CVer-Transformer交流群

建了CVer-Transformer交流群！想要进Transformer学习交流群的同学，可以直接加微信号：CVer9999。加的时候备注一下：Transformer+学校+昵称，即可。然后就可以拉你进群了。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/114047841#comments_22710534

我们真的需要视觉Transformers中的Position Encodings吗？

我们真的需要Service Mesh吗？

我们真的需要复杂的密码吗？

副业是什么，我们真的需要副业吗

我们真的需要模型压缩吗

我们真的需要每个人都了解人工智能吗？

我们真的需要使用RxJava+Retrofit吗？

我们真的需要这么多 RPC 框架吗？

我们真的需要手机吗？还是只需要不用手的通信设备！

我们真的缺前端工程师吗？

Fragment 使用之我们真的了解它吗?

当年，非典SARS真的是我们战胜的吗？

“ALL in Web3”！Web3到底是什么？我们真的需要Web3吗？

IT行业之内卷——我们每个人或每个单位真的需要那么多技术吗？

微商分销系统是我们需要的吗？

JavaScript对象之我们需要模拟类吗？

[译] Python架构相关：我们需要更多吗？

我们还需要学jQuery吗?

我真的需要Kubernetes吗？

Conditional Positional Encodings for Vision Transformers（论文阅读笔记）

我们创业为何不成功，难道真的是缺资源吗？

盲目跟风，共享单车造成浪费，网友：真的是我们买单吗

区块链应用领域有哪些它真的能改变我们的生活吗？

三思而后行，真的就是我们应该奉行的准则吗？

从杭州崩溃小伙说起：我们被灌输的价值观，真的对吗？

在大数据时代，我们真的没有隐私吗？

我们常用的MD5加密真的安全吗

物联网早已融入了我们的日常生活，但你真的了解 IoT 吗？

我们手机真的充到100%电吗？

大环境不好，对我们机器视觉工程师有影响吗？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)