Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet - 代码天地

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

企业开发 2021-01-31 10:12:08 阅读次数: 0

与之前ViT、Detr、Deit等不同之处在于：本文针对ViT的特征多样性、结构化设计等进行了更深入的思考，提出了一种新颖的Tokens-to-Token机制，用于同时建模图像的局部结构信息与全局相关性，同时还借鉴了CNN架构设计思想引导ViT的骨干设计。最终，仅仅依赖于ImageNet数据，而无需JFT-300M预训练，所提方案即可取得全面超越ResNet的性能，且参数量与计算量显著降低；与此同时，在轻量化方面，所提方法只需简单减少深度与隐含层维度即可取得优于精心设计的MobileNet系列方案的性能。

分析发现：(1) 输入图像的简单token化难以很好的建模近邻像素间的重要局部结构(比如边缘、线条等)，这就导致了少量样本时的低效性；(2) 在固定计算负载与有限训练样本约束下，ViT中的冗余注意力骨干设计限制了特征的丰富性。

本文的主要贡献包含以下几个方面：

首次通过精心设计Transformer结构在标准ImageNet数据集上取得了全面超越CNN的性能，而无需在JFT-300M数据进行预训练；
提出一种新颖的渐进式Token化机制用于ViT，并证实了其优越性，所提T2T模块可以更好的协助每个token建模局部重要结构信息；
CNN的架构设计思想有助于ViT的骨干结构设计并提升其特征丰富性、减少信息冗余。通过实验发现：deep-narrow结构设计非常适合于ViT。

猜你喜欢

转载自blog.csdn.net/qq_15698613/article/details/113413894

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet作者袁粒讲T2T-ViT

LV-ViT：All Tokens Matter: Token Labeling for Training Better Vision Transformers

NeurIPS 2021: All Tokens Matter: Token Labeling for Training Better Vision Transformers论文精读与解析

CVPR 2023 | Making Vision Transformers Efficient from A Token Sparsification View

阅读文献1：Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training（文章翻译及自身的理解和总结）

Training Vision Transformers for Image Retrieval 论文笔记

论文笔记：ViTGAN: Training GANs with Vision Transformers

ViT: Vision transformer的cls token作用？

【NeurIPS 2021】ViT 中增强的 Shortcut Connection：Augmented Shortcuts for Vision Transformers

Pytorch从零开始实现Vision Transformer (from scratch)

Vision Transformer（ViT）

【ICCV2023】Robustifying Token Attention for Vision Transformers

《Vision Transformers with Patch Diversification》

EDGEFORMER: IMPROVING LIGHT-WEIGHT CON- VNETS BY LEARNING FROM VISION TRANSFORMERS

ViT（Vision Transformer）算法入门

Vision Transformer（VIT）学习笔记

Vision Transformer 论文 + 详解（ ViT ）

Vision Transformer(ViT)及后续工作

Vision Transformer (ViT)及各种变体

Vision Transformer(VIT 网络架构)

Multiscale Vision Transformers 论文阅读

Multiscale Vision Transformers 论文详解

Transformer 综述 & Transformers in Vision: A Survey

Rethinking ImageNet Pre-training

【CVPR 2022 多模态融合（有3D检测）】Multimodal Token Fusion for Vision Transformers

Next-ViT: Next Generation Vision Transformer

Torch 论文复现：Vision Transformer (ViT)

VIT：Vision Transformer超级详解含代码

论文阅读笔记：Vision Transformer (ViT)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)