AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT） - 代码天地

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT）

其他 2021-03-28 15:24:41 阅读次数: 0

最近看transformer用于CV比较热门，特意去进行了解，这里用分类的一篇文章进行讲解。

NLP中的transformer和代码讲解参考我另一篇文章。

论文链接：AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

一.思想

其实核心问题就是考虑如何把图像数据H*W*C,序列化成一个一个词那种结构，自然就想到将图片crop成一个一个patch，假设有N个patch,维度为p*p*C,reshape加concate一下就变成个N*p^2C,也就类似词向量。

二.模型结构

如下图所示:

1.图像转序列

将图片H*W*C,crop成Ｎ个patch,然后在转换成N*(p^2C),同时为了避免模型结构受到patch size的影响，采用Linear project将不同flatten patchs转换成D维向量。这样的话输入图片数据就成了N*D二维矩阵就和词向量矩阵对应上了。

2.Position embeddings

作者用一个可学习的embedding向量去将图像位置信息加入到序列中。

3.learnable embedding

上图中，带*号的粉色框是一个可学习的embedding，记住Xclass,经过encoder后的结果作为整张图像的表示。之所以不用其中一个patch的embedding是因为，这种embedding不可避免带有path的信息，而新增的这个没有语义信息，能更佳反映整张图片。

4.输入transformer encoder

进行特征提取，我另一篇文章已经很详细了，这里就不赘述了。

整个公式如下:

三.实验结果:

在中等数据集（例如ImageNet）,效果不如resnet,但是在大规模数据集上，表现更佳。

猜你喜欢

转载自blog.csdn.net/fanzonghao/article/details/111624225

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT）

论文解读：ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

李沐精读论文：ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》

【笔记记录】ViT：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

【图像Transformer论文理解】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（阅读笔记）

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE-李沐老师-摘要引言相关工作

《An Image is Worth 16x16 Words》完整版翻译

【视觉SLAM】Bags of Binary Words for Fast Place Recognition in Image Sequences

All are Worth Words : A ViT Backbone for Diffusion Models

CoaT：Co-Scale Conv-Attentional Image Transformers详解

VGG-16、VGG-19(论文阅读《Very Deep Convolutional NetWorks for Large-Scale Image Recognition》)

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Very Deep Convolutional Networks For Large-Scale Image Recognition(VGGnet)

VGG: Very Deep Convolutional Networks for Large-Scale Image Recognition

VGG —— Very Deep Convolutional Networks for Large-Scale Image Recognition

VGG：VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Image Recognition and Object Detection

U-ViT【All are Worth Words: A ViT Backbone for Diffusion Models】

Bags of Binary Words for Fast Place Recognition in Image Sequences------阅读笔记

Deep Residual Learning for Image Recognition

Deep Reidual Learning for Image Recognition

2014-VGG-《Very deep convolutional networks for large-scale image recognition》翻译

图像识别3-VGGNet-very deep convolutional Network for large-scale image recognition

VGGNet论文学习记录：VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

VGGNet论文（Very Deep Convolutional Networks for Large-Scale Image Recognition）（译）

论文理解 - VGGNet - Very Deep Convolutional Networks for Large-Scale Image Recognition

VGG-《Very deep convolutional networks for large-scale image recognition》翻译

VGG-net《Very Deep Convolutional Networks for Large-Scale Image Recognition》

论文阅读笔记--VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)