简单有趣的变形金刚网络(VIT) Vision Transformer(可以直接替换自己数据集)-直接放置自己的数据集就能直接跑(网络结构详解+详细注释代码+核心思想讲解)——pytorch实现

论文题目: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
原论文下载链接:
https://arxiv.org/abs/2010.11929
本博客代码可以直接生成训练集和测试集的损失和准确率的折线图,便于写论文使用。

       Transformer最先应用于在NIP领域,并且取得了巨大的成功,事实上NIP和CV作为深度学习应用最广的两个领域,两者的技术也在相互借鉴的发展,Transformer在NIP领域取得的巨大成功使得研究人员开始思考能否将其应用在CV领域,因此Vision Transformer应运而生,并且如研究人员所料,在CV领域也掀起了惊涛骇浪,毕竟跟传统的卷积神经网络有所不同,Vision Transformer以其特定的结构为CV的研究带来新思路。

        这期博客我们来学习一下Vision Transformer,理论上他的效果要比传统的卷积神经网络都要好,当然也只是理论上,具体的细节要看不同的数据集和模型参数的调节过程。

首先我们来看一下他在各类数据集上的实际效果。

猜你喜欢

转载自blog.csdn.net/qq_43215597/article/details/130600028
今日推荐