Transformer模型

前言：

最近Transformer在CV领域很火，Transformer是2017年Google在Computation and Language上发表的，当时主要是针对NLP自然语言处理领域提出的，主要针对的是NLP领域里的机器翻译任务。在此之前大家处理这类的任务使用的模型都是RNN、LSTM之类的时序网络，但是这类模型不可避免的存在着记忆长度有限或者说所能利用到的语句信息是有限的这种问题，以及随着序列长度增加带来的梯度爆炸梯度消失等问题，虽然LSTM在RNN的基础上一定程度地缓解了这类问题，但这类基于RNN的网络模型另外一个比较严重的问题是不能并行化。想要计算tn时刻的数据，必须要先计算tn-1时刻的数据，无法并行化带来的问题就是计算效率特别低。针对这些问题，谷歌团队提出了Transformer（中文名变形金刚），现在的Transformer被认为成为类似NLP、CNN、RNN之后的第四大类基础模型，或许这就是Attention Is All You Need的含金量吧。transformer的一大核心就是提出一个依赖于注意力机制Attention的模型。

论文出处：

[1706.03762] Attention Is All You Need (arxiv.org)

Vision Transformer模型

前言：

从深度学习暴发以来，CNN一直是CV领域的主流模型，而且取得了很好的效果，相比之下，基于self-attention结构的Transformer在NLP领域大放异彩。虽然Transformer结构已经成为NLP领域的标准，但在计算机视觉领域的应用还非常有限。

ViT（vision transformer）是Google在2020年提出的直接将Transformer应用在图像分类的模型，通过这篇文章的实验，给出的最佳模型在ImageNet1K上能够达到88.55%的准确率（先在Google自家的JFT数据集上进行了预训练），说明Transformer在CV领域确实是有效的，而且效果还挺惊人。VIT推动了NLP与CV的统一，促进了多模态领域的发展。

cls token作用:

(17条消息) ViT: Vision transformer的cls token作用？_transformer class token_MengYa_DreamZ的博客-CSDN博客

代码解析：

VIT代码解析 - 知乎 (zhihu.com)

(18条消息) 从零搭建Pytorch模型教程（三）搭建Transformer网络_pytorch搭建transformer_CV技术指南(公众号)的博客-CSDN博客

Conformer模型

前言：

基于transformer和卷积神经网络cnn的模型在ASR上已经达到了较好的效果，都要优于RNN的效果。Transformer能够捕获长序列的依赖和基于内容的全局交互信息，CNN则能够有效利用局部特征。因此本文将transformer和cnn结合起来，对音频序列进行局部和全局依赖都进行建模，针对语音识别问题提出了卷积增强的transformer模型，称为conformer，模型性能比transformer和cnn都要好，成为了新的sota。在Libri Speech benchmark上，consformer不使用语言模型时WER就达到了2.1%/4.3%，使用外部语言模型时WER为1.9%/3.9%。

论文出处：

[2005.08100] Conformer: Convolution-augmented Transformer for Speech Recognition (arxiv.org)

【深度学习】Transformer/VitNet/Conformer/DSSM模型结构解析

Transformer模型

前言：

推荐文章：

Vision Transformer模型

前言：

cls token作用:

代码解析：

推荐文章：

Conformer模型

前言：

论文出处：

推荐文章：

Transformer DSSM模型

推荐文章：

猜你喜欢