Transformer简介及架构介绍

说明:部分内容来源于网络教程,如有侵权请联系本人删除相关内容。

教程链接:1.1Transformer背景介绍_哔哩哔哩_bilibili

一、优势

相比于之前介绍的RNN以及其变种LSTM和GRU,Transfomer有两个优势:

1.可以利用分布式GPU并行训练,提升训练效果

2.相比于LSTM和GRU,可以关联间隔时间更长的样本,效果更好

二、作用

基于seq2seq的Transformer模型可以完成NLP领域的典型任务。但是也可以被应用到图像识别、语音识别等领域。例如可以用CNN+Transformer进行语音识别。

三、架构

 图1:Tranfomer架构

1.编码器部分

编码器部分由N个编码器层堆叠而成。每个编码器层由2个子层连接:

子层1:多头自注意力层+规范化层+残差连接

子层2:前馈全连接层+规范化层+残差连接

2.解码器部分

解码器部分由N个解码器层堆叠而成。每个解码器层由3个子层连接:

子层1:带有掩码的多头注意力层+规范化层+残差连接

子层2:多头自注意力层+规范化层+残差连接

子层3:前馈全连接层+规范化层+残差连接

猜你喜欢

转载自blog.csdn.net/APPLECHARLOTTE/article/details/127204960
今日推荐