ChatGPT基础知识系列之Transformer模型详解

ChatGPT之Transformer模型详解

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。

1.Transformer 整体结构

首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构:

img

可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:

**第一步:**获取输入句子的每一个单词的表示向量 XX由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embedding 相加得到。

img

**第二步:**将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x

猜你喜欢

转载自blog.csdn.net/king14bhhb/article/details/129874818