深入理解深度学习——Transformer：整合编码器（Encoder）和解码器Decoder） - 代码天地

深入理解深度学习——Transformer：整合编码器（Encoder）和解码器Decoder）

企业开发 2023-06-22 03:12:05 阅读次数: 0

分类目录：《深入理解深度学习》总目录

相关文章：
·注意力机制（Attention Mechanism）：基础知识
·注意力机制（Attention Mechanism）：注意力汇聚与Nadaraya-Watson核回归
·注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）
·注意力机制（Attention Mechanism）：Bahdanau注意力
·注意力机制（Attention Mechanism）：自注意力（Self-attention）
·注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）
· 注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）
·注意力机制（Attention Mechanism）：位置编码（Positional Encoding）
· Transformer：编码器（Encoder）部分
· Transformer：解码器（Decoder）的多头注意力层（Multi-headAttention）
· Transformer：解码器（Decoder）部分

在文章《深入理解深度学习——Transformer：编码器（Encoder）部分》、《深入理解深度学习——Transformer：解码器（Decoder）的多头注意力层（Multi-headAttention）》和《深入理解深度学习——Transformer：解码器（Decoder）部分》中我们了解了Transformer架构的各个细节，现在我们把Transformer的各个结构组合起来，如下图所示：
整合Transformer各个组件
在上图中， $N\times$ 表示可以堆叠 $N$ 个编码器和解码器。我们可以看到，一旦输入句子（原句），编码器就会学习其特征并将特征发送给解码器，而解码器又会生成输出句（目标句）。

我们可以通过最小化损失函数来训练Transformer网络。我们已经知道，解码器预测的是词汇的概率分布，并选择概率最高的词作为输出。所以，我们需要让预测的概率分布和实际的概率分布之间的差异最小化。要做到这一点，可以将损失函数定义为交叉熵损失函数。我们通过最小化损失函数来训练网络，并使用Adam算法来优化训练过程。另外需要注意，为了防止过拟合，我们可以将Dropout方法应用于每个子层的输出以及嵌入和位置编码的总和。

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/131236027

深入理解深度学习——Transformer：整合编码器（Encoder）和解码器Decoder）

李沐动手学深度学习V2-Encoder-Decoder编码器和解码器架构

深入理解深度学习——Transformer：解码器（Decoder）部分

深入理解深度学习——Transformer：编码器（Encoder）部分

Encoder编码器、Decoder解码器

encoder decoder 编码器解码器

深入理解深度学习——Transformer：解码器（Decoder）的多头注意力层（Multi-headAttention）

Encoder-Decoder -编码器解码器架构(RNN循环神经网络)

编码器和解码器

LeViT-UNet：transformer 编码器和CNN解码器的有效整合

2020-3-14 深度学习笔记14 - 自编码器 3（表示能力、层的大小和深度，随机编码器和解码器）

seq2seq通俗理解----编码器和解码器(TensorFlow实现)

对Transformer中编解码器结构的深入理解

Keras深度学习实战（36）——基于编码器-解码器的机器翻译模型

Codable、编码器、解码器

编码器-解码器架构

netty自定义编码器和解码器（粘包处理）

netty的基本概念-编码器和解码器

Transformer中解码器decoder的详细讲解（图文解释）

深度学习入门（六十四）循环神经网络——编码器-解码器架构

关键词:预训练模型，编码器解码器，selfattention，AdamW，监督信号，深度学习，NLP

基于海思方案的NDI编码器和解码器使用方法

Transformer解码器原理解析

【计算机视觉 | 目标检测】术语理解9：AIGC的理解，对比学习，解码器，Mask解码器，耦合蒸馏，半耦合，图像编码器和组合解码器的耦合优化

编码器-解码器模型--本人实现

7. Netty中编码器、解码器

什么是编码器、解码器？（CNN\RNN....)

揭秘编码器与解码器语言模型

seq2seq编码器与解码器 --学习笔记

MATLAB算法实战应用案例精讲-【深度学习】对抗神经网络-编码和解码器

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)