5分钟理解transformer中的encoder - 代码天地

5分钟理解transformer中的encoder

编程语言 2023-07-29 19:17:59 阅读次数: 0

在这里插入图片描述

本文只涉及网络的结构，不讲网络的训练。
transformer由6个编码器和6个解码器组成。

一、self-attention

在这里插入图片描述
直接跳过单头self-attention，multi-head的意思是 $q, k, v$ 都不止一个，如图所示为两头的self-attention。
那么为什么不用单头的注意力呢，也许是因为每个 $q$ 与 $k$ 的相关性是不同的，所以综合多种相关性的计算会更有鲁棒性。
在这里插入图片描述
位置编码：要明确的是，现在输入的 $a$ 已经是编码后的 $a$ 了，那么其实如果一个一个按时间输入，这个位置信息是没有必要的，但由于self-attention的特殊性，必须添加一个位置信息。它的特殊性就在于self-attention是一视同仁的，第一个单词和最后一个单词在计算相关性的时候也不会因为它们距离很远所以权重很小，这样的操作实际上舍弃了原来的位置信息，所以此处补上。

二、编码器

编码器，顾名思义，就是把你的输入编码（变换）成机器可以容易学习的向量。这里transformer作者认为，如果输入一个语音信号，通过6个编码器之后这个语音信号就变得很容易被机器学习。
在这里插入图片描述
1.输入通过一个输入嵌入层，也就是把声音信号或者是文字转变为向量的形式。
2.加入位置编码，这些信号是没有位置信息的，这里加入位置信息。
3.通过multi-head attention层
4.上一步的输出加入一个残差再进行一个layer normalization （对一个样本的所有特征做）
5.通过MLP层
6.上一步输出加入残差在进行layer normalization

上面六步进行六次得到一个输出，这个输出也是一组向量或是说一个序列，只不过编码后的序列提取了某些特征，使得后续放入decoder中效果也许更好。

猜你喜欢

转载自blog.csdn.net/xiufan1/article/details/122552132

5分钟理解transformer中的encoder

5分钟理解transformer中的decoder

5分钟理解Android中的上下文！！！

10分钟理解RNN、LSTM、Transformer结构原理！

5分钟理解udev

5分钟彻底理解Object.keys

5分钟理解 SpringBoot 响应式的核心-Reactor

5分钟彻底理解Redis持久化

5分钟理解相机ISP（图像信号处理）

5分钟深刻理解sizeof和strlen

【大语言模型】5分钟快速认识ChatGPT、Whisper、Transformer、GAN

3分钟理解chatgpt中的prompt

5分钟快速在SpringCloud中添加Swagger

5分钟快速在SpringCloud中添加Swagger

5分钟学会vue中的路由守卫

linux中获取日志5分钟以内的内容

5分钟彻底搞懂JavaScript中的this指向问题

【JS】五分钟理解arguments

1分钟理解Servlet的概念

15分钟理解KD树

3分钟理解bootloader的流程

理解JSON：3分钟课程

3分钟理解JavaBean

10分钟理解Mysql索引

5分钟 BeetlSQL 快速入门

5分钟了解swagger

5分钟弄懂Docker

5分钟了解Mockito

5分钟上手TypeScript

【转】5分钟了解mockito

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)