对Transformer中self-attention的理解

企业开发 2023-04-08 03:44:19 阅读次数: 0

self-attention

什么是self-attention
Multi--head-attention

什么是self-attention

首先我们来看一下Transformer架构：对于input输出，首先进行input embedding，然后再进行positional encoding，将两者相加作为Encoder的输入，也就是输如X 在这里插入图片描述
何为self-attention？首先我们要明白什么是attention，对于传统的seq2seq任务，例如中-英文翻译，输入中文，得到英文，即source是中文句子（x1 x2 x3）,英文句子是target（y1 y2 y3）

attention机制发生在target的元素和source中的所有元素之间。简单的将就是attention机制中的权重计算需要target参与，即在上述Encoder-Decoder模型中，Encoder和Decoder两部分都需要参与运算。

而对于self-attention，它不需要Decoder的参与，而是source内部元素之间发生的运算，对于输入向量X，对其做线性变换，分别得到Q、K、V矩阵
在这里插入图片描述
然后去计算attention，Q、K点乘得到初步的权重因子，并对Q、K点乘结果进行放缩，除以sqrt（dk），Q、K点乘之后的方差会随着维度的增大而增大，而大的方差会导致极小的梯度，为了防止梯度消失，所以除以sqrt(dk)来减小方差，最终再加一个softmax就得到了self attention的输出。
在这里插入图片描述

Multi–head-attention

Multi–head-attention使用了多个头进行运算，捕捉到了更多的信息，多头的数量用h表示，一般h=8，表示8个头
在这里插入图片描述
在输入每个self-attention之前，我们需将输入X均分的分到h个头中，得到Z1-Z7八个头的输出结果。

对于每个头计算相应的attention score，将其进行拼接，再与W0进行一个线性变换，就得到最终输出的Z。

猜你喜欢

转载自blog.csdn.net/weixin_51756104/article/details/127203608

对Transformer中self-attention的理解

Transformer中的Self-Attention

Self-Attention与Transformer

Self-attention & Transformer

Transformer中self-attention实现

从attention到Transformer+CV中的self-attention

Self-Attention 和 Transformer

self-attention与Transformer补充

学习笔记（二）__Self-Attention及Transformer

NLP入门（4）— Self-attention & Transformer

attention,self-attention,multihead attention,Transformer【亟待解决】

Self-Attention GAN 中的 self-attention 机制

详解Transformer中Self-Attention以及Multi-Head Attention

ELMo/GPT/Bert/Attention/Transformer/Self-Attention总结

【论文解读】Attention Is All You Need（Transformer and Self-Attention）

Transformer 总结（self-attention, multi-head attention）

Attention与Self-Attention

【NLP】Transformer（seq2seq model with Self-Attention）

Google新作Synthesizer:Rethinking Self-Attention in Transformer Models

Transformer详解:基于self-attention的大杀器

自然语言处理 - Self-attention 到 Transformer

transformer模型，文本生成任务。 self-attention结构

《Shunted Transformer: Shunted Self-Attention》CVPR 2022 oral

多任务学习：Transformer based MultiHead Self-Attention Networks

Transformer 01(自注意机制Self-attention)

Self-Attention（什么是Self-Attention）

Self-Attention中Positional Encoding

人工智能学习07--pytorch17--Transformer中Self-Attention以及Multi-Head Self-Attention&Vision Transformer(vit)

【Transformer】Transformer 网络解析（Self-Attention 、Multi-Head Attention、位置编码、Mask等）

Self-attention详解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)