【NLP】Transformer（seq2seq model with Self-Attention） - 代码天地

【NLP】Transformer（seq2seq model with Self-Attention）

其他 2020-03-08 13:29:01 阅读次数: 0

【一】RNN & CNN

RNN 难以 平行运算，于是，有人想用 CNN 取代 RNN，kernels 可以同时计算，但需要 迭很多层 才能扩展 感受野

【二】用 Self-Attention 取代 RNN

Self-Attention 可以同时计算 b1 b2 b3 b4
通过 embedding 将 input 搞成 vector（词向量） 的形式
将对应的 vector（词向量） 乘上3个不同的 matrix（Wq，Wk，Wv），此过程称为 transformation

q：query（to match others）
k：key（to be matched）
v：value（information to be extracted）

拿每个 query q 去对每个 key k 做 attention，吃两个 vector，抛出一个分数。（d is dim of q and k）
将得到的 attention 的值跑一下 Soft-max，得到各个概率
将得到的 各个概率 乘上 各个 value，相加后得到对应的最终的值

【三】纵观 Self-Attention

transformer（计算 Q，K，V）
attention（计算 K * Q，省略 根号d 以简化）
soft-max
value

【四】Multi-head Self-Attention

在 Q K V 的基础上继续分化
其实这个流程下来跟一开始的 input 的 sequence 无关，怎么办呢，给 ai 加个 ei，判断出当前的 ai 是在什么位置

【五】Seq2Seq with Attention

原始的 Seq2Seq 的 Encoder 和 Decoder
现在用 Attention 来取代 RNN 的结构
谷歌官方给出的动画示意图
Encoding 的时候做 Attention，图示做了 3次 Attention，此时是平行运算
Decoding 的时候，Encode 出来的结果作为输入，先做 Attention，然后根据其结果，结合 Encode 的结果做 Attention

【六】Transformer

图示，左半部分是 Encoding，又半部分是 Decoding

DamonDT

发布了57 篇原创文章 · 获赞 5 · 访问量 2880

私信关注

猜你喜欢

转载自blog.csdn.net/qq_34330456/article/details/100922649

【NLP】Transformer（seq2seq model with Self-Attention）

Seq2Seq中的Attention和self-attention

Attention Model（注意力模型）学习总结--seq2seq transformer bert重点

seq2seq model和Attention-based seq2seq Model(动图展示)

Seq2Seq -- Attention -- Transformer

Self-Attention与Transformer

Self-attention & Transformer

NLP入门（3）— Seq2Seq Model

非RNN的新型seq2seq任务网络模型(self-attention机制)

seq2seq model: beam search和attention机制理解

Transformer中的Self-Attention

Self-Attention 和 Transformer

self-attention与Transformer补充

seq2seq attention

seq2seq、attention

NLP入门（4）— Self-attention & Transformer

TensorFlow Seq2Seq Model笔记

26 seq2seq model

NLP 3.4 Attention，self-attention

循环神经网络复习2-seq2seq,attention,self-attention(transform)

学习笔记（二）__Self-Attention及Transformer

对Transformer中self-attention的理解

Transformer中self-attention实现

attention,self-attention,multihead attention,Transformer【亟待解决】

从Seq2Seq到Attention

Seq2Seq中的Attention详解

机器翻译——Seq2Seq模型到attention机制到Transformer

深度学习-->NLP-->Seq2Seq Learning(Encoder-Decoder,Beam Search,Attention)

NLP/CV：Seq2Seq→Encoder-Decoder→Seq2Seq with Attention算法的简介、案例应用之详细攻略

ELMo/GPT/Bert/Attention/Transformer/Self-Attention总结

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)