NLP学习(5)----seq2seq/transformer

其他 2019-08-27 12:08:06 阅读次数: 0

https://www.leiphone.com/news/201709/8tDpwklrKubaecTa.html

https://www.cnblogs.com/hellojamest/p/11128799.html

https://blog.csdn.net/longxinchen_ml/article/details/86533005

一. 前提:

　　RNN : 解决INPUT是序列化的问题,但是RNN存在的缺陷是难以并行化处理.

　　CNN : 使用CNN来replaceRNN,可以并行,如下图每个黄色三角形都可以并行. 但是问题是难解决长依赖的序列, 解决办法是叠加多层的CNN,比如下图的CNN黄色三角形和蓝色三角形为两层CNN,

self-attention : 其输入和输出和RNN一样,就是中间不一样. 如下图, b1到b4是同时计算出来, RNN的b4必须要等到b1计算完.

二. self-attention计算(Attention is all you need)

　　用每个query q去对每个key k做attention , 即计算得到α_1,1 , α_1,2 ……,

　　为什么要除以d [d等于q或k的维度,两者维度一样] ? 因为q和k的维度越大,dot product 之后值会更大,为了平衡值,相当于归一化这个值,除以一个d.

　　

　　

三. self-attention如何并行

　　以上每个α都可以并行计算

　　

总结:

四. self_attention的类型

多头: 为何?因为不同的head可以关注不同的信息, 比如第一个head关注长时间的信息,第二个head关注短时间的信息.

将两个b^i,1和b^i,2进行concat并乘以W⁰来降为成bⁱ

　　位置encoding

　　上面的self-attention有个问题,q缺乏位置信息,因为近邻和长远的输入是同等的计算α.

　　位置encoding的eⁱ是人工设置的,不是学习的.将其加入aⁱ中.

　　为何是和ai相加,而不是concat?

　　

　　这里的W^p是通过别的方法计算的,如下图所示

五. seq2seq

　　传统的seq2seq: 中间用的是RNN

　　

　　seq2seq with attention

　　

六. Transformer

https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w

整体架构:

残差

对于每个encoder里面的每个sub-layer，它们都有一个残差的连接，

Layer Norm

每个sub-layer后面还有一步 layer-normalization [layer Norm一般和RNN相接] 。

Batch Norm和Layer Norm 的区别, 下图右上角, 横向为batch size取均值为0, sigma = 1. 纵向为layer Norm , 不需要batch size.

Masked : [decoder]

注意encoder里面是叫self-attention，decoder里面是叫masked self-attention。

这里的masked就是要在做language modelling（或者像翻译）的时候，不给模型看到未来的信息。

mask就是沿着对角线把灰色的区域用0覆盖掉，不给模型看到未来的信息。

　　发展: universal transformer

　　应用: NLP \ self attention GAN (用在图像上)

　　

猜你喜欢

转载自www.cnblogs.com/Lee-yl/p/11417506.html

NLP学习(5)----seq2seq/transformer

NLP学习记录5——seq2seq模型

【NLP】Transformer（seq2seq model with Self-Attention）

seq2seq学习

Seq2Seq -- Attention -- Transformer

NLP之Seq2Seq

【NLP-10】seq2seq

NLP 3.3: Seq2Seq

Seq2Seq

深度学习：Seq2seq模型

机器学习面试—seq2seq

深度学习的seq2seq模型

seq2seq学习笔记

Seq2Seq ---学习笔记

李宏毅-hw5-translation-有关transformer、seq2seq的探索

NLP实践——以T5模型为例训练seq2seq模型

transformer bert seq2seq 深度学习编码和解码的逻辑-重点

Attention Model（注意力模型）学习总结--seq2seq transformer bert重点

NLP入门（3）— Seq2Seq Model

NLP从Seq2Seq到ALBERT模型理解与实践

机器学习笔记：seq2seq & attentioned seq2seq

深度学习-->NLP-->Seq2Seq Learning(Encoder-Decoder,Beam Search,Attention)

NLP自然语言处理学习（三）——Seq2Seq模型

NLP学习笔记九-机器翻译-seq2seq模型

seq2seq模型

tensorflow seq2seq

seq2seq attention

seq2seq理解

seq2seq原理

PyTorch: SEQ2SEQ

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)