NLP 3.4 Attention，self-attention

其他 2021-02-28 16:06:33 阅读次数: 0

1、回顾Seq2Seq模型

预处理中，要保证每个seq长度一致

输出时，找到长度最长的len，然后把其他输出补齐

在这里插入图片描述

结构的问题

1、梯度问题：当seq过长时，当前词无法捕获到很前面时刻的单词信息，梯度消失
2、应用的角度：w=（prev，c），对于某一个词的翻译，只需要观察原始seq中的某一部分的重要信息。使用attention解决
3、c没有考虑句子的长度
4、BottleNeck：决定了decoder的生成效果

在这里插入图片描述

2、Seq2Seq 的 Attention

attention:学习每个单词权重的过程

在这里插入图片描述

对于decoder中，每个时刻的单词生成考虑了encoder中每个时刻的输出值和h之间的关系。权值较大的会对于decoder的生成贡献更多。

3、Self-attention

3.1 Transformer

在这里插入图片描述

Feed forward neural network：激活函数

Impact between each other

在这里插入图片描述

q,k,v的维度不一定要和word embedding的dim一样。

为什么需要self-attention

Long term dependency：对于普通RNN模型作为encoder，如果decoder的部分只选择最后一个时刻的输出的话。最后一个时刻的输出会包含更多的靠后时刻的信息而忽略前面几个时刻的信息。Gradient vanishing 导致前几个时刻的梯度无法更新。
self-attention 解决： 在计算过程中，考虑了每个单词的weight/重要性。考虑了所有词的信息。
串行计算：时序类模型，无法并行计算。
self-attention 解决 q,k,v可以并行计算

4、深度文本匹配

4.1 应用场景

搜索引擎
chat-bot
翻译

4.2 单语义文本匹配

在这里插入图片描述

在这里插入图片描述

4.3 多语义文档表达

在这里插入图片描述

match过后的output就是[10,10,1]代表两句话每个单词之间的数值化的关系表示

可以使用image 卷积的方式计算两个文本的相似度
在这里插入图片描述

卷积核扫过match后矩阵的特征的过程也考虑了上下文的关系。

4.4 问题与问题的匹配和问题与答案的匹配

问题和问题之间的性质一样，可以共享一个网络参数
问题与答案应该由两个网络分别进行运算。

猜你喜欢

转载自blog.csdn.net/weixin_51182518/article/details/113927735

NLP 3.4 Attention，self-attention

NLP入门（4）— Self-attention & Transformer

NLP中的self-attention【自-注意力】机制

【NLP】Transformer（seq2seq model with Self-Attention）

干货 | NLP中的self-attention【自-注意力】机制

自注意力机制（Self-attention Mechanism）——自然语言处理（NLP）

NLP（二十九）一步一步，理解Self-Attention

NLP入门：word2vec & self-attention & transformer & diffusion的技术演变

Attention与Self-Attention

Self-Attention（什么是Self-Attention）

Attention 和self-attention

Self-attention详解

Self-Attention与Transformer

Self-attention

关于self-attention

Self-attention & Transformer

【AI】12_Attention and Self-Attention

浅谈Attention与Self-Attention的前世今生

self-attention和cross-attention

Self-Attention GAN 中的 self-attention 机制

Transformer中的Self-Attention

Self-Attention 和 Transformer

self-attention与softmax的推导

self-attention与Transformer补充

On the Integration of Self-Attention and Convolution

self-attention学习笔记

Self-Attention运行过程

self-attention的通俗解释

attention,self-attention,multihead attention,Transformer【亟待解决】

自注意力(self-attention)

今日推荐

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

Ubuntu 24.04 LTS 正式“开放升级”

【送书福利-第四十四期】《深入Rust标准库》

开源日报 | Altman七宗罪；微软必应全球宕机；美国限制AI出口；淘汰VBScript；PostgreSQL 17

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

周排行

通知、自定义控件颜色

山东财经大学新生赛暨天梯赛选拔赛 C Retina

C#中String类的几个方法(IndexOf、LastIndexOf、Substring)

怎么把WPS文字自动替换直引号为弯引号？

《Spring实战》-第六章:渲染视图（表达式，标签库，模板）

ubuntu11.04安装apache,php,mysql

梦里Babel知多少（一）

python 中whl文件安装

UI设计师月薪大概是多少一般能工作到多少岁

Thinkpad Fn键与Ctrl键互换【不通过BIOS】

每日归档

更多

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)