注意力机制----seq2seq中的注意力机制

其他 2021-11-29 00:27:27 阅读次数: 0

自然语言处理中的sqe2seq模型是encoder,decoder模型
- 如：输入英语，输出法语
- X是输入，h是状态

encoder的最后一个状态h_m是decoder的输入

seq2seq模型的缺点就是，如果句子太长，模型会漏掉一些信息，准确性会下降

但是，使用了注意力机制之后，准确率会保持在一个水平上（BLEU是机器翻译模型的评价标准）

在encoder结束工作后，decoder与encoder同时开始工作
要计算s_0和每一个h_i的相关性

因为有m个h, 所以有m个权重

权重最原始的计算方法：
- 将h_i和s_0拼接起来
- 乘以W矩阵
- 经过双曲正切函数
- 再乘以向量V

其中，W，V都是网络要学习的参数

得到m个权重之后，再使用softmax进行归一化

现在经常采用第二种计算权重的方法（transformer模型使用）
第一步：将h_i和s_0分别乘以矩阵W_K和W_Q, 得到k_i和q_0

第二步：将k_i和q_0进行内积

第三步：经softmax进行归一化

：

将得到的 m个权重和m个状态进行向量内积，得到s_0对应的c_0

现在要进行s1的更新：
- SimpleRNN的做法是：
  - 将输入x'_1和s_0拼接起来
  - 与A'相乘，加b，经双曲正切函数

有了注意力机制的做法是：
- 将x'_1, s_0和c_0三个向量拼接起来
- （其它相同）

因此，s_1得到更新。
但是，问题是：对于每一个s_i, 权重不能重复使用，必须一遍遍地算

重复上面步骤：以同样的方式算得c1

算得c2

算得c3

算得c4

时间复杂度：对于每一个c_i都有m个权重被计算，有t个c就有mt个权重被计算

关于seq2seq模型的“注意力机制”可视化，可以使用这个图来理解

总结：
- 标准的seq2seq模型只是看当前的状态
- 注意力机制能够结合所有状态的信息
- 但是，在seq2seq模型中，注意力机制的时间复杂度太高了

猜你喜欢

转载自blog.csdn.net/weiwei935707936/article/details/109559669

注意力机制----seq2seq中的注意力机制

Seq2Seq模型与注意力机制

注意力机制和Seq2seq模型

注意力机制与Seq2seq模型

seq2seq及注意力机制

Seq2Seq - - 注意力机制

软注意力机制和硬注意力机制，以及seq2seq

机器翻译及相关技术、注意力机制和Seq2seq模型、Transformer

机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

机器翻译及相关技术 & 注意力机制与Seq2seq模型 & Transformer

深度学习之注意力机制（Attention Mechanism）和Seq2Seq

深入理解注意力机制（Attention Mechanism）和Seq2Seq

多图+公式全面解析RNN,LSTM,Seq2Seq,Attention注意力机制

序列到序列网络seq2seq与注意力机制attention浅析

【深度学习】图解机器翻译模型：基于注意力机制的 Seq2Seq

动手学深度学习（四十八）——使用注意力机制的seq2seq

91.使用注意力机制的seq2seq以及代码实现

睿智的seq2seq模型3——注意力机制概念详解与其在LSTM中的使用

Attention使用注意力机制的seq2seq 动手学深度学习v2

李沐动手学深度学习V2-基于注意力机制的seq2seq

Pytorch系列教程-使用Seq2Seq网络和注意力机制进行机器翻译

PyTorch 1.0 中文官方教程：基于注意力机制的 seq2seq 神经网络翻译

可视化神经机器翻译模型（基于注意力机制的Seq2seq模型）

睿智的seq2seq模型4——往英文到法文的翻译里加上注意力机制

《动手学习深度学习》之二：注意力机制和Seq2seq模型（打卡2.2）

[ DLPytorch ] 注意力机制与Seq2seq模型&Transformer&机器翻译及相关技术

Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

【动画详解人工智能原理】Tranformer 模型中的注意力机制的工作过程是怎样的？一个带有注意力的 Seq2seq 模型的机制实例视频动画详细讲解

14天动手学深度学习 task2 《动手学》：注意力机制和Seq2seq模型笔记

【深度学习系列（六）】：RNN系列（4）：带注意力机制的seq2seq模型及其实战(2)：为图片添加内容描述

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)