Seq2Seq模型与注意力机制

其他 2019-11-24 17:01:05 阅读次数: 0

Seq2Seq模型

基本原理

核心思想：将一个作为输入的序列映射为一个作为输出的序列
- 编码输入
- 解码输出
- 解码第一步，解码器进入编码器的最终状态，生成第一个输出
- 以后解码器读入上一步的输出，生成当前步输出
组成部件：
- Encoder
- Decoder
- 连接两者的固定大小的State Vector

解码方法

最核心部分，大部分的改进
贪心法
- 选取一种度量标准后，在当前状态下选择最佳的一个结果，直到结束
  - 计算代价低
  - 局部最优解
集束搜索(Beam Search)
- 启发式算法
- 保存beam size个当前较佳选择,决定了计算量，8~12最佳
- 解码时每一步根据保存的结果选择下一步扩展和排序，选择前beam size个保存
- 循环迭代，直到结束。选择最佳结果输出
改进
- 堆叠RNN
- Dropout机制
- 与编码器之间建立残差连接
- 注意力机制
- 记忆网络

注意力机制

Seq2Seq模型中的注意力机制

在实际发现，随着输入序列增长，模型性能发生显著下降
小技巧
- 将源语言句子逆序输入，或者重复输入两遍，得到一定的性能提升
解码时当前词及对应的源语言词的上下文信息和位置信息在编解码过程中丢失了
引入注意力机制解决上述问题：
- 解码时，每一个输出词都依赖于前一个隐状态以及输入序列每一个对应的隐状态
  \[s_i = f(s_{i-1}, y_{i-1},c_i)\]
  \[p(y_i|y_1,\cdots,y_{i-1})=g(y_{i-1},s_i,c_i)\]
  其中，\(y\)是输出词，\(s\)是当前隐状态，\(f,g\)是非线性变换，通常为神经网络
- 语境向量\(c_i\)是输入序列全部隐状态\(h_1,\cdots,h_T\)的加权和
  \[c_i=\sum \limits_{j=1}^T a_{ij}h_j \]
  \[a_{ij} = \frac{\exp(e_{ij})}{\sum_k \exp(e_{ij})} \]
  \[e_{ij}=a(s_{i-1},h_j) \]
- 神经网络\(a\)将上一个输出序列隐状态\(s_{i-1}\)和输入序列隐状态\(h_j\)作为输入，计算出一个\(x_j,y_i\)对齐的值\(e_{ij}\)
  - 考虑每个输入词与当前输出词的对齐关系，对齐越好的词，会有更大权重，对当前输出影响更大
- 双向循环神经网络
  - 单方向：\(h_i\)只包含了\(x_0\)到\(x_i\)的信息，\(a_{ij}\)丢失了\(x_i\)后面的信息
  - 双方向：第\(i\)个输入词对应的隐状态包括了\(\overrightarrow{h}_i\)和\(\overleftarrow{h}_i\)，前者编码了\(x_0\)到\(x_i\)的信息，后者编码了\(x_i\)及之后的信息，防止信息丢失

常见Attention形式

本质：一个查询（query）到一系列（键key-值value）对的映射
计算过程
- 将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等
- 使用一个softmax函数对这些权重进行归一化
- 权重和相应的键值value进行加权求和得到最后的attention

猜你喜欢

转载自www.cnblogs.com/weilonghu/p/11923017.html

Seq2Seq模型与注意力机制

注意力机制和Seq2seq模型

注意力机制与Seq2seq模型

seq2seq及注意力机制

Seq2Seq - - 注意力机制

机器翻译及相关技术、注意力机制和Seq2seq模型、Transformer

机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

机器翻译及相关技术 & 注意力机制与Seq2seq模型 & Transformer

【深度学习】图解机器翻译模型：基于注意力机制的 Seq2Seq

软注意力机制和硬注意力机制，以及seq2seq

注意力机制----seq2seq中的注意力机制

可视化神经机器翻译模型（基于注意力机制的Seq2seq模型）

睿智的seq2seq模型4——往英文到法文的翻译里加上注意力机制

睿智的seq2seq模型3——注意力机制概念详解与其在LSTM中的使用

《动手学习深度学习》之二：注意力机制和Seq2seq模型（打卡2.2）

[ DLPytorch ] 注意力机制与Seq2seq模型&Transformer&机器翻译及相关技术

Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

深度学习之注意力机制（Attention Mechanism）和Seq2Seq

深入理解注意力机制（Attention Mechanism）和Seq2Seq

多图+公式全面解析RNN,LSTM,Seq2Seq,Attention注意力机制

序列到序列网络seq2seq与注意力机制attention浅析

动手学深度学习（四十八）——使用注意力机制的seq2seq

91.使用注意力机制的seq2seq以及代码实现

Attention Model（注意力模型）学习总结--seq2seq transformer bert重点

14天动手学深度学习 task2 《动手学》：注意力机制和Seq2seq模型笔记

【深度学习系列（六）】：RNN系列（4）：带注意力机制的seq2seq模型及其实战(2)：为图片添加内容描述

ElitesAI·动手学深度学习PyTorch版学习笔记-机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

《动手学深度学习——机器翻译及相关技术，注意力机制与seq2seq模型，Transformer》笔记

动手学 Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

机器学习实战(第二版)读书笔记(4)——seq2seq模型&注意力机制（BahdanauAttention，LuongAttention）详解

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)