深入理解深度学习——注意力机制（Attention Mechanism）：Bahdanau注意力 - 代码天地

深入理解深度学习——注意力机制（Attention Mechanism）：Bahdanau注意力

企业开发 2023-06-22 03:12:09 阅读次数: 0

分类目录：《深入理解深度学习》总目录

相关文章：
·注意力机制（AttentionMechanism）：基础知识
·注意力机制（AttentionMechanism）：注意力汇聚与Nadaraya-Watson核回归
·注意力机制（AttentionMechanism）：注意力评分函数（AttentionScoringFunction）
·注意力机制（AttentionMechanism）：Bahdanau注意力
·注意力机制（AttentionMechanism）：多头注意力（MultiheadAttention）
·注意力机制（AttentionMechanism）：自注意力（Self-attention）
·注意力机制（AttentionMechanism）：位置编码（PositionalEncoding）

之前我们探讨了机器翻译问题：通过设计一个基于两个循环神经网络的编码器—解码器架构，用于序列到序列学习。具体来说，循环神经网络编码器将长度可变的序列转换为固定形状的上下文变量，然后循环神经网络解码器根据生成的词元和上下文变量按词元生成输出（目标）序列词元。然而，即使并非所有输入（源）词元都对解码某个词元都有用，在每个解码步骤中仍使用编码相同的上下文变量。

在为给定文本序列生成手写的挑战中， Graves设计了一种可微注意力模型，将文本字符与更长的笔迹对齐，其中对齐方式仅向一个方向移动。受学习对齐想法的启发，Bahdanau等人提出了一个没有严格单向对齐限制的可微注意力模型。在预测词元时，如果不是所有输入词元都相关，模型将仅对齐（或参与）输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。

下面描述的Bahdanau注意力模型。假设输入序列中 $T$ 有个词元，解码时间步 $t^{'}$ 的上下文变量是注意力集中的输出：
$c_{t'}=\sum_{t=1}^T\alpha(s_{t'-1}, h_t)h_t$

其中，时间步 $t^{'} - 1$ 时的解码器隐状态 $s_{t'-1}$ 是查询，编码器隐状态 $h_t$ 既是键，也是值，注意力权重 $\alpha$ 是使用《深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）》中所定义的加性注意力打分函数计算的。下图描述了Bahdanau注意力的架构。

一个带有Bahdanau注意力的循环神经网络编码器-解码器模型

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/131116731

深入理解深度学习——注意力机制（Attention Mechanism）：Bahdanau注意力

深入理解深度学习——注意力机制（Attention Mechanism）：自注意力（Self-attention）

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）

深入理解深度学习——注意力机制（Attention Mechanism）：注意力汇聚与Nadaraya-Watson 核回归

深入理解深度学习——注意力机制（Attention Mechanism）：基础知识

深入理解深度学习——注意力机制（Attention Mechanism）：位置编码（Positional Encoding）

深度学习中注意力机制的理解-Attention mechanism

深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）

深度学习之注意力机制（Attention Mechanism）

深度学习：注意力机制(Attention Mechanism)

注意力机制（三）：Bahdanau注意力

（Slide）Attention Mechanism注意力机制

注意力机制(Attention Mechanism)

注意力机制（Attention Mechanism）-SENet

注意力机制（Attention Mechanism）-CBAM

注意力机制（Attention Mechanism）-ECANet

注意力机制Attention Mechanism

注意力机制（Attention Mechanism）

深入理解注意力机制（Attention Mechanism）和Seq2Seq

注意力机制（Attention Mechanism）学习笔记

深入理解注意力机制

注意力机制（Attention Mechanism）相关博文汇总

深度学习之注意力机制（Attention Mechanism）和Seq2Seq

Bahdanau 注意力(具备注意力机制的Encoder-Decoder模型)

Attention（注意力机制）的简单理解

注意力机制Attention

attention注意力机制

Attention 注意力机制

Attention,注意力机制

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)