注意力模型（Attention Model）简记 - 代码天地

注意力模型（Attention Model）简记

其他 2019-02-18 07:01:34 阅读次数: 0

机器翻译模型的编码器是先读取整个句子后传递到解码器中翻译，对于过长句子序列（例如超过30个词的句子）的记忆能力弱，翻译效果不理想。此时就出现了注意力模型，它是模仿人类翻译，一部分一部分地翻译，从而提高长句子的翻译能力。

本文示例翻译法语句子:Jane visite I’Afrique en Septembre。用来索引法语序列的词。

使用双向RNN用于待翻译序列的特征提取。下图中蓝色的表示激活值，左右箭头表方向，分别是前向传播 和 后向传播 的激活值。

表示一组前向后向激活值

特征提取模型

注意力权重

注意力模型在生成每个翻译结果时只考虑部分提取到的特征。注意力权重参数（a set of attention weights）表示当你在时间步处生成输出词，你应该花多少注意力在第个输入词上面。例如分别表示前三个单词对第一个词语的翻译结果具有的影响力。类似的分别表示表示在翻译得到第二个单词时，要分别放多少注意力在前三个单词上。并且前一步翻译的输出也会作为下一步的输入。

翻译过程

翻译使用的是一个单向RNN，用状态表示RNN的隐藏状态（the hidden state in this RNN），表示上下文（context），作为状态的输入。参数满足以下公式：

1、每次考虑的所有注意力权重之和等于1

2、特征步激活值和注意力权重的乘积之和作翻译模型的输入，即上下文

计算第一个翻译结果词

计算注意力权重

为了满足，计算注意力权重的方法（即使用softmax）是：

计算上式的关键是计算，现直到计算需要上一个翻译状态的值和特征提取模型中本状态的激活值但不知道具体函数关系,需要通过一个小的神经网络学习对应的具体的函数关系式。

得到第二个翻译结果词示意图，以此类推

注意力模型的缺点

缺点是时间花费是,因为注意力参数部分的计算。如果有个输入词，个输出词，则注意力权重参数的总数就是x。

注意力模型

猜你喜欢

转载自blog.csdn.net/weixin_33919941/article/details/86781394

注意力模型（Attention Model）简记

【注意力模型】Attention Model 总结

注意力模型（Attention Model）

注意力模型---Attention Model

深度学习之Attention Model（注意力模型）

【NLP】Attention Model（注意力模型）学习总结

Attention Model（注意力模型）学习大全

Attention Model（注意力模型）思想初探

Attention Model（注意力模型）学习总结

注意力模型（Attention Model）理解和实现

注意力模型直观理解（Attention Model Intuition）

注意力机制 Attention Model

深度学习笔记——Attention Model（注意力模型）学习总结

[深度概念]·深度学习之Attention Model（注意力模型）学习笔记

Attention Model（注意力模型）学习总结--seq2seq transformer bert重点

深度学习方法（九）：自然语言处理中的Attention Model注意力模型

注意力机制——Recurrent Attention Model（RAM）

易于理解的一些时序相关的操作(LSTM)和注意力机制(Attention Model)

序列模型之语言模型（Language model）简记

[深度学习]Machine Comprehension机器阅读中Attention-based Model注意力机制论文集合

diffusion model2 扩散模型的文本信息融合、交叉注意力机制、lora

关于《注意力模型--Attention注意力机制》的学习

RAM: Residual Attention Module 新的注意力模型

pytorch attention 注意力

注意力机制Attention

attention注意力机制

Attention 注意力机制

Attention,注意力机制

最近两年,注意力模型(Aenion Model)被广泛使厉害了！这个曾经破败凋敝

注意力机制-CA注意力-Coordinate attention

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)