注意力机制中的文本(上下文)向量[Context vector]【亟待解决】 - 代码天地

注意力机制中的文本(上下文)向量[Context vector]【亟待解决】

企业开发 2022-05-12 18:34:25 阅读次数: 0

1.无注意力机制的Context vector作用提供全局信息。

很清楚，这种定长的context vector设计有个很致命的问题，无法记忆长句子。当处理完所有输入序列后，模型对最初的输入单词已经**“忘得差不多了”**。也就是编码器输出的context vector并不能很好地表征长句子的开头部分信息。所以注意力机制就是为了解决这个问题提出的。

最初提出注意力机制就是为了解决神经机器翻译任务中长的源句子的记忆问题。注意力机制的做法并不要创建一个与编码器最后一个隐状态（last hidden state）完全无关的context vector，而是要创建一个与编码器所有的隐状态有关的加权 context vector，当然也包括 最后一个隐状态（这就是所谓global attention）。

现在context vector 能遍历整个输入序列，所以我们不用担心遗忘的问题。接下来就要学习源语言和目标语言之间的对齐，这种对齐由context vector控制。

机器翻译在encoder端以时序输入了一句话(暂且假设这句话是word-level，及逐词入)，context vector相当于一个表征，表示为各个词语的加权语境向量，也就是说，这个vector使得这句话中的某个词，与其他词语之间存在上下文关系。一般来说，这里用attention模型赋予权重，在decoding的过程中，由于时序关系，encoder端和decoder端们的hidden units的对齐模型是在不断变化的，weight（用softmax计算）也是在不断变化的。//其实就是Seq2Seq里面编码器解码器的hidden state 更新方式的过程

以上为个人理解与网上资料参考，如果有不恰大的地方，欢迎批评与指正，感谢！

参考资料

什么是上下文向量？context vector - 知乎

图解注意力机制_白酱六条的博客-CSDN博客_注意力机制图解

猜你喜欢

转载自blog.csdn.net/weixin_43332715/article/details/124522385

注意力机制中的文本(上下文)向量[Context vector]【亟待解决】

CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构，完美解决空间细节、上下文和边界信息！

CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构，完美解决空间细节、上下文和边界信息

目标检测方法整理【亟待解决】

reid技术讲解//亟待解决

attention,self-attention,multihead attention,Transformer【亟待解决】

使用Docker安装深度学习环境【亟待解决】

Docker与Kubernetes的区别和联系【亟待解决】

一点对 KL 散度的理解【亟待解决】

yolov7+各种追踪器//亟待解决

区块链安全 | 门罗币安全事件此起彼伏，代码问题亟待解决

中国CRO企业成本优势明显但有一个问题亟待解决

服务器崩溃、视频卡顿……在线教育的这些问题亟待解决！

论文笔记——Deep State Space Models for Time Series Forecasting【亟待解决】

汽车软件开发：目前还存在几大方面的痛点亟待解决？

5.18今日资讯人民日报：虚拟货币监管缺失是亟待解决的全球性问题

注意力机制：一种解决深度学习中的选择问题的方法

基于上下文化图注意力网络的知识图谱的条目推荐

Context 上下文

Android 中上下文Context理解

SNMP中的Context(上下文)

让注意力提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升！

Android Context 上下文

React的上下文-Context

Context类(上下文)

React Context上下文

React Context(上下文)

context(上下文、环境）

golang context上下文

vue中解决three.js出现内存泄漏丢失上下文问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)