自注意力（Self-Attention） - 代码天地

自注意力（Self-Attention）

企业开发 2023-04-07 13:39:32 阅读次数: 0

一、自注意力机制概述

循环神经网络由于信息传递的容量以及梯度消失问题，实际上也只能建立短距离依赖关系。

为了建立长距离的依赖关系，可以增加网络的层数或者使用全连接网络。但是全连接网络无法处理变长的输入序列，另外，不同的输入长度，其连接权重的大小也是不同的。

这时，提出了自注意力模型，可以“动态”地生成不同连接的权重。

自注意力模型的结构：输入n个，输出也是n个，但是会考虑整个sequence（有context）

自注意力机制实际上是注意力机制的一种，它也是一种网络的构型，它想要解决的问题是网络接收的输入是很多向量，并且向量的大小也是不确定的情况，比如机器翻译（序列到序列的问题，机器自己决定多少个标签），词性标注（Pos tagging 一个向量对应一个标签），语义分析（多个向量对应一个标签）等文字处理以及图像处理中。

二、文字处理中单词向量编码的方式

在文字处理中，我们对单词进行向量编码通常有两种方式：

独热编码（one-hot encoding）：用N位的寄存器对N个状态编码，通俗来讲就是开一个很长很长的向量，向量长度和世界上存在的词语的数量是一样多的，每一项表示一个词语，只要把其中的某一项置1，其他的项都置0，那么就可以表示一个词语，但这样的编码方式没有考虑词语之间的相关性，并且内存占用也很大。

词向量编码（Word Embedding）：将词语映射（嵌入）到另一个数值向量空间，可以通过距离来表征不同词语之间的相关性。

拿词性标注举例，对一个句子来说每一个词向量对应一个标签，初始的想法是可以通过全连接神经网络，但全连接神经网络没有考虑在句子不同位置，单词可能表示不同含义的问题，并且当输入的句子很长，比如是一篇文章的时候，模型的性能下降严重。

三、自注意力机制如何实现

针对全连接神经网络存在的这个问题，通过自注意力机制来解决，自注意力机制实际上是想让机器注意到整个输入中不同部分之间的相关性，它的实现方法如下：

对于每一个输入向量a，在本例中也就是每一个词向量，经过self-attention之后都输出一个向量b，这个向量b是考虑了所有的输入向量才得到的，这里有四个词向量a对应就会输出四个向量b

那么向量b是如何产生的呢？

自注意力模型经常采用QKV(Query-Key-Value)模式，计算过程如下图所示

步骤1：对于每一个向量a，分别乘上三个系数 $\text{[math]}$ , $\text{[math]}$ , $\text{[math]}$ 得到q,k,v三个值：

$\text{[math]}$ 写成向量形式： $\text{[math]}$

$\text{[math]}$ 写成向量形式： $\text{[math]}$

$\text{[math]}$ 写成向量形式： $\text{[math]}$

得到的Q,K,V分别表示 query，key和value（查询向量，键向量和值向量）

三个W就是我们需要学习的参数

步骤2：利用得到的Q和K计算每两个输入向量之间的相关性，也就是计算attention的值α，α的计算方法有多种，通常采用点乘的方式

$\text{[math]}$ 写成向量形式： $\text{[math]}$

矩阵A中的每一个值记录了对应的两个输入向量的Attention的大小α

步骤3：对A矩阵进行softmax操作或者relu操作得到A'

步骤4：利用得到的A'和V计算每个输入向量a对应的self-attention层的输出向量b：

$\text{[math]}$ ，写成向量形式 O=V⋅A′

拿第一个向量 $\text{[math]}$ 对应的self-attention输出向量 $\text{[math]}$ 举例，它的产生过程如下:

先通过三个W矩阵生成q,k,v；然后利用q,k计算attention的值α,再把所有的α经过softmax得到α;最后对所有的v进行加权求和，权重是α,得到 $\text{[math]}$ 对应的self-attention输出的 $\text{[math]}$

总结：

四、自注意力机制的问题

自注意力机制虽然考虑了所有的输入向量，但没有考虑到向量的位置信息。在实际的文字处理问题中，可能在不同位置词语具有不同的性质，比如动词往往较低频率出现在句首。

有学者提出可以通过位置编码(Positional Encoding)来解决这个问题：对每一个输入向量加上一个位置向量e，位置向量的生成方式有多种，通过e来表示位置信息带入self-attention层进行计算。

猜你喜欢

转载自blog.csdn.net/qq_48626761/article/details/128747901

自注意力(self-attention)

自注意力（Self-Attention）

NLP中的self-attention【自-注意力】机制

【学习笔记】自注意力机制self-attention

自注意力机制(Self-Attention)

自注意力机制超级详解（Self-attention）

PyTorch——实现自注意力机制（self-attention）

Self-Attention 自注意力机制

self-attention（自注意力机制）

深度学习：自注意力机制(Self-Attention)

002 self-attention自注意力

自注意力(Self-Attention)与Multi-Head Attention机制详解

Transformer：注意力机制（attention）和自注意力机制（self-attention）的学习总结

深入理解深度学习——注意力机制（Attention Mechanism）：自注意力（Self-attention）

干货 | NLP中的self-attention【自-注意力】机制

自然语言处理中的自注意力机制（Self-attention Mechanism）

AAAI2018中的自注意力机制(Self-attention Mechanism)

自注意力机制（Self-attention Mechanism）——自然语言处理（NLP）

自注意力机制（Self-Attention）的基本知识

深入理解Self-attention（自注意力机制）

卷积神经网络中的自注意力机制(Self-Attention Mechanism)

对自注意力(self-attention)的理解以及基于pytorch的简易示例

【AI绘图学习笔记】self-attention自注意力机制

【李宏毅 | 深度学习】自注意力机制（Self-attention）

LLM - 大语言模型的自注意力(Self-Attention)机制基础概述

注意力机制----RNN中的self-attention

注意力机制——Self-Attention Networks（SANet）

DL之self-attention：self-attention自注意力机制模块思路的8个步骤及其代码实现

特征金字塔+自注意力：Salient Object Detection Combining a Self-attention Module and FPN

2021刷新COCO和Cityscapes | Polarized Self-Attention：极化自注意力机制（keras实现）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)