Self-attention - 代码天地

Self-attention

其他 2021-11-19 14:56:37 阅读次数: 0

Self-attention (常见的network架构)

李宏毅 2021 machine learning课程中的transformer

self-attention想要解决的问题：

目前的input都是一个向量，而如果input是一系列向量(a set of vectors)，并且输入的向量个数是会改变的，例如输入不同长度的句子。

在这里插入图片描述

怎么把一个词汇表示成一个向量呢？

在这里插入图片描述

1.将一个词汇转换为一个向量，最常用的方法是 One-hot Encoding，这种向量表示法维度数就是世界上所有词汇的数目，其中的每一个维度表示一个单词，但是这种方法假设各个单词之间都没有关系，向量里没有任何语义信息。

2.另一种方法 Word Embedding的向量是有语义资讯的。

还有哪些应用是需要这种 a set of vectors ?

例如音频处理和一个图
在这里插入图片描述

输入是一堆向量，那么输出是什么？

可能有三种情况：
在这里插入图片描述
第一种和第二种举例：

详细介绍第一种情况，即Sequence Labeling：

在这里插入图片描述

更好的方法来考虑整个input sequence的信息：self-attention：

在这里插入图片描述

selt-attention是怎么运作的呢？

在这里插入图片描述
$b^1$ ~ $b^4$ 是一次/同时被计算出来的

接下来要判断的就是Self-attention是怎么自动决定两个向量间的相关度α的呢？

计算Attention的module：一般有两种方式
在这里插入图片描述

怎么把dot-product套用到Self-attention中呢？(以计算 $b^1$ 为例)

在这里插入图片描述
在实际中， $q^1$ 也会跟自己算关联度，这件事情也很重要！

计算到关联度α之后怎么抽取出sequence中重要的资讯呢？

在这里插入图片描述
这里展示了怎么通过一整个sequence得到向量 $b^1$ ，如果向量 $a^2$ 和 $a^1$ 的相似度α很高，那么得到的抽出来的结果 $b^1$ 就会比较接近 $v^2$ 。

计算 $b^2$ 也是同理

从矩阵乘法角度来看self-attention的运作：

在这里插入图片描述

上图中应该是 $α_{1,1}'$

总结这个过程：

在这里插入图片描述

一个扩展：Multi-head Self-attention

在这里插入图片描述

Positional Encoding

我们会发现self-attention 缺少位置信息，如果我们在做POS tagging (词性标注)时，位置信息可以有帮助，比如动词一般不会出现在句首。这个时候我们可以把位置信息加入到Self-attention中。
在这里插入图片描述
positional encoding是可以通过资料学出来的，也可以是手动给的，可以有很多种方式进行。

self-attention还有很多应用:

在这里插入图片描述

Self-attention和CNN的比较

在这里插入图片描述

Self-attention和RNN的比较

在这里插入图片描述

Self-attention for Graph

在这里插入图片描述

更多的变形：

selt-attention最大的问题就是 运算量非常大

广义的transformer就是Self-attention

速度的提升在很多情况下带来的是performance的下降
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Nismilesucc/article/details/117675277

Attention与Self-Attention

Self-Attention（什么是Self-Attention）

Self-attention详解

Self-Attention与Transformer

Self-attention

关于self-attention

Self-attention & Transformer

Attention 和self-attention

Self-Attention GAN 中的 self-attention 机制

Transformer中的Self-Attention

Self-Attention 和 Transformer

self-attention与softmax的推导

self-attention与Transformer补充

On the Integration of Self-Attention and Convolution

self-attention学习笔记

Self-Attention运行过程

self-attention的通俗解释

【AI】12_Attention and Self-Attention

NLP 3.4 Attention，self-attention

浅谈Attention与Self-Attention的前世今生

self-attention和cross-attention

自注意力(self-attention)

SAGAN——Self-Attention Generative Adversarial Networks

基于self-attention检测lstm后门

学习笔记（二）__Self-Attention及Transformer

NLP入门（4）— Self-attention & Transformer

Self-Attention Generative Adversarial Networks

李宏毅self-attention学习

自注意力（Self-Attention）

ACmix：卷积与self-Attention的融合

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)