TransformerVision（一）|| Self-Attention和MultiHead Self-Attesntion原理 - 代码天地

TransformerVision（一）|| Self-Attention和MultiHead Self-Attesntion原理

编程语言 2023-12-17 01:16:03 阅读次数: 0

Self-Attention : （三个全连接层参数矩阵 q、k、v）
1. 首先将时序数据 X_i 经过 Input Embedding 变成输入的参数 a_i
2. 然后 a_i 依次与这三个参数矩阵相乘得到 q_i、k_i、v_i
  
  注：
  1. q参数代表query，会去匹配相应的key
  2. k参数代表key，会去和query进行匹配
  3. v参数代表information to be extracted，表示从a_i 中学习到的信息，机器认为他学到的
3. a₁、a₂、… 、a_n 共用同一个q、k、v 参数矩阵，可把a₁、a₂、… 、a_n 堆叠成一个矩阵，然后乘以参数矩阵，进行并行化处理
4. 我们把经过q、k、v参数矩阵相乘后得到的矩阵值输入到Attention
  
  此处详细步骤
  - 将q_i与k_i进行match，公式为
    
    扫描二维码关注公众号，回复： 17173740 查看本文章
    
    q₁ 与k₁、k₂、k₃、…、k_n 都要相乘，得到α_1,i、α_2,i、…、α_n,i
  - 图解
    
    得到的 $\hat{α}$ 就是V的权重，得到的权重越大，就越关注这个V
  - 得到b_i
    
    图解：
  得到Self-Attention Layer
Multi-head Self-Attention
- 假如 q_i 向量是一个n维向量，head数为2，那么就将 q_i 向量均分为2个子向量，对于k_i 、v_i 向量同理
  
  将得到的head 进行拼接
  
  将拼接好的head进一步融合得到 MultiHead(Q,K,V)最终的输出，此处的 W_o 的维度是 d×d 的矩阵
位置编码

猜你喜欢

转载自blog.csdn.net/qq_56039091/article/details/124749997

TransformerVision（一）|| Self-Attention和MultiHead Self-Attesntion原理

attention,self-attention,multihead attention,Transformer【亟待解决】

多任务学习：Transformer based MultiHead Self-Attention Networks

Attention 和self-attention

Self-Attention 和 Transformer

self-attention和cross-attention

Attention与Self-Attention

Self-Attention（什么是Self-Attention）

李宏毅深度学习课程笔记（一）——Self-attention和Transformer

Self-attention详解

Self-Attention与Transformer

Self-attention

关于self-attention

Self-attention & Transformer

Seq2Seq中的Attention和self-attention

Self-Attention GAN 中的 self-attention 机制

Transformer中的Self-Attention

self-attention与softmax的推导

self-attention与Transformer补充

On the Integration of Self-Attention and Convolution

self-attention学习笔记

Self-Attention运行过程

self-attention的通俗解释

self-attention 和 convolutional layer 之间的关系

self-attention的介绍和代码手写

【AI】12_Attention and Self-Attention

NLP 3.4 Attention，self-attention

浅谈Attention与Self-Attention的前世今生

NLP（二十九）一步一步，理解Self-Attention

一种通过self-attention机制生成多维度aspect的句向量模型

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)