【动手深度学习-笔记】注意力机制（三）多头注意力

企业开发 2023-04-10 09:43:06 阅读次数: 0

紧接上回：【动手深度学习-笔记】注意力机制（二）注意力评分函数

在实践中，我们希望模型可以基于相同的注意力机制学习到不同的行为，抽取不同的信息（比如长距离依赖关系和短距离依赖关系），再将这些信息组合起来。
为此，与其只使用单独一个注意力汇聚，我们可以用独立学习得到的 $h$ 组不同的线性投影（linear projections）来变换查询、键和值，并行地送入到注意力汇聚，再将 $h$ 组汇聚结果拼接到一起。
这种设计被称作多头注意力（multihead attention），融合了来自于多个注意力汇聚的不同知识，这些知识的不同来源于相同的查询、键和值的不同的子空间表示。
这里的“头”的概念类似于“通道”的概念，一个头表示一个注意力汇聚。

多个头连结然后线性变换

模型

给定查询 $\mathbf{q} \in \mathbb{R}^{d_q}$ ，键 $\mathbf{k} \in \mathbb{R}^{d_k}$ ，值 $\mathbf{v} \in \mathbb{R}^{d_v}$ ，每个注意力头 $\mathbf{h}_i(i = 1, \ldots, h)$ 的计算方法：
$\mathbf{h}_i = f(\mathbf W_i^{(q)}\mathbf q, \mathbf W_i^{(k)}\mathbf k,\mathbf W_i^{(v)}\mathbf v) \in \mathbb R^{p_v},\tag{1}$
原本 $\mathbf{q}$ 、 $\mathbf{k}$ 、 $\mathbf{v}$ 的维度分别为 $d_q$ 、 $d_k$ 、 $d_v$ ，经过 $\mathbf{W}_i$ 线性投影为 $p_q$ 、 $p_k$ 、 $p_v$ 维度；
输入到注意力汇聚函数 $f$ 得到汇聚结果 $\mathbf{h}_i\in \mathbb{R}^{p_v}$ ， $f$ 可以是加性注意力或者是缩放点积注意力等；
然后将得到的 $\mathbf{h}_i$ 组合，经过 $\mathbf W_o\in\mathbb R^{p_o\times hp_v}$ 进行另一个线性转换，得到最终输出：
$\begin{split}\mathbf W_o \begin{bmatrix}\mathbf h_1\\\vdots\\\mathbf h_h\end{bmatrix} \in \mathbb{R}^{p_o}.\end{split}$

其中的可学习参数为 $\mathbf W_i^{(q)}\in\mathbb R^{p_q\times d_q}$ 、 $\mathbf W_i^{(k)}\in\mathbb R^{p_k\times d_k}$ 、 $\mathbf W_i^{(v)}\in\mathbb R^{p_v\times d_v}$ 、 $\mathbf W_o\in\mathbb R^{p_o\times hp_v}$ ；

每个头都可能会关注输入的不同部分，可以表示比简单加权平均值更复杂的函数。

参考

10.5. 多头注意力 — 动手学深度学习 2.0.0-beta1 documentation

进一步

【动手深度学习-笔记】注意力机制（四）自注意力、交叉注意力和位置编码

猜你喜欢

转载自blog.csdn.net/qq_41129489/article/details/126739204

【动手深度学习-笔记】注意力机制（三）多头注意力

【动手深度学习-笔记】注意力机制（一）注意力机制框架

【动手深度学习-笔记】注意力机制（二）注意力评分函数

动手学深度学习（五十）——多头注意力机制

注意力机制-《动手学深度学习pytorch》

动手学深度学习之注意力机制

《动手学深度学习》-64注意力机制

【动手深度学习-笔记】注意力机制（四）自注意力、交叉注意力和位置编码

【深度学习】多头注意力机制详解

【深度学习】注意力机制（三）

李沐动手学深度学习V2-多头注意力机制和代码实现

注意力机制（四）：多头注意力

注意力机制 attention 注意力分数动手学深度学习v2

自注意力 self attention Transformer 多头注意力代码 Transformer 代码动手学深度学习v2

《动手学深度学习》-67自注意力

《动手学深度学习》-65注意力分数

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

MultiHeadAttention多头注意力机制的原理

深度学习中的注意力机制

深度学习之注意力机制

【深度学习】注意力机制（五）

【深度学习】注意力机制（六）

【深度学习】注意力机制（四）

【动手学深度学习】(task1&2&3)注意力机制剖析

动手学深度学习（四十九）——自注意力机制与位置编码

动手学深度学习（四十八）——使用注意力机制的seq2seq

[深度学习 - 实操笔记] 注意力机制

注意力机制笔记

注意力机制(Attention)学习笔记

深度学习中的注意力机制深度学习中的注意力机制

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)