多头注意力机制Multi-head-attention - 代码天地

多头注意力机制Multi-head-attention

企业开发 2023-12-17 00:09:36 阅读次数: 0

import torch
import torch.nn as nn

class Multi_Head_Attention(nn.Module):
    def __init__(self, dim, num_heads=8, attn_drop=0.5, proj_drop=0.5):
        super(Multi_Head_Attention, self).__init__()
        self.dim = dim
        self.num_heads = num_heads

        self.qkv = nn.Linear(dim, dim * 3)

        self.head_dim = dim // num_heads  # d_k
        self.scale = self.head_dim ** -0.5  # 缩放因子根号d_k 防止梯度爆炸
        assert self.scale > 0
        self.softmax = nn.Softmax(dim=-1)
        self.attn_drop = nn.Dropout(attn_drop)

        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

    def forward(self, x):  # x.shape = (B, N, C,如(64,2,512), N个token，每个token长度C
        B, N, C = x.shape  # C=dim代表每个token长度
        # 对qkv进行划分的同时，对每个q或k或v的每个token进行按头num_heads切分，同时进行维度调整，将qkv划分的维度3调整到最前方
        qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C//self.num_heads).permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]  # qkv均为(B,num_heads,N,C//num_heads)高位矩阵
        # @或torch.matmul向量乘法可以实现最后两个维度的矩阵乘法(前面的维度是为矩阵的个数)，transpose(-2, -1)交换最后两个维度
        attn = self.softmax((q @ k.transpose(-2, -1)) * self.scale)
        attn = self.attn_drop(attn)
        print(attn.shape)
        res = (attn @ v).transpose(-2, -1).reshape(B, N, C)
        res = self.proj_drop(self.proj(res))

        return res

x = torch.randn(size=(64, 10, 512))
att = Multi_Head_Attention(dim=512)
print(att(x).shape)

猜你喜欢

转载自blog.csdn.net/weixin_54338498/article/details/133689509

多头注意力机制Multi-head-attention

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

multi-head_seft-attention（多头自注意力）

Multi-head Self-attention（多头注意力机制）

深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）

注意力机制----Multi-Head Attention 和 transformer

注意力机制——Multi-Head Attention（MHA）

VisionTransformer（二）—— 多头注意力-Multi-Head Attention及其实现

自注意力(Self-Attention)与Multi-Head Attention机制详解

改进YOLOv5系列：结合CVPR2021：多头注意力Efficient Multi-Head Self-Attention

多头注意力机制Muiti-headedSelf-attention

注意力机制之Efficient Multi-Head Self-Attention

Multihead Attention - 多头注意力

知识追踪实战：lstm+ Multi-head Attention注意力机制的学生做题成绩预测实战

Multi-Head-Attention原理及代码实现

注意力机制Attention

attention注意力机制

Attention 注意力机制

Attention,注意力机制

注意力机制（四）：多头注意力

MultiHeadAttention多头注意力机制的原理

Transformer、多头自注意力机制论文笔记：Attention is all you need

通过7个版本的attention的变形，搞懂transformer多头注意力机制

比标准Attention快197倍！Meta推出多头注意力机制“九头蛇”

翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

注意力机制-CA注意力-Coordinate attention

Attention注意力机制–原理与应用

（Slide）Attention Mechanism注意力机制

Attention注意力机制介绍

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)