注意力机制----Multi-Head Attention 和 transformer

其他 2021-11-29 00:26:43 阅读次数: 0

multi-head attention：

单个attention输入后，对应有三个权重矩阵

multi-head输入后，如果有l个头，就有l×3个参数矩阵
multi-head输出的向量会串联起来，变长

不只是attention，self—attention也有多头

transformer的encoder：

transformer的encoder的一层结构：multi—head attention+dense+全连接层

可以多累几层

transformer的encoder对于上述结构，一共使用了6层

transformer的decoder：

在decoder底层先是一个multi-head

然后，encoder，decoder合起来multi-head

最后：+dense+全连接层

输入和输出的大小是对等的：

当然，以上结构也是decoder的一个block

相应地，一共有6个block

其实，RNN和transformer的模型输入和输出都是一样的，可以拿过来直接用

encoder的大小

decoder的大小

transformer是一个seq2seq模型
它不是RNN，没有循环结构
它只是基于attention和self-attention
它在机器翻译领域完暴RNN

参考视频：https://www.bilibili.com/video/BV1Ap4y1Q7nT

猜你喜欢

转载自blog.csdn.net/weiwei935707936/article/details/109564082

注意力机制----Multi-Head Attention 和 transformer

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

transformer模型和Multi-Head Attention

注意力机制——Multi-Head Attention（MHA）

Transformer：注意力机制（attention）和自注意力机制（self-attention）的学习总结

Transformer中Multi-head Attention的作用

自注意力(Self-Attention)与Multi-Head Attention机制详解

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

Multi-head Self-attention（多头注意力机制）

注意力机制之Efficient Multi-Head Self-Attention

Transformer 总结（self-attention, multi-head attention）

学渣适用版——Transformer理论和代码以及注意力机制attention的学习

Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介

深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）

知识追踪实战：lstm+ Multi-head Attention注意力机制的学生做题成绩预测实战

【Transformer】Transformer 网络解析（Self-Attention 、Multi-Head Attention、位置编码、Mask等）

Attention 和 Transformer

VisionTransformer（二）—— 多头注意力-Multi-Head Attention及其实现

多头注意力机制Multi-head-attention

自注意力机制和transformer

详解Transformer中Self-Attention以及Multi-Head Attention

Self-Attention 和 Transformer

拆 Transformer 系列二：Multi- Head Attention 机制详解

改进YOLOv5系列：结合CVPR2021：多头注意力Efficient Multi-Head Self-Attention

Transformer-01 Attention机制

Transformer、多头自注意力机制论文笔记：Attention is all you need

通过7个版本的attention的变形，搞懂transformer多头注意力机制

翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

对Transformer中的Attention(注意力机制)的一点点探索

试图带你一文搞懂transformer注意力机制（Self-Attention）的本质

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)