Transformer中Multi-head Attention的作用 - 代码天地

Transformer中Multi-head Attention的作用

其他 2020-04-06 16:43:03 阅读次数: 0

本文参考 https://www.zhihu.com/question/341222779

（1）多头的注意力有助于网络捕捉到更丰富的特征 / 信息。

原论文中写道：

Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. With a single attention head, averaging inhibits this.

多头注意力允许模型在不同位置共同关注来自不同表示子空间的信息。使用一个单注意力头，平均会抑制这种情况。

其实可以类似于 CNN 中利用多个卷积核分别提取不同特征。

（2）在这篇论文中 http://arxiv.org/pdf/1905.0941 讨论了多头的作用，发现并不是头越多越好，去掉一些头效果依然有不错的效果（而且效果下降可能是因为参数量下降），这是因为在头足够的情况下，这些头已经能够有关注位置信息、关注语法信息、关注罕见词的能力了，再多一些头，无非是一种 enhance 或 noise 而已。

烟雨人长安

发布了25 篇原创文章 · 获赞 1 · 访问量 1431

私信关注

猜你喜欢

转载自blog.csdn.net/Matrix_cc/article/details/104868571

Transformer中Multi-head Attention的作用

transformer模型和Multi-Head Attention

详解Transformer中Self-Attention以及Multi-Head Attention

Transformer 总结（self-attention, multi-head attention）

注意力机制----Multi-Head Attention 和 transformer

【Transformer】Transformer 网络解析（Self-Attention 、Multi-Head Attention、位置编码、Mask等）

人工智能学习07--pytorch17--Transformer中Self-Attention以及Multi-Head Self-Attention&Vision Transformer(vit)

Self -Attention、Multi-Head Attention、Cross-Attention

PyTorch快餐教程2019 (2) - Multi-Head Attention

注意力机制——Multi-Head Attention（MHA）

自注意力(Self-Attention)与Multi-Head Attention机制详解

Self-Attention 、 Multi-Head Attention 、VIT 学习记录及源码分享

ICLR 2020 | 抛开卷积，multi-head self-attention能够表达任何卷积操作

Compact Multi-Head Self-Attention 低秩因子分解

论文阅读——A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

VisionTransformer（二）—— 多头注意力-Multi-Head Attention及其实现

Multi-head Self-attention（多头注意力机制）

注意力机制之Efficient Multi-Head Self-Attention

拆 Transformer 系列二：Multi- Head Attention 机制详解

transformer细节及代码实现2-Multi-head attention

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

改进YOLOv5系列：结合CVPR2021：多头注意力Efficient Multi-Head Self-Attention

知识追踪实战：lstm+ Multi-head Attention注意力机制的学生做题成绩预测实战

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

Attention中Q，K，V的作用机制

深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）

multi-head多头机制

Transformer中的Attention

Multi-Head-Attention原理及代码实现

Transformer中的Self-Attention

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)