注意力机制在softmax时需要除以一个根号8的作用 - 代码天地

注意力机制在softmax时需要除以一个根号8的作用

其他 2020-04-06 12:51:18 阅读次数: 0

推断：从数学公式来看，起到一个缩放的效果，那么体现到注意力值上，我个人的理解是可以分散注意力而不至于过于集中某个token

实验：

描述：两组数据，原始得分数据为【8，16，32】，缩放后的数据【1，2，3】，最终看计算出来的值的差别

import numpy as np
 
def softmax(x, axis=1):
    # 计算每行的最大值
    row_max = x.max(axis=axis)
 
    # 每行元素都需要减去对应的最大值，否则求exp(x)会溢出，导致inf情况
    row_max=row_max.reshape(-1, 1)
    x = x - row_max
 
    # 计算e的指数次幂
    x_exp = np.exp(x)
    x_sum = np.sum(x_exp, axis=axis, keepdims=True)
    s = x_exp / x_sum
    return s

x = np.array([[8,16,24],[1,2,3]])
np.round(softmax(x),3)

array([[0.   , 0.   , 1.   ],
       [0.09 , 0.245, 0.665]])

结论证明：缩放具备分散注意力的作用；原始注意力值均聚集在得分最高的那个值即24，获得了权重为1；而缩放后，注意力值就分散些

Takoony

发布了447 篇原创文章 · 获赞 153 · 访问量 49万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/104771958

注意力机制在softmax时需要除以一个根号8的作用

注意力机制（一）

机器学习笔记 - 通过一个例子来快速理解自注意力机制/缩放点积注意力机制

注意力机制

【动手深度学习-笔记】注意力机制（一）注意力机制框架

【动画详解人工智能原理】Tranformer 模型中的注意力机制的工作过程是怎样的？一个带有注意力的 Seq2seq 模型的机制实例视频动画详细讲解

【注意力机制】多头注意力、自注意力、层归一化、位置嵌入

注意力机制（一）：注意力提示、注意力汇聚、Nadaraya-Watson 核回归

注意力机制----transformer中注意力机制

自注意力机制与注意力机制

注意力机制【译】

注意力机制（二）

注意力机制Attention

注意力机制笔记

attention注意力机制

注意力机制的介绍

自注意力机制

Attention 注意力机制

注意力机制详解

注意力机制浅析

注意力机制原理

注意力机制--CBAM

Transformer——注意力机制

SE注意力机制

MaskRCNN与注意力机制

ECA注意力机制

GAM注意力机制

Attention,注意力机制

空间注意力机制

图注意力机制

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)