透彻分析Transformer中的位置编码（positional enconding）

企业开发 2023-04-10 04:42:19 阅读次数: 0

一、Transformer中为什么要使用位置编码positional encoding

在《Attention Is All You Need》这篇论文中首次提到了transformer模型，transformer模型在输入端用了一个位置编码（positional encoding），其主要目的是增加相对位置信息，使其可以更好的利用每个元素相互之间的位置关系
在这里插入图片描述

二、具体编码实现方式

论文作者使用的是正余弦函数进行编码，这时可能会有人产生了疑惑，为什么要使用这么复杂的编码方式呢，这里举个例子，一句话“你好吗”用“1，0，0”、“0，1，0”、“0，0，1”的独热编码不可以么，编码方式还会更加的简单，为什么要用下图这么复杂的编码方式呢？
在这里插入图片描述

因为正余弦编码的表示方法蕴含了相对位置信息，假设一句话“我是小狗”的“狗”的位置为 pos+k，那么即可用在位置为“pos”的“我”和在“k”位置的“是”这两个位置的编码向量进行线性组合来表示出狗这个字的位置编码向量，具体公式如下。
在这里插入图片描述
上式的具体推到用到了sin和cos的积化和差的性质，这也就是为什么要用sin和cos交替的形式来进行位置编码

猜你喜欢

转载自blog.csdn.net/qq_43892462/article/details/128120276

透彻分析Transformer中的位置编码（positional enconding）

transformer中的positional encoding(位置编码)

file was loaded in the wrong enconding:"utf-8"

idea 界面乱码问题 file was loaded in the wrong enconding:"utf-8"

位置编码Positional Encoding

在Transformer模型中， Positional Encoding的破坏性分析

[NLP] 相对位置编码(二) Relative Positional Encodings - Transformer-XL

相对位置编码(二) Relative Positional Encodings - Transformer-XL

【Transformer系列】深入浅出理解Positional Encoding位置编码

关于Transformer中的位置编码-ALiBi

对Transformer中Positional Encoding的理解

Transformer架构：位置编码

Transformer：位置编码

transformer 位置编码

vision transformer的位置编码总结

positional encoding位置编码详解：绝对位置与相对位置编码对比

Transformer——位置编码器&&Embedding

Transformer正余弦位置编码理解

Transformer--相对位置编码

ICCV2021 | Vision Transformer中相对位置编码的反思与改进

Transformer | DETR目标检测中的位置编码position_encoding代码详解

Map中的hash()分析的最透彻的文章

Transformer编码器结构原理分析

Transformer升级之路：1、Sinusoidal位置编码追根溯源

Transformer的PE(position embedding),即位置编码理解

深入理解深度学习——注意力机制（Attention Mechanism）：位置编码（Positional Encoding）

Attention is all you need论文Transformer中的Positional Encoding代码实现及讲解

【Transformer】Transformer 网络解析（Self-Attention 、Multi-Head Attention、位置编码、Mask等）

透彻分析C/C++中memset函数

一文搞懂Transformer的边角料知识：位置编码

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)