Transformer自注意力机制发展历程(原理) - 代码天地

Transformer自注意力机制发展历程(原理)

企业开发 2023-04-08 10:05:56 阅读次数: 0

问题：处理机器翻译时，什么模型比较好？

讨论该问题，从模型发展历程阶段1到阶段4展开，从阶段一的模型到阶段4，功能越来越强大，越完善。

阶段1：RNN非常合适：

|-->强项：单词先后顺序会影响句子的意义，擅长捕捉序列关系的它非常合适

|-->弱项：对于机器翻译来说，单词的对应关系并非一一对应（受限于结构RNN只能处理 N to N，1 to N，N to 1问题，对于N to M很是头疼）

|->问题出现（N to M问题如何解决）

阶段2：让人找到了SEQ2SEQ

依赖ENCODER，DECODER成功解决了翻译两端单词不对等的情况（N to M）

|->问题出现，如果一个句子太长，翻译精度就会随之下降

阶段3：于是人们找到了ATTENTION，注意力机制

在SEQ2SEQ结构上，生成每个单词时，都有意识的从原句子中提取生成该单词时最需要的信息，成功摆脱了输入序列的长度限制。

|->问题出现，这样的计算方式太慢

阶段4：找到了SELF-ATTENTION自注意力机制 = Transformer

先提取每个单词意义，再一句生成顺序选取所需要的信息，这样结构不仅支持并行计算，效率更高，也更接近人类的翻译方式，效果好到没话说。

猜你喜欢

转载自blog.csdn.net/u013177138/article/details/122126434

Transformer自注意力机制发展历程(原理)

自注意力机制和transformer

图解transformer中的自注意力机制

图解transformer中的自注意力机制（备忘）

学习Transformer：自注意力与多头自注意力的原理及实现

Transformer——注意力机制

注意力机制----transformer中注意力机制

自注意力机制

【Transformer&CNN&TiDE】从CNN到ViT，再从ViT到TiDE，回顾近十年顶刊和会议发表的关于Attention自注意力、Conv卷积机制以及最新诞生的TiDE模型的发展历程

Transformer：注意力机制（attention）和自注意力机制（self-attention）的学习总结

【Transformer 相关理论深入理解】注意力机制、自注意力机制、多头注意力机制、位置编码

自注意力机制与注意力机制

7-2 自注意力机制原理

简单理解Transformer注意力机制

解码Transformer：自注意力机制与编解码器机制详述与代码实现

注意力机制原理

Transformer、多头自注意力机制论文笔记：Attention is all you need

自然语言处理（十八）：Transformer多头自注意力机制

除了Transformer，还有哪些基于自注意力机制的模型？

翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

注意力&Transformer

图解自注意力机制

keras实现自注意力机制

Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介

视觉注意力机制——通道注意力、空间注意力、自注意力

注意力机制（五）：Transformer架构原理和实现、实战机器翻译

[自注意力神经网络]Swin Transformer网络

Attention注意力机制–原理与应用

Attention注意力机制--原理与应用

MultiHeadAttention多头注意力机制的原理

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)