ChatGPT基础知识系列之Transformer模型详解

业界资讯 2023-04-08 07:00:59 阅读次数: 0

ChatGPT之Transformer模型详解

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。

1.Transformer 整体结构

首先介绍 Transformer 的整体结构，下图是 Transformer 用于中英文翻译的整体结构：

可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下：

**第一步：**获取输入句子的每一个单词的表示向量 X，X由单词的 Embedding（Embedding就是从原始数据提取出来的Feature）和单词位置的 Embedding 相加得到。

**第二步：**将得到的单词表示向量矩阵 (如上图所示，每一行是一个单词的表示 x

猜你喜欢

转载自blog.csdn.net/king14bhhb/article/details/129874818

ChatGPT基础知识系列之Transformer模型详解

ChatGPT基础知识系列之模型介绍

ChatGPT基础知识系列之Embeddings模型

ChatGPT基础知识系列之Prompt

ChatGPT基础知识系列之大型语言模型(LLM)初识

CSS基础知识总结之盒子模型详解

大型语言模型和 Transformer 架构：基础知识

JavaEE系列之（一）JSP基础知识详解 JavaEE系列之（一）JSP基础知识详解

ChatGPT的基础知识

ChatGPT基础知识系列之零样本学习( Zero-Short learning)

Android 基础知识系列之 Activity

NoSQL之 Redis 基础知识详解

ChatGPT基础知识系列之一文说透ChatGPT

UICC 之 USIM 详解全系列——UICC基础知识介绍

【深度学习系列】基础知识、模型学习

CSS基础知识总结之基础样式详解

【原创】实现ChatGPT中Transformer模型之Encoder-Decoder

文本主题模型LDA(一)之基础知识

学习笔记之OpenMMLab-—模型部署基础知识

Python系列之MySQL--01.基础知识

Android电源管理系列之基础知识

Python系列之 - 入门基础知识笔记

WebSocket系列之基础知识以及设计思路

django模型基础知识

盒模型基础知识

Java基础知识系列

JVM基础知识系列

基础知识--系列目录

ldap系列-基础知识

ElasticSearch系列--基础知识

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)