GPT3学习笔记

企业开发 2023-07-29 19:36:15 阅读次数: 0

GPT-3概述

关于GPT-3的主要事实:

模型分类:GPT-3有8个不同的模型，参数从1.25亿到1750亿不等。
模型大小:最大的GPT-3模型有1750亿参数。这比最大的BERT模型大470倍(3.75亿个参数)
体系结构:GPT-3是一种自回归模型，使用仅有解码器的体系结构。使用下一个单词预测目标进行训练
学习方式:GPT-3通过很少的学习，学习时没有梯度更新

需要训练数据:GPT-3需要较少的训练数据。它可以从非常少的数据中学习，这使得它的应用程序可以用于数据较少的领域
在这里插入图片描述
关键假设：

模型规模的增加和对更大数据的训练可以导致性能的提高
单一模型可以在许多NLP任务上提供良好的性能。
模型可以从新数据中推断，不需要进行微调
该模型可以解决从未训练过的数据集上的问题。

早期的预训练模型-微调：
在这里插入图片描述

GPT-3采用了不同的学习方法。不需要大量标记数据来推断新问题。
相反，它可以不从数据(零次学习 Zero-Shot Learning )中学习，只从一个例子(一次学习 one-Shot Learning)或几个例子(few-Shot Learning)中学习。

与Bert进行对比：
在这里插入图片描述
最显著的3个特征：

Size：GPT-3的大小是其突出的特点。它几乎是最大的BERT模型的470倍
Structure：在架构方面，BERT仍然处于领先地位。它是一种经过训练能够更好地捕捉不同问题语境下文本之间的潜在关系。，它是基于概率的，一个一个的输出
Method：GPT-3学习方法相对简单，可以应用于很多没有足够数据的问题。因此，与BERT相比，GPT-3应该有更广泛的应用。

突破的两大功能：

文本生成
使用有限的数据构建NLP解决方案

各个任务的表现：

语言建模：GPT-3在纯语言建模任务上击败了所有的基准。
机器翻译：对于需要将文档转换成英语的翻译任务，该模型的性能优于基准测试。但是如果需要将语言从英语翻译为非英语，那么情况就不一样了，GPT-3的性能也会出现问题。
阅读理解：GPT 3模型的性能远远低于这里的技术水平。
自然语言推理：自然语言推理(NLI)关注理解两个句子之间的关系的能力。GPT 3模型在NLI任务中的表现很差
常识推理：常识推理数据集测试物理或科学推理技能的表现。GPT 3模型在这些任务上的表现很差

GPT3的问题

GPT3是一个混合模型，可能在预训练的定制模型上性能会输掉
对模型偏差和可解释性的担忧:考虑到GPT-3的庞大规模，公司将很难解释该算法做出的决策
需要制定规章以防止滥用:如果没有得到适当的管制

图解详细理解

知乎图解文章

直接预测下一个单词，而不是根据上下文和掩码来预测
一次生成一个token，迭代生成
175亿参数

GPT3为2048个token。这就是它的“上下文窗口”。这意味着它有2048条轨道，沿着这些轨道处理token。
在这里插入图片描述

具体如何处理：

让我们跟随紫色的轨道。系统如何处理“robotics”一词并产生“ A”？

步骤：

将单词转换为代表单词的向量（数字列表）
计算预测
将结果向量转换为单词
GPT3的重要计算发生在其96个Transformer解码器层的堆栈内部。这些层中的每一层都有其自己的1.8B参数进行计算。那就是“魔术”发生的地方。这是该过程的高级视图：

论文精读

三大核心：Fine-Tuning、Few-Shot、One-Shot

猜你喜欢

转载自blog.csdn.net/RandyHan/article/details/131470858

GPT3学习笔记

机器学习：GPT3

GPT系列学习笔记：GPT、GPT2、GPT3GPT系列学习笔记：GPT、GPT2、GPT3

GPT3和GPT4

【chatgpt】chatgpt APi使用 GPT3

OpenAI Python API 训练营：学习使用 AI、GPT3 等！

GPT3与机器学习：探讨如何提高AI的识别与分类能力

gpt模型训练-gpt3模型详解

辨别GPT4和GPT3

关于GPT3的一些思考

GPT3：人工智能时代的新型语言模型

GPT 模型介绍 | GPT3 / GPT3.5 + Flask | Github源码链接

gpt中文版下载-gpt3中文自动生成小说

gpt3官网中文版-人工智能软件chat gpt安装

GPT3是否会改变传统IT行业的工作形式吗？

浅尝基于 GPT3 模型的 IDE: Cursor 用法全解读

Windows环境下如何用GPT3微调自己的模型

(GPT3)Language Models are Few-Shot Learners论文阅读

人工智能大模型原理与应用实战：从BERT到GPT3

OpenAI GPT3.5/GPT3 + Flask 制作自己的交互网页教程 | 附源码和 Github链接

GPT-1,GPT-2,GPT-3 InstructGPT论文学习笔记

一招鉴别真假ChatGPT，并简要介绍ChatGPT、GPT、GPT2和GPT3模型之间的区别和联系

千乎万唤始出来，支持gpt3和gpt4支持画图，的在线gpt应用接入案例开源上线啦

每天生产45亿词，GPT3已渗透300+应用，网友：边吃边拉

中文版GPT3——CPM(2.6B)微调长短文本生成(对应小说歌词)

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解

【Docker】快速部署 ChatGPT Next Web，一键免费部署你的私人 ChatGPT 网页应用，支持 GPT3, GPT4 & Gemini Pro 模型。

Chat GPT模型GPT-3学习

[最新]0代码完成ChatGPT本地部署/免费网页访问/调用open AI的API/GPT3/GPT3.5/GPT4模型[附无法访问https://api.openai.com解决办法]

AI很渴：chatGPT交流一次=喝掉一瓶水，GPT3训练=填满核反应堆

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)