GPT-3模型简单介绍 - 代码天地

GPT-3模型简单介绍

企业开发 2023-06-21 07:20:49 阅读次数: 0

目录

二、深入扩展

一、概要

与T5模型( Text-to-Text Transfer Transformer，详见文末链接）相似，OpenAI提出的GPT-3模型（第三代GPT）也是通过将不同形式的自然语言处理任务重定义为文本生成实现模型的通用化。两者的区别在于，GPT-3主要展示的是超大规模语言模型的小样本学习（Few-shot learning）能力。GPT-3模型的输入不仅以自然语言描述或者指令作为前缀表征目标任务，还使用少量的目标任务标注样本作为条件上下文。例如，对于机器翻译任务，在小样本的情况下，为了获得“ cheese ”的法语翻译，可以构建以下输入：

Translate English to French:
sea otter => outre de mer
plush girafe => girafe peluche
cheese =>

实验表明，GPT-3模型不需要任何额外的精调，就能够在只有少量目标任务标注样本的情况下进行很好的泛化。

二、深入扩展

GPT-3延续了GPT-2（第二代GPT）的单向Transformer自回归语言模型结构，但是将规模扩大到了1750亿个参数。自回归语言模型为什么会具有小样本学习的能力呢？其关键在于数据本身的有序性，使得连续出现的序列数据往往会蕴含着同一任务的输入输出模式。因此，语言模型的学习过程实际上可以看作从很多不同任务中进行元学习的过程。下图演示了这一过程。

图中的每个序列都包含一个具体任务的多个连续样本，语言模型在该序列上的训练则为一次“内循环”（Inner loop），也称为“In-Context Learning ”。模型在不同序列上的训练则对应元学习的“外循环”（Outer loop），起到了在不同任务之间泛化的作用，以避免模型过拟合至某一个特定的任务。由此可见，数据的规模与质量对于GPT-3的小样本学习能力起到了关键的作用。

由于需要以少量标注样本作为条件，因此，GPT-3模型的输入序列可能较长。GPT-3使用了大小为2048的输入，相较于其他模型，其对于内存、计算量的要求都要更高。由于GPT-3庞大的参数量，目前在将 GPT-3用于下游任务时，主要是在小样本学习的设定下直接进行推理，而不对模型本身作进一步的精调。

关于GPT-3模型的更多模型以及训练上的细节，感兴趣的读者可以参考文献。

相关文章链接：

T5模型简单介绍_云隐雾匿的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/weixin_45684362/article/details/130252189

GPT-3模型简单介绍

GPT-3 模型特点

Chat GPT模型GPT-3学习

GPT-3 总结

理解GPT-3: OpenAI最新的语言模型

Meta开放小模型LLaMA，性能超过GPT-3

【深度学习】GPT-3

GPT系列论文解读：GPT-3

莆田版GPT-3开源：同等复现预训练模型GPT Neo

最新最全GPT-3模型网络结构详细解析

人类算力天花板？1750 亿参数的 AI 模型 GPT-3 引爆硅谷

浅析人类最贵、最大的机器学习模型GPT-3及背后隐含的商业逻辑

听李宏毅点评GPT-3：来自猎人暗黑大陆的模型

利用GPT-3 Fine-tunes训练专属语言模型

Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

【Tech Talk 直播预约】开启智能文档问答新纪元：GPT-3 模型的应用

史上最大，人工智能算法模型GPT-3问世，这意味着什么？

ACL2023 | 赔了？引入GPT-3大模型到智能客服，竟要赔钱？

【翻译】GPT-3是如何工作的

在 Python 中调用 GPT-3 API

GPT-3 API接口调用

免费可商用开源GPT模型问世，50G权重直接下载，性能不输GPT-3

GPT-3：一个革命性的预训练语言模型 - 探索GPT-3作为语言模型的能力和实用性，以及其应用领域。

马斯克抱怨 GPT-3 不够 Open，开源的语言模型库来了你要不要学？

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

【CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻】

【AI理论学习】语言模型：深入理解GPT-2计算掩码自注意力过程，了解GPT-3工作原理

AI写作机器人基于GPT-3

如何评价1700亿参数的GPT-3？

GPT-3 定价揭晓，价格并不便宜

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)