近万字文全面解读GPT-4,带你了解GPT-4

资料来源:
GPT 4官网文章:https://openai.com/research/gpt-4
GPT-4 论文:https://cdn.openai.com/papers/gpt-4.pdf
GPT-4 ChatGPT Plus:https://chat.openai.com/chat
申请GPT-4 API :https://openai.com/waitlist/gpt-4-api

GPT-4有哪些新的变化?
GPT-3.5 和 GPT-4 之间的区别可能有些微妙,但当任务足够复杂时,它们的差异就会显现出来。
GPT-4 比 GPT-3.5
更可靠、更有创意,能够处理更细微的指令。这些模型的区别需要通过各种基准测试来进一步了解,包括最初为人类设计的模拟考试。Open AI 团队使用最新的公开测试(包括奥林匹克竞赛和 AP 自由回答问题的测试),或购买 2022-2023 年版本的模拟考试来测试它们的性能,而不进行专门的培训。

OpenAI团队还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型,以及大多数最先进的(SOTA)模型,这些模型可能包括特定于基准的制作或额外的训练协议。

许多现有的ML基准测试都是用英语编写的。为了初步了解其他语言的能力,OpenAI团队使用Azure Translate(参见附录)将MMLU基准——一套涵盖57个主题的14,000个多项选择题——翻译成多种语言。在测试的26种语言中的24种中,GPT-4优于GPT-3.5和其他LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。

OpenAI团队也在内部使用GPT-4,对支持、销售、内容审核和编程等功能产生了巨大影响。OpenAI团队还使用它来帮助人类评估AI输出
GPT-4:支持视觉输入
GPT-4
支持文本和图像输入,这一功能与仅支持文本输入的模型相比,为用户指定了更多的视觉或语言任务的可能性。在给定包含文本和图像的杂乱输入的情况下,GPT-4
能够生成自然语言或代码等文本输出。在处理涉及文本和照片的文档、图表或屏幕截图等任务时,GPT-4
展现出与处理纯文本输入相似的表现。此外,它还通过一些测试时间技巧得到了增强,这些技巧是为纯文本语言模型开发的,包括少量的镜头和思维链提示。需要注意的是,图像输入仍处于研究预览阶段,暂不公开。
比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

GPT-4 回答道,过时的VGA 线充新版的iPhone。

扫描二维码关注公众号,回复: 14612169 查看本文章

OpenAI 通过在一套狭窄的标准学术视觉基准上对 GPT-4 进行评估,来预览该模型的性能。然而,这些数字并不能完全代表其能力范围,因为 OpenAI 不断发现该模型能够处理的新的和令人兴奋的任务。OpenAI 计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响,以进一步评估 GPT-4 的性能和能力。

GPT-4 的可控性
与固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。
ChatGPT4 消息提供了一种在一定范围内定制化实现不同用户体验的方法,使 API 用户能够规定他们的 ChatGPT 的特定风格和任务。我们鼓励开发者通过让 ChatGPT 玩 Cosplay 等方式来扩展其功能和创造力。

GPT-4 有哪些局限性?
OpenAI团队指出,尽管GPT-4功能强大,但它普遍缺乏对绝大部分数据中断后(2021 年 9 月)发生的事件的了解,并且不从其经验中吸取教训。

在九类内部对抗性设计的事实评估中, GPT-4(绿色)与前三个 ChatGPT 版本进行了比较。所有主题都有显着的收获。准确度为 1.0 意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。
GPT-4 偶尔出现推理错误:尽管GPT-4在跨多个领域具有强大的能力,但有时它会犯简单的推理错误,这些错误似乎与它的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。

GPT-4 可能会在难题上失败:OpenAI团队发现,GPT-4有时会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。
GPT-4 可能自信地犯错:OpenAI团队强调,GPT-4也可能自信地在其预测中犯错,在可能出错时不注意仔细检查工作。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI团队目前的训练后过程,校准减少了。

使用GPT-4时需要小心:尽管GPT-4相对于以前的模型在幻觉方面有了显着改进,但OpenAI团队建议在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用符合特定用例需求的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用)。
GPT-4 仍然存在偏差:OpenAI团队认为,尽管他们在许多方面取得了进展,GPT-4的输出仍然可能存在各种偏差,他们的目标是让他们构建的AI系统具有合理的默认行为,以反映广泛的用户价值观,并允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见。

左图:预训练 GPT-4 模型在 MMLU 子集上的校准图。该模型对其预测的置信度与正确概率密切相关。虚线对角线代表完美的校准。右图:在同一 MMLU 子集上训练后的 PPO GPT-4 模型的校准图。我们当前的过程对校准造成了很大的伤害。

GTP 4有哪些风险及对应的缓解措施?
OpenAI团队一直在对 GPT-4 进行迭代,以使其从训练开始就更安全、更一致,工作包括选择和过滤预训练数据、评估和专家参与、模型安全性改进以及监控和执行。

GPT-4 会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。但是,GPT-4 的附加功能会带来新的风险面。为了了解这些风险的程度,OpenAI团队聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现特别使OpenAI团队能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于OpenAI团队对模型的缓解和改进;例如,OpenAI团队收集了额外的数据来提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力。
GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出(如OpenAI团队的使用指南所定义)。奖励由 GPT-4 零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求,OpenAI团队从各种来源(例如,标记的生产数据、人类红队、模型生成的提示)收集了多样化的数据集,并在两者上应用安全奖励信号(具有正值或负值)允许和不允许的类别。
与 GPT-3.5 相比,OpenAI团队的缓解措施显着改善了 GPT-4 的许多安全特性。与 GPT-3.5 相比,OpenAI团队已将模型响应不允许内容请求的倾向降低了 82%,并且 GPT-4 根据OpenAI团队的政策响应敏感请求(例如,医疗建议和自我伤害)的频率提高了 29% .

GPT-4是怎么训练的?
GPT-4 模型训练和数据来源:与之前的 GPT 模型一样,GPT-4
模型经过训练可以预测文档中的下一个单词,并使用公开可用的数据(例如互联网数据)以及获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。
模型行为微调:当出现问题提示时,基本模型可能以多种可能与用户意图相去甚远的方式做出响应。为了使其与用户的意图保持一致,OpenAI 使用强化学习和人工反馈 ( RLHF ) 来微调模型的行为。

需要注意的是,该模型的能力似乎主要来自预训练过程,而 RLHF 不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。但是模型的转向来自训练后过程,基础模型需要及时的工程设计,甚至需要知道它应该回答问题。

GPT-4的可预测扩展
OpenAI 团队的 GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。OpenAI
团队开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,OpenAI 团队通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT-4 在我们内部代码库(不是训练集的一部分)上的最终损失。

现在 OpenAI 团队可以准确地预测在训练期间优化的指标(损失),他们开始开发方法来预测更多可解释的指标。例如,他们成功预测了HumanEval数据集子集的通过率,从计算量减少 1,000 倍的模型推断。

有些能力仍然难以预测。例如,Inverse Scaling Prize 是一项竞赛,目的是寻找一个随着模型计算量的增加而变得更糟的指标,而后见之明的忽视是赢家之一。就像最近的另一个结果一样, GPT-4 扭转了趋势。

OpenAI 团队认为,准确预测未来的机器学习能力是安全的重要组成部分,但与其潜在影响相比,它并没有得到足够的重视(尽管他们受到多家机构的努力的鼓舞)。他们正在加大力度开发方法,为社会提供更好的未来系统预期指导,他们希望这成为该领域的共同目标。
OpenAI 团队正在开源 OpenAI Evals,这是他们的软件框架,用于创建和运行基准测试以评估 GPT-4 等模型用于创建和运行基准测试以评估 GPT-4 等模型,同时逐个样本地检查它们的性能。OpenAI 团队使用 Evals 来指导模型的开发(识别缺点和防止回归),用户可以应用它来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。例如,Stripe
使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。

如何使用GPT 4?ChatGPT Plus 用户首批体验
GPT-4 发布后,OpenAI 迅速升级了 ChatGPT OpenAI 通过升级 ChatGPT Plus,让订阅用户在 chat.openai.com 上获得了 GPT-4 的使用权限。用户需要注册等待,OpenAI 会邀请部分开发者体验。

访问 GPT-4 API,目前只支持纯文本请求 用户获得访问权限后,目前只能向 GPT-4 发出纯文本请求,图像输入仍处于有限的 alpha 阶段。定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元,速率限制为每分钟 40k 个 token 和每分钟 200 个请求。
GPT-4 的上下文长度和另一版本 GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

猜你喜欢

转载自blog.csdn.net/JAck_chen0309/article/details/129740134