终于有人讲清楚GPT现状了

引语：

如何训练GPT助手呢？

怎样才能更有效地利用模型呢？

Karpathy还提到了AutoGPT：

关于Andrej Karpathy

结语：

引语：

大家好我们是权知星球，开启你独特的知识星际之旅

继Windows Copilot发布后，微软Build大会热度又被一场演讲引爆。

扫描二维码关注公众号，回复： 15886483 查看本文章

前特斯拉AI总监AndrejKarpathy在他的演讲中指出，思维树和AlphaGo的蒙特卡罗树搜索有相似的特点。

网友们高呼：这是关于大型语言模型和GPT-4模型使用的最详细、最有趣的指南！

Karpathy透露，LLAMA65B明显比GPT-3175B更强大，这是由于训练和数据的扩展。此外，他还介绍了大型匿名聊天机器人竞技场ChatBotArena。

Claude的得分在ChatGPT3.5和ChatGPT4之间。

网友表示：Karpathy一贯的演讲精彩非凡，这次的演讲同样没有让人们失望。

随着演讲而爆火的，还有推特网友根据演讲整理的一份笔记，足足有31条，目前转赞量已超过3000+

那么，这段备受关注的演讲具体包含了哪些内容呢？

如何训练GPT助手呢？

Karpathy的演讲主要包含两个部分。

在第一部分中，他详细阐述了如何训练一个"GPT助手"的方法。

Karpathy重点讲述了AI助手的四个培训阶段：预先训练（pre-training）、监督微（supervisedfinetuning）、奖励建模（rewardmodeling）和强化学习（reinforcementlearning）。

每个阶段都需要使用数据集。

Karpathy增加了更多的例子来补充：

接下来进入微调阶段。

使用较小的有监督数据集，通过监督学习对这个基础模型进行微调，就能创建一个能够回答问题的助手模型。

他展示了一些模型的演化历程，相信许多人以前已经看过那张“演化树”的图片。

Karpathy认为目前最好的开源模型是Meta的LLaMA系列，原因在于OpenAI还未公开任何关于GPT-4的内容。

需要明确指出的是，基础模型并非助手模型。

尽管基础模型有能力回答问题，但是所给出的答案并不够可靠。此时，我们可以使用助手模型来回答问题。通过在基础模型上进行训练和监督微调，助手模型在生成回答和理解文本结构方面的表现优于基础模型，更加可靠。

在语言模型训练中，强化学习是另一个至关重要的阶段。

利用经过人工标注的优质数据进行训练，可以采用奖励模型来构建损失函数，以提升性能表现。接着，采用增加正面标记和减少负面标记的概率来进行强化训练。

在处理具有创造性任务时，依赖人类的决策能力对于提高人工智能模型非常重要。引入人类的反馈可以更有效地训练模型。

经过人类的反馈，强化学习得到了进一步的加强，因此我们现在可以得到一个RLHF模型。

现在，已经完成了模型的训练，接下来需要思考如何充分利用这些模型来解决问题。

怎样才能更有效地利用模型呢？

Karpathy针对第二部分展开了讨论，主要包括提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。

Karpathy提供了具体的示例来说明：

在撰写文章时，我们往往会涉及各种心理活动，需要仔细思考如何准确地表述。而相对于人类而言，对于GPT模型来说，这只是一串标记组成的序列。

提示能够缓解这种认知差异。

Karpathy进一步阐述了思维链提示的工作方式。

若想使自然语言处理中的Transformer在解决推理问题时表现更佳，须逐步提供信息，而非一次性提供过于复杂的问题。

若你给予多个样例，它将移植相近的模式，最终创造出的成果会更加出色。

如果模型生成的内容有误，你可以提示它进行重新生成。而模型回答问题时则必须按照其序列进行。

如果你不进行要求检查，它就不会自动检查。

这个问题涉及到了System1和System2。

丹尼尔·卡尼曼是诺贝尔经济学奖的得主，他在《思考，快与慢》一书中提出了人类认知系统的两个子系统：System1和System2。其中，System1主要依靠直觉，而System2则是负责逻辑分析的系统。

简单地讲，System1是一个自动化的、快捷的过程，而System2则是经过深思熟虑的部分。

最近很流行的一篇论文叫做“思维树”，其中也提到了这个问题。

深思熟虑通常指的不是简单地给出问题的答案，而更像是与Python胶水代码一起使用的提示，将多个提示串联在一起。模型需要维护多个提示，使用树搜索算法来找到需要扩展的提示。

Karpathy认为这种思路跟AlphaGo非常类似：

当AlphaGo下围棋时，它需要思考下一步棋子应该放在哪个位置。起初，它是通过模仿人类来学习的。

除此之外，它还运用了蒙特卡罗树搜索，以获取具有多种可能性的策略。它可以对多种潜在的下法进行评估，然后筛选出那些相对更优的策略。在某种程度上，我认为这就像是AlphaGo的算法。

Karpathy还提到了AutoGPT：

我觉得它的效果尚不尽如人意，因此不建议大家实际应用。毋庸置疑，我们可以从其发展思路中学到灵感，但我认为需要时间的推移。

其次，还有一个小技巧是利用检索增强生成以及有效提示。

在transformers运行时，窗口上下文的内容即为其工作记忆。如果您能将与任务相关的信息纳入上下文中，它将表现出色，因为它能够即刻访问这些信息。

总之，可以通过建立相关数据的索引，使得模型的数据访问更高效。

如果Transformers拥有可供参考的主要文件，那么它的表现将会更加优异。

最后，Karpathy简要介绍了在大语言模型中使用约束提示和微调的方法来提升其性能。使用约束提示可强制模型输出符合模板要求的文本，而微调则可以调整模型的权重以提高性能。

我的建议是在低风险的应用场景中使用大型语言模型，同时始终与人工监督相结合。把它们视为灵感和建议的来源，考虑它们是合作伙伴，而不是完全自主代理的工具。具体而言，可以考虑使用copilots的方式。

关于Andrej Karpathy

AndrejKarpathy博士毕业后的首个职位是在OpenAI从事计算机视觉研究工作。

后来，OpenAI的联合创始人之一马斯克对Karpathy产生了兴趣，并将他引入了特斯拉公司。然而，正是因为这个事件，马斯克和OpenAI之间发生了严重争执，最终导致了Karpathy被开除出局。在特斯拉，Karpathy担任Autopilot和FSD等项目的负责人。

Karpathy在离开特斯拉7个月后，今年2月份重返OpenAI。

他最近在推特上表示对开源大型语言模型生态系统的发展饶有兴趣，这个生态系统的发展趋势有点像早期寒武纪爆发的迹象。

结语：

权知星球，开启你独特的知识星际之旅！点亮你的创造力，闪耀在知识的星光下，成为知识传播的新时代先锋！一起探索AI智能领域的奇妙世界，让创意与智慧在这里绽放！