教授 LLM 思考和行动:ReAct Prompt Engineering

长话短说

普林斯顿大学教授和谷歌研究人员最近发表了一篇论文,描述了一种新颖的提示工程方法,该方法使大型语言模型(想想 ChatGPT)能够在模拟环境中进行推理和智能行动。这种 ReAct 方法模仿人类在现实世界中的运作方式,因为我们可以通过口头推理并采取行动来获取信息。ReAct 被发现在各种领域中与其他提示工程(和模仿学习)方法相比表现良好。这标志着朝着人工通用智能 (AGI) 和具身语言模型(像人类一样思考的机器人)迈出了重要一步。

背景

在本节中,我将讨论大型语言模型、提示工程和链式思维推理。

大型语言模型

大型语言模型 (LLM)是一种机器学习Transformer模型,它已经在庞大的语料库或文本数据集(例如互联网上的大多数网页)上进行了训练。在需要大量时间(和/或 GPU)、能量和水(用于冷却)的训练过程中,梯度下降用于优化模型的参数,使其能够很好地预测训练数据。本质上,LLM 学习预测给定一系列先前单词的最可能的下一个单词。这可用于执行推理——找出模型生成某些文本的可能性——或文本生成,像 ChatGPT 这样的法学硕士用来与人交谈。一旦 LLM 完成训练,它就会被冻结,这意味着它的参数被保存并且它不会向其训练数据添加输入或重新训练 - 这样做是不可行的,正如我们从微软的 Tay 聊天机器人成为纳粹分子中学到的那样,最好不要向用户学习。重要的是要注意 LLM 仍然从他们的训练数据中学习偏见,而 ChatGPT 背后的公司 OpenAI 必须增加安全措施——使用从人类反馈中强化学习 (RLHF) —— 试图防止模型生成有问题的内容。此外,由于默认情况下 LLM 只是根据他们所看到的内容生成最有可能的下

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/131152410
今日推荐