到《西部世界》当镇长，多校联合开源国产AI小镇，戳戳交互界面就能编辑的虚拟世界...

一个投稿飞向凹非寺
量子位 | 公众号 QbitAI

觉得爆火斯坦福「AI小镇」25个角色不够热闹？

一个可以自己创建无限AI智能体的像素风小镇来了，还是国产的！

用户创建AI后，可以让它们根据用户设置的任务或计划，在虚拟城镇中购物、上班、吵架，以评估大模型们的各项能力。

要是急了，还可以以第三方身份作为镇长介入，干涉任务情况（doge）。

这个国产「AI小镇」叫AgentSims，是一个开放式、自定义的沙盒评估基建设施。

并且它还贴心地设置了专业开发者模式和普通用户模式，对那些不那么精通大模型和代码的研究人员还挺友好。

具体操作中，研究人员可以通过GUI（交互式图形用户界面）添加AI角色、建筑物来设置不同的评估任务。

此外，也可以通过少量代码来部署和测试新的支持机制，比如规划和记忆系统。

并且可以设置角色的长期记忆，以及规划能力：

这项工作来自北航、中山大学、浙大和华东师范的小伙伴们，目前已经在GitHub上开源。

而且量子位还眼尖发现，AgentSims这个项目开源时间还早于斯坦福的「AI小镇」（虽然只早了2天吧）。

能评估大模型能力的国产《西部世界》

从演示Demo来看，AgentSims建了一个虚拟的城镇环境，包含各种虚拟居民和建筑。

这些都由用户自定义创建，最终组成沙盒，完成关于大模型能力的评估测试。

比如语言理解能力、语言生成能力、推理能力、计划和规划能力、多轮对话能力、数据记忆与检索能力、自我调整能力什么的。

So，AgentSims到底要怎么玩儿呢？

首先来说创建AI角色。

这个环节的自由度比较高，能给AI起名，设置性格、喜好人生任务等。

图示中名叫John的AI角色，背后就依靠GPT-4来完成行动决策。

根据性格设定，John还是非常乐于助人。

再加上Demo给它设置的人生目标是“在小镇上勤奋工作”——于是，它就成为了小镇上的善良、勤恳打工人，

创建每个AI角色时，都需要选择提供行为决策支持的大模型，可以是ChatGPT、GPT-4、LLaMA等等。

研究团队在论文中提到，AgentSims可以用来重复测试同一模型，也可以在类似设置下，比较不同模型的表现。

创建好角色后，这个AI几点几分干了什么事情，和谁说了话……每天的所有行为会被记录在档案中。

它们彼此之间还会发生交互，甚至产生对话：

评测过程中，不仅是AI和AI之间能够产生交互。

如果有需要，研究人员自己还可以以“小镇镇长”等用户身份进入小镇，和智能体对话、互动，干预任务完成的过程。

其次，构成沙箱环境虚拟城镇建筑和社区设置，也由用户自己创建。

建筑物中的设备是预先设定好的，但可以在开发者版本中进行修改编辑，甚至调用外部API。

从demo里可以看到，AgentSims提供的是GUI（交互式图形界面）。

也就是说，用户不需要写代码，只需要关注任务设计的合理性。

（这里提一句，为了像现实世界一样拥有咖啡厅、商店、餐厅，用户还需要花费一定金额。）

值得一提的是，无论何时创建的AI角色和建筑，都处于同等地位，也就是说AI角色们可以对新加个体产生探索与交互。

高度自定义，戳戳就能编辑

从国内超参数科技做出的GAEA，到斯坦福AI小镇，再到国产AI小镇AgentSims，这几项研究都是利用AI打造了NPC系统，并依靠（各种各样的）大模型来帮助AI角色做行动决策。

走“小镇”这条相似路径，原因不外乎虚拟城镇能够模拟真实世界中的社会环境和人际交互，从而方便考察大模型处理复杂社交场景的能力。

但是要让AI们模拟人类水平的社交能力，比如记忆、行为长期连贯性，仅靠大模型能力是不够的——

众所周知，大模型对对话的上下文窗口有限制性。

在AgentSims这里，团队用了一种辅助系统，让AI角色直追人类水平。

具体抽象为三个部分：

计划系统，用来将目标分解为子任务，并记录当前状态，生成下一步行动。
记忆系统，将每日经历编码为向量，存储在数据库中，用于维持行为一致性。
工具使用系统，存储了使用设备的反馈，可以推断设备的操作方法。

因为这个机制的存在，AgentSims的灵活度更高，用户可以自己“排列组合”不同的计划、记忆和学习系统。

那么，AgentSims相比斯坦福小镇，还有哪些不一样的地方？

最大的不同之处在于——可以像玩游戏一样搞研究！

斯坦福的AI小镇在设置人物名字、运转次数和运行定制文件时，需要在终端里手动输入内容：

AgentSims则降低了使用门槛，自定义和模块化程度都更自由。

如果用户不想用命令行输入，可以直接选择使用可交互界面，只需要戳戳就能更改设置。

具体来说，研究团队提供了两个模式：普通用户模式和开发者模式。

普通用户模式，就是利用GUI，点点鼠标进行属性和位置选择，就能构建出一个用来评估大模型能力的社区/城镇。

至于开发者模式，那就可以直接上代码了，能更改一些设置细节。

但相对应的，门槛也更高。

当然，相比AgentSims，斯坦福小镇会注重于生成“更逼真”的人类行为，换而言之，AI案例会更加丰富一些。

例如AI角色们可以在小镇里自发组织情人节派对，策划详实，包括时间地点和到场人物等：

不过，所有的类似AI小镇都有同样的通病：

虚拟城镇只能“模拟”，无论怎样逼真，也无法完全反映现实世界的复杂性。

而且任务性能还决定了用户可能无法深入了解模型成功/失败的原因。

不过这仍然不妨碍冲浪在一线的英伟达科学家Jim Fan狂呼，这类工作未来“有无限可能”。

团队介绍

林家驹（Jiaju Lin），硕士毕业于华东师范大学，宾州州立大学博士在读，研究方向为LLM领域适配，价值对齐。

赵浩然（Haoran Zhao），BHU博士在读，研究方向为Multi-Agent System，LLM Agent及AIgame。

张傲弛（Aochi Zhang）, PTA Studio，Deep Learning coder, 服务器架构师。

吴旖婷（Yiting Wu），PTA Studio，游戏&HMI方向交互设计师。

平胡秋月（Huqiuyue Ping），浙江大学硕士在读，研究方向为Multi-Agent System与强化学习。

Website: AgentSims.com

Paper: arxiv.org/pdf/2308.04026.pdf

— 联系作者 —