ICLR2024丨Simulation在ICLR-2024全线溃败？18篇Simualtion & Agent相关论文合集

笔者（知乎：兽族机枪兵）所在的研究组最近也在火热地搞Agent中，同时笔者自己也有在搞Simulation。所以将最近投稿ICLR的一些Agent相关论文（尤其是Simulation）的投稿意见进行了汇总。

原文链接：https://zhuanlan.zhihu.com/p/666816570

ICLR，全程为国际表征学习大会（International Conference on Learning Representations）是深度学习领域的顶级会议。

ICLR24 虽还未审完搞，但是是 Openreview 可以查看。前一段时间，我们发布了多篇 ICLR2024 上关于 Agent 的相关论文。今天，我们继续和大家分享的是ICLR2024上18篇关于Simulation&Agent的论文合集。通过AMiner AI，一起来了解最新的前沿动态！

1. Avalon’s Game of Thoughts: Battle Against Deception through Recursive Contemplation

这篇论文研究了大型语言模型（LLMs）在处理潜在欺骗性信息时的局限性。尽管LLMs在作为智能代理方面取得了显著的成功，但普遍的假设是LLMs处理的信息是持续诚实的，忽略了人类社会和AI生成的内容中普遍存在的欺骗性或误导性信息。这种疏忽使LLMs容易受到恶意操纵，可能导致有害的结果。本研究利用复杂的Avalon游戏作为测试台，探索LLMs在欺骗性环境中的潜力。Avalon游戏中充满了错误信息，需要高级逻辑，呈现出一种“思维游戏”。受到人类在Avalon游戏中反身性思考和换位思考的有效性的启发，我们引入了一个新颖的框架——递归沉思（ReCon），以增强LLMs识别和对抗欺骗性信息的能力。ReCon结合了制定和精炼沉思过程；制定沉思产生初始思想和言语，而精炼沉思进一步打磨它们。此外，我们分别将这些过程纳入第一和第二阶视角转换。具体来说，第一阶允许LLM代理推断他人的心理状态，第二阶涉及理解他人如何看待代理的心理状态。在将ReCon与不同LLMs集成后，来自Avalon游戏的实验结果表明，ReCon在不进行额外微调和数据的情况下，有助于LLMs辨别和规避欺骗性信息。最后，我们为ReCon的有效性提供了一种可能的解释，并探讨了LLMs在安全性、推理、说话风格和格式方面的当前局限性，可能为后续研究提供见解。

链接：https://www.aminer.cn/pub/651b7dfd3fda6d7f0630b799/?f=cs

2. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

这篇论文主要研究了如何通过大型语言模型（LLM）增强的自主智能体（agents）实现多智能体协作，并探索在这种协作中出现的新兴行为。作者提出了一个名为 AgentVerse 的多智能体框架，该框架可以模仿人类群体动态，协作地调整其组成，以实现整体效果大于部分的目标。实验结果表明，该框架可以有效地部署多智能体团队，其性能优于单个智能体。此外，作者还深入探讨了在协作任务执行过程中，团队内个体智能体之间社交行为的产生。针对这些行为，作者讨论了一些可能的策略，以利用积极的行为并减轻负面行为，从而提高多智能体团队的协作潜力。

链接：https://www.aminer.cn/pub/64e432c73fda6d7f0600b8cd/?f=cs

3. Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

这篇论文探讨了一种新的方法来开发具有战略思考能力的语言代理，以在流行的语言游戏“狼人杀”中进行战略游戏。狼人杀是一种涉及隐藏角色、合作与竞争、欺骗性沟通和多样化玩法的社交推理游戏。该代理首先使用大型语言模型（LLM）来推理潜在的欺骗行为并生成一组策略多样化的行动。然后通过种群基于训练学习一个强化学习策略，从候选行动中选择一个行动，以提高代理的决策能力。通过将LLM与强化学习策略相结合，我们的代理产生各种新兴策略，在与其他LLM代理的对战中赢得最高胜率，并在狼人杀游戏中对抗敌对的人类玩家时保持稳健。

链接：https://www.aminer.cn/pub/65406320939a5f4082649360/?f=cs

4. Building Cooperative Embodied Agents Modularly with Large Language Models

这篇论文介绍了一种使用大型语言模型 (LLM) 构建协作实体代理的新框架，该框架可以在各种领域的单个代理实体任务中表现出出色的计划能力和沟通能力。然而，在多代理合作中，其规划和沟通能力仍不确定，这些技能对于智能实体代理是至关重要的。在本文中，我们提出了一种用于多代理合作的新框架，该框架利用大型语言模型 (LLM) 进行计划、沟通和合作，并在各种实体环境中进行了测试。我们的框架使实体代理能够计划、交流和合作，以高效地完成长期任务。我们还证明，使用我们框架的最新大型语言模型 (如 GPT-4) 可以超越强大的计划方法，并表现出自发的有效沟通，而不需要微调或很少的提示。我们还发现，使用自然语言交流的大型语言模型 (LLM) 可以赢得更多的信任，并更有效地进行合作。我们的研究强调了 LLM 在实体 AI 中的潜力，并为多代理合作的未来研究奠定了基础。

链接：https://www.aminer.cn/pub/64a63bddd68f896efaec67de/?f=cs

5. MindAgent: Emergent Gaming Interaction

这篇论文介绍了一种名为 MindAgent 的新基础设施，用于评估游戏交互中的规划和协调新兴能力。特别是，该基础设施利用现有的游戏框架，要求理解多代理系统的协调器，通过未精调的正确指示与人类玩家协作，并建立少样本提示的上下文学习反馈。此外，我们还介绍了一个新的游戏场景和相关基准 CUISINEWORLD，以调度多代理协作效率并指导多个代理同时玩游戏。我们使用新的自动度量 CoS 对协作效率进行全面评估。最后，该基础设施可以部署到定制的 CUISINEWORLD VR 版本中，并适应现有的更广泛的 Minecraft 游戏领域。我们希望我们关于大型语言模型和通用调度协调新基础设施的发现，能够从大型语言语料库中学习如何获得这些技能。

链接：https://www.aminer.cn/pub/650904f23fda6d7f06cd5432/?f=cs

6. Welfare Diplomacy: Benchmarking Language Model Cooperation

这篇论文介绍了"福利外交"（Welfare Diplomacy）的概念，这是一种针对人工智能系统合作能力的测量基准。当前，大多数多代理基准测试要么是零和的，要么纯粹是合作的，这限制了测量人工智能系统合作能力的可能性。为了解决这个问题，作者引入了一种名为"福利外交"的零和棋盘游戏变体，玩家在游戏中必须在军事征服和国内福利之间取得平衡。作者认为，福利外交可以更清晰地评估和强化人工智能系统的合作能力。论文的贡献包括：提出福利外交规则并利用开源外交引擎实现；使用零提示语言模型构建基线代理；进行实验，发现使用最先进的模型的基线可以获得高社会福利，但容易被利用。作者的工作旨在通过帮助研究人员开发和评估多代理人工智能系统，促进社会安全。

链接：https://www.aminer.cn/pub/652c9d07939a5f40825c0cbf/?f=cs

7. AgentBench: Evaluating LLMs as Agents

这篇论文介绍了一个名为 AgentBench 的多维度演化基准，用于评估大型语言模型 (LLM) 作为智能体的能力。随着 LLM 变得越来越智能和自主，在传统自然语言处理任务之外的现实世界实用任务中发挥作用，因此评估 LLM 在交互环境中的挑战性任务上作为智能体的能力变得紧迫。论文测试了 25 个 LLM(包括 API 和开源模型),发现顶级商业 LLM 在复杂环境中作为智能体的表现很强，但与开源竞争者之间存在显著的性能差距。该基准是正在进行的一个更广泛覆盖和更深入考虑系统评估 LLM 的项目的一部分。

链接：https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4af3/?f=cs

8. Identifying the Risks of LM Agents with an LM-Emulated Sandbox

这篇论文探讨了语言模型（LM）代理和工具使用的风险，例如 ChatGPT 插件等应用。识别这些风险的工作量大，需要实施工具、手动设置每个测试用例的环境并寻找风险案例。为了应对这些挑战，作者介绍了 ToolEmu 框架，该框架使用 LM 来模拟工具执行并使 LM 代理能够在不手动实例化的情况下针对各种工具和场景进行测试。同时，作者还开发了一种基于 LM 的自动安全评估器，用于检查代理失败并量化相关风险。通过人类评估测试工具模拟器和评估器，作者发现 ToolEmu 识别的 68.8% 的失败在实际代理中也是有效的。作者提供了经过筛选的初始基准，包括 36 个高风险工具和 144 个测试用例，并对当前 LM 代理的定量风险进行分析，发现许多代理存在潜在的严重后果。值得注意的是，即使是最安全的 LM 代理在使用作者的评估器时也有 23.9% 的时间表现出这种失败，这突显了开发更安全的 LM 代理以供实际部署的必要性。

链接：https://www.aminer.cn/pub/6514e2043fda6d7f062dcb33/?f=cs

9. Evaluating Multi-Agent Coordination Abilities in Large Language Models

这篇论文研究了大型语言模型在多代理协调能力方面的表现。现代人工智能研究的一个重要目标是开发擅长多代理协调的代理，以实现与人类和其他系统的有效协作。大型语言模型（LLM）以其出色的理解、生成和解释语言的能力，成为开发这种代理的有力候选者。在本文中，我们构建并评估了使用LLM在各种协调场景下制作的代理的有效性。我们引入了LLM-Coordination（LLM-Co）框架，专门用于使LLM能够玩协调游戏。我们使用三个游戏环境进行评估，并将评估分为五个方面：心智理论、情境推理、持续协调、对合作伙伴的鲁棒性和明确协助。首先，对心智理论和情境推理的评估揭示了LLM推断合作伙伴意图和相应推理行动的能力。接着，持续协调和对合作伙伴的鲁棒性评估进一步展示了LLM在与未知合作伙伴进行复杂长任务协调方面的能力，超过了强化学习基线。最后，为了测试明确协助能力（即代理主动提供帮助的能力），我们在Overcooked-AI基准中引入了两个新颖的布局，考察代理是否可以优先帮助合作伙伴，牺牲原本可以用于自己任务的时间。这项研究表明，LLM在复杂的协调环境中具有很大的潜力，为构建强大的现实世界多代理协调代理奠定了基础。

链接：https://www.aminer.cn/pub/65237861939a5f4082e12b98/?f=cs

10. SmartPlay : A Benchmark for LLMs as Intelligent Agents

这篇论文介绍了一种名为SmartPlay的评估大型语言模型（LLMs）作为智能代理的系统和全面基准。最近，大型语言模型在智能代理和下一代自动化方面展现出巨大潜力，但目前缺乏评估LLMs作为代理能力的系统基准。SmartPlay包括6种不同的游戏，如石头-剪刀-布、汉诺塔、我的世界等，每种游戏都有独特的设置，提供了多达20个评估设置和无限的环境变化。SmartPlay中的每个游戏都挑战了智能LLM代理的9个重要能力中的一个子集，包括对象依赖关系的推理、提前规划、空间推理、从历史中学习以及理解随机性。每个游戏测试的能力集合的差异使我们能够单独分析每个能力。SmartPlay不仅作为严格的测试平台，用于评估LLM代理的整体性能，还作为发现现有方法中存在差距的路线图。

链接：https://www.aminer.cn/pub/651ccb383fda6d7f066352ca/?f=cs

11. Large Language Models as Rational Players in Competitive Economics Games

本文提出了使用竞争性经济博弈来评测LLM-based agent的理性程度、策略推理能力和指令遵从能力。

12. Playing repeated games with Large Language Models

这篇论文概要介绍了一项研究，该研究使用行为游戏理论来探讨大型语言模型（LLMs）在互动社交环境中的合作和协调行为。研究者让不同的 LLMs（GPT-3、GPT-3.5 和 GPT-4）彼此之间以及与其他人类策略进行有限次重复游戏。结果表明，LLMs 在这类任务中表现良好，并且表现出持久的行为特征。在很大的两玩家-- 两策略游戏中，研究者发现 LLMs 特别擅长那些关注自身利益的游戏，比如迭代囚徒困境家族。然而，在需要协调的游戏中，它们的表现则不够理想。因此，研究者进一步关注了来自这两个不同家族的两个游戏。在经典的迭代囚徒困境中，研究者发现 GPT-4 表现得特别不宽容，总是在另一个代理人只背叛一次之后就开始背叛。在性别之战游戏中，研究者发现 GPT-4 无法匹配简单常规，即交替选择选项。研究者验证了这些行为特征在稳健性检查中是稳定的。最后，研究者展示了如何通过提供关于其他玩家的进一步信息以及在作出选择之前要求预测其他玩家的行为来修改 GPT-4 的行为。这些结果丰富了我们对 LLMs 社会行为的理解，并为机器的行为游戏理论奠定了基础。

链接：https://www.aminer.cn/pub/64741c33d68f896efaa7b6aa/?f=cs

13. Rethinking the Buyer’s Inspection Paradox in Information Markets with Language Agents

这篇论文重新审视了信息市场中买家的检查悖论。这个悖论在于，买家需要获取信息来确定其价值，而卖家需要限制访问以防止被盗。为了研究这个问题，作者引入了一个开源模拟数字市场，在这个市场中，由语言模型驱动的智能代理代表外部参与者购买和出售信息。这个市场的基础机制是代理的双重能力：他们不仅有能力评估特权信息的质量，而且还具备遗忘的能力。这个功能允许供应商临时授权专有信息，显著降低未经授权的保留风险，同时使代理能够准确评估信息对特定查询或任务的关联性。为了表现良好，代理必须做出理性决策，通过生成的子查询策略性地探索市场，并从购买的信息中合成答案。具体来说，我们的实验揭示了语言模型中的偏见导致的不理性行为，并评估了减轻这些偏见的技术；研究了价格如何影响信息商品的需求；并表明检查和更高的预算都会导致更高的质量结果。

链接：https://www.aminer.cn/pub/6541dd221512231370cc05b3/?f=cs

14. WebArena: A Realistic Web Environment for Building Autonomous Agents

这篇论文介绍了 WebArena 环境，它是一个高度逼真、可重现的 Web 自动化环境。该环境旨在为构建自主代理提供命令和控制平台，代理可以在 Web 上执行各种任务。该环境涵盖了四个常见领域：电子商务、社交媒体讨论、协作软件开发和内容管理。环境中添加了许多工具和外部知识库，以鼓励像人类一样解决问题。基于该环境，作者发布了一些基准任务，主要关注任务的功能性正确性。这些任务是多样化的，具有长期 horizon,旨在模拟人类在互联网上执行的各种任务。作者设计和实现了一些自主代理，并集成了最近的研究成果，例如推理前行动。结果表明，解决复杂的任务是非常具有挑战性的，最好的 GPT-4 代理仅实现了端到端任务成功率的 10.59%。这些结果强调了进一步开发可靠代理的必要性，并表明 WebArena 可以用于衡量这些进展。该论文的代码、数据、环境重现资源和视频演示稿均公开可用。

链接：https://www.aminer.cn/pub/64c1ec613fda6d7f0639738b/?f=cs

15. Lyfe Agents: generative agents for low-cost real-time social interactions

这篇论文介绍了一种名为Lyfe Agents的生成式智能体，用于实现低成本实时社交互动。这种智能体结合了低成本和实时响应的能力，同时保持智能和目标导向。其主要创新包括：1）采用选项-行动框架，降低高级决策的成本；2）异步自我监控，以实现更好的自我一致性；3）使用摘要-遗忘记忆机制，以低成本优先处理关键记忆项目。作者在自定义的LyfeGame 3D虚拟环境平台中评估了Lyfe Agents的自激励和社会性，发现在使用他们的大脑启发技术后，Lyfe Agents能够表现出类似于人类的自我激励的社会推理能力，例如通过自主合作和信息交流解决一起谋杀案。同时，他们的技术使Lyfe Agents的计算成本比现有的替代方案低10到100倍。这些发现强调了自主生成式智能体在丰富虚拟世界中的潜在变革作用。

链接：https://www.aminer.cn/pub/651ccb383fda6d7f0663554a/?f=cs

16. SocioDojo: Building Lifelong Analytical Agents with Real-world Text and Time Series

这篇论文介绍了SocioDojo，一个开放式的终身学习环境，用于开发可以对社会话题（如经济、金融、政治和文化）进行类似人类分析和解决策的自主智能体。SocioDojo包括新闻、社交媒体、报告等信息来源，以及从书籍、期刊和百科全书构建的知识库。此外，它还包括一个工具箱，其中包括互联网和知识图搜索界面，以及30K高质量的时间序列数据，这些数据支持一个名为“超组合”的新任务，可以可靠且大规模地评估智能体的社会分析和决策能力。该论文还提出了一个分析师-助手-执行器架构，用于超组合任务，以及一种假设和证明提示，用于在输入新闻、文章等中产生深入分析以辅助决策。通过实验和消融研究，探讨了影响性能的因素。结果显示，与最先进的方法相比，我们提出的方法在两个实验设置中分别实现了32.4%和30.4%的性能提升。

链接：https://www.aminer.cn/pub/6540a41f92b1225ed3a81e5d/?f=cs

17. SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents

这篇论文介绍了 SOTOPIA 评估框架,用于测试语言代理的社会智能。SOTOPIA 是一个开放的环境,可以模拟复杂的社会交互,代理在其中进行角色扮演和交互,以实现复杂的社会目标。该框架名为 SOTOPIA-Eval,用于评估代理在 SOTOPIA 环境中的表现。研究结果表明,不同的代理模型在社会智能方面存在显著差异,而 SOTOPIA-hard 子集对所有模型都具有挑战性。此外,GPT-4 在这个子集上的表现比人类差,且难以表现出社交常识推理和战略沟通能力。这些发现证明了 SOTOPIA 作为一个通用平台评估和提高人工智能代理社会智能的潜力。

链接：https://www.aminer.cn/pub/65309159939a5f4082843dba/?f=cs

18. Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View

这篇论文探讨了大型语言模型（LLM）代理之间的协作机制，从社会心理学角度进行了分析。随着自然语言处理（NLP）系统在复杂的社会环境中得到越来越广泛的应用，一个问题变得越来越紧迫：这些NLP系统能否在由多个大型语言模型（LLM）组成的多元代理社会中反映出类似人类的协作智能？本文通过将实际实验与理论见解相结合，探讨了当代NLP系统之间的协作机制。我们构建了四个独特的“社会”，由LLM代理组成，每个代理都具有特定的“特质”（随和或过于自信），并采用不同的“思维模式”（辩论或反思）进行协作。我们在三个基准数据集上评估这些多元代理社会，发现LLM代理通过利用各种社交行为来完成任务，从积极的辩论到内省式的反思。值得注意的是，某些协作策略不仅优化了效率（使用较少的API令牌），而且超过了之前的一流方法。此外，我们的结果进一步表明，LLM代理表现出类似人类的社交行为，如遵从或多数原则，反映了基础社会心理学理论。总之，我们将社会心理学的见解融入LLM代理的协作环境中，为进一步研究LLM的协作机制提供了启示。我们承诺分享我们的代码和数据集（已提交在补充材料中），希望催化和进一步研究这个有前景的领域。

链接：https://www.aminer.cn/pub/651ccb383fda6d7f0663551a/?f=cs

ICLR2024丨Simulation在ICLR-2024全线溃败？18篇Simualtion & Agent相关论文合集

猜你喜欢