清华团队领衔打造，首个AI agent系统性基准测试网站问世AgentBench.com.cn - 代码天地

清华团队领衔打造，首个AI agent系统性基准测试网站问世AgentBench.com.cn

业界资讯 2023-08-15 19:11:16 阅读次数: 0

AI 智能体，或自主智能代理，不仅是诸如贾维斯等科幻电影中的人类超级助手，也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现，将 AI 智能体的概念推向了科技的最前沿。

在此前爆火的斯坦福“虚拟小镇”中，25 个 AI 智能体在虚拟小镇自由生长，举办了情人节派对；英伟达等提出的具身代理模型 Voyager，也在《我的世界》中学会各种生存技能，闯出了自己的一片天；此外，能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等，也同样引发了公众的广泛兴趣和热烈讨论。

甚至，前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露，每当有新的 AI 智能体论文出现时，OpenAI 内部就会非常感兴趣，并认真地进行讨论。

尽管当前 AI 智能体研究异常火热，但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。

为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn)，用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境中的表现（如推理和决策能力）。

猜你喜欢

转载自blog.csdn.net/qinglingye/article/details/132272949

清华团队领衔打造，首个AI agent系统性基准测试网站问世AgentBench.com.cn

AI Agent在情景猜谜场景下的AgentBench基准测试

AI Agent在家务场景下的AgentBench基准测试

ModaHub魔搭社区：AI Agent在网络购物场景下的AgentBench基准测试

ModaHub魔搭社区：AI Agent在知识图谱场景下的AgentBench基准测试

ModaHub魔搭社区：AI Agent在数据库场景下的AgentBench基准测试

ModaHub魔搭社区：AI Agent在数字卡牌游戏场景下的AgentBench基准测试

AI大师张钹领衔，清华AI研究院推出知识计算开放平台

RealAI：清华团队打造第三代安全可控人工智能 | 百万人学AI评选

本周AI热点回顾：全球首个 AI 发球机器人诞生、MIT再爆数据集ImageNet存在系统性Bug...

首个生成式 AI 安全指导性文件来了

ECCV 2022 | 清华等提出CST：首个嵌入光谱稀疏性的Transformer

清华发布首个最全大模型安全评测系统，ChatGPT登榜首！

打造高效小团队 - 敏捷协作 && 态度的重要性

AI 的测试：模型的基准测试

企业网站推广：如何打造SEO专业团队？

SysBench系统性能基准测试工具

SolRazr在Solana上打造首个去中心化开发者生态系统

清华大学团队与腾讯AI Lab专项合作夺冠FPS游戏AI竞赛VizDoom

对标 PyTorch，清华团队推出自研 AI 框架“计图” | AI 技术生态论

打造团队

比特威风推出一键式智能挖矿软件AIMiner，清华团队倾心打造

中文大模型安全性哪家强？清华团队新发布

系统性创新，正成为AI变革智能制造的新动能

领先AI+资讯！智搜（Giiso）科技打造国内首个智能资讯机器人

CTO视点 | 思科打造业界首个基于意图的开放性网络平台，释放无限机遇

Dimitra与DroneX.ai建立首个Dimitra生态系统合作关系

对标Pytorch，清华团队推出自研AI框架“计图”

字节跳动AI副总裁离职，将加入清华大学张亚勤团队

清华袁洋：AI+医疗的可解释性其实被古代中医研究了很多年

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)