lmsys.org最新的LLM排行榜 - 代码天地

lmsys.org最新的LLM排行榜

企业开发 2023-06-05 03:47:21 阅读次数: 0

lmsys.org

Large Model Systems Organization (LMSYS Org) 是一个开放的研究组织，由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立。

他们的目标是通过共同开发开放数据集、模型、系统和评估工具，让每个人都能访问大型模型。工作包括机器学习和系统方面的研究。他们训练大型语言模型并使其广泛可用，创建了Vicuna and FastChat-T5! 模型，同时还开发分布式系统以加速其训练和推理。

地址在这里：https://lmsys.org/

LLM排行榜

lmsys.org 组织每一周都会发布一个LLM排行榜排行榜，最新一期是2023 年 5 月 25 日发布的，排行榜如下：

在这里插入图片描述
在这个版本中，新加入了如下的大语言模型：

在此更新中，我们很高兴欢迎以下聊天机器人加入竞技场：

Google PaLM 2
Anthropic Claude-instant-v1
MosaicML MPT-7B-聊天
Vicuna-7B

各个语言的得分情况如下：

在这里插入图片描述
Google 的 PaLM 2 是这次加入的重要的聊天模型，目前在Chatbot Arena排行榜上排名第6位。然而，根据分析，PaLM 2 在某些方面存在一些不足：

更严格的监管：PaLM 2 似乎受到更严格的监管，导致它在回答某些问题时放弃回应。这也导致它在与较弱的聊天机器人对战时表现不佳。
有限的多语言能力：目前提供的 PaLM 2 版本在非英语问题上的回答能力有限。在非英语排行榜上，PaLM 2 排名第16位。
不令人满意的推理能力：PaLM 2 在某些入门级推理任务上表现不佳，相较于其他聊天机器人，其推理能力有待提高。

在删除非英语对话和PaLM 2未提供答案的所有对话后，计算出的 Elo 评分代表了 PaLM 2 在竞技场中的假设上限。

LMSYS Org官网：https://lmsys.org/

更多AI工具，参考Github-AiBard123，国内AiBard123

猜你喜欢

转载自blog.csdn.net/weixin_40425640/article/details/130946896

lmsys.org最新的LLM排行榜

最新Android框架排行榜

电脑监控软件最新排行榜

斯坦福发布最新LLM排行榜AlpacaEval，微软WizardLM登顶开源模型第一

GitHub排行榜，GitHub源码最新中文排行榜

星座排行榜

GitHub排行榜

排行榜

排行榜实现

排行榜的制作

奥运排行榜

斯坦福最新LLM排行榜发布！自家Alpaca垫底，华人团队WizardLM开源第一，GPT-4、Claude稳居前二

斯坦福最新LLM排行榜发布！自家Alpaca垫底，华人团队WizardLM开源第一，GPT-4、Claude稳居前二...

最新编程排行榜，Python 强势登顶！

(转)2018CRM系统最新排行榜

最新！2020 年 9 月编程语言排行榜

DukeMTMC 行人重识别最新排行榜

最新！全球顶尖科学家排行榜

最新AI写文案的软件排行榜

国产数据库最新排行榜

计算机编程语言排行榜 TIOBE编程语言排行榜2020年最新版

编程语言排行榜2020年3月 TIOBE编程语言排行榜2020年最新版

RedMonk最新编程语言排行榜出炉：JS霸榜，C++持续下跌

Android框架排行榜

技术书籍排行榜

小程序排行榜

twitter关注排行榜

DApp数据排行榜

人气岗位排行榜

Tiobe语言排行榜

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)