百川开源大模型 Baichuan-13B 评测 - 代码天地

百川开源大模型 Baichuan-13B 评测

业界资讯 2023-07-18 17:04:23 阅读次数: 0

继6月发布了7B预训练底座模型后，百川智能团队于近日最新开源了13B模型，包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat，同时支持商用。

目前为止中文社区已经陆续发布了大量的开源模型，主要集中在6B-13B之间。

那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样，比如与ChatGPT3.5有多大差距；与国内代表性的开源模型相比是什么水平；在一些比较受关注的能力上，如生成与创作、逻辑推理、代码生成，表现如何？

中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准，也就是在开放式的问题并结合多轮对话能力的测试，用1200道题对Baichuan-13B-Chat进行了测评。

测评结果如下：

结论

1. 目前是中文百亿参数最好的模型吗？

目前认为对于同等量级开源模型，在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型。

2. 与ChatGPT3.5接近了吗？

与ChatGPT3.5比较，在SuperCLUE开放式多轮测评的常见任务中，如生成与创作、角色扮演、上下文对话、知识与百科，效果与ChatGPT3.5及Claude基础版相比是接近的（详见定量分析），但在复杂任务上，如代码生成、数学计算、逻辑与推理，还存在比较大的进步空间。

以下是从定量角度对模型进行的测评分析。

定量分析

SuperCLUE-Open（开放式多轮测评）：

SuperCLUE-Open（开放式多轮测评）十大能力：以Baichuan-13B-Chat为例

可以看到，在SuperCLUE开放式多轮测评基准的十大能力评估中，百川开源大模型 Baichuan-13B 在多个能力上具有较好的表现（以胜和率为指标），部分任务有比较大的改进空间。

点此查看详情。

猜你喜欢

转载自www.oschina.net/news/249838

百川开源大模型 Baichuan-13B 评测

百川智能开源大模型baichuan-7B剖析

谷歌自研芯片秘辛首次曝光；黑客要价 10 万美元出售雷蛇源代码等数据；百川智能发布 Baichuan-13B大模型（提供源码）

LLMs之Baichuan：Baichuan-13B模型的简介(包括Baichuan-7B)、安装、使用方法之详细攻略

开源第一！元象国产大模型在权威评测超越Llama2和百川

部署百川大语言模型Baichuan2

神仙打架——号称是性能最强的中英文百亿参数量开源模型Baichuan-13B他来了！

你好，我是百川大模型｜国内可开源免费商用Baichuan2揭秘

LLM InternLM-Chat-7B书生模型、Baichuan-13B-Chat百川模型简单使用

苏州大学推出开源大模型OpenBA；阿里云开源通义千问14B模型；百川智能发布Baichuan2-53B 闭源大模丨每日大事件...

【人工智能】国产开源大模型 baichuan-7B 百川聊天 BaiChat 快速开始上手实战&效果实测 —— 希望 baichuan-7B 再打磨打磨吧

Baichuan-13B 介绍及微调

本地部署 Baichuan-13B

LLM - Baichuan-13B 多卡加载与推理测试

NLP（六十）Baichuan-13B-Chat模型使用体验

百川的大模型KnowHow

华为麒麟芯片或将冲击高通业绩；胡润发布中国能源民营企业TOP100；百川智能发布Baichuan 2大模型丨每日大事件...

B-评测系统

大模型评测平台OpenCompass

大模型百川2技术报告细节分享

百川大模型部署排错实战笔记

算法模型评测方式

baichuan2(百川2)本地部署的实战方案

Baichuan2开源大模型正式发布，王小川：性能超过LLaMA2

【AIGC】baichuan-7B大模型

测试和对比一下ChatGLM2-6B和BaiChuan-13B的对自然语言的理解结果

百川智能开源最新商用大模型！王小川：比LLaMA更香，下一枪打ChatGPT

大模型评测，也太难了吧

CLiB中文大模型能力评测榜单

小草弯弯开源库评测

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)