百川开源大模型 Baichuan-13B 评测

继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。

目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。

那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3.5有多大差距;与国内代表性的开源模型相比是什么水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生成,表现如何?

中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用1200道题对Baichuan-13B-Chat进行了测评。

测评结果如下:

结论

1. 目前是中文百亿参数最好的模型吗?

目前认为对于同等量级开源模型 ,在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型。

2. 与ChatGPT3.5接近了吗?

与ChatGPT3.5比较,在SuperCLUE开放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与ChatGPT3.5及Claude基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空间。

以下是从定量角度对模型进行的测评分析。

定量分析

  • SuperCLUE-Open(开放式多轮测评):

  • SuperCLUE-Open(开放式多轮测评)十大能力:以Baichuan-13B-Chat为例

可以看到,在SuperCLUE开放式多轮测评基准的十大能力评估中,百川开源大模型 Baichuan-13B 在多个能力上具有较好的表现(以胜和率为指标),部分任务有比较大的改进空间。

点此查看详情

猜你喜欢

转载自www.oschina.net/news/249838