大模型评测数据集：MMLU、MMCU、C-Eval - 代码天地

大模型评测数据集：MMLU、MMCU、C-Eval

业界资讯 2023-08-12 18:25:21 阅读次数: 0

面对国内大语言模型万箭齐发的局面，如何更好地提升大语言模型对中文的理解能力，更好地服务于全球的中文用户，甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding，简称MMCU)的大规模的多任务测试数据集，填补了中文大语言模型能力测试缺失的一大空白。

ChatGPT 的出现，使中文社区意识到与国际领先水平的差距。近期，中文大模型研发如火如荼，但中文评价基准却很少。在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中，MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用，因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MMLU 这个数据集，它考虑了 57 个学科，从人文到社科到理工多个大类的综合知识能力。DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数，因此我们想要构造一个中文的，有足够区分度的，多学科的基准榜单，来辅助开发者们研发中文大模型。我们花了大概三个月的时间，构造了一个覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代 …），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集，我们管它叫 C-Eval，来帮助中文社区研发大模型。

C-Eval: 构造中文大模型的知识评估基准_数据派THU的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/132222617

大模型评测数据集：MMLU、MMCU、C-Eval

中文大模型评估数据集——C-Eval

【GPT】中文大语言模型梳理与测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

C-Eval: 构造中文大模型的知识评估基准

小米 AI 大模型 MiLM-6B：64 亿参数，C-Eval 总榜排名第 10

“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集

Android版ChatGPT将于本周发；C-Eval中文大模型排名公布；我国发布首份汽车标准必要专利研究报告丨每日大事件...

用基于center loss的人脸识别模型对LFW人脸数据集进行评测（c++）

ChatGLM2发布，位居C-Eval榜首!

大模型评测平台OpenCompass

LLMs：LLMs大语言模型评估的简介(六大维度)、常见评估基准—单任务评估基准(BLEU/ROUGE)+多任务评估基准(SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C

大模型训练数据集汇总

大模型的数据集收集与整理

大模型LLM训练的数据集

大模型评测，也太难了吧

CLiB中文大模型能力评测榜单

使用MOT评测工具TrackEval评测自己的数据集

关系抽取 -- 评测数据集简述

用TrackEval评测自己的数据集

[大模型补课]当代AI的基石数据集

大模型的无限上下文与数据集组合艺术

huggingface如何加载本地数据集进行大模型训练

权威评测：国内最懂工业的大模型！

如何评测一个大语言模型？

AlignBench：量身打造的中文大语言模型对齐评测

LLM(大语言模型)常用评测指标-困惑度（Perplexity）

大语言模型评测论文HELM阅读笔记

OpenPCDet系列 | 8.2 nuScenes数据集的eval流程

解读Lawyer LLaMA，延申专业领域大模型微调：数据集构建，模型训练

【大语言模型】使用ChatGLM-6B模型训练自己的数据集

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)