中文大模型评估数据集——C-Eval

企业开发 2023-07-29 20:42:55 阅读次数: 0

C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html

Part1 前言

怎么去评估一个大语言模型呢？

在广泛的NLP任务上进行评估。
在高级LLM能力上进行评估，比如推理、解决困难的数学问题、写代码。

在英文中，已经有不少评测基准：

传统英语基准：GLUE，是NLU任务的的评测基准。
MMLU基准（Hendrycks等人，2021a）提供了从真实世界的考试和书籍中收集的多领域和多任务评价。
BIG

猜你喜欢

转载自blog.csdn.net/qq_36426650/article/details/132001366

中文大模型评估数据集——C-Eval

C-Eval: 构造中文大模型的知识评估基准

大模型评测数据集：MMLU、MMCU、C-Eval

【GPT】中文大语言模型梳理与测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

小米 AI 大模型 MiLM-6B：64 亿参数，C-Eval 总榜排名第 10

Android版ChatGPT将于本周发；C-Eval中文大模型排名公布；我国发布首份汽车标准必要专利研究报告丨每日大事件...

ChatGLM2发布，位居C-Eval榜首!

模型评估、选择与验证——数据集切分

机器学习：模型评估与选择-数据集划分

“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集

大模型训练数据集汇总

大模型的数据集收集与整理

大模型LLM训练的数据集

不平衡数据集分类实战：成人收入数据集分类模型训练和评估

数据挖掘-模型评估

数据挖掘：模型评估

深入理解机器学习——机器学习模型数据集的划分与模型评估方法

评估lsp数据集代码

模型评估中测试集的选择方法

数据预处理备忘（特征选择，三大降维技术，数据形态处理，模型评估）

【Surprise库学习】1. 模型选择与评估（划分数据集）

InisghtFace 制作自定义数据集和模型训练评估

开源 UnitEval —— 构建 AI 辅助编程的高质量数据集与代码模型微调评估

大语言模型（LLM）评估综述

最新国内大模型评估结果

LLM - 大模型评估指标之 BLEU

LLM - 大模型评估指标之 ROUGE

数据挖掘中的模型评估

数据挖掘项目--模型评估

数据挖掘：模型状态评估

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)