C-EVAL: 基礎モデル向けのマルチレベル、複数分野の中国語評価スイート
https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html
Part1 序文
大規模な言語モデルを評価するにはどうすればよいでしょうか?
- 幅広い NLP タスクについて評価されます。
- 推論、数学の難しい問題の解決、コードの作成など、高度な LLM 能力を評価します。
英語では、すでにかなりの数のベンチマークが存在します。
- 伝統的な英語のベンチマーク: GLUE。NLU タスクの評価ベンチマークです。
- MMLU ベンチマーク (Hendrycks et al.、2021a) は、実際の試験や書籍から収集されたマルチドメインおよびマルチタスクの評価を提供します。
- 大きい