Conjunto de datos de evaluación de modelo grande chino - C-Eval

C-EVAL: una suite de evaluación china multidisciplinar de varios niveles para modelos básicos



https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html

Prefacio de la Parte 1

¿Cómo evaluar un modelo de lenguaje grande?

  • Evaluado en una amplia gama de tareas de PNL.
  • Evaluado en competencias LLM avanzadas como razonamiento, resolución de problemas matemáticos difíciles y escritura de código.

En inglés, ya hay bastantes puntos de referencia:

  • Punto de referencia en inglés tradicional: GLUE, que es un punto de referencia de evaluación para tareas de NLU.
  • El punto de referencia MMLU (Hendrycks et al., 2021a) proporciona evaluaciones multidominio y multitarea recopiladas de exámenes y libros del mundo real.
  • GRANDE

Supongo que te gusta

Origin blog.csdn.net/qq_36426650/article/details/132001366
Recomendado
Clasificación