C-EVAL: una suite de evaluación china multidisciplinar de varios niveles para modelos básicos
https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html
Prefacio de la Parte 1
¿Cómo evaluar un modelo de lenguaje grande?
- Evaluado en una amplia gama de tareas de PNL.
- Evaluado en competencias LLM avanzadas como razonamiento, resolución de problemas matemáticos difíciles y escritura de código.
En inglés, ya hay bastantes puntos de referencia:
- Punto de referencia en inglés tradicional: GLUE, que es un punto de referencia de evaluación para tareas de NLU.
- El punto de referencia MMLU (Hendrycks et al., 2021a) proporciona evaluaciones multidominio y multitarea recopiladas de exámenes y libros del mundo real.
- GRANDE