[GPT] Clasificación y evaluación de modelos de lenguaje grande chino (C-Eval, AGIEval, MMLU, SuperCLUE)

inserte la descripción de la imagen aquí

descripción general

Modelos chinos e ingleses, el rendimiento de GPT-4 es el rey, pero no se puede usar. 中文评测平台La lista es bastante confusa, dependiendo de los hábitos de uso personal.
Resumen del modelo: https://github.com/wgwang/LLMs-In-China

Use el modelo grande directamente después de la aplicación

Código abierto y despliegue local

Chino: Tsinghua 6 mil millones de parámetros ChatGLM2-6B: https://github.com/THUDM/ChatGLM2-6B

Evaluación de conjuntos de datos de conocimiento general (C-Eval, AGIEval, MMLU, SuperCLUE)

Informes de medios propios

Baidu Wenxin Large Model 3.5 (ERNIE 3.5)
tiene una capacidad china sobresaliente, algunas de las cuales superan el rendimiento de GPT-4; la capacidad integral es ligeramente inferior a GPT-4, pero la capacidad promedio supera a chatgpt

inserte la descripción de la imagen aquí

SuperCLUE: un punto de referencia completo para los modelos grandes generales chinos

Dirección de evaluación: https://github.com/CLUEbenchmark/SuperCLUE
inserte la descripción de la imagen aquí

C-Eval: evaluación chino-inglés (presentada por la Universidad de Tsinghua)

论文: Una suite de evaluación de chino multidisciplinar de varios niveles para modelos básicos
C-Eval: Una suite de evaluación de chino multidisciplinar de varios niveles para modelos básicos

Clasificación actual (23.06.27)

Esta lista demuestra la poderosa y precisa capacidad de respuesta de GPT-4 en preguntas difíciles, ciencia, tecnología, ingeniería y matemáticas (STEM).
Y chatglm está muy por delante en humanidades y ciencias sociales.
inserte la descripción de la imagen aquí

contenido del conjunto de datos

Los temas específicos son los siguientes:

Los cuatro círculos representan:
Humanidades y
Ciencias Sociales
STEMson las abreviaturas de las siglas en inglés de las cuatro disciplinas de Ciencia, Tecnología, Ingeniería y Matemáticas.
Estas materias 不同颜色representan cuatro niveles de dificultad: secundaria, preparatoria, universidad y profesional.
inserte la descripción de la imagen aquí

Volumen de datos y preguntas de ejemplo

inserte la descripción de la imagen aquí

Resultados de la evaluación en el documento

Método de evaluación, API o modelo de código abierto (pesos)
inserte la descripción de la imagen aquí

AGIEval: evaluación de chino e inglés de Microsoft

论文: AGIEval (centrado en el ser humano): un punto de referencia centrado en el ser humano para evaluar modelos básicos.

El punto de referencia selecciona 20 exámenes de calificación oficiales, públicos y de alto nivel para candidatos humanos comunes, incluidos los exámenes de ingreso a la universidad ordinarios (como el examen de ingreso a la universidad de China y el examen SAT de EE. UU.), exámenes judiciales y competencias de matemáticas.

contenido del conjunto de datos

律师资格El examen (exámenes de calificación de abogados),
国家公务员el examen (exámenes de funcionarios públicos)
GRE(Examen de registro de graduados) es un examen de ingreso para graduados estadounidenses)
GMAT(Prueba de admisión para graduados en administración) es un examen de ingreso para estudiantes graduados en administración de empresas).
inserte la descripción de la imagen aquí

Diferencias entre los seres humanos y los modelos dominantes extranjeros

GPT-4
inserte la descripción de la imagen aquí

MMLU: preguntas del examen de inglés

Medición de la comprensión del lenguaje multitarea masiva : 2009. Medición de la comprensión del lenguaje multitarea masiva
La prueba cubre 57 tareas, que incluyen matemáticas elementales, historia de EE. UU., ciencias de la computación, leyes y más.
Se utiliza para medir si el modelo tiene, tiene 广泛的世界知识y capacidad de resolución de problemas.

Resultados de la evaluación parcial

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
inserte la descripción de la imagen aquí

Contenido de la pregunta

Figure from the paper
STEMes un acrónimo de las siglas en inglés de las cuatro disciplinas de Ciencia, Tecnología, Ingeniería y Matemáticas.

inserte la descripción de la imagen aquí

おすすめ

転載: blog.csdn.net/imwaters/article/details/131412607