Directorio de artículos
- descripción general
- Evaluación de conjuntos de datos de conocimiento general (C-Eval, AGIEval, MMLU, SuperCLUE)
descripción general
Modelos chinos e ingleses, el rendimiento de GPT-4 es el rey, pero no se puede usar. 中文评测平台
La lista es bastante confusa, dependiendo de los hábitos de uso personal.
Resumen del modelo: https://github.com/wgwang/LLMs-In-China
Use el modelo grande directamente después de la aplicación
- Indeciso -
ChatGPT
: https://chat.openai.com/ - Baidu-Wen Xin Yi Yan: https://yiyan.baidu.com/
- 360 Zhinao: https://chat.360.cn/
- Mil preguntas de Ali-Tongyi: https://qianwen.aliyun.com/
- Tsinghua-chatGLM: chatglm.cn
- HKUST XFLYTEK-Xinghuo: https://xinghuo.xfyun.cn/
Código abierto y despliegue local
Chino: Tsinghua 6 mil millones de parámetros ChatGLM2-6B
: https://github.com/THUDM/ChatGLM2-6B
Evaluación de conjuntos de datos de conocimiento general (C-Eval, AGIEval, MMLU, SuperCLUE)
Informes de medios propios
Baidu Wenxin Large Model 3.5 (ERNIE 3.5)
tiene una capacidad china sobresaliente, algunas de las cuales superan el rendimiento de GPT-4; la capacidad integral es ligeramente inferior a GPT-4, pero la capacidad promedio supera a chatgpt
SuperCLUE: un punto de referencia completo para los modelos grandes generales chinos
Dirección de evaluación: https://github.com/CLUEbenchmark/SuperCLUE
C-Eval: evaluación chino-inglés (presentada por la Universidad de Tsinghua)
论文
: Una suite de evaluación de chino multidisciplinar de varios niveles para modelos básicos
C-Eval: Una suite de evaluación de chino multidisciplinar de varios niveles para modelos básicos
Clasificación actual (23.06.27)
Esta lista demuestra la poderosa y precisa capacidad de respuesta de GPT-4 en preguntas difíciles, ciencia, tecnología, ingeniería y matemáticas (STEM).
Y chatglm está muy por delante en humanidades y ciencias sociales.
contenido del conjunto de datos
Los temas específicos son los siguientes:
Los cuatro círculos representan:
Humanidades y
Ciencias Sociales
STEM
son las abreviaturas de las siglas en inglés de las cuatro disciplinas de Ciencia, Tecnología, Ingeniería y Matemáticas.
Estas materias 不同颜色
representan cuatro niveles de dificultad: secundaria, preparatoria, universidad y profesional.
Volumen de datos y preguntas de ejemplo
Resultados de la evaluación en el documento
Método de evaluación, API o modelo de código abierto (pesos)
AGIEval: evaluación de chino e inglés de Microsoft
El punto de referencia selecciona 20 exámenes de calificación oficiales, públicos y de alto nivel para candidatos humanos comunes, incluidos los exámenes de ingreso a la universidad ordinarios (como el examen de ingreso a la universidad de China y el examen SAT de EE. UU.), exámenes judiciales y competencias de matemáticas.
contenido del conjunto de datos
律师资格
El examen (exámenes de calificación de abogados),
国家公务员
el examen (exámenes de funcionarios públicos)
GRE
(Examen de registro de graduados) es un examen de ingreso para graduados estadounidenses)
GMAT
(Prueba de admisión para graduados en administración) es un examen de ingreso para estudiantes graduados en administración de empresas).
Diferencias entre los seres humanos y los modelos dominantes extranjeros
GPT-4
MMLU: preguntas del examen de inglés
Medición de la comprensión del lenguaje multitarea masiva : 2009. Medición de la comprensión del lenguaje multitarea masiva
La prueba cubre 57 tareas, que incluyen matemáticas elementales, historia de EE. UU., ciencias de la computación, leyes y más.
Se utiliza para medir si el modelo tiene, tiene 广泛的世界知识
y capacidad de resolución de problemas.
Resultados de la evaluación parcial
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
Contenido de la pregunta
Figure from the paper
STEM
es un acrónimo de las siglas en inglés de las cuatro disciplinas de Ciencia, Tecnología, Ingeniería y Matemáticas.