Clasificación: Clasificación | C-Eval: una suite de evaluación china multidisciplinar de varios niveles para modelos básicos
Clasificación - C-Eval
Los resultados para diferentes sujetos y los resultados promedio de las pruebas se muestran a continuación. Los resultados provienen de indicaciones de disparo cero o pocos disparos ---- tenga en cuenta que pocos disparos no son necesariamente mejores que cero disparos, por ejemplo, cero disparos es mejor para muchos modelos ajustados por instrucciones en nuestras propias ejecuciones. En los casos en que probamos los modelos en configuraciones de cero y pocos disparos, informamos la configuración con una precisión promedio general más alta. (Los detalles del modelo, incluido el formato de solicitud, se pueden ver haciendo clic en cada modelo)
Le invitamos a enviar los resultados de la prueba de su modelo a C-Eval en cualquier momento (ya sea una evaluación de disparo cero o de pocos disparos está bien). Haga clic aquí para enviar sus resultados (sus resultados no serán públicos en la tabla de clasificación a menos que lo solicite).
(Nota: * indica que el modelo fue evaluado por el equipo de C-Eval, mientras que otros resultados se obtienen a través de los envíos de los usuarios).
# | Modelo | Creador | Día de entrega | Promedio | promedio (difícil) | PROVENIR | Ciencias Sociales | Humanidades | Otros |
0 | ChatGLM2 | Tsinghua y Zhipu.AI | 2023/6/25 | 71.1 | 50 | 64.4 | 81.6 | 73.7 | 71.3 |
1 | GPT-4* | IA abierta | 2023/5/15 | 68.7 | 54,9 | 67.1 | 77.6 | 64.5 | 67.8 |
2 | SenseChat | SenseTime | 2023/6/20 | 66.1 | 45.1 | 58 | 78.4 | 67.2 | 68.8 |
3 | AiLMe-100B v1 | APUS | 2023/7/19 | 65.2 | 55.3 | 65.4 | 72.3 | 62.4 | 61.1 |
4 | PasanteLM | SenseTime & Shanghai AI Laboratory (igual contribución) | 2023/6/1 | 62.7 | 46 | 58.1 | 76.7 | 64.6 | 56.4 |
5 | Instruir-DLM-v2 | DeepLang IA | 2023/7/2 | 56,8 | 37.4 | 50.3 | 71.1 | 59.1 | 53.4 |
6 | DFM2.0 | AIShabla y SJTU | 2023/7/10 | 55.4 | 38.3 | 47.5 | 64.6 | 58.7 | 58.2 |
7 | ChatGPT* | IA abierta | 2023/5/15 | 54.4 | 41.4 | 52,9 | 61.8 | 50,9 | 53.6 |
8 | Claude-v1.3* | antrópico | 2023/5/15 | 54.2 | 39 | 51,9 | 61.7 | 52.1 | 53.7 |
9 | TeleChat-E | Corporación China Telecom Ltd. | 2023/7/4 | 54.2 | 41.5 | 51.1 | 63.1 | 53.8 | 52.3 |
10 | CPM | ModeloMejor | 2023/7/5 | 54.1 | 37.5 | 47.2 | 62.7 | 58.4 | 54.8 |
11 | Baichuan-13B | Baichuán | 2023/7/9 | 53.6 | 36.7 | 47 | 66.8 | 57.3 | 49.8 |
12 | DLM-v2 | DeepLang IA | 2023/7/2 | 53.5 | 35.3 | 47 | 64.7 | 56.4 | 52.1 |
13 | InterLM-7B | Laboratorio de IA de Shanghái y SenseTime | 2023/7/5 | 52.8 | 37.1 | 48 | 67.4 | 55.4 | 45,8 |
14 | ChatGLM2-6B | Tsinghua y Zhipu.AI | 2023/6/24 | 51.7 | 37.1 | 48.6 | 60.5 | 51.3 | 49.8 |
15 | EduChat | ECNU | 2023/7/18 | 49.3 | 33.1 | 43.5 | 59.3 | 53.7 | 46.6 |
dieciséis | SabioGPT | 4Paradigma Inc. | 2023/6/21 | 49.1 | 39.1 | 46.6 | 54.6 | 45,8 | 51.8 |
17 | AndesLM-13B | AndesLM | 2023/6/18 | 46 | 29.7 | 38.1 | 61 | 51 | 41,9 |
18 | Claude-instant-v1.0* | antrópico | 2023/5/15 | 45,9 | 35.5 | 43.1 | 53.8 | 44.2 | 45.4 |
19 | WestlakeLM-19B | Universidad de Westlake y Westlake Xinchen (Scietrain) | 2023/6/18 | 44.6 | 34,9 | 41.6 | 51 | 44.3 | 44.5 |
20 | bloomz-mt-176B* | gran ciencia | 2023/5/15 | 44.3 | 30.8 | 39 | 53 | 47.7 | 42.7 |
21 | Yuyán | Fuxi AI Lab, NetEase | 2023/6/20 | 44.3 | 30.6 | 39.2 | 54.5 | 46.4 | 42.2 |
22 | GLM-130B* | Tsinghua | 2023/5/15 | 44 | 30.7 | 36.7 | 55,8 | 47.7 | 43 |
23 | baichuan-7b | Baichuán | 2023/6/14 | 42.8 | 31.5 | 38.2 | 52 | 46.2 | 39.3 |
24 | CuboLM-13B | CubeLM | 2023/6/12 | 42.5 | 27,9 | 36 | 52.4 | 45,8 | 41.8 |
25 | Chino-Alpaca-33B | Cui, Yang y Yao | 2023/6/7 | 41.6 | 30.3 | 37 | 51.6 | 42.3 | 40.3 |
26 | Chino-Alpaca-Plus-13B | Cui, Yang y Yao | 2023/6/5 | 41.5 | 30.5 | 36.6 | 49.7 | 43.1 | 41.2 |
27 | ChatGLM-6B* | Tsinghua y Zhipu.AI | 2023/5/15 | 38,9 | 29.2 | 33.3 | 48.3 | 41.3 | 38 |
28 | LLaMA-65B* | Meta | 2023/5/15 | 38.8 | 31.7 | 37.8 | 45.6 | 36.1 | 37.1 |
29 | Chino LLaMA-13B* | Cui et al. | 2023/5/15 | 33.3 | 27.3 | 31.6 | 37.2 | 33.6 | 32.8 |
30 | MUSGO* | Fudán | 2023/5/15 | 33.1 | 28.4 | 31.6 | 37 | 33.4 | 32.1 |
31 | Alpaca China-13B* | Cui et al. | 2023/5/15 | 30,9 | 24.4 | 27.4 | 39.2 | 32.5 | 28 |