Los últimos resultados de la evaluación del modelo doméstico a gran escala

Clasificación: Clasificación | C-Eval: una suite de evaluación china multidisciplinar de varios niveles para modelos básicos

Clasificación - C-Eval

Los resultados para diferentes sujetos y los resultados promedio de las pruebas se muestran a continuación. Los resultados provienen de indicaciones de disparo cero o pocos disparos ---- tenga en cuenta que pocos disparos no son necesariamente mejores que cero disparos, por ejemplo, cero disparos es mejor para muchos modelos ajustados por instrucciones en nuestras propias ejecuciones. En los casos en que probamos los modelos en configuraciones de cero y pocos disparos, informamos la configuración con una precisión promedio general más alta. (Los detalles del modelo, incluido el formato de solicitud, se pueden ver haciendo clic en cada modelo)

Le invitamos a enviar los resultados de la prueba de su modelo a C-Eval en cualquier momento (ya sea una evaluación de disparo cero o de pocos disparos está bien). Haga clic  aquí  para enviar sus resultados (sus resultados no serán públicos en la tabla de clasificación a menos que lo solicite).

(Nota: * indica que el modelo fue evaluado por el equipo de C-Eval, mientras que otros resultados se obtienen a través de los envíos de los usuarios).

# Modelo Creador Día de entrega Promedio promedio (difícil) PROVENIR Ciencias Sociales Humanidades Otros
0 ChatGLM2 Tsinghua y Zhipu.AI 2023/6/25 71.1 50 64.4 81.6 73.7 71.3
1 GPT-4* IA abierta 2023/5/15 68.7 54,9 67.1 77.6 64.5 67.8
2 SenseChat SenseTime 2023/6/20 66.1 45.1 58 78.4 67.2 68.8
3 AiLMe-100B v1 APUS 2023/7/19 65.2 55.3 65.4 72.3 62.4 61.1
4 PasanteLM SenseTime & Shanghai AI Laboratory (igual contribución) 2023/6/1 62.7 46 58.1 76.7 64.6 56.4
5 Instruir-DLM-v2 DeepLang IA 2023/7/2 56,8 37.4 50.3 71.1 59.1 53.4
6 DFM2.0 AIShabla y SJTU 2023/7/10 55.4 38.3 47.5 64.6 58.7 58.2
7 ChatGPT* IA abierta 2023/5/15 54.4 41.4 52,9 61.8 50,9 53.6
8 Claude-v1.3* antrópico 2023/5/15 54.2 39 51,9 61.7 52.1 53.7
9 TeleChat-E Corporación China Telecom Ltd. 2023/7/4 54.2 41.5 51.1 63.1 53.8 52.3
10 CPM ModeloMejor 2023/7/5 54.1 37.5 47.2 62.7 58.4 54.8
11 Baichuan-13B Baichuán 2023/7/9 53.6 36.7 47 66.8 57.3 49.8
12 DLM-v2 DeepLang IA 2023/7/2 53.5 35.3 47 64.7 56.4 52.1
13 InterLM-7B Laboratorio de IA de Shanghái y SenseTime 2023/7/5 52.8 37.1 48 67.4 55.4 45,8
14 ChatGLM2-6B Tsinghua y Zhipu.AI 2023/6/24 51.7 37.1 48.6 60.5 51.3 49.8
15 EduChat ECNU 2023/7/18 49.3 33.1 43.5 59.3 53.7 46.6
dieciséis SabioGPT 4Paradigma Inc. 2023/6/21 49.1 39.1 46.6 54.6 45,8 51.8
17 AndesLM-13B AndesLM 2023/6/18 46 29.7 38.1 61 51 41,9
18 Claude-instant-v1.0* antrópico 2023/5/15 45,9 35.5 43.1 53.8 44.2 45.4
19 WestlakeLM-19B Universidad de Westlake y Westlake Xinchen (Scietrain) 2023/6/18 44.6 34,9 41.6 51 44.3 44.5
20 bloomz-mt-176B* gran ciencia 2023/5/15 44.3 30.8 39 53 47.7 42.7
21 Yuyán Fuxi AI Lab, NetEase 2023/6/20 44.3 30.6 39.2 54.5 46.4 42.2
22 GLM-130B* Tsinghua 2023/5/15 44 30.7 36.7 55,8 47.7 43
23 baichuan-7b Baichuán 2023/6/14 42.8 31.5 38.2 52 46.2 39.3
24 CuboLM-13B CubeLM 2023/6/12 42.5 27,9 36 52.4 45,8 41.8
25 Chino-Alpaca-33B Cui, Yang y Yao 2023/6/7 41.6 30.3 37 51.6 42.3 40.3
26 Chino-Alpaca-Plus-13B Cui, Yang y Yao 2023/6/5 41.5 30.5 36.6 49.7 43.1 41.2
27 ChatGLM-6B* Tsinghua y Zhipu.AI 2023/5/15 38,9 29.2 33.3 48.3 41.3 38
28 LLaMA-65B* Meta 2023/5/15 38.8 31.7 37.8 45.6 36.1 37.1
29 Chino LLaMA-13B* Cui et al. 2023/5/15 33.3 27.3 31.6 37.2 33.6 32.8
30 MUSGO* Fudán 2023/5/15 33.1 28.4 31.6 37 33.4 32.1
31 Alpaca China-13B* Cui et al. 2023/5/15 30,9 24.4 27.4 39.2 32.5 28

Supongo que te gusta

Origin blog.csdn.net/javastart/article/details/131877367
Recomendado
Clasificación