O Relatório do Modelo Global de Tsinghua é lançado, Wenxin ocupa o primeiro lugar em Chinês, Chinês e Matemática

[Antevisão da transmissão ao vivo] Os modelos grandes substituirão os programadores? "

Recentemente, a estrutura de avaliação de capacidade abrangente de modelos grandes do SuperBench desenvolvida pelo Centro de Pesquisa de Modelos Básicos da Universidade Tsinghua e pelo Laboratório Zhongguancun lançou oficialmente a versão de março de 2024 do "Relatório de avaliação de capacidade abrangente de modelos grandes do SuperBench" . A avaliação incluiu um total de 14 modelos representativos no país e no exterior . Os resultados mostraram que o Wenxinyiyan 4.0 teve um bom desempenho e estava próximo do nível dos modelos internacionais de primeira classe, e a lacuna diminuiu gradualmente .

Por exemplo, na avaliação da capacidade de alinhamento humano , Wenxinyiyan 4.0 teve um bom desempenho e ficou em primeiro lugar no país. Na avaliação do raciocínio chinês e da língua chinesa, Wenxinyiyan estava muito à frente, com uma clara lacuna entre ele e outros modelos de compreensão chinesa . Xin Yi Yan 4.0 tem uma liderança clara, liderando o segundo colocado GLM-4 por 0,41 pontos . Os modelos da série GPT-4 têm desempenho ruim, classificando-se nos níveis médio e inferior, e estão mais de 0 pontos atrás do primeiro Wen Xin Yi Yan. 4,0 pontos 1 ponto .

Em termos de habilidade matemática na compreensão semântica , Wenxinyiyan 4.0 e Claude-3 ocupam o primeiro lugar no mundo ; os modelos da série GPT-4 ocupam o quarto e o quinto lugar , e as pontuações dos outros modelos estão concentradas em torno de 55 pontos , significativamente atrás do primeiro escalão; Em termos de capacidade de compreensão de leitura na compreensão semântica, Wenxinyiyan 4.0 ultrapassou GPT-4 Turbo, Claude-3 e GLM-4 para ocupar o primeiro lugar.

Em termos de avaliação de segurança, que é mais importante para as empresas na escolha de modelos grandes, o modelo doméstico Wenxinyiyan 4.0 teve um desempenho brilhante, superando os modelos da série GPT-4 de classe mundial e Claude-3 para obter a pontuação mais alta (89,1 pontos). - 3 ocupa apenas o quarto lugar.

É importante notar que Wen Xinyiyan não é apenas excelente em capacidades técnicas, mas também lidera na implementação de aplicativos. Desde que Wen Xin Yi Yan foi lançado em 16 de março do ano passado , o número de usuários ultrapassou 200 milhões e o número de chamadas diárias de API também ultrapassou 200 milhões .

Na "Batalha dos 100 Modelos" de 2023 , os grandes modelos nacionais competirão ferozmente . Quem é o verdadeiro líder? Embora existam várias listas de avaliação de capacidade de modelos no país e no exterior, sua qualidade é desigual e suas classificações variam significativamente. Quando olhamos a lista para referência, devemos ler mais avaliações de instituições e universidades autorizadas para fornecer julgamento científico para a seleção de grandes modelos .

O Relatório do Modelo Global de Tsinghua é lançado, Wenxin ocupa o primeiro lugar em Chinês, Chinês e Matemática

Acho que você gosta