O Relatório do Modelo Global de Tsinghua é lançado, Wenxin ocupa o primeiro lugar em Chinês, Chinês e Matemática

Recentemente, a estrutura de avaliação de capacidade abrangente de modelos grandes do SuperBench desenvolvida pelo Centro de Pesquisa de Modelos Básicos da Universidade Tsinghua e pelo Laboratório Zhongguancun lançou oficialmente a versão de março de 2024 do "Relatório de avaliação de capacidade abrangente de modelos grandes do SuperBench" . A avaliação incluiu um total de 14 modelos representativos no país e no exterior . Os resultados mostraram que o Wenxinyiyan 4.0 teve um bom desempenho e estava próximo do nível dos modelos internacionais de primeira classe, e a lacuna diminuiu gradualmente .

Por exemplo, na avaliação da capacidade de alinhamento humano , Wenxinyiyan 4.0 teve um bom desempenho e ficou em primeiro lugar no país. Na avaliação do raciocínio chinês e da língua chinesa, Wenxinyiyan estava muito à frente, com uma clara lacuna entre ele e outros modelos de compreensão chinesa . Xin Yi Yan 4.0 tem uma liderança clara, liderando o segundo colocado GLM-4  por 0,41 pontos . Os modelos da série GPT-4 têm desempenho ruim, classificando-se nos níveis médio e inferior, e estão mais de 0 pontos atrás do primeiro Wen Xin Yi Yan. 4,0 pontos 1 ponto .

Em termos de habilidade matemática na compreensão semântica , Wenxinyiyan 4.0 e Claude-3 ocupam o primeiro lugar no mundo ;  os modelos da série GPT-4 ocupam o quarto e o quinto lugar , e as pontuações dos outros modelos estão concentradas em torno de 55 pontos , significativamente atrás do primeiro escalão; Em termos de capacidade de compreensão de leitura na compreensão semântica, Wenxinyiyan 4.0 ultrapassou GPT-4 Turbo, Claude-3 e GLM-4 para ocupar o primeiro lugar.

Em termos de avaliação de segurança, que é mais importante para as empresas na escolha de modelos grandes, o modelo doméstico Wenxinyiyan 4.0 teve um desempenho brilhante, superando os modelos da série GPT-4 de classe mundial e Claude-3 para obter a pontuação mais alta (89,1 pontos). - 3 ocupa apenas o quarto lugar.

É importante notar que Wen Xinyiyan não é apenas excelente em capacidades técnicas, mas também lidera na implementação de aplicativos. Desde que Wen Xin Yi Yan foi lançado em 16 de março do ano passado , o número de usuários ultrapassou 200 milhões e o número de chamadas diárias de API também ultrapassou 200 milhões .

Na "Batalha dos 100 Modelos" de 2023 , os grandes modelos nacionais competirão ferozmente . Quem é o verdadeiro líder? Embora existam várias listas de avaliação de capacidade de modelos no país e no exterior, sua qualidade é desigual e suas classificações variam significativamente. Quando olhamos a lista para referência, devemos ler mais avaliações de instituições e universidades autorizadas para fornecer julgamento científico para a seleção de grandes modelos .

Linus assumiu a responsabilidade de evitar que os desenvolvedores do kernel substituíssem tabulações por espaços. Seu pai é um dos poucos líderes que sabe escrever código, seu segundo filho é o diretor do departamento de tecnologia de código aberto e seu filho mais novo é um núcleo de código aberto. contribuidor Robin Li: A linguagem natural se tornará uma nova linguagem de programação universal. O modelo de código aberto ficará cada vez mais atrás da Huawei: levará 1 ano para migrar totalmente 5.000 aplicativos móveis comumente usados ​​para Hongmeng. vulnerabilidades de terceiros. O editor de rich text Quill 2.0 foi lançado com recursos, confiabilidade e desenvolvedores. A experiência foi bastante melhorada. fonte de Laoxiangji não é o código, as razões por trás disso são muito comoventes. O Google anunciou uma reestruturação em grande escala.
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/6852546/blog/11053975
Recomendado
Clasificación