Código grande modelo luta com deuses, WizardCoder lança um novo modelo, superando todos os modelos de código fechado/aberto, exceto o mais recente GPT-4

Fonte | Coração da Máquina
Autor | Du Wei, Zi Wen

Nos últimos dias, o campo de grandes modelos de código ganhou vida novamente!

O primeiro é o Code Llama, um grande modelo dedicado ao código-fonte aberto Meta e é gratuito para uso comercial. O efeito também é muito bom, a taxa de aprovação do Code Llama (pass@1) nos conjuntos de dados de código HumanEval e MBPP ultrapassa facilmente o GPT-3.5, e a pass@1 da versão "Unnatural" está próxima do GPT-4 original (OpenAI este ano Dados do relatório técnico GPT-4 de março).

Portal de teste de pesquisa de modelo grande

Portal GPT-4 (livre de parede, pode ser testado diretamente, se você encontrar um ponto de aviso do navegador avançado/continuar visitando):
Olá, GPT4!

Apenas um dia após o lançamento do Code Llama, pesquisadores da organização Phind venceram o GPT-4 na avaliação HumanEval com um Code Llama-34B ajustado. Seus dois modelos, Phind-CodeLlama-34B-v1 e Phind-CodeLlama-34B-Python-v1, alcançaram 67,6% e 69,5% pass@1 no HumanEval respectivamente, obviamente ultrapassando os 67% do GPT-4 original.

No entanto, apenas mais um dia depois, a versão aprimorada do Code Llama de Phind tem outro oponente forte. Desta vez é o WizardCoder, o grande modelo específico de programação da equipe WizardLM.
A equipe lançou a versão mais recente do modelo baseado em Code Llama, WizardCoder 34B, ajustado usando Evol-Instruct .
Os resultados mostram que seu pass@1 no HumanEval atingiu surpreendentes 73,2%, superando o GPT-4 original, ChatGPT-3.5 e Claude 2, Bard . Além disso, as versões WizardCoder 13B e 7B estarão disponíveis em breve.

A versão específica desta vez é WizardCoder-Python-34B-V1.0, e a figura abaixo é uma comparação com HumanEval pass@1 dos principais modelos de código fechado e de código aberto. Com exceção da API GPT-4 mais recente (82,0% após testes pela equipe), o modelo supera todos os modelos de código fechado e de código aberto, incluindo a API ChatGPT mais recente (72,5%) e o GPT-4 original (67%) .

Portanto, WizardCoder-Python-34B-V1.0 se tornou o mais recente modelo de código-fonte aberto SOTA.

A equipe WizardLM também afirmou que o desempenho do WizardCoder-Python-34B-V1.0 é 100% reproduzível.

Aqueles que desejam experimentar o WizardCoder-Python-34B-V1.0 podem tentar a seguinte demonstração.

Alguém disse que depois de tentar a demonstração, parece que o COT (cadeia de pensamento) funciona antes de fornecer o código exato, o que é ótimo.

Outros disseram que o WizardCoder-Python-34B-V1.0 cometeu menos erros do que o GPT-4.

No entanto, executar WizardCoder-Python-34B-V1.0 requer um Mac com mais de 32 GB.

Mais novidades da equipe WizardLM

Não é novidade para o WizardCoder se tornar um membro da família de códigos, mas a equipe WizardLM sempre trará surpresas diferentes.

AlpacaEval, um grande placar de modelo de linguagem lançado por Stanford, é um benchmark de avaliação totalmente automático baseado em LLM, que é mais rápido e confiável. Muitos modelos famosos como GPT-4, ChatGPT, etc. estão na lista. Entre eles, o WizardLM 13B V1.2 ainda está em sexto lugar.

WizardLM é um modelo de linguagem em grande escala que pode gerar texto com base em instruções complexas propostas por Can Xu et al. em abril de 2023. Ele usa um algoritmo chamado Evol-Instruct para gerar e reescrever dados de instruções, aumentando assim a complexidade e a variedade das instruções. Existem três versões do WizardLM: 7B, 13B e 30B.

O grande modelo de código de ajuste fino de instruções lançado por WizardLM ——WizardCoder quebrou a posição de monopólio do modelo de código fechado e é superior a Claude da Anthropic e Bard do Google em HumanEval e HumanEval +.

O que vale mais a pena mencionar é que o WizardCoder também melhorou muito o nível SOTA do modelo de código aberto, criando um progresso incrível, melhorando o desempenho em 22,3% e se tornando um novo "líder" no campo de código aberto.

A seguir estão muitos modelos lançados pela equipe WizardLM no GitHub, que são as pegadas da inovação e melhoria contínua da equipe.

Depois do WizardLM e do WizardCoder, a equipe do WizardLM lançou o WizardMath em meados de agosto deste ano. A equipe também tuitou que tem trabalhado na solução de problemas complexos em diversas disciplinas.

Vamos esperar e ver que surpresas a equipe WizardLM nos trará no futuro.