GPT-4 ficando mais burro? A precisão caiu de 97,6% para 2,4%

Um estudo " Como o comportamento do ChatGPT está mudando com o tempo? ", uma colaboração entre a Universidade de Stanford e a Universidade da Califórnia, em Berkeley, mostrou que, em vez de melhorar com o tempo, a capacidade de resposta do GPT-4 piorou com as atualizações do modelo de linguagem.

A equipe de pesquisa avaliou as versões de março de 2023 e junho de 2023 do GPT-3.5 e GPT-4 em quatro tarefas diferentes: resolução de problemas matemáticos, resposta a perguntas delicadas/perigosas, geração de código e raciocínio visual.

Eles avaliaram o modelo usando um conjunto de dados de 500 perguntas em que o modelo de teste tinha que determinar se um determinado número inteiro era primo ou não. Os resultados mostraram que o GPT-4 (versão de março de 2023) teve um desempenho muito bom na identificação de números primos, respondendo corretamente a 488 questões, com uma taxa de acerto de 97,6%. Mas o GPT-4 (versão de junho de 2023) teve um desempenho muito ruim nessas perguntas, respondendo apenas 12 perguntas corretamente, uma taxa de precisão de apenas 2,4%.

Por outro lado, o GPT-3.5 (junho de 2023) tem um desempenho muito melhor nessa tarefa do que o GPT-3.5 (março de 2023).

A equipe de pesquisa também usou "Chain-of-Thought" (cadeia de pensamento) para ajudar o modelo a raciocinar, fazendo a pergunta "17077 é um número primo? Pense passo a passo". Mas a versão mais recente do GPT-4 não apenas respondeu "não" incorretamente, mas também falhou em gerar etapas intermediárias para resolver o problema.

O GPT-4 estava menos disposto a responder a perguntas delicadas em junho do que em março. Além disso, GPT-4 e GPT-3.5 geraram mais erros de formatação em junho em comparação com março, e a qualidade caiu significativamente.

Para GPT-4, a porcentagem de código gerado diretamente executável caiu de 52,0% em março para 10,0% em junho; GPT-3.5 também caiu de 22,0% para 2,0%. Há também um pequeno aumento na redundância para ambos os modelos, com GPT-4 aumentando em 20%.

Para inferência visual, tanto o GPT-4 quanto o GPT-3.5 mostram pequenas melhorias. Mas para mais de 90% das consultas de raciocínio visual, as versões de março e junho produziram resultados idênticos. O desempenho geral desses serviços também é baixo: 27,4% para GPT-4 e 12,2% para GPT-3.5. E em algumas questões específicas, o GPT-4 teve um desempenho pior em junho do que em março.

Segundo os pesquisadores, esses resultados mostram que o comportamento do "mesmo" serviço LLM pode mudar significativamente em um período de tempo relativamente curto, destacando a necessidade de monitoramento contínuo da qualidade do LLM.

"Planejamos atualizar os resultados apresentados neste documento em um estudo contínuo de longo prazo, avaliando regularmente o desempenho do GPT-3.5, GPT-4 e outros LLMs em diferentes tarefas.

Mais detalhes podem ser encontrados no relatório completo .

Acho que você gosta

Origin www.oschina.net/news/250147/gpt-4-response-quality-study
Recomendado
Clasificación