WizardKM: capacitando grandes modelos de linguagem para seguir instruções complexas

WizardKM: capacitando grandes modelos de linguagem para seguir instruções complexas

Introdução

O autor mostra que os dados de instrução na comunidade nlp atual são relativamente simples, e a maioria deles são tarefas de resumo e tradução, mas em cenários reais, as pessoas têm várias necessidades, o que limita a versatilidade do modelo.
O autor mencionou que, se a qualidade desses dados de qa rotulados por humanos for relativamente alta, liberará muito bem o desempenho do modelo, mas há alguns problemas na obtenção dos dados agora:

  1. Rotular esse tipo de dados é muito demorado e caro.
  2. Devido ao profissionalismo limitado do rotulador, é difícil obter dados de alta qualidade.

Com base nos problemas acima, o autor propõe um método que pode construir uma grande quantidade de dados de alta qualidade em um curto período de tempo.
insira a descrição da imagem aqui
Conforme mostrado na figura acima, o autor chama esse método de Evol-Instruct.Partindo de um 1+1 igual a quê, o autor expande os dados de duas direções: a direção da profundidade e a direção da largura. Em seguida, envie a pergunta para o ChatGPT para obter o par de dados qa e, em seguida, filtre os dados.

Para verificar a eficácia desse método, os dados gerados pelo método acima foram ajustados pelo Llama7B, chamado WizardLM, e comparados com Alpaca e Vicunha. O autor gera 250 mil dados por meio do método Evol-Instrcut por meio dos dados de inicialização do Alpaca 175. Por uma questão de justiça, o autor amostra 70 mil dados nesses dados para comparação.

Descobertas de experimentos:

  1. Os dados gerados pelo Evol-instruct superam os do ShareGPT.
  2. Sob instruções de teste complexas, os anotadores preferem a saída do WizardLM à do ChatGPT.

referência

https://arxiv.org/pdf/2304.12244.pdf

Acho que você gosta

Origin blog.csdn.net/qq_18555105/article/details/130389959
Recomendado
Clasificación