Orca LLM: Simule o processo de raciocínio do ChatGPT

Recomendação: Use o editor de cena NSDT para criar rapidamente cenas de aplicativos 3D

introduzir

No campo dos grandes modelos de linguagem (LLMs), há uma busca contínua de melhorar as capacidades dos pequenos modelos sem comprometer a sua eficiência. A abordagem tradicional é usar a aprendizagem por imitação, onde um modelo menor aprende com a saída gerada por um modelo de base grande (LFM). No entanto, esta abordagem é prejudicada por vários desafios, incluindo sinais de imitação limitados de resultados superficiais de LFM, dados de treinamento homogêneos em pequena escala e falta de avaliação rigorosa. Isso geralmente resulta em modelos menores que imitam o estilo do LFM em vez do processo de inferência.

O artigo Orca: Progressive Learning from Complex Interpretation Traces of GPT-4 apresenta o Orca , um modelo de 1,3 bilhão de parâmetros projetado para imitar o processo de inferência de modelos de base grandes (LFMs), como o GPT-4. Ao contrário dos modelos tradicionais de grandes idiomas (LLMs), o Orca utiliza uma abordagem de treinamento exclusiva que combina aprendizagem progressiva e assistência do professor para superar a lacuna de capacidade entre modelos de alunos menores e maiores.

métodos de treinamento


O processo de treinamento da orca consiste em duas fases.

Na primeira fase, as orcas foram treinadas no FLAN-5M, que incluiu melhorias no ChatGPT. Esta AT de nível médio ajuda a preencher a lacuna de capacidade entre o Orca e o GPT-4, que possui tamanhos de parâmetros muito maiores. Ao aproveitar os recursos do ChatGPT, o Orca se beneficia de um melhor desempenho de aprendizagem por imitação.

Na segunda fase, as orcas foram treinadas no FLAN-1M, que incluiu melhorias no GPT-4. Esta abordagem de aprendizagem progressiva segue um paradigma de aprendizagem curricular no qual os alunos aprendem com exemplos mais simples antes de passarem para exemplos mais desafiadores. Ao expor gradualmente as orcas a raciocínios cada vez mais complexos e a explicações passo a passo, o modelo melhorou as suas capacidades de raciocínio e imitação.

Vantagens e contribuições


O método de treinamento do Orca tem diversas vantagens em relação ao LLM tradicional.

Primeiro, aborda a questão da lacuna de competências, aproveitando modelos de professores de nível médio, permitindo que a Orca aprenda com fontes mais capazes. Foi demonstrado que esta abordagem melhora o desempenho da aprendizagem por imitação em modelos de alunos menores.

Em segundo lugar, o aspecto de aprendizagem progressiva do treinamento Orca permite que o modelo construa gradualmente o seu conhecimento. Começando com exemplos mais simples e introduzindo gradualmente outros mais complexos, o Orca constrói uma base mais sólida para a geração de inferências e explicações.

Além disso, a capacidade do Orca de imitar o processo de inferência de LFMs como o GPT-4 abre a possibilidade de melhorar o desempenho em uma variedade de tarefas. Ao aproveitar os ricos sinais fornecidos pelas trajetórias interpretativas e processos de pensamento passo a passo do GPT-4, a Orca obteve insights valiosos e melhorou suas capacidades.

Referência de desempenho

O Orca tem um bom desempenho em benchmarks complexos de inferência zero-shot. Ele supera os modelos tradicionais de última geração com ajuste de instrução, como o Vicuna-13B, em mais de 100% em benchmarks como Big-Bench Hard (BBH) e mais de 42% no AGIEval. Além disso, a Orca obteve as mesmas pontuações do ChatGPT nos benchmarks BBH e demonstrou desempenho competitivo em exames profissionais e acadêmicos como SAT, LSAT, GRE e GMAT. Isso é especialmente impressionante considerando que essas são configurações de disparo zero, sem mindchaining, e o Orca ainda é competitivo, embora esteja atrás do GPT-4.

Impacto e direções futuras

O desenvolvimento de Orcas representa um avanço significativo na área de LLM. Ao aprender com sinais ricos e imitar o processo de inferência do LFM, o Orca é capaz de realizar tarefas de inferência complexas com alto grau de precisão. Isto tem implicações abrangentes, especialmente em áreas que exigem raciocínio complexo e resolução de problemas.

Além disso, este estudo mostra que aprender com explicações passo a passo do modelo de IA é uma direção promissora para melhorar as capacidades do modelo. Isso abre novos caminhos para pesquisa e desenvolvimento na área de LL.M.

para concluir


Orca propõe um novo método para treinar grandes modelos de linguagem que combina aprendizagem progressiva e assistência do professor para melhorar a aprendizagem por imitação. Ao aproveitar modelos de professores de nível médio e expor gradualmente os modelos dos alunos a exemplos mais complexos, o Orca supera lacunas de capacidade e melhora as capacidades de raciocínio e geração de explicações. As descobertas do artigo contribuem para o avanço da tecnologia de aprendizagem por imitação e têm um impacto no desenvolvimento de futuros modelos de linguagem.

Link original: Orca LLM: Simulando o processo de raciocínio do ChatGPT (mvrlink.com)

Acho que você gosta

Origin blog.csdn.net/ygtu2018/article/details/132841777
Recomendado
Clasificación