Uma breve história do grande modelo de código aberto, um importante promotor do chatGPT!

Os modelos de linguagem grande (LLMs) revolucionaram o campo da inteligência artificial e seu impacto de longo prazo está se fortalecendo. O ChatGPT da OpenAI, uma forma altamente avançada de inteligência artificial conversacional, teve grandes avanços nos últimos meses, gerando uma competição acirrada entre empresas e pesquisadores. Muitos estão correndo para desenvolver os sistemas de IA de conversação mais avançados, competindo para rivalizar com a excelência da OpenAI.

O Google contribuiu por meio da Bard, que faz ajustes finos no PaLM-E, e a openAI desenvolveu um modelo de linguagem de grande escala GPT-4 com recursos multimodais. Além disso, a Meta desenvolveu seu próprio LLM, chamado LLaMa, como uma resposta à pressão por LLMs de código aberto. Muitas informações relacionadas aos LLMs de última geração surgiram recentemente, até porque a Meta optou por compartilhar apenas a arquitetura do LLaMa com a comunidade de pesquisa para fins não comerciais.

Curiosamente, os pesos do LLaMa acabaram vazando, permitindo que qualquer pessoa, não apenas especialistas ou entidades comerciais, experimentasse esses modelos de alto desempenho por conta própria.

A Meta lançou o LLaMa em 24 de fevereiro de 2023, com o objetivo principal de fornecer à comunidade de pesquisa acadêmica acesso a este LLM superior. A equipe apresentou quatro versões do LLaMa com diferentes parâmetros: 7B, 13B, 33B e 65B. Como outros grandes modelos de linguagem, o LLaMa gera texto recursivamente, alimentando-o com uma sequência de palavras e prevendo a próxima palavra. De acordo com seu artigo, o LLaMa-13B supera o GPT-3 (175B) na maioria dos benchmarks, enquanto o LLaMa-65B é comparável aos melhores modelos, como Chinchilla-70B (DeepMind) e PaLM-540B (Google).

O modelo LLaMa está disponível publicamente por meio do Facebook Research GitHub para uso não comercial pela comunidade de pesquisa. No entanto, apenas o modelo não treinado está disponível e os pesos treinados estão disponíveis separadamente por meio de um formulário do Google para fins de pesquisa. Vale a pena notar que o treinamento do LLaMa nessa escala requer 2.048 GPUs A100, cada uma custando cerca de US$ 15.000. Isso mostra os enormes recursos necessários para criar tal modelo.

Além da sobrecarga, ter um conjunto de dados grande e limpo é crucial para o treinamento do LLaMa. Esses modelos exigem trilhões de tokens para treinar, com 1,4 trilhão de tokens para LLaMa-65B e LLaMa-33B e 1 trilhão de tokens para LLaMa-7B. Ao usar esses LLMs pré-treinados, o ajuste fino pode ser feito para obter modelos de diálogo capazes de interação humana, como uma réplica do ChatGPT.

Um desafio importante, no entanto, é obter os dados necessários para ajustar os modelos sem gastar milhões de dólares em intervenções manuais. Isso é o que o OpenAI usou para treinar o InstructGPT (o modelo por trás do ChatGPT).

Pesquisadores da Universidade de Stanford descobriram uma alternativa barata para ajustar o LLaMa sem gastar muito dinheiro. Eles apresentaram o Alpaca-7B, um modelo ajustado a partir do modelo LLaMa-7B, usando uma demonstração de 52.000 instruções seguidas. Um problema-chave com modelos de acompanhamento de instruções, como o ChatGPT, é gerar desinformação, propagar estereótipos sociais e gerar linguagem prejudicial.

Para resolver esses problemas, a OpenAI criou o InstructGPT gastando milhões de dólares avaliando respostas "ruins" usando feedback humano (RLHF). No entanto, a OpenAI não divulga publicamente o conjunto de dados usado para treinar o InstructGPT, tornando a replicação desses modelos um desafio. Pesquisadores da Universidade de Stanford abordaram esse problema usando o Da-Vinci-003 construído sobre o InstructGPT para gerar 52.000 exemplos de sequência de instruções para 175 tarefas iniciais autoguiadas.

De acordo com a equipe de Stanford, custou cerca de US$ 500 para gerar os 52.000 exemplos de instruções a seguir e cerca de US$ 100 para treinar o modelo usando oito GPUs A100 de 80 GB em apenas três horas. Apesar do tamanho menor do modelo, o Alpaca e o Da-Vinci-003 têm desempenho semelhante na avaliação humana em termos de qualidade de resposta.

Além disso, o Vicuna é construído sobre o modelo LLaMa original e diz-se que funciona quase tão bem quanto o ChatGPT da OpenAI ou o Bard do Google em tarefas de acompanhamento de instruções, tudo a um custo geral de treinamento de apenas US$ 300. Duas versões do Vicuna foram lançadas para uso não comercial: parâmetros 7B e 13B. Uma grande atualização no Vicuna em comparação com os modelos anteriores é um aumento no comprimento máximo do contexto, de 512 tokens em Alpaca para 2048 tokens.

No entanto, uma limitação desses modelos é seu grande tamanho e altos requisitos de memória. A implantação desses modelos requer altos custos energéticos e financeiros. Essa limitação levou alguns desenvolvedores a acreditar que apenas empresas com infraestrutura de grande escala podem realmente se beneficiar desses modelos. No entanto, o trabalho de Georgi Gerganov no llama.ccp mudou isso.

O código llama.ccp de Gerganov leva os LLMs a um novo nível ao converter LLMs de processo originalmente escritos em Python para C/C++. C/C++ é uma linguagem de programação de baixo nível que não requer compilação de máquina e, portanto, é executada mais rapidamente. Além disso, o código oferece suporte à quantização de 4 bits, um processo de conversão de números de ponto flutuante de 32 bits, como pesos e saídas de ativação, para o número de ponto fixo de 8 bits mais próximo, permitindo modelos menores e inferência mais rápida.

Graças às contribuições de Gerganov e outros, além dos pesos vazados do LLaMa, agora é possível executar qualquer modelo seguidor de instruções (como Alpaca ou Vicuna) diretamente em um laptop. Vários projetos detalham o uso do llama.ccp para executar o Vicuna em dispositivos pessoais, abrindo caminho para avanços acessíveis de IA de código aberto sem restrições significativas de recursos.

ler

original em inglês

recomendar

Sem público

Recomendação de bom livro de IA

A IA está mudando a cada dia que passa, mas um prédio alto não pode ser separado de uma boa fundação. Você está interessado em aprender sobre os princípios e a prática da inteligência artificial? Não procure mais! Nosso livro sobre princípios e práticas de IA é o recurso perfeito para quem quer obter informações sobre o mundo da IA. Escrito pelos principais especialistas da área, este guia abrangente abrange tudo, desde os fundamentos do aprendizado de máquina até técnicas avançadas para a construção de sistemas inteligentes. Quer você seja um iniciante ou um experiente praticante de IA, este livro o ajudará. Então, por que esperar?

Os princípios e práticas da inteligência artificial abrangem de forma abrangente os clássicos de vários sistemas importantes de inteligência artificial e ciência de dados

Peking University Press, Principles and Practice of Artificial Intelligence Inteligência artificial e ciência de dados desde a entrada até a proficiência Explicação detalhada dos princípios do algoritmo de aprendizado profundo de aprendizado de máquina

Acho que você gosta

Origin blog.csdn.net/robot_learner/article/details/131201824
Recomendado
Clasificación