Google lança Gemini para vencer GPT-4 5x mais rápido

8a084fe88e53af5f6d5e02c2d0884a5b.jpeg

Antes do início da epidemia de Covid, o Google lançou o modelo MEENA, que se tornou o melhor modelo de linguagem em grande escala do mundo em um curto período de tempo. O blog e o artigo publicados pelo Google são adoráveis, pois se comparam especificamente ao OpenAI.

Em comparação com o modelo generativo de última geração OpenAI GPT-2 existente, a capacidade do modelo MEENA é aumentada em 1,7 vezes e os dados de treinamento são aumentados em 8,5 vezes.

O treinamento deste modelo requer 14 vezes mais operações de ponto flutuante (FLOPS) do que o GPT-2, mas isso é em grande parte irrelevante, porque apenas alguns meses depois, a OpenAI lançou o GPT-3, cujos parâmetros são mais de 65 vezes maiores que os do GPT-2, o número de tokens é mais de 60 vezes maior que o do GPT-2, e FLOPS aumentou mais de 4.000 vezes. A diferença de desempenho entre os dois modelos é enorme.

O modelo MEENA gerou um memorando interno intitulado “MEENA Eats the World”, escrito por Noam Shazeer. Neste memorando, ele prevê o que o resto do mundo perceberá após o lançamento do ChatGPT. A ideia principal é que os modelos de linguagem se tornarão cada vez mais integrados nas nossas vidas de várias maneiras e dominarão os FLOPS implantados globalmente. As suas opiniões estavam à frente do seu tempo quando escreveu o memorando, mas foram ignoradas ou mesmo ridicularizadas pela maioria dos principais decisores da época.

Vamos nos desviar um pouco e ver o quão presciente Noam realmente era. Ele foi membro da equipe que escreveu o artigo original do Transformer, "Atenção é tudo que você precisa". Ele também esteve envolvido no primeiro artigo moderno da Mixture of Experts, Switch Transformer, Image Transformer e vários aspectos do LaMDA e PaLM. Uma de suas ideias que ainda não obteve ampla aceitação em um contexto mais amplo é a de 2018, a “decodificação especulativa” que detalhamos em nossa divulgação exclusiva sobre o GPT-4. A decodificação especulativa pode reduzir muitas vezes o custo da inferência.

A questão aqui é que o Google tinha todos os ingredientes para o sucesso, mas errou. Isso é algo que todo mundo obviamente já viu.

O que pode não ser óbvio é que o gigante adormecido Google acordou e está iterando em um ritmo que excede em 5x a velocidade total de FLOPS de pré-treinamento do GPT-4, esperada antes do final do ano. Com base na construção atual da infraestrutura, o seu caminho será claramente visível até ao final do próximo ano, possivelmente 100x. Quanto a saber se o Google teria a coragem de lançar publicamente esses modelos sem prejudicar a sua criatividade ou o seu modelo de negócios existente, essa é uma discussão diferente.

Hoje, queremos discutir o sistema de treinamento Gemini do Google, a velocidade de iteração do modelo Gemini, o lançamento do Viperfish (TPUv5) do Google, a competitividade futura do Google com outros laboratórios de ponta e um grupo que chamamos de “pobres em gráficos”.


G PU-R rico em placa gráfica

A aquisição de recursos computacionais tem distribuição bimodal. Apenas algumas empresas possuem mais de 20.000 placas A/H100, e pesquisadores individuais podem obter centenas ou milhares de placas para pequenos projetos. As principais dessas empresas incluem OpenAI, Google, Anthropic, Inflection, X e Meta, que possuem a maior proporção de recursos computacionais para pesquisadores. Algumas das empresas acima mencionadas, bem como várias empresas chinesas, terão mais de 100.000 placas gráficas até ao final do próximo ano, embora não tenhamos certeza sobre a proporção de investigadores na China, apenas o número de placas gráficas.

Uma das tendências mais interessantes que vimos na Bay Area é a oportunidade para os principais pesquisadores de aprendizado de máquina se gabarem de quantas placas gráficas possuem ou estão prestes a ter. Na verdade, ao longo dos últimos quatro meses, este fenómeno tornou-se tão comum que se tornou uma competição que impacta diretamente onde os principais investigadores decidem ir. A Meta, empresa que terá o segundo maior número de placas gráficas H100 do mundo, está usando isso como tática de recrutamento.


Placa gráfica G PU-P oor pobre homem

Depois, há muitas startups e pesquisadores de código aberto que enfrentam menos placas gráficas. Eles gastam muito tempo e energia tentando fazer coisas que não ajudam em nada ou que realmente não importam. Por exemplo, muitos pesquisadores passam inúmeras horas ajustando modelos usando placas gráficas que não possuem VRAM suficiente, o que é um uso extremamente ineficiente de suas habilidades e tempo.

Essas startups e pesquisadores de código aberto estão usando modelos de linguagem maiores para ajustar modelos menores para benchmarks no estilo de tabela de classificação que usam métodos de avaliação falhos que colocam mais ênfase no estilo do que na precisão ou utilidade. Muitas vezes, eles não sabem que, para que modelos abertos menores melhorem em cargas de trabalho reais, o conjunto de dados de pré-treinamento e os dados do IFT precisam ser maiores/de qualidade superior.

Sim, é importante usar sua placa gráfica de forma eficiente, mas em muitos aspectos ela é ignorada por pessoas com problemas gráficos. Eles não se importam com eficiências de escala e seu tempo não é utilizado de forma eficaz. Para um mundo que está prestes a ter mais de 3,5 milhões de placas gráficas H100 até o final do próximo ano, o que pode ser feito comercialmente em seu ambiente pobre em gráficos é amplamente irrelevante. Para aprender e experimentar, uma placa gráfica para jogos menor e mais fraca é completamente suficiente.

Pessoas pobres em gráficos ainda usam principalmente modelos densos, porque essa é a série de modelos LLAMA que Meta elegantemente coloca em suas mãos. Sem a graça de Deus Zach, a maioria dos projetos de código aberto provavelmente estaria em pior situação. Se eles realmente se importassem com a eficiência, especialmente no lado do cliente, eles executariam arquiteturas de modelos esparsos como MoE, treinariam nesses conjuntos de dados maiores e usariam laboratórios LLM de ponta como OpenAI, Anthropic, Google Deepmind) para obter decodificação especulativa.

Aqueles em desvantagem devem se concentrar no equilíbrio, aumentando os requisitos de capacidade de computação e memória para melhorar o desempenho do modelo ou a latência token a token em troca de menor largura de banda de memória, pois isso é necessário na borda. Eles deveriam se concentrar em servir com eficiência vários modelos ajustados em infraestrutura compartilhada, sem pagar o custo terrível de lotes pequenos. No entanto, eles têm se concentrado nas limitações da capacidade de memória ou na quantização excessiva, ao mesmo tempo que fecham os olhos à degradação real da qualidade.

Diferindo um pouco, a avaliação do modelo em geral é problemática. Embora tenham sido feitos muitos esforços para melhorar esta situação no mundo fechado, abrir o campo do benchmarking faz pouco sentido e quase não mede nada de útil. Por alguma razão, há uma obsessão doentia com a classificação do LLM e a memeificação de nomes bobos para modelos inúteis. Esperançosamente, os esforços de código aberto serão redirecionados para avaliação, decodificação especulativa, MoE, dados IFT abertos e conjuntos de dados de pré-treinamento limpos com mais de 1 trilhão de rótulos, caso contrário, o código aberto não será capaz de competir com os gigantes comerciais.

Embora os Estados Unidos e a China consigam continuar a liderar, as startups europeias e os supercomputadores apoiados pelo governo, como Júlio Verne, simplesmente não conseguirão competir. Na falta de capacidade para fazer investimentos em grande escala e optando por permanecer pobres em termos gráficos, a Europa ficará para trás neste jogo. Até mesmo vários países do Médio Oriente estão a investir mais dinheiro em infra-estruturas de grande escala para promover a IA.

No entanto, os gráficos ruins não se limitam às startups. Algumas das empresas de IA mais conhecidas, como HuggingFace, Databricks (MosaicML) e Together, também fazem parte dos pobres gráficos. Na verdade, desde o número de pesquisadores de nível mundial por GPU até a relação entre o número de GPUs e a ambição/demanda potencial dos clientes, eles são provavelmente o grupo mais pobre. Estas empresas têm investigadores de classe mundial, mas o seu crescimento é limitado pelas capacidades relativamente baixas dos sistemas que utilizam. Essas empresas têm visto uma enorme demanda por parte das empresas para treinar modelos do mundo real, e milhares de placas gráficas H100 chegaram, mas isso não é suficiente para capturar a maior parte da participação de mercado.

A Nvidia está conquistando sua participação no mercado com o número multiplex de placas gráficas que possui em seu serviço DGX Cloud e em vários supercomputadores internos. O DGX Cloud da Nvidia fornece modelos pré-treinados, estruturas de processamento de dados, bancos de dados vetoriais e personalização, mecanismos de inferência otimizados, APIs e suporte de especialistas da NVIDIA para ajudar as empresas a adaptar modelos para seus usos personalizados. O serviço também já oferece suporte a diversas grandes empresas de setores como SaaS, seguros, manufatura, farmacêutico, software de produção e automotivo. Embora nem todos os clientes tenham sido anunciados, até mesmo Amgen, Adobe, CCC, ServiceNow, Accenture, AstraZeneca, Getty Images, Shutterstock, Morningstar, Evozyne, Insilico Medicine, Quantiphi, InstaDeep, Oxford Nanopore, Peptone, Relation Therapeutics, ALCHEMAB Therapeutics e The list de clientes públicos como a Runway também é bastante impressionante.

Essa é uma lista mais longa do que a de outros jogadores, e a Nvidia tem muitas outras parcerias não reveladas. Para ser claro, a receita dos serviços de nuvem DGX da Nvidia desses clientes anunciados é desconhecida, mas dada a escala dos gastos com nuvem da Nvidia e a construção interna de supercomputadores, parece provável que mais serviços podem/serão adquiridos da nuvem da Nvidia, e não apenas o que HuggingFace , Juntos e Databricks podem oferecer.

As centenas de milhões arrecadados por HuggingFace e Together significam que eles continuarão com problemas gráficos e não serão capazes de treinar LLMs N-1 que podem servir como modelos básicos para os clientes fazerem ajustes finos. Isso significa que eles não acabarão com uma grande parcela de empresas que hoje têm acesso aos serviços da Nvidia.

O HuggingFace, em particular, tem a maior reputação do setor e precisa aproveitar isso para investir quantias significativas de dinheiro e construir mais modelos, personalização e recursos de inferência. As suas rondas de financiamento mais recentes registaram avaliações demasiado elevadas para obter o investimento de que necessitavam para competir. A classificação do HuggingFace mostra o quão cegos eles são, pois estão enganando o movimento de código aberto, fazendo-o criar um monte de modelos que são inúteis no uso no mundo real.

A Databricks (MosaicML) pode pelo menos conseguir acompanhar seus dados e conectividade corporativa. O problema é que eles precisam acelerar o ritmo de gastos se quiserem ter alguma esperança de atender mais de 7.000 clientes. A aquisição da MosaicML por US$ 1,3 bilhão é uma aposta significativa nesta vertical, mas eles também precisarão investir quantias semelhantes em infraestrutura. Infelizmente para o Databricks, eles não podem pagar pela placa gráfica com estoque. Eles precisam fazer uma oferta massiva por meio de sua próxima rodada privada/IPO e usar esse dinheiro vivo para aumentar significativamente seus investimentos em hardware.

O argumento econômico não se sustenta aqui porque eles precisam construir antes que os clientes cheguem, porque a Nvidia está investindo dinheiro em seus serviços. Para ser claro, muitas pessoas compraram grandes quantidades de recursos informáticos e não recuperaram o seu dinheiro (Cohere, Arábia Saudita, Emirados Árabes Unidos), mas este é um pré-requisito para a concorrência.

As empresas de treinamento e operações de inferência (Databricks, HuggingFace e Together) estão atrás de seus principais concorrentes, que também são as principais fontes de seus recursos computacionais. O próximo maior operador de modelo personalizado é simplesmente a API de ajuste fino da OpenAI.

A questão é que, da Meta à Microsoft e às startups, eles são apenas um canal de dinheiro para a conta bancária da Nvidia.

Alguém pode nos salvar da escravidão da Nvidia?

Sim, existe um salvador em potencial.


Google - a empresa mais rica do mundo em recursos computacionais


Embora o Google use placas gráficas internamente e também venda muitas delas por meio do GCP, eles ainda têm alguns trunfos. Isso inclui Gemini e um modelo de próxima geração que já começou a treinar. A sua vantagem mais importante é uma infra-estrutura eficiente e incomparável. O Google terá mais placas gráficas TPUv5 do que OpenAI, Meta, CoreWeave, Oracle e Amazon juntas.

Acho que você gosta

Origin blog.csdn.net/specssss/article/details/132545639
Recomendado
Clasificación