Há rumores de que o Google começou a testar o Gemini em pequena escala: ele tem 5 vezes mais poder de computação do que o treinamento do GPT-4, e suas capacidades multimodais foram bastante melhoradas.

        A última notícia é que, de acordo com três pessoas com conhecimento direto, o Google permitiu que um pequeno número de empresas usassem uma versão inicial do software Gemini, o que significa que o Google está prestes a incorporá-lo em serviços ao consumidor e vendê-lo para empresas através de os serviços de computação em nuvem da empresa.

        Na conferência Google I/O em maio deste ano, Pichai anunciou o PaLM 2, um grande modelo que compara o GPT-4, mas também mencionou que o foco da pesquisa do Google está mudando para o Gemini, que é um modelo multimodal e eficiente de aprendizado de máquina. ferramentas.

        Para desenvolver o Gemini mais rapidamente, o Google fundiu dois laboratórios internos de inteligência artificial em abril deste ano: Google Brain e DeepMind. Este projeto conjunto do Gemini consiste em uma equipe de pesquisadores dos dois laboratórios. Assuma a liderança.

        Nos meses seguintes, o mistério do Gemini foi desvendado aos poucos: geralmente sabemos que o modelo foi desenvolvido após a fusão do Google Brain e do DeepMind e terá trilhões de parâmetros como o GPT-4; o Gemini foi treinado durante o treinamento Demonstrando capacidades multimodais nunca vistas em modelos anteriores; uma vez ajustado e rigorosamente testado em termos de segurança, o Google também fornecerá versões Gemini de diferentes tamanhos e funções para garantir a implantação em diferentes produtos, aplicações e dispositivos.

        A última notícia é que, de acordo com três pessoas com conhecimento direto, o Google permitiu que um pequeno número de empresas usassem uma versão inicial do software Gemini, o que significa que o Google está prestes a incorporá-lo em serviços ao consumidor e vendê-lo para empresas através de os serviços de computação em nuvem da empresa.


Pode superar o GPT-4?

        Recentemente, os analistas da SemiAnalysis Dylan Patel e Daniel Nishball trouxeram mais revelações sobre o Gemini.Dylan Patel expôs a arquitetura do GPT-4 em 11 de julho deste ano.

foto

        Dylan Patel e Daniel Nishball revelaram que a primeira geração Gemini deveria ser treinada em TPUv4, e esses pods não integravam o número máximo de chips - 4.096 chips, mas usavam um número menor de chips para garantir a confiabilidade e confiabilidade dos chips. trocável. Se todos os 14 pods forem usados ​​com utilização de campo de máscara (MFU) razoável por cerca de 100 dias, os FLOPS de hardware para treinar Gemini excederão 1e26.

        No entanto, Gemini começou a treinar no novo Pod TPUv5, com um poder de computação de até ~1e26 FLOPS, que é 5 vezes maior que o poder de computação usado para treinar o GPT-4.

        Além disso, o banco de dados de treinamento do Gemini é composto por 9,36 bilhões de minutos de legendas de vídeo no Youtube, e o tamanho total do conjunto de dados é aproximadamente o dobro do GPT-4.

        Gemini consiste em um conjunto de grandes modelos de linguagem, podendo usar arquitetura MOE e tecnologia de amostragem especulativa para gerar tokens antecipadamente por meio de pequenos modelos e transferi-los para modelos grandes para avaliação, melhorando assim a velocidade geral de inferência do modelo.

        Em termos de recursos, o Gemini oferece suporte a tudo, desde chatbots até resumo de texto ou geração de texto bruto (como rascunhos de e-mail, letras de músicas ou artigos de notícias) com base em uma descrição do que o usuário deseja ler. Além disso, o Gemini ajuda os engenheiros de software a escrever códigos e gerar imagens originais com base nos requisitos do usuário.

        De acordo com um relatório anterior do The Information, o Google espera que o Gemini melhore muito as capacidades de geração de código dos desenvolvedores de software para acompanhar o assistente de código GitHub Copilot da Microsoft.

        Os funcionários do Google também discutiram o uso do Gemini para realizar funções como análise de gráficos, como pedir ao modelo para interpretar o significado de um gráfico completo e usar comandos de texto ou voz para navegar em um navegador da web ou outro software.

        Uma pessoa que testou o GPT-4 disse que o Gemini tem uma vantagem sobre o GPT-4 em pelo menos um aspecto: além da informação pública na web, o Gemini aproveita as grandes quantidades de dados proprietários que o Google obtém dos seus produtos de consumo. Portanto, o modelo deve ser particularmente preciso na compreensão da intenção do usuário para uma consulta específica e parece produzir menos respostas incorretas (ou seja, alucinações).


Oportunidade para os serviços do Google Cloud se atualizarem

        Desde que a OpenAI começou a vender acesso ao GPT-4 no início deste ano, o Google tem disponibilizado ativamente seu modelo comercial existente para mais desenvolvedores nos últimos meses.

        Em maio deste ano, o Google anunciou que forneceria PaLM 2 aos clientes do Google Cloud por meio da Vertex AI. Outra pessoa familiarizada com o assunto disse que o Google planeja fornecer “Gemini” às empresas por meio do serviço Google Cloud Vertex AI, incluindo versões de diferentes tamanhos, para que os desenvolvedores possam optar por pagar por uma versão menos complexa para lidar com tarefas simples, ou comprar Uma versão pequena o suficiente para rodar em dispositivos pessoais.

        A pessoa acrescentou que o Google está atualmente permitindo que os desenvolvedores usem a versão relativamente grande do Gemini, mas não a maior versão em desenvolvimento, que está mais próxima do GPT-4.

foto

        Para o Google, o lançamento do Gemini é um grande negócio. O Google gastou muitos recursos computacionais e mão de obra desenvolvendo-o como uma ferramenta para competir com OpenAI, esperando que o software não apenas promovesse seu negócio de aluguel de servidores em nuvem, mas também fornecesse suporte para novos recursos, desde o chatbot Bard até o software Workspace.

        A OpenAI e outras empresas de software como a Databricks, que ajuda as empresas a desenvolver e utilizar inteligência artificial, também prevêem que irão gerar receitas significativas a partir da IA ​​conversacional, informou a The Information. No entanto, a ascensão de grandes modelos de código aberto pode diminuir o foco no Google e na OpenAI na venda de acesso aos seus modelos proprietários.

        Talvez um dia você acorde e Gêmeos tenha sido oficialmente lançado, e seu mistério seja completamente desvendado.

        O Google pode mudar as coisas com o Gemini? Só temos que ser pacientes e esperar.

Acho que você gosta

Origin blog.csdn.net/leyang0910/article/details/132911829
Recomendado
Clasificación