Coleção de modelos grandes de 1ª a 2ª semana de agosto de 2023

16230422:

Coleção de modelos grandes de 1ª a 2ª semana de agosto de 2023

  • 14/08/2023
  • Declaração de direitos autorais: Este artigo é o artigo original do blogueiro chszs e não deve ser reproduzido sem a permissão do blogueiro.

1. Os hackers criaram uma ferramenta maliciosa baseada em IA chamada FraudGPT

Anteriormente, alguns hackers criaram um chatbot WormGPT com "sem restrições morais" que poderia gerar automaticamente uma série de e-mails de phishing. Atualmente, outro hacker criou uma ferramenta maliciosa FraudGPT baseada em IA. O hacker afirmou na página de vendas que esta ferramenta pode ser usada para escrever código malicioso, criar "uma série de malware que não pode ser detectado por software antivírus", detectar vulnerabilidades de sites e alterar automaticamente as senhas. Acesse a biblioteca. Diz-se que mais de 3.000 compradores fizeram pedidos em menos de uma semana.

Rakesh Krishnan, pesquisador da Netenrich, afirmou que o FraudGPT está circulando na dark web desde 22 de julho, e a taxa de assinatura é de $ 200 por mês (aproximadamente RMB 1.429,46), $ 1.000 (aproximadamente RMB 7.147,3) por seis meses e $ 1.700 por ano Dólares americanos (cerca de 12.150,41 yuan).

2. A primeira exposição do modelo grande da Xiaomi

O modelo grande MiLM-6B da Xiaomi apareceu recentemente na lista de avaliação de modelos grandes C-Eval, ocupando o 9º lugar na lista C-Eval, à frente do modelo grande Tongyi Qianwen do Alibaba e ainda atrás do ChatGLM2-12B de Tsinghua.

Em abril deste ano, a Xiaomi estabeleceu formalmente a equipe de modelos em grande escala do laboratório de IA, alegando ter mais de 1.200 pessoas no campo de IA, e concluiu o treinamento e a implantação do modelo em grande escala em apenas quatro meses, com resultados notáveis. Lu Weibing, presidente da Xiaomi, disse em um discurso que adotará ativamente modelos de grande escala, mas não fará modelos de grande escala de uso geral como o Open AI, mas combinará profundidade e sinergia de negócios e usará a tecnologia AI para melhorar eficiência interna. Mas, a julgar pelas informações públicas atuais, ainda é um modelo geral grande.

3. Hongmeng 4.0 integra aplicativos de modelo grande

Em 4 de agosto, a Huawei lançou oficialmente o HarmonyOS 4.0.Um dos recursos notáveis ​​é o acesso ao modelo grande Pangu AI e a introdução de recursos de diálogo e geração de texto AI nas funções do assistente inteligente Xiaoyi. Xiaoyi pode ajudar os usuários a identificar o conteúdo e o texto na imagem, ler o conteúdo do texto em voz alta e acessar mais serviços. Com base na interação de voz original, Xiaoyi expandiu várias formas de entrada, como texto, imagens e documentos. Ao se comunicar com a IA naturalmente na forma de fala cotidiana, Xiaoyi pode ajudar automaticamente os usuários a concluir tarefas.

A Huawei construiu uma grande quantidade de dados de cena e um modelo de diálogo L1 ajustado para cenários do consumidor final e usou esse modelo no assistente inteligente Xiaoyi. A Huawei também se tornou a primeira na China a integrar recursos de modelo em larga escala em smart assistentes para Uma empresa de tecnologia que atinge os consumidores. Essa linha de pensamento é louvável.

4. OPPO apresenta modelo grande Ali Tongyi Qianwen

Em abril deste ano, a Alibaba Cloud anunciou que construirá em conjunto a infraestrutura de modelo em grande escala da OPPO com a OPPO Andes Smart Cloud. Com base em Tongyi Qianwen, concluirá o projeto de aprendizado contínuo, ajuste fino e solicitação de front-end do modelo grande e crie serviços de IA para usuários finais da OPPO. Liu Bo, presidente da OPPO China, mencionou em uma entrevista que a OPPO está pensando na aplicação de modelos grandes em telefones celulares. A equipe de assistentes Xiaobu da OPPO tem realizado muitas pesquisas no campo da tecnologia de IA, incluindo reconhecimento de fala, compreensão semântica, geração de diálogo, sistema de resposta a perguntas de conhecimento, bate-papo de domínio aberto, multimodal, etc.

5. Microsoft Research Asia explora o uso de LLM para controle industrial

Recentemente, o Microsoft Asia Research Institute propôs que o LLM pode ser usado para controle industrial, e apenas um pequeno número de amostras pode alcançar melhores resultados do que os métodos tradicionais de aprendizado por reforço. O estudo tentou usar GPT-4 para controlar sistemas de ar condicionado (HVAC), com resultados bastante positivos. A equipe de pesquisa criou um mecanismo para escolher exemplos de demonstrações de especialistas e interações históricas e também projetou um gerador de prompts que converte metas, instruções, demonstrações e estados atuais em prompts. Em seguida, use o prompt gerado para fornecer controle por meio do LLM.

6. A Nvidia lançou o modelo CALMAI

A Nvidia lançou recentemente um documento técnico sobre o modelo CALMAI em colaboração com o Instituto de Tecnologia de Israel, a Universidade Bar-Ilan e a Universidade Simon Fraser. A NVIDIA disse que o nome completo do CALM é Conditional Adversarial Latent Models (Modelos Adversariais Latentes Condicionais), que é usado para treinar personagens virtuais personalizados. Segundo a Nvidia, 10 dias de treinamento no mundo real equivalem a 10 anos de treinamento no mundo simulado. Após o treinamento, o modelo CALMAI pode simular 5 bilhões de ações humanas, abrangendo ações humanas como andar, ficar em pé, sentar, correr e lutar com espadas. O valor prático do modelo CALMAI é grande.

7. Hubei Computing Power e Big Data Industry Alliance foi estabelecida

A Hubei Computing Power and Big Data Industry Alliance foi anunciada em 11 de agosto. O primeiro lote de 20 membros da aliança inclui China Mobile, China Telecom, China Unicom, Huawei, HKUST Xunfei, Dameng Database, Wuhan University, Huazhong University of Science e Technology, Huazhong Agricultural University, Wuhan University of Technology, Wuhan Institute of Artificial Intelligence, Chinese Academy of Sciences, China Three Gorges Corporation, Hubei Data Group, Yangtze River Computing, Hubei Science and Technology Investment, Wuhan Cloud, Core Motion Technology, Lichuan Zhenye , etc., o objetivo é formar upstream e downstream A ecologia de desenvolvimento colaborativo digital de profunda integração de grandes, médios e pequenos, indústria-universidade-pesquisa e aplicação fornece forte apoio para a realização do objetivo de "construir uma base em um ano, tornando-se um impulso em dois anos e saltando em três anos" em termos de poder de computação e indústria de big data na província de Hubei.

8. Ali Byte e outros encomendam chips de $ 5 bilhões da Nvidia

Recentemente, os gigantes chineses da Internet fizeram um pedido à Nvidia por US$ 5 bilhões em chips. Baidu, ByteDance, Tencent e Alibaba fizeram pedidos de US$ 1 bilhão para a compra de cerca de 100.000 GPUs Nvidia A800, que serão entregues este ano. Os gigantes chineses da tecnologia também compraram US$ 4 bilhões em GPUs para entrega em 2024, disseram duas pessoas próximas à Nvidia. Foi relatado anteriormente que a ByteDance reservou pelo menos 10.000 GPUs Nvidia. A Byte também encomendou cerca de 70.000 chips A800 para serem entregues no próximo ano, no valor de cerca de US$ 700 milhões. O Alibaba Cloud recebeu milhares de chips H800 da Nvidia, de acordo com duas pessoas próximas ao Alibaba.

9. Lançamento da ferramenta de benchmarking de modelo grande AgentBench

Em 7 de agosto, pesquisadores da Tsinghua University, Ohio State University e University of California, Berkeley publicaram um novo artigo na plataforma de pré-impressão arXiv, apresentando o AgentBench, uma ferramenta de benchmarking multidimensional para grandes modelos de linguagem. O AgentBench consiste em 8 tarefas distintas que avaliam as capacidades de raciocínio e tomada de decisão de grandes modelos de linguagem em um ambiente generativo aberto de várias rodadas. Os testes extensivos da equipe de pesquisa de 25 modelos de linguagem em larga escala mostram que os principais modelos comerciais de linguagem em larga escala exibem fortes capacidades de agência em ambientes complexos, mas há uma diferença significativa no desempenho entre eles e seus concorrentes de código aberto.

10. A IBM planeja fornecer o modelo LLAMA 2 na plataforma watsonx

Em 9 de agosto, a IBM anunciou planos para hospedar o modelo de parâmetro Llama 2-chat de 70 bilhões da Meta no estúdio watsonx.ai, que agora está disponível para alguns clientes e parceiros para acesso antecipado. Isso se baseará na colaboração da IBM com a Meta em inovação aberta em IA, incluindo colaboração com projetos de código aberto desenvolvidos pela Meta, como a estrutura de aprendizado de máquina PyTorch e o mecanismo de consulta Presto usado em watsonx.data.

Atualmente, por meio do watsonx.ai, os criadores de IA podem usar modelos da IBM e da comunidade Hugging Face, que são pré-treinados para oferecer suporte a uma variedade de tarefas de processamento de linguagem natural (NLP), incluindo resposta a perguntas, geração e resumo de conteúdo, classificação e extração de texto . Espera-se lançar sua plataforma de ajuste de IA, fichas técnicas do modelo watsonx.ai e novos modelos de IA posteriormente.

11. Stability AI lança StableCode, um produto generativo de programação de IA

Em 8 de agosto, a Stability AI anunciou o lançamento do StableCode, seu primeiro produto AI generativo de modelo de linguagem em grande escala para codificação. O produto foi projetado para ajudar os programadores em seu trabalho diário, mas também serve como uma ótima ferramenta de aprendizado para novos desenvolvedores que estão prontos para levar suas habilidades para o próximo nível. O StableCode ajuda os desenvolvedores a programar e melhorar a eficiência usando três modelos diferentes, ou seja, o modelo básico, o modelo de instrução para resolver tarefas complexas de programação e o modelo de janela de contexto longo que fornece aos usuários sugestões de preenchimento automático de linha única e multilinha.
StableCode

12. Nvidia lança super chip GH200 Grace Hopper de última geração

Em 8 de agosto de 2023, a NVIDIA lançou a plataforma NVIDIA GH200 Grace Hopper de próxima geração, que é baseada no primeiro superchip Grace Hopper do mundo equipado com um processador HBM3e e é construída para a era da computação acelerada e IA generativa. A nova plataforma foi desenvolvida especificamente para lidar com as cargas de trabalho de IA generativas mais complexas do mundo, incluindo grandes modelos de linguagem, sistemas de recomendação e bancos de dados vetoriais, e oferecerá várias opções de configuração.

O GH200 é composto por uma CPU Grace de 72 núcleos e uma GPU Hopper de 4PFLOPS.Com a "assistência" da memória mais rápida do mundo HBM3e, a capacidade de memória chega a 141GB, fornecendo uma largura de banda de 5TB por segundo. A capacidade de cada GPU é 1,7 vezes a da GPU NVIDIA H100 e a largura de banda é 1,55 vezes a da H100. Comparado com a geração atual de produtos, o novo sistema dual GH200 tem um total de 144 núcleos de CPU Grace, GPU de desempenho de computação 8PFLOPS, memória HBM3e de 282 GB, 3,5 vezes a capacidade de memória e 3 vezes a largura de banda. Se você incluir a memória LPDDR conectada à CPU, um total de 1,2 TB de memória ultrarrápida será integrado.

13. A equipe do professor Shen Yang, da Universidade de Tsinghua, lançou o "Relatório de avaliação de desempenho abrangente de modelos de linguagem grandes"

A equipe do professor Shen Yang, da Universidade de Tsinghua, lançou o "Relatório de avaliação de desempenho abrangente de modelos de linguagem grandes" em 7 de agosto. Entre eles, Wenxin Yiyan (v2.2.0), Xunfei Xinghuo (v1.5), Tongyi Qianwen (v1.0.3), Kunlun Tiangong (v3.5), GPT-4, ChatGPT 3.5, Claude (v1 .3) Sete grandes modelos foram avaliados. O prazo para avaliação é 30 de junho de 2023.

O campo LLM está se desenvolvendo rapidamente, então a pontualidade é muito importante, mas demorou mais de um mês para escrever o relatório? incompreensível. A julgar pelo conteúdo do relatório, o escopo da avaliação é estreito e o conteúdo é mediano, como o trabalho prático de alunos de pós-graduação. Portanto, o relatório também pode ser lido no início e é de pouco valor. Por exemplo, comparar Claude v1.3 é realmente a escolha errada, e o desempenho do Claude 2 é o foco da indústria.

Acho que você gosta

Origin blog.csdn.net/chszs/article/details/132269148
Recomendado
Clasificación