Resumo dos modelos populares de grandes linguagens (LLMs) em 2023

Grandes Modelos (LLMs) são modelos de inteligência artificial projetados para compreender e gerar a linguagem humana.

Ao treinar em grandes quantidades de dados de texto, eles podem realizar uma ampla variedade de tarefas, incluindo resumo de texto, tradução, análise de sentimento e muito mais. Esses modelos são frequentemente baseados em arquiteturas de aprendizagem profunda, como transformadores, que lhes permitem demonstrar capacidades impressionantes em uma variedade de tarefas de processamento de linguagem natural.

Realizações notáveis foram alcançadas no campo dos grandes modelos, tanto no país como no estrangeiro. Empresas, instituições e universidades em vários países e regiões estão a investir activamente recursos e esforços para promover o desenvolvimento de tecnologia de grandes modelos.

Por exemplo, no exterior, a OpenAI lançou o ChatGPT, um modelo de linguagem em grande escala baseado em GPT-3.5. Devido ao seu excelente desempenho, o ChatGPT e o modelo de linguagem em grande escala por trás dele rapidamente se tornaram um tema quente no campo da inteligência artificial, atraindo a atenção de um grande número de pesquisadores e desenvolvedores científicos. Preste atenção e participe.

Na China, a partir de 31 de agosto de 2023, uma série de grandes empresas e instituições modelo anunciaram oficialmente que os seus serviços estão online e abertos a toda a sociedade. Atualmente, os grandes modelos de oito empresas e instituições, incluindo Baidu, Zhipu, Baichuan, Byte, SenseTime e Academia Chinesa de Ciências (Zidong Taichu), estão entre o primeiro lote de listas de registro e podem ser lançados oficialmente e fornecer serviços para o público.

Para permitir que todos vejam o desenvolvimento do campo de modelos grandes de forma mais intuitiva, compilamos os principais modelos grandes no país e no exterior para sua referência e uso.

Resumo de grandes modelos estrangeiros

IA aberta

Bate-papoGPT

ChatGPT é um chatbot de código aberto desenvolvido no modelo de linguagem GPT-3. Ele pode se comunicar com os usuários em conversas em linguagem natural. ChatGPT é treinado em uma ampla variedade de tópicos e pode ajudar em tarefas que vão desde responder perguntas, fornecer informações e gerar conteúdo criativo. Ele foi projetado para ser amigável e útil e pode se adaptar a diferentes estilos e contextos de conversação. Com ChatGPT você pode ter conversas interessantes e informativas sobre uma variedade de tópicos, incluindo as últimas notícias, assuntos atuais, hobbies e interesses pessoais.

Artigo: https://www.aminer.cn/pub/5ed0e04291e011915d9e43ee

GPT-4

Em março de 2023, a OpenAI lançou o grande modelo multimodal pré-treinado GPT-4, que pode aceitar entrada de imagem e texto e gerar respostas de texto corretas. Experimentos mostram que o GPT-4 tem desempenho em nível humano em uma variedade de testes profissionais e benchmarks acadêmicos. Por exemplo, ele passou no Mock Bar Exam com uma pontuação entre os 10% melhores participantes do teste; em comparação, o GPT-3.5 obteve uma pontuação entre os 10% piores.

Artigo: https://www.aminer.cn/pub/641130e378d68457a4a2986f

Google

LaMDA

LaMDA é uma série de modelos baseados em Transformer projetados especificamente para o diálogo. Esses modelos têm até 137 bilhões de parâmetros e são treinados usando 1,56 trilhão de dados de conversas públicas. LaMDA permite conversas fluidas sobre uma variedade de tópicos. Ao contrário dos chatbots tradicionais, não está restrito a caminhos predefinidos e pode adaptar-se de forma adaptativa com base na direção da conversa.

Artigo: https://www.aminer.cn/pub/61ea249b5244ab9dcbabc7ac

Palma

PaLM é um modelo de linguagem com 540 bilhões de parâmetros capaz de lidar com uma variedade de tarefas, incluindo aprendizagem e raciocínio complexos. Ele supera modelos de linguagem de última geração e humanos em testes de linguagem e raciocínio. O sistema PaLM usa um método de aprendizagem de poucos passos, que pode generalizar a partir de uma pequena quantidade de dados e simular aproximadamente a maneira como os humanos aprendem e aplicam o conhecimento para resolver novos problemas.

Artigo: https://www.aminer.cn/pub/624d050e5aee126c0f4a7920

mT5

Multilingual T5 (mT5) é um modelo Transformer de texto para texto que consiste em 13 bilhões de parâmetros. É treinado no corpus mC4, abrangendo 101 idiomas como amárico, basco, xhosa, zulu, etc. O mT5 é capaz de atingir níveis de desempenho de última geração em muitas tarefas de processamento de linguagem natural entre idiomas.

Artigo: https://www.aminer.cn/pub/5f92ba5191e011edb3573ba5

Mente Profunda

Esquilo

O modelo de linguagem Gopher da DeepMind é mais preciso do que os grandes modelos de linguagem existentes em tarefas como responder perguntas sobre tópicos profissionais, como ciências e humanidades, e é comparável a eles em outras tarefas, como raciocínio lógico e matemática. Gopher tem 280 bilhões de parâmetros para ajustar, tornando-o maior que o GPT-3 da OpenAI, que tem apenas 175 bilhões de parâmetros.

Artigo: https://www.aminer.cn/pub/61b2c0246750f848a14300ff

Chinchila

O Chinchilla usa o mesmo orçamento computacional do Gopher, mas apenas 70 bilhões de parâmetros e quatro vezes mais dados. Ele supera modelos como Gopher, GPT-3, Jurassic-1 e Megatron-Turing NLG em muitas tarefas de avaliação downstream. Ele usa significativamente menos recursos de computação para ajuste fino e inferência, facilitando muito o uso em aplicativos downstream.

Artigo: https://www.aminer.cn/pub/63a413f690e50fcafd6d190a

Pardal

Sparrow é um chatbot desenvolvido pela DeepMind que foi projetado para responder corretamente às perguntas dos usuários e, ao mesmo tempo, reduzir o risco de respostas inseguras e inadequadas. Sparrow é motivado por resolver o problema de modelos de linguagem que produzem resultados incorretos, tendenciosos ou potencialmente prejudiciais. O Sparrow é treinado usando o julgamento humano, o que o torna mais útil, correto e menos prejudicial do que os modelos de linguagem pré-treinados.

Artigo: https://www.aminer.cn/pub/63365e7c90e50fcafd1a2bdd

Antrópico

Cláudio

Claude é um assistente de conversação baseado em IA e com processamento avançado de linguagem natural. Seu objetivo é ser um ajudante prestativo, inofensivo e honesto. É treinado usando uma tecnologia chamada IA Constitucional. Durante o processo de treinamento, ele é restringido e recompensado por meio de autosupervisão do modelo e outros métodos de segurança de IA para exibir as características comportamentais mencionadas anteriormente.

Artigo: https://www.aminer.cn/pub/63a1750c90e50fcafd1f38d7

Laboratórios AI21

jurássico

Jurassic-1 é uma plataforma de desenvolvimento lançada pela AI21 Labs, fornecendo o modelo de linguagem mais avançado para construção de aplicações e serviços. Oferece dois modelos, incluindo uma versão Jumbo, que é o maior e mais complexo modelo de linguagem de uso geral lançado até hoje. Esses modelos são flexíveis e capazes de gerar texto semelhante ao humano e resolver tarefas complexas, como resposta a perguntas e classificação de texto.

Artigo: https://www.aminer.cn/pub/62620f1c5aee126c0f686cf5

NVIDIA

Megatron-Turing NLG

O modelo Megatron-Turing Natural Language Generation (MT-NLG) é um modelo de linguagem baseado em Transformer com 530 bilhões de parâmetros, tornando-o o maior e mais poderoso modelo desse tipo. Ele supera os modelos de última geração anteriores em configurações de zero, um e poucos disparos e demonstra precisão incomparável na conclusão de tarefas de linguagem natural, como previsão, raciocínio de senso comum, compreensão de leitura, raciocínio de linguagem natural e desambiguação de sentido de palavras. .

Artigo: https://www.aminer.cn/pub/61f753205aee126c0f9c2149

Resumo dos grandes modelos nacionais

Baidu

Ernie 3.0 Titã

Lançado conjuntamente pelo Baidu e Pengcheng Labs, possui parâmetros de 260B e é bom na compreensão e geração de linguagem natural. Ele foi treinado em dados não estruturados massivos e alcançou resultados excelentes em mais de 60 tarefas de PNL, como compreensão de leitura automática, classificação de texto e similaridade semântica. Além disso, o Titan tem um bom desempenho em 30 benchmarks de poucos e zero disparos, demonstrando sua capacidade de generalizar em uma variedade de tarefas downstream usando pequenas quantidades de dados rotulados.

Artigo: https://www.aminer.cn/pub/61c53a815244ab9dcbcaf3b5

Ernie Bot

Os testes internos do projeto “Ernie Bot” foram concluídos em março. Ernie Bot é um modelo de linguagem de inteligência artificial, semelhante ao ChatGPT da OpenAI, capaz de compreensão de linguagem, geração de linguagem e geração de texto para imagem. A tecnologia faz parte de uma corrida global para desenvolver inteligência artificial generativa.

Artigo: https://www.aminer.cn/pub/60e441e0dfae54001623c105

Espectro de sabedoria AI

GLM

Uma estrutura geral de pré-treinamento baseada em preenchimento de lacunas autorregressivo. Ao aprender mecanismos de atenção bidirecionais e unidirecionais simultaneamente em uma estrutura unificada, o modelo aprende simultaneamente a representação de contexto e a geração autoregressiva no estágio de pré-treinamento. Na fase de ajuste fino para tarefas downstream, diferentes tipos de tarefas downstream são unificados através do formulário cloze, alcançando assim um modelo de pré-treinamento comum para todas as tarefas de processamento de linguagem natural.

Artigo: https://www.aminer.cn/pub/622819cdd18a2b26c7ab496a

GLM-130B

GLM-130B é um modelo denso bidirecional de código aberto e bilíngue aberto (chinês e inglês) com 130 bilhões de parâmetros.A arquitetura do modelo adota o General Language Model (GLM). Ele foi projetado para suportar inferência de modelos com centenas de bilhões de parâmetros em um servidor A100 (40G * 8) ou V100 (32G * 8). Sob o esquema de quantização INT4, o GLM-130B pode realizar inferência eficiente em servidores RTX 3090 (24G * 4) ou GTX 1080 Ti (11G * 8) quase sem perda no desempenho do modelo.

Artigo: https://www.aminer.cn/pub/633e476890e50fcafde59595

Bate-papoGLM-6B

ChatGLM-6B é um modelo de linguagem conversacional de código aberto que suporta respostas bilíngues a perguntas em chinês e inglês e é otimizado para chinês. O modelo é baseado na arquitetura General Language Model (GLM) e possui 6,2 bilhões de parâmetros. Combinado com a tecnologia de quantização de modelo, os usuários podem implantá-la localmente em placas gráficas de consumo (é necessário um mínimo de 6 GB de memória de vídeo no nível de quantização INT4). ChatGLM-6B usa a mesma tecnologia do ChatGLM e é otimizado para perguntas, respostas e diálogos em chinês. Após treinamento bilíngue em chinês e inglês com identificadores de cerca de 1T, complementado por ajuste fino supervisionado, autoatendimento de feedback, aprendizado de reforço de feedback humano e outras tecnologias, o parâmetro ChatGLM-6B de 6,2 bilhões, embora não tão grande quanto o modelo de 100 bilhões, reduziu muito o custo de inferência e melhorou. Melhorou a eficiência e já pode gerar respostas bastante consistentes com as preferências humanas.

Huawei

PanGu-Alfa

A Huawei desenvolveu um modelo chinês equivalente ao GPT-3 da OpenAI chamado PanGu-Alpha. O modelo é baseado em 1,1 TB de recursos chineses, incluindo livros, notícias, mídias sociais e páginas da web, e contém mais de 200 bilhões de parâmetros, 25 milhões a mais que o GPT-3. PanGu-Alpha pode completar com eficiência uma variedade de tarefas linguísticas, como resumo de texto, resposta a perguntas e geração de diálogos.

Artigo: https://www.aminer.cn/pub/6087f2ff91e011e25a316d31

Todos

M6

Em junho de 2021, o Alibaba e a Universidade de Tsinghua publicaram um novo estudo, propondo um modelo de pré-treinamento chinês M6 com uma escala de parâmetros de 100 bilhões, que era o maior modelo de pré-treinamento multimodal chinês na época. Os aplicativos do M6 são adequados para uma ampla gama de tarefas, incluindo geração de descrição de produto, perguntas e respostas visuais, resposta a perguntas, geração de poesia chinesa, etc. Os resultados experimentais mostram que o M6 supera uma série de benchmarks poderosos. Além disso, os pesquisadores também projetaram especificamente tarefas de geração de imagens guiadas por texto e demonstraram que o M6 ajustado pode criar imagens de alta qualidade com alta resolução e detalhes ricos.

Artigo: https://www.aminer.cn/pub/60c320b19e795e9243fd1672

Tongyi Qianwen

Em abril de 2023, o Alibaba lançou "Tongyi Qianwen", um modelo de linguagem em grande escala com funções como diálogo multi-rodada, criação de direitos autorais, raciocínio lógico, compreensão multimodal e suporte multilíngue.

Apenas alguns dias atrás, o Alibaba lançou mais uma vez um modelo de linguagem baseado no modelo de parâmetros de 7 bilhões de Tongyi Qianwen Qwen-7B: Qwen-VL, que suporta entrada de imagem e texto e possui recursos de compreensão de informações multimodais. Além dos recursos básicos de reconhecimento de imagem e texto, descrição, perguntas e respostas e diálogo, também possui novos recursos, como posicionamento visual e compreensão de texto em imagens.

Artigo: https://www.aminer.cn/pub/64e826d63fda6d7f06c3150c

Xangai

novo diariamente

Em abril de 2023, a SenseTime lançou o modelo em grande escala "RiRixin", incluindo o modelo de processamento de linguagem natural "Consulta", o modelo gráfico Vincent "Miahua" e a plataforma de geração de vídeo humano digital "Ruying". Este também é outro produto semelhante ao ChatGPT de um grande fabricante nacional depois de Baidu Wenxinyiyan e Alibaba Tongyi Qianwen.

Recentemente, a equipe do grande modelo de Shangtang também propôs o grande modelo vicentino RAPHAEL. Consulte o documento para obter detalhes.

Artigo: https://www.aminer.cn/pub/647572e0d68f896efa7b79ab

Além dos modelos acima, os modelos domésticos incluem o Modelo Inteligente Baichuan, o modelo grande Skylark de Douyin, o modelo "Zidong Taichu" da Academia Chinesa de Ciências, o modelo grande Scholar do Laboratório de Inteligência Artificial de Xangai, o modelo grande ABAB da MiniMax, etc.

Em 2023, novos modelos continuam a surgir no país e no estrangeiro, e temos testemunhado o crescimento explosivo de grandes modelos. À medida que os grandes modelos continuam a evoluir e a ser otimizados, podemos esperar que o seu desempenho em áreas como processamento de linguagem natural, reconhecimento de imagem e reconhecimento de voz continue a melhorar e até mesmo a ultrapassar os níveis humanos.

Isto promoverá a aplicação generalizada da tecnologia de inteligência artificial em vários setores, desde o médico ao financeiro, dos transportes à educação, e os grandes modelos tornar-se-ão o núcleo dos dispositivos e serviços inteligentes. Nossas vidas se tornarão mais inteligentes, convenientes e personalizadas.

É claro que o desenvolvimento futuro de grandes modelos também enfrenta alguns desafios e questões, como privacidade e segurança. Porém, com o avanço da tecnologia e a expansão das aplicações, esses problemas serão gradativamente resolvidos e superados.

Em suma, o tempo dirá!

Como usar o ChatPaper?

O método de utilização do ChatPaper é muito simples: abra a página inicial do AMiner e entre na página do ChatPaper na barra de navegação no topo da página ou no canto inferior direito.
Insira a descrição da imagem aqui

Na página ChatPaper, você pode optar por ter uma conversa baseada em um único documento ou uma conversa baseada em todo o banco de dados (banco de dados de documentos pessoais), você pode optar por fazer upload de um PDF local ou pesquisar documentos diretamente no AMiner.