Bate-papo aprofundado丨Quais artigos valem a pena ler por trás do grande modelo de "Zidong Taichu" (1)

Original: Tan Jing

Ninguém quer esperar, ninguém quer ficar para trás.

Papéis novos estão na moda e se tornam um dos símbolos do rápido desenvolvimento de grandes modelos... As pessoas usam o verbo errante "escovar papéis" para substituir outra ação bastante séria, "ler papéis".

Os artigos são considerados "livros didáticos" e "novos conhecimentos", e escrever artigos no site arXiv tornou-se uma rotina diária.

Mais do que isso, os leitores de artigos também se expandiram rapidamente de pesquisadores científicos para investidores, pesquisa de investimentos, empreendedores, profissionais de IA e mídia de tecnologia.

Aqueles que estão ansiosos para entrar na indústria "querem muito aprender a morrer";

Aqueles que não usaram o modelo grande ficaram "descontentes";

Do partido A ao partido B, as pessoas escreveram "inconciliados" em seus rostos, e alguns até mudaram de "estável" para "faminto" e de "esperar para ver" para "prático".

Um fabricante doméstico de nuvem inteligente no noroeste de Pequim agrupou "hardware + indicadores de negócios" em uma cotação de preço, que se tornou uma cotação de modelo em grande escala; Demonstração: como implantar o LLaMA de modelo grande de código aberto.

Devido à restrição dos termos de código aberto, o LLaMA não pode ser usado comercialmente. A parte A não quer esperar mais, pelo menos aprender, mesmo que o "implantação" fique apenas no link "demonstração".

Documentos de instituições como OpenAI, Microsoft e Google nos Estados Unidos são procurados por todos por seu alto grau de liderança; depois que o grande modelo de código aberto entra no mercado, você pode testar e fazer pesquisas sobre o modelo de código aberto, então para aumentar a compreensão do modelo grande e seu sistema completo.

O que mais espero é ter uma conversa profunda com cientistas que têm experiência pessoal e ter uma conversa profunda com cientistas que treinaram grandes modelos.

Felizmente, conversei com o Dr. Zhang Jiajun, vice-presidente do Instituto de Inteligência Artificial de Wuhan (doravante denominado "Instituto Wuzhi") e, ao mesmo tempo, ele também é professor da Universidade da Academia Chinesa de Ciências .

O Instituto Wuzhi e o Instituto de Automação da Academia Chinesa de Ciências desenvolveram em conjunto o grande modelo "Zidong Taichu" , e há muitos artigos por trás dele que valem a pena ler com atenção. Como autor e consultor de muitos artigos de alta qualidade, o professor Zhang Jiajun também é muito adequado para responder a essas perguntas.

Antes de entrar na tese, a primeira pergunta que faço ao Dr. Zhang Jiajun é:

"Qual é a relação entre fazer um grande modelo que concorra com o GPT-4 e publicar artigos acadêmicos de alta qualidade na área?"

Essa é uma questão tanto acadêmica quanto aplicada, e dá muito trabalho explicar e entender.

Ele disse: "No campo da tecnologia de modelos em grande escala, os artigos são publicados nas principais conferências acadêmicas ou jornais acadêmicos, e o desempenho da maioria dos algoritmos é alcançado em um determinado conjunto de dados (geralmente pequeno em escala), substituído por um modelo grande , grande poder de computação, grande quantidade de dados, ideias em papel e design não funcionam necessariamente."

Ele me deu um exemplo:

Consideramos este papel de alta qualidade como um dos triatlos, natação ou ciclismo. Ou seja, não bastam as três provas, mas o “triatlo” basta.

Cada item nas "Múltiplas Dimensões" está cheio de desafios, e cada papel superior não virá facilmente.

Como o software AI mais inteligente da história, o modelo grande GPT4 é uma engenharia de sistema complexa. É como se o GPT4 fosse uma corrida de longa distância composta por ironman multiesportivos.

O modelo grande requer um grande número de tecnologias principais e o projeto é difícil.

Seu ponto de vista é que o modelo grande não é feito de papéis, mas também é inseparável dos papéis.

Esses papéis clássicos, bem como os códigos e papéis de modelos grandes de código aberto, já são muito importantes para a engenharia de modelos grandes. Criar um modelo grande, ou usar a prática de engenharia para produzir um modelo grande, não é mais possível sem papéis clássicos, e muito poucas pessoas começam do zero e executam um modelo grande do começo ao fim.

As pessoas usam as ideias no papel para reproduzir com código-fonte aberto ou adicionar alguns de seus próprios códigos, após o ajuste fino, eles finalmente obtêm seu próprio modelo grande.

Ele disse que publicar trabalhos de alta qualidade na área de grandes modelos é como experimentar e verificar ideias eficazes em um exercício específico nos esportes Ironman.

No entanto, a tese não pode ser copiada para a questão de "construir um grande modelo", mas para acumular experiência e aumentar a compreensão da engenharia complexa de grandes modelos.

Ou, se você trabalhou tanto para publicar um artigo de alta qualidade, pode ser "0" para ajudá-lo a construir um modelo grande.

Dessa parábola, segue-se que:

Obter uma compreensão ainda "mais profunda" do grande modelo não é uma questão simples. Você pode até usar expressões em estilo de prosa como "Uma polegada, uma polegada de alegria". Talvez muitos esforços mentais e físicos sejam inúteis, ou mesmo um caminho errado, voltando atrás.

A realização de engenharia complexa é difícil e cruel. Ame ou odeie, os jornais são atualizados quase todos os dias.

Sob a onda de grandes modelos, as pessoas prestam mais atenção à pontualidade dos papéis do que à autoridade dos papéis. O site arXiv mantido pela Cornell University nos Estados Unidos mostra um significado único neste momento.

Muitos artigos clássicos também são publicados no site arXiv, e todos querem acelerar a "publicação" de artigos. O site arXiv tem todos os clássicos e velocidade, o que torna seu status inigualável.

Este site de trabalhos acadêmicos assume o papel de um "expresso de resultados", e as pessoas buscam "agir rápido" em vez de "firme e estável". "Um passo mais rápido" em vez de "um passo mais perfeito" segundo as normas acadêmicas.

Dr. Zhang Jiajun disse: "Da mesma forma, o artigo BigTrans de Wu Zhiyuan também é publicado no site arXiv."

Wuzhiyuan BigTrans: permite que modelos de linguagem grandes tenham mais de 100 recursos de linguagem

Ele enfatizou: "O artigo BigTrans do Wuzhi Institute não busca a inovação de ideias acadêmicas (ideias). Na situação atual, acho que a inovação integrada e a inovação aplicada também são muito importantes. As revistas acadêmicas são muito importantes na revisão de artigos e grandes engenharia de modelos em escala. Inovação na prática tem seu significado, e são duas direções completamente diferentes.”

A inovação do pensamento acadêmico é eficaz para a publicação de artigos, mas pode não ser eficaz no caso de big data e parâmetros de grande escala. Construir um grande modelo é um requisito abrangente.

Dito isso, vamos ler o jornal com atenção.

primeiro papel

Título do trabalho:

AAAI-2022: Tradução Automática Neural Multilíngue Baseada em Diferenciação de Parâmetros

Data de lançamento do papel: 2022

Introdução ao papel:

Grandes modelos de linguagem geralmente precisam lidar com vários idiomas e várias tarefas. Como compartilhar parâmetros no modelo entre cada idioma e cada tarefa é uma questão muito crítica. Tomando um grande modelo de tradução multilíngue como exemplo, propomos um novo método baseado na diferenciação de parâmetros, que permite ao modelo decidir quais parâmetros devem ser específicos do idioma durante o treinamento.

Inspirado pela diferenciação celular, em nosso método, cada parâmetro genérico pode ser diferenciado dinamicamente em parâmetros específicos da linguagem. Definimos ainda o critério de diferenciação de parâmetros como a similaridade de gradiente entre tarefas. Se os gradientes de tarefas diferentes em um conflito de parâmetro, é mais provável que esse parâmetro se diferencie em tipos específicos de idioma. Experimentos em conjuntos de dados multilíngues mostram que nosso método alcança melhorias significativas em relação aos métodos de linha de base com pouco aumento no tamanho do parâmetro. Experimentos analíticos revelam ainda que as estratégias de compartilhamento de parâmetros geradas por nosso método estão intimamente relacionadas à similaridade de características linguísticas. O trabalho relacionado foi publicado na AAAI-2022, a principal conferência internacional de inteligência artificial.

Professor Zhang Jiajun

Vice-presidente do Instituto Wuhan de Inteligência Artificial

O Transformer tornou-se a estrutura básica de grandes modelos e é uma "mina de ouro" que vale a pena cavar. Uma compreensão profunda do Transformer, bom uso e superação de suas deficiências inspirarão o trabalho de grandes modelos. Portanto, os cientistas de IA têm explorado e extraído o valor do Transformer. Os autores do primeiro artigo propuseram um método para múltiplas tarefas compartilharem um conjunto de parâmetros do Transformer, ou seja, parâmetros de compartilhamento de modelo.

Primeiro, existem semelhanças e diferenças entre os modelos para diferentes tarefas. Em termos de semelhanças, por exemplo, tradução automática e resumo inteligente no processamento de linguagem natural são duas tarefas diferentes, mas também têm algo em comum: elas devem primeiro entender e depois gerar um pedaço de conteúdo de texto. Em termos de diferenças, por exemplo, alguns parâmetros são exclusivos da tarefa de sumarização inteligente.

Por que modelos grandes precisam compartilhar parâmetros?

Sem parâmetros compartilhados, o modelo grande perde sua capacidade geral. Haverá muitos defeitos. Usar um modelo para lidar com tarefas de tradução e outro modelo para lidar com tarefas visuais, um modelo para cada tarefa leva a um sério desperdício de recursos. Mais do que isso, "parâmetros compartilhados" podem ser entendidos essencialmente como transferência de conhecimento entre tarefas. Existem pontos em comum entre muitas tarefas. Sem compartilhamento de parâmetros, a transferência de conhecimento não pode ser alcançada. Por exemplo, se a tradução for bem feita, ela será transferida para o resumo.

Como há compartilhamento de parâmetros entre os modelos, haverá diferenças no grau de compartilhamento. Entre modelos unimodais, pode haver mais compartilhamento de parâmetros. Pode haver menos parâmetros compartilhados entre modelos de diferentes modalidades. Na verdade, atualmente não existe uma métrica para medir a diferença entre diferentes tarefas, mas tal medição é muito valiosa.

Os autores do artigo estão resolvendo: como decidir quais parâmetros são compartilhados e quais não são compartilhados de acordo com a similaridade entre as tarefas? Os autores do artigo querem usar métodos matemáticos para medir a diferença e, então, querem fazer um bom trabalho de compartilhamento de parâmetros. No objetivo de "fazer bem", existe um "ponto de equilíbrio": quando o desempenho do modelo é garantido como bom, esperamos compartilhar o máximo de parâmetros possível.

Segundo e Terceiro Documentos

Título do trabalho:

ACL-2021: Calibração de atenção para transformador em tradução automática neural

IEEE/ACM TASLP-2022: Análise de Atenção e Calibração para Transformador em Geração de Linguagem Natural.

Data de lançamento do papel: 2021

Introdução ao papel:

O modelo de atenção (Mecanismo de Atenção) é agora uma estrutura central do modelo Transformer, que pode gerar dinamicamente um vetor de peso de atenção de acordo com o estado de decodificação atual, correspondente a diferentes palavras de entrada, de modo a focar seletivamente em diferentes palavras de entrada. No entanto, a pesquisa existente mostra que os modelos de atenção não podem se concentrar com precisão na entrada mais relevante para a saída atual. Considerando que o desempenho do mecanismo de atenção afeta diretamente o efeito final do modelo Transformer, especialmente no desempenho da geração de linguagem natural, propomos um método de geração de linguagem natural baseado na correção do mecanismo de atenção Transformer, para que o mecanismo de atenção preste mais atenção às palavras de entrada influentes do modelo.

Primeiro, o método introduz um modelo de ajuste fino baseado em máscara , que avalia automaticamente o impacto de diferentes entradas na saída atual observando as mudanças na saída do modelo após reduzir o peso de atenção de certas palavras de entrada. Então, de acordo com o tamanho da influência aprendido pelo modelo de ajuste fino, o peso de atenção obtido pelas palavras de entrada com alta influência é aumentado adequadamente. A fim de integrar a distribuição de atenção corrigida na distribuição de atenção original, este método propõe três métodos de fusão: ponderação de peso fixo, mecanismo de gating e algoritmo de recozimento.

Experimentos mostram que o método proposto pode efetivamente melhorar o desempenho da geração de linguagem natural, como tradução automática e resumo automático. Através da análise, pode-se constatar que a distribuição dos pesos de atenção corrigidos está mais dispersa nas camadas inferiores, e mais concentrada nas camadas superiores, sendo que os pesos de atenção com maior entropia precisam ser mais corrigidos. Este trabalho foi publicado na ACL-2021, a principal conferência sobre processamento de linguagem natural, e IEEE/ACM TASLP-2022, uma revista de renome internacional sobre linguagem de fala.

(Estes dois artigos são uma série de trabalhos sobre um problema)

Professor Zhang Jiajun

Vice-presidente do Instituto Wuhan de Inteligência Artificial

O princípio da capacidade do modelo grande GPT de gerar texto é usar as informações acima como uma condição para prever a distribuição de probabilidade da próxima ocorrência de palavras diferentes. GPT é o Decoder no modelo Transformer. A parte mais importante e central do modelo Transformer é o mecanismo de auto-atenção. A explicação simples é: o tamanho da atenção determina a "contribuição de entrada para saída". Ou seja, quanto o “input” contribui para o que o modelo gera (output). Esta questão é como ler uma história e adivinhar o final da história.Uma maneira é localizar qual personagem da peça desempenhará um papel fundamental no final da história.

Que tipo de estado é esse? Uma delas é tentar encontrar a maior certeza quando há incerteza.

Porque o modelo gera palavras é um problema de probabilidade. Por exemplo, o resumo do artigo serve para extrair as partes importantes do artigo. Portanto, o texto de saída deve refletir a parte mais importante do artigo de entrada.

O método antigo equivale a dar notas altas a quem é importante. Os pontos determinam a importância. A maneira antiquada específica de calcular a "pontuação" é calcular a distribuição de pesos de atenção sobre a entrada. Este método depende de pesos, que são usados para julgar a importância. Além disso, se o peso for alto, achamos que ele desempenha um papel importante na saída e contribui muito para a saída e vice-versa. Infelizmente, a saída do modelo pode não ser confiável. Isso anula a validade da metodologia de "pontuação". Portanto, o autor do artigo adotou um método para tentar descobrir fundamentalmente quais entradas desempenham um papel fundamental na saída.

A nova abordagem é apontar diretamente quais partes são importantes para a "saída". Chamamos isso de abordagem de "máscara". Como o mecanismo de atenção não reflete a importância da "saída", ele precisa ser corrigido. Deixe esse mecanismo "encontrar os personagens-chave que realmente afetam o final da história".

O que a máscara aqui significa? A chamada máscara é para remover uma determinada palavra da entrada e, em seguida, deixar o modelo prever a palavra "removida". A ação de encobrir ainda acontece aqui, a diferença é comparar a entrada e a saída antes e depois do encobrimento e observar o quão grande é a mudança? Pouca mudança, pouco efeito. Quanto maior a mudança, maior o efeito. Se apenas 10% das palavras forem cobertas, o conteúdo do resultado mudará muito. Explique que os 10% das palavras são importantes. Afinal, o foco deste trabalho é melhorar o desempenho do mecanismo de atenção e melhorar o desempenho do Transformer.

Na verdade, embora o mesmo método seja usado, o efeito pode ser diferente em diferentes tarefas. O autor do artigo só fez experimentos em duas tarefas de geração de processamento de linguagem natural. Para expandir para todas as tarefas, a carga de trabalho ainda é muito grande.

quarto papel

Título do trabalho:

ICASSP-2023: Adaptador de ajuste com mecanismo de atenção com reconhecimento de tarefa

Data de lançamento do papel: 2023

Introdução ao papel:

O ajuste fino eficiente de grandes parâmetros de modelo de linguagem ajusta apenas camadas simples de feed-forward inseridas no modelo de linguagem grande (LLM) durante a transferência de tarefas downstream, embora seu objetivo seja aprender representações relevantes para tarefas, sua entrada ainda é de tarefas- Módulo de Atenção Múltipla (MHA) independente e fixo, levando à subutilização de informações contextuais em várias tarefas downstream. Intuitivamente, o MHA deve ser dependente da tarefa e pode se concentrar em diferentes contextos em diferentes tarefas downstream. Portanto, propomos um mecanismo de atenção com reconhecimento de tarefa (TAM) para aprimorar o algoritmo para ajuste fino eficiente de grandes parâmetros de modelo de linguagem .

Especificamente, primeiro geramos representações de tarefa para cada palavra usando um módulo de ajuste fino eficiente com parâmetros dependentes da tarefa. Em seguida, aplicamos a representação da tarefa ao processo de computação do MHA, fazendo com que dependa das informações da tarefa para agregar o contexto. Para generalizar o método para cenários multitarefa, projetamos uma arquitetura de ajuste fino eficiente com vários parâmetros específicos de tarefa, usando o TAM para distinguir as demandas contextuais de várias tarefas. Resultados experimentais em uma ampla gama de tarefas de geração e compreensão de linguagem natural demonstram a eficácia de nosso método em cenários de tarefa única e multitarefa. Além disso, análises extensas mostram que os embeddings de tarefas gerados correspondem à dificuldade da tarefa e capturam as relações entre as tarefas. O trabalho relacionado foi publicado no ICASSP-2023, uma conferência de renome internacional no campo da informação de fala.

quinto papel

Título do trabalho:

ICASSP-2023: O aprendizado rápido unificado torna os modelos de idioma pré-treinados melhores para alunos de poucos tiros

Data de lançamento do papel: 2023

Introdução ao papel:

A escala de parâmetros de modelos de linguagem pré-treinados está ficando cada vez maior, e o custo do ajuste fino de parâmetros completos também está aumentando. Como ajustar com eficiência grandes modelos de linguagem para tarefas de downstream tornou-se um desafio fundamental. Propomos de forma inovadora um método eficiente de ajuste fino de modelo em grande escala que integra informações de nível de tarefa e nível de amostra. A representação de dica contém Conduzimos experimentos comparativos em um grande número de tarefas de compreensão de linguagem natural no teste de padrão internacional SuperGLUE. Os resultados mostram que, em comparação com os métodos de ajuste fino do modelo de pré-treinamento com eficiência de parâmetros existentes, nosso método pode ter um desempenho melhor em poucos disparos cenário (apenas ajuste fino de 0,12% dos parâmetros ) foi significativamente melhorado e tornou-se o melhor método de aprendizado de poucos tiros atualmente. O trabalho relacionado foi publicado no ICASSP-2023, uma conferência de renome internacional no campo da informação de fala.

Professor Zhang Jiajun

Vice-presidente do Instituto Wuhan de Inteligência Artificial

Ambos os artigos pertencem a métodos de ajuste fino com eficiência de parâmetros.

O modelo de linguagem grande (LLM) geralmente segue o método de uso "pré-treinamento + ajuste fino". No entanto, a escala do modelo foi ampliada repetidamente e o custo do ajuste fino tornou-se alto. Portanto, a prática em grande escala de ajustar todos os parâmetros evoluiu para uma nova maneira de jogar, por exemplo, apenas ajustar alguns parâmetros para tarefas específicas de downstream ou adicionar alguns parâmetros extras, etc.

LoRA é um dos métodos eficientes de ajuste fino para parâmetros. Seja o primeiro ou o segundo artigo, ele é ortogonal ao LoRA (não depende de um algoritmo específico). Pode ser usado em LoRa ou outros algoritmos. O método proposto no segundo artigo é geral e pode ser usado para adaptadores, ajuste de prompt, ajuste de prefixo, LoRA.

Por que precisamos fundir as informações de tarefas e amostras?

As tarefas downstream consistem em um monte de amostras. Mesmo que pertençam à mesma tarefa a jusante, o nível de dificuldade varia muito entre as amostras. Portanto, os autores do artigo fundem essas informações no nível da tarefa e no nível da amostra.

Os parâmetros aprendidos devem ser a média da tarefa, porque os parâmetros são aprendidos de todas as amostras. Embora a dificuldade seja calculada durante o aprendizado, as amostras são únicas. Ou seja, a distribuição de dificuldade de amostras conhecidas é diferente, e a representação média não pode lidar com diversos inputs com diferentes dificuldades.

Por exemplo, um modelo de grafo de Vinsen. É relativamente simples fazê-lo gerar um gato laranja. Suponha que um gato real dormindo no corredor do lado leste do Palácio do Palácio de Yanxi em Pequim seja gerado. A geração de torres, pavilhões, vigas esculpidas e edifícios pintados e paredes esculpidas de Junyu em edifícios reais chineses tradicionais é relativamente difícil e a tarefa é complicada. Os parâmetros de ajuste fino aprendidos pelos modelos anteriores usam informações médias no nível da tarefa sem considerar diferenças de amostra.

Embora ambas sejam tarefas vicentinas, a dificuldade de amostras diferentes varia muito, se o mesmo conjunto de parâmetros for usado, as diferenças entre as amostras são ignoradas. O método atual é: não apenas diga ao modelo com qual tarefa você está lidando, mas também diga ao modelo o quão difícil é a amostra com a qual você está lidando.

O modelo aprende uma distribuição contínua de palavras de sinalização. Sob uma tarefa como um diagrama de Vincent, gere imagens difíceis com prompts ricos e complexos. Imagens simples, com poucas palavras curtas. Este é o domínio dos engenheiros de palavra de sinalização humanos. No entanto, os autores do artigo querem aprender automaticamente, para fazer tarefas simples, aprender palavras simples; para tarefas complexas, aprender palavras complexas.

Quanto mais abrangente e detalhada for a consideração, e o direcionamento correto, melhor será o desempenho do modelo.

Tan Jing

queridos dados

Dos cinco artigos interpretados desta vez, os três primeiros exploram a estrutura do modelo e os dois últimos consideram como aplicar modelos grandes de forma eficiente.

Para continuar, depois de repostar, vá aos favoritos para comer cinzas. Ou a rede não é boa e você pode observá-la quando houver muitos fragmentos de modelo.

Mais uma coisa