Análise das últimas tendências de desenvolvimento de AIGC e armazenamento em 2023 (Parte 1)

Fiz um relatório no Flash Memory Summit há alguns dias, muitos amigos queriam falar sobre isso novamente, então resolvi o problema.

2023 : Desenvolvimento mais recente e análise de tendências de IA generativa e armazenamento (Parte 1)

Chen Xuefei, membro do comitê de armazenamento da Shanghai Computer Society

        A mania da IA ​​generativa varreu o mundo em um curto período de tempo e rapidamente emergiu em uma tendência imparável.Em um determinado período de tempo, parecia que "exceto a indústria de TI, todos são especialistas em IA". Já se passou mais de meio ano desde que esta onda de loucura nacional pela IA estourou a todo vapor. Depois que os fogos de artifício iniciais se dissiparem, como será a situação agora?

1 . Contagem regressiva para o colapso do unicórnio OpenAI? !

        Em agosto de 2023, a mídia indiana Analytics India Magazine publicou um relatório afirmando que a OpenAI pode ir à falência até o final de 2024 por três motivos: rápida perda de usuários após o pico, altos custos operacionais de US$ 700.000 por dia e concorrentes de código aberto como Lhama2 forte pressão. (O investimento de 11 bilhões da Microsoft deve ser capaz de destruir esse boato. Com base no custo operacional anual de 250 milhões, ainda pode sustentá-lo por 40 anos, mas a premissa é que o investimento da Microsoft foi realmente recebido e não há condições de retirada como avaliações de desempenho). Ao mesmo tempo, o ditado "ChatGPT tornou-se estúpido" também circulou na Internet. Alguns usuários disseram que o feedback dado pela IA não é tão surpreendente quanto era no início. Às vezes, há algumas falácias enterradas nas respostas , e às vezes é tão grave que os usuários da indústria pensam que é "impossível". usar". Além disso, em comparação com o GPT-3.5, algumas pessoas acreditam que o GPT-4 não traz uma melhoria qualitativa na precisão.De acordo com especialistas da agência de avaliação reguladora News Guard, na verdade diminuiu, especialmente a capacidade de identificar informações falsas. Finalmente, seja GPT-3.5 ou GPT-4, a tecnologia de protecção da privacidade não fez progressos significativos, e esta é também uma questão importante que não pode ser evitada em aplicações de grande escala.

Figura 1: Visitas mensais de usuários da OpenAI

2. O modelo grande chega ao teto?

        Alguns especialistas da indústria acreditam que até o GPT-4, os atuais grandes modelos podem ter atingido o fim do seu crescimento. Tecnicamente falando, existem dois problemas que são inevitáveis: primeiro, o esgotamento do corpus é uma razão importante: "Estes são os únicos recursos pendentes criados na história da humanidade." Embora a quantidade total de dados de rede de vários UGC e MGC ainda esteja aumentando em todos os momentos. No entanto, a maioria deles não traz informações novas, mas sim repletas de uma grande quantidade de informações inúteis e até enganosas, dificultando a obtenção de insights verdadeiros. Independentemente de OpenAI, Google ou Meta, não há diferença fundamental em quantidade ou qualidade no corpus de dados usado para treinar grandes modelos. A segunda é a limitação técnica do próprio modelo. Simplesmente buscar a melhoria de escala parece ter eficácia decrescente. Yann LeCun, cientista-chefe de inteligência artificial da Meta, propôs: "A tecnologia de inteligência artificial generativa por trás do ChatGPT entrou em um beco sem saída, e há muitas limitações para superá-lo." avanço". Mesmo que o GPT-5 apareça, não provocará uma evolução perturbadora. Este francês vencedor do Prêmio Turing é o pai da CNN e um dos três gigantes do aprendizado profundo, além de ser uma das pessoas que mais sabe sobre IA no planeta. Mas também há muitos jogadores que continuam a insistir em crescer em escala. Por exemplo, o Google planeja lançar o grande modelo Gemini da próxima geração no outono. Diz-se que o número de parâmetros dobrará.

3. Quão acirrado é o cenário competitivo?

        A competição pelo chefe dos grandes modelos gerais é muito acirrada. Primeiro, o Google lançou o desafio com LaMDA, PaLM e PaLM 2, e depois com o Meta's Llama 2. Os fortes concorrentes da OpenAI sempre estiveram lá, e não há nenhuma lacuna óbvia no desempenho em todos os aspectos. . Embora a empresa tenha Open em seu nome, devido a diversas pressões, a OpenAI optou por fornecer serviços de código fechado e pago. Meta rapidamente lançou um ataque eficaz usando código aberto e ferramentas personalizáveis, o que forçou a OpenAI a Foi anunciado que o GPT-3.5 suporta personalização, e alguns testes mostraram que a versão GPT-3.5 Turbo ajustada pode até superar o GPT-4 em algumas tarefas.

        Em maio de 2023, documentos internos do Google vazaram: "Não temos fosso, nem OpenAI." Dois meses depois, um material de análise de 23 de julho apontou que o GPT-4 é tecnicamente replicável. No futuro, a China e os Estados Unidos Estados As principais empresas de Internet e as principais empresas de IA em ambos os países serão capazes de construir modelos iguais ou até melhores que o GPT-4.

        OpenAI treinou GPT-4 com FLOPS de cerca de 2,15e25. Ele foi treinado em cerca de 25.000 A100s por três meses (e depois ajustado por mais 6 meses), e a taxa de utilização ficou entre 32% e 36%. A infraestrutura em nuvem usada pela OpenAI para treinamento custa cerca de US$ 1 por hora de A100. Com base nesse cálculo, só o custo do treinamento é de aproximadamente US$ 63 milhões. Este é um limite elevado para as pequenas empresas e não leva em consideração se elas podem construir instalações de hardware em tão grande escala, incluindo a contínua escassez de placas GPU e recursos de data center.

        No entanto, a Lei de Moore no setor de TI não expirou completamente. O passar do tempo ainda trará maior desempenho e custos mais baixos. No segundo semestre de 2023, a infraestrutura em nuvem com melhor desempenho H100 como força principal já terá custos mais elevados. efetividade, calculada em US$ 2/H100 horas, a mesma escala de pré-treinamento pode ser realizada em aproximadamente 8.192 H100s e leva apenas 55 dias para ser concluída. Dessa forma, o custo é reduzido para US$ 21,5 milhões, o que é aproximadamente 1/ 3 do precursor OpenAI.

        Até o final de 23, estima-se que pelo menos 9 empresas terão clusters do mesmo tamanho ou superior (por exemplo, a Meta terá mais de 100 mil H100 até o final de dezembro), e os concorrentes já estão de olho nisso. Se você tiver que procurar o fosso da OpenAI, pode haver três pontos a considerar: feedback de usuários reais, os principais talentos de engenharia do setor e sua atual posição de liderança reconhecida no setor.

        A partir de uma análise pessoal, penso que a situação competitiva do grande modelo geral será muito semelhante à do motor de busca de anos atrás. Embora possa não ser necessariamente uma situação estrita em que o vencedor leva tudo, não está longe. A maioria dos últimos grandes players restantes no mercado são apenas alguns gigantes: um líder que pode dar as respostas mais precisas e as capacidades mais fortes, e não mais do que três caçadores. Este último só pode ser de maior importância para os usuários … Apenas múltiplas opções. É claro que grandes modelos industriais ou grandes modelos verticais são outro assunto e não serão discutidos aqui por enquanto.

   4. Trajetória de desenvolvimento da IA: afiar três espadas em dez anos

        Começando com o avanço da tecnologia de reconhecimento de computação gráfica em 2012, até Alpha GO em 2016 e, em seguida, até o surgimento do ChatGPT no final de 2022, a tecnologia de IA passou de pequenos dados e pequenos modelos para a era de big data, grandes modelos e grande poder de computação.

        Após 10 anos, partimos de uma inteligência artificial fraca, que só pode completar tarefas específicas, e estamos cada vez mais perto de uma inteligência artificial forte.Da tecnologia de rede neural convolucional profunda ao aprendizado por reforço profundo até grandes modelos, da percepção à tomada de decisão até geração e ação, a indústria Hoje em dia, um novo termo “agente inteligente” é usado para se referir à IA.

        Os grandes modelos atuais estão muito próximos da inteligência artificial forte (também chamada de inteligência artificial geral, AGI), que possui múltiplas capacidades e está até perto das capacidades teóricas completas. Supondo que possa continuar a se desenvolver sem problemas, o próximo estágio da superinteligência artificial pode, teoricamente, ultrapassar o nível atual dos seres humanos e atingir um limite que nunca foi tocado. O desconhecido trará medo. Como os humanos se darão com isso então? Quando participei da Conferência Mundial de Inteligência Artificial em 2019, ouvi outro vencedor do Prêmio Turing, o professor Raj Reddy da CMU, propor um modelo: GAT (Comprehensive Intelligent Assistant). Sua idéia é permitir que a superinteligência artificial auxilie em avanços científicos de ponta e depois nos ensine novos conhecimentos, auxiliando assim o progresso da civilização humana. Ele espera que o desenvolvimento final seja como ele deseja.

5. Grande estrutura de modelo e processo básico

        Modelos grandes requerem três elementos, algoritmos de software, enormes clusters de GPU e conjuntos de dados para treinamento, seguidos de muito trabalho de engenharia. Se você não considerar a coleta e limpeza de dados no estágio inicial de preparação, a construção de um grande modelo pode ser dividida em duas etapas: treinamento e inferência (trabalho): formar capacidades abrangentes por meio de treinamento eficaz e, em seguida, fornecê-las aos usuários em o estágio de inferência (incluindo o aplicativo de bate-papo ChatGPT responde a várias perguntas e fornece diversas ajudas).

        Classificadas em ordem de complexidade, de fácil a difícil, as capacidades de grandes modelos incluem compreensão, diálogo, pesquisa, geração de conteúdo de texto, geração de imagem e vídeo, gráficos multimodais e compreensão de texto, bem como exames de assuntos, programação, conclusão de tarefas complexas. e ajudar os humanos em vários tipos de criações complexas.

        A primeira fase de treinamento é geralmente dividida em fases de pré-treinamento e subsequentes de ajuste fino, com OpenAI como objeto de observação.Até o GPT-4, os dados utilizados na fase de pré-treinamento são baseados principalmente em uma grande quantidade de informações de texto. No método de aprendizagem supervisionada, até 1,8 trilhão de parâmetros são inseridos no modelo para treinamento. Como mencionado acima, a OpenAI usou 25.000 cartões A100 e 3 meses para concluir o treinamento, seguidos de 6 meses de trabalho de ajuste fino. Precisa ser feito .

        A tecnologia de ajuste fino é usada principalmente na fase de ajuste fino, e um elo importante é o RLHF (Aprendizagem por Reforço com Feedback Humano), que é a aprendizagem por reforço baseada em feedback humano. O RLHF resolve um problema central dos modelos generativos: como tornar o resultado dos modelos de inteligência artificial consistente com o bom senso, a cognição, as necessidades e os valores humanos. Simplificando, trata-se de corrigir as três visões sobre IA, eliminar desvios e resolver o chamado problema da "ilusão do grande modelo".

        A conclusão da fase de treinamento acima está basicamente 80% concluída. Em seguida, precisamos considerar diferentes métodos de implantação e continuar a otimizar com base no feedback posterior do usuário. OpenAI adota implantação em nuvem e fornece aos usuários do ChatGPT acesso direto a interfaces de aplicativos e interfaces de API integráveis. Outros terceiros, como a Microsoft, podem integrar por meio de APIs e chamar grandes modelos em seu próprio software ou serviços em nuvem para fornecer aos usuários diferentes recursos e aplicativos como como Copilot (recentemente, o "conhecido matemático famoso da Internet" Terence Tao impressionou como era fácil usar o plug-in VSCode + Copilot. GPT4 também foi ótimo para ajudá-lo a programar no passado), e fabricantes nacionais como como o Baidu, que apresenta modelos gerais de nuvem em grande escala, também fornece o modo integrado de APIs. Além disso, alguns fabricantes nacionais estão mais dispostos a escolher a implantação privatizada para indústrias verticais, geralmente com menos de algumas dezenas de nós, fornecendo apenas um ou dois tipos de capacidades de assistência de IA para indústrias específicas, para que o modelo possa ser simplificado e não tem que ser grande e abrangente. Portanto, você verá muitos fabricantes nacionais afirmando que lançaram muitos modelos grandes, que geralmente são "modelos pequenos" para indústrias verticais. A rigor, eles ainda se enquadram na categoria de inteligência artificial fraca. Este tipo de aplicação não é apenas pequena em escala, mas também pode ser combinada com software e hardware e implantada na borda. É um modelo de indústria baseado em IA mais fácil de implementar e também é uma via segmentada visada por um grande número de startups.

6. Tendências de fronteira em tecnologia de IA generativa

        Depois de compreender a estrutura básica, vamos dar uma olhada nas últimas tendências do setor.

        A atual rodada de desenvolvimento de tecnologia de IA é basicamente a seguinte: CNN –> RNN->LSTM->RNN/LSTM +Atenção -> Transformador. (Por exemplo, no campo da tradução automática típica de aplicativos de IA, vários estágios importantes são: Simples RNN -> Contextualizar RNN -> RNN Contextualizado com atenção -> Transformador)

        Atualmente, os grandes modelos convencionais da indústria são basicamente desenvolvidos sob a estrutura do Transformer. Foi uma tecnologia proposta em 2017, e o GPT atualmente popular é a abreviatura de Generative Pre-training Transformer, e pelo nome pode-se perceber que ela evoluiu um passo adiante na tecnologia. Além de agregar tecnologia de pré-treinamento, outra característica marcante que observei é a “expansão horizontal”

        Após anos de desenvolvimento, a escala do modelo expandiu-se rapidamente e o cálculo de profundidade tornou-se gradualmente "cálculo de largura".Olhando para o modelo ResNet-50 popular na indústria em 2016, ele usa apenas uma estrutura de rede neural de cerca de 50 camadas e é complementado por 20 milhões de parâmetros. Para treinamento e inferência, o melhor modelo grande GPT-4 reconhecido pela indústria em 2023 usa 1,8 trilhão de parâmetros, enquanto o número de camadas de rede neural aumentou apenas para 120 camadas. O número de camadas (profundidade) é apenas um pouco mais que o dobro, mas o número de parâmetros aumentou 900.000 vezes, o que leva diretamente a uma expansão acentuada no número (largura) de nós do cluster. O GPT-4 usou mais de 20.000 placas GPU para completar os cálculos necessários para o treinamento, então a indústria brincou que os cálculos de profundidade se expandiram para cálculos de largura. (Nota: B é 1 bilhão, então o Transformer usa 110 milhões de parâmetros, o GPT-3 usa 175 bilhões de parâmetros e dois modelos domésticos populares, 65B e 130B, têm 65 bilhões e 130 bilhões de parâmetros, respectivamente)

7. Cinco preocupações sobre os grandes modelos em 2023

        O primeiro é o tamanho do modelo .

        Ao pensar no tamanho de um modelo grande, você verá diferentes medidas: número de parâmetros, número de tokens, quantidade de dados e tamanho do cluster de treinamento. Esses conceitos estão todos relacionados entre si. Em primeiro lugar, o aumento do número de parâmetros deve-se à evolução dos algoritmos de software, o que leva à expansão horizontal da arquitectura, e o número de nós no cluster de treino aumenta naturalmente significativamente. Após a expansão da arquitetura, mais conjuntos de dados podem ser usados ​​para treinamento; o token é uma metassegmentação dos dados de treinamento. Quando a quantidade de dados de treinamento aumenta, o número de tokens também aumenta, mas não é necessariamente uma relação linear. Portanto, estes quatro elementos podem medir e refletir a escala do modelo a partir de diferentes dimensões.

        No segundo semestre de 2023, como mencionado anteriormente, a indústria já tem duas visões sobre os efeitos do aumento cego da escala: Alguns especialistas e empresas acreditam que a diminuição da utilidade marginal é óbvia. Por exemplo, Meta acredita que é O desempenho do LLaMA A versão de 13 bilhões de parâmetros já é melhor que a do GPT-3 (175 bilhões de parâmetros), e alguns modelos menores na indústria, baseados em dezenas de bilhões ou mesmo bilhões de parâmetros, têm bom desempenho e não precisam se expandir para centenas de bilhões e trilhões. Essa escala. O documento de análise do GPT-4 em julho também apontou que após a expansão da escala de parâmetros em mais de 10 vezes em relação ao GPT-3, ocorreu o problema de declínio significativo na utilização de grandes clusters. A indústria usou o termo "bolha" para descrever alguns O fenômeno de a GPU não estar funcionando em plena capacidade para capturar peixes, devido ao fenômeno de "ociosidade" de algum poder de computação, aumentou o custo de inferência em cerca de três vezes. Isso também forneceu novo material para os críticos de alto consumo de energia da IA ​​representada por Musk.

        O segundo foco é como conseguir um melhor paralelismo multidimensional .

        A IA generativa é uma aplicação típica de computação paralela e, quanto maior o grau de paralelismo, mais vantajosa ela é. Portanto, é necessário aumentar o grau de paralelismo de múltiplas dimensões.Atualmente, o paralelismo multidimensional inclui três tecnologias paralelas: paralelismo de dados, paralelismo de tensores e paralelismo de pipeline.

        O paralelismo de dados é relativamente simples: uma cópia dos dados é muito grande, por isso é dividida em várias cópias e colocada em vários nós de computação, permitindo que várias GPUs realizem cálculos paralelos ao mesmo tempo.

        O paralelismo tensorial pode ser simplesmente entendido como um modelo grande que não cabe em uma única placa, então ele é aberto e várias GPUs são usadas para acelerar o processo. A desvantagem do paralelismo tensorial é que a sobrecarga de comunicação no meio é muito alta.A ideia central do uso generalizado do paralelismo tensorial bidimensional e tridimensional é substituir a serialização global por mais serialização local e trocar mais comunicação local para comunicação global, reduzindo assim os custos de comunicação e melhorando a eficiência. Jen-Hsun Huang da Nvidia também mencionou em seu discurso no GTC 2021 que todo o paralelismo de tensor deveria ser colocado no servidor para evitar sobrecarga de comunicação entre servidores, o que não vale o ganho. (Nota: O cálculo do tensor é um importante recurso de computação de modelos grandes. Tensor é um conceito matemático encontrado na álgebra multilinear. Ele tem aplicações em física e engenharia. Ele pode realizar algumas operações matemáticas, como produto interno., a redução e a multiplicação da matriz (a matriz é o tensor de segunda ordem, o vetor é o tensor de primeira ordem e o tensor de ordem zero é o escalar.) Você também pode realizar matrizes de extração de fatia, etc.)

        A vantagem de um tensor é que ele é multidimensional e pode conter mais dados em um tensor, tornando os cálculos mais eficientes.

        O paralelismo de pipeline requer algumas compensações inteligentes. Ele precisa considerar a relação entre o número de camadas e o número de GPUs. Alguns especialistas mencionaram uma metáfora. GPUs são como equipes de engenharia. A tarefa é construir muitos edifícios. Cada edifício tem muitos camadas. O número de camadas do pipeline é equivalente ao número do andar. 15 equipes de engenharia constroem 1.000 edifícios, e o paralelismo teórico pode chegar a 15, ocupando cada GPU e eliminando a pesca. Portanto, o truque para melhorar a eficiência paralela é aumentar o tamanho do lote e aumentar a proporção entre o número de camadas do pipeline e a GPU.

        Foi apontado nos dados de análise do GPT-4 em julho que o GPT-4 usa paralelismo de tensor de 8 canais + paralelismo de pipeline de 15 canais.Uma das razões é que ele é limitado pela situação atual do NVlink máximo de 8 canais da placa GPU Outra razão pode ser a quantidade de memória de vídeo de 40GB do A100.

        Entre as três tecnologias paralelas, o paralelismo tensorial é atualmente o foco da indústria e, se puder ser melhorado, trará maior ajuda. Em julho de 2023, o Google anunciou a biblioteca de computação tensor de código aberto TensorNetwork e sua API, alegando que o efeito de aceleração na GPU é cem vezes maior que o da CPU. Acredito que muitas pessoas na indústria já estão experimentando, mas não vi nenhuma análise ou relatório sobre os resultados reais.

        O terceiro foco é o modelo de especialistas mistos (MoE) .

        Ao contrário de grandes modelos individuais, incluindo OpenAI, tanto o Google quanto a Microsoft usam essa nova arquitetura. A idéia básica do MoE é combinar vários modelos relativamente pequenos, cada um se tornando um especialista em uma determinada parte, e fornecer conjuntamente serviços de raciocínio externo. Apenas um ou dois modelos são usados ​​em cada inferência, o que pode efetivamente reduzir o número de parâmetros e recursos durante a inferência. Por exemplo, o modelo GlaM do Google usa um total de 1,2 trilhão de parâmetros, com 64 pequenas redes neurais dentro. Apenas 2 são usados ​​durante a inferência, o que representa 8% dos parâmetros e 8% do consumo de energia. O material de análise de julho mostrou que o GPT-4 utilizou 16 modelos especialistas, cada um com 1,1 trilhão de parâmetros. A razão pela qual o número de modelos especialistas é muito menor do que o valor teórico ideal de 64 ~ 128 é porque os especialistas da OpenAI acreditam que muitos modelos especialistas dificultarão a generalização e dificultarão a convergência, o que é prejudicial ao objetivo de construir um modelo geral. -modelo grande de propósito.

        Além do campo de grandes modelos gerais, alguns grandes modelos verticais também usam a mesma ideia, mas usam outro termo "roteamento de modelos grandes".Por exemplo, ao aplicar modelos grandes em baixo código, o conceito de "roteamento" será introduzido com referência à programação Web. Muitos "pequenos modelos" são criados de acordo com diferentes cenários e capacidades. Por exemplo, alguns modelos apenas fazem tabelas, e alguns modelos fazem gráficos, e as funções são divididas. Quando utilizado, será decidido com base nas necessidades do usuário quais "pequenos modelos" serão chamados, em que ordem e, finalmente, completará toda a tarefa. Embora os substantivos usados ​​sejam diferentes, as ideias de design são muito semelhantes.

        Quando se trata de raciocínio, "raciocínio de baixa latência" foi claramente proposto como um conceito de termo. Requer que o tempo de resposta de entrada e saída seja limitado a um intervalo aceitável. O modelo deve produzir um certo número de tokens por segundo. Como um usuário, humanos precisam de 30 tokens/s é aceitável. Além disso, considerando que uma chamada é uma inferência, o custo também deve ser controlado. A prática mais recente de otimização de inferência é a "amostragem/decodificação especulativa", que usa um modelo pequeno para "esboçar" para gerar N tokens e, em seguida, deixar o modelo grande avaliá-los. Se forem aceitáveis, serão usados ​​​​diretamente, e se eles não são aceitáveis, eles serão modificados. Este método pode alcançar aceleração exponencial e reduzir custos de raciocínio. Diz-se que tanto o GPT-4 quanto o Gemini, o grande modelo de próxima geração do Google com lançamento previsto para este outono, usam esse método, e o Google publicou artigos relevantes.

        A quarta é a questão da otimização do gerenciamento de memória .

        Modelos grandes consomem muita memória. A tecnologia básica para a evolução de modelos grandes é o framework Transformer. Primeiro, os parâmetros e gradientes precisam ser colocados na memória para cálculo. Tomando como exemplo o treinamento GPT, se calculado com base no número de 1 trilhão de parâmetros, mesmo que seja usada precisão única, cada parâmetro ocupa 4 bytes, e os parâmetros sozinhos ocuparão 4T de memória, e o gradiente também ocupará 4T de memória . Juntamente com a atenção do mecanismo central nesta famosa estrutura, ele produzirá amplificação exponencial nesta base, e o requisito total de memória teórica atingirá o nível PB.

        Atualmente, existem algumas soluções na indústria de otimização de memória. As idéias básicas geralmente têm duas direções: uma é reduzir ao máximo a sobrecarga de memória em algoritmos de software e a outra é minimizar a movimentação de dados, inclusive entre CPU e GPU, e entre CPU e hardware NVme.

        O quinto foco é a multimodalidade visual .

        De acordo com a análise do material, a OpenAI originalmente queria usar o treinamento de modelo visual do zero no GPT-4, mas devido a vários motivos, finalmente deu um passo atrás. Depois de usar o pré-treinamento de texto pela primeira vez, ele usou cerca de 2 trilhões de tokens para multa -tuning ., formando as capacidades multimodais do GPT-4 .

        O modelo de próxima geração "GPT-5" planeja treinar o modelo visual do zero. Os dados usados ​​para treinar o modelo multimodal incluem: "dados conjuntos" (LaTeX/texto), capturas de tela de páginas da web, vídeos do YouTube (quadros de amostragem e execute o Whisper para obter legendas), os dados de treinamento conterão uma grande quantidade de dados não estruturados. Uma estimativa aproximada é que cada token tenha 600 bytes e a escala será 150 vezes maior que a do texto.

        A OpenAI espera que a próxima geração de "agentes autônomos" treinados com sucesso não tenha apenas os recursos do GPT4, mas também seja capaz de ler páginas da web, transcrever conteúdo em imagens e vídeos e também gerar imagens e áudio de forma independente. (Não apenas roteiristas de Hollywood, mas também editores, editores e pós-produtores estão se juntando ao protesto agora)

        Além das perspectivas de aplicação, o uso de dados visuais para treinamento tem o potencial de produzir uma mudança fundamental.

        Até agora, a linguagem e o texto ainda são o corpus básico para o treinamento de grandes modelos de uso geral. Todas as informações obtidas pela GPT ainda estão presas na "fronteira da linguagem". De acordo com a famosa afirmação do filósofo Wittgenstein, "A fronteira da linguagem é o limite do pensamento." "Para grandes modelos, a informação da linguagem os limita ao mundo da lógica e do texto, tornando impossível a percepção de fatos objetivos, e pode levar à ilusão filosófica de um "cérebro em uma cuba". Em comparação, os dados de imagem estática podem fornecer informações sobre a estrutura espacial, enquanto os próprios dados de vídeo também contêm informações sobre a estrutura temporal.Essas informações podem ajudar o GPT a aprender regras básicas mais profundas, como causalidade, abrindo um espaço maior de possibilidades.

        Claro, já existe o problema do "modelo fantasma" baseado no corpus textual, que é a chamada situação de "absurdo grave" que não pode ser completamente eliminada. A partir da pesquisa atual, parece que o problema do multimodal visual O fantasma é mais sério e os parâmetros são mais complexos.Modelos maiores, como o Lalma2, são mais gravemente afetados do que modelos menores, como o 7B. Como reduzir os fantasmas de forma mais eficaz ainda é um problema não resolvido na indústria.

        Isso é tudo para IA. Falaremos sobre armazenamento mais tarde.

(continua)

2023.9 _

Acho que você gosta

Origin blog.csdn.net/m0_61289673/article/details/132709020
Recomendado
Clasificación