Um lembrete do passado e do presente da engenharia

Link Original: Cheese AI Come Peixe

Aprendizagem situacional por meio de prompts

Em biologia, a emergência é uma propriedade incrível onde, como resultado de interações, as partes se unem para exibir novos comportamentos (chamados emergência) que não podem ser vistos em escalas menores. O que é ainda mais incrível é que, embora a versão em escala menor pareça semelhante à escala maior, a escala maior é, na verdade, composta de mais partes e interações, que acabam exibindo um conjunto de comportamentos completamente diferente.

Tudo começa com a capacidade de treinar esses modelos de IA sem supervisão. Na verdade, o aprendizado não supervisionado tem sido um dos princípios fundamentais dessa revolução da IA que impediu o progresso da IA nos últimos anos.

Antes de 2017, a maioria da IA trabalhava usando aprendizado supervisionado a partir de pequenos conjuntos de dados estruturados, o que permitia o treinamento de modelos de aprendizado de máquina em tarefas muito restritas. Depois de 2017, as coisas começaram a mudar com o advento de uma nova arquitetura chamada Transformer.

Essa nova arquitetura pode ser usada com métodos de aprendizado não supervisionados. Os modelos de aprendizado de máquina podem ser pré-treinados em conjuntos de dados não estruturados muito grandes com uma função objetiva muito simples: previsão de texto para texto.

O aspecto empolgante é que, para aprender a realizar corretamente as previsões de texto para texto (o que pode parecer uma tarefa muito simples), um modelo de aprendizado de máquina começa a aprender uma série de padrões e heurísticas em torno dos dados nos quais é treinado. .

Isso permite que os modelos de aprendizado de máquina aprendam uma ampla variedade de tarefas.

Em vez de tentar executar uma única tarefa, grandes modelos de linguagem começam a inferir padrões de dados e reutilizar esses padrões ao executar novas tarefas.

Esta é uma revolução para o núcleo. Além disso, com o papel GPT-3, outro ponto de inflexão é poder sugerir esses modelos.

Resumindo, permite que esses modelos aprendam mais sobre o contexto do usuário por meio de instruções em linguagem natural, o que pode alterar drasticamente a saída do modelo.

Esse outro aspecto também está surgindo porque ninguém o pediu explicitamente. Portanto, é assim que obtemos aprendizado contextual por meio de dicas que são uma propriedade central e emergente dos modelos atuais de aprendizado de máquina.

Conheça a Tip Engenharia

A engenharia de dica é uma propriedade emergente chave do atual paradigma de IA.

Um dos aspectos mais interessantes da Prompt Engineering é sua emergência como uma propriedade emergente de estender a arquitetura do Transformer para treinar grandes modelos de linguagem.

Assim como seus desejos expressos podem trabalhar contra você, quando você deixa uma máquina, a maneira como você expressa o que ela precisa fazer pode mudar drasticamente a saída.

Qual é a parte mais divertida? As dicas não são um recurso desenvolvido por especialistas em IA. Esta é uma característica emergente. Em suma, ao desenvolver esses enormes modelos de aprendizado de máquina, as dicas se tornam a maneira de fazer com que a máquina aja de acordo com a entrada. Ninguém pediu por isso, simplesmente aconteceu!

Em um artigo de 2021, pesquisadores da Universidade de Stanford destacaram como os modelos baseados em Transformer são fundamentais.

Conforme explicado no mesmo jornal:

A história da inteligência artificial sempre foi de emergência e homogeneização. Com a introdução do aprendizado de máquina, a forma como as tarefas são executadas emerge de exemplos (inferência automática); por meio do aprendizado profundo, surgem recursos avançados para previsão; por meio de modelos básicos, até mesmo funções avançadas, como o aprendizado situacional, podem surgir. Ao mesmo tempo, o aprendizado de máquina homogeneiza os algoritmos de aprendizado (como a regressão logística), o aprendizado profundo homogeneiza as arquiteturas de modelo (como as redes neurais convolucionais) e os modelos básicos homogeneizam o próprio modelo (como o GPT-3).

A engenharia de dicas é um processo usado em inteligência artificial no qual uma ou mais tarefas são convertidas em um conjunto de dados baseado em dicas e, em seguida, um modelo de linguagem é treinado para aprender.

Superficialmente, a motivação por trás da engenharia de dica pode ser difícil de entender, então vamos descrever a ideia com um exemplo.

Imagine que você está construindo uma plataforma de entrega de comida online e tem milhares de imagens de vegetais diferentes para incluir no site. O único problema é que não há metadados de imagem descrevendo quais vegetais estão em quais fotos. Neste ponto, você pode fazer a classificação tediosa das imagens e colocar as fotos de batata na pasta de batatas, as fotos de brócolis na pasta de brócolis e assim por diante.

Você também pode executar todas as imagens por meio do classificador para classificá-las com mais facilidade, mas, como descobriu, treinar o modelo do classificador ainda requer dados rotulados. Usando a engenharia de dica, você pode escrever dicas baseadas em texto que você acha que produzirão os melhores resultados de classificação de imagem.

Por exemplo, o modelo pode ser instruído a exibir "uma imagem contendo batatas". A estrutura dessa dica – ou a declaração que define como o modelo reconhece a imagem – é a base da engenharia de dicas. Escrever as melhores dicas geralmente requer tentativa e erro. Na verdade, o prompt "imagem contendo batatas" é muito diferente de "fotografias de batatas" ou "uma coleção de batatas".

Dicas para práticas recomendadas de engenharia

Como na maioria dos processos, a qualidade da entrada determina a qualidade da saída. Projetar sugestões eficazes pode aumentar a probabilidade de um modelo retornar uma resposta favorável e contextualmente apropriada. Dicas bem escritas são sobre entender o que o modelo "sabe" sobre o mundo e, em seguida, aplicar essas informações de acordo. Alguns vêem isso como um jogo de adivinhação, onde os atores fornecem aos seus parceiros informações suficientes para usar sua inteligência para descobrir uma palavra ou frase.

Pense no modelo como representando um parceiro em um jogo de adivinhação, com dicas de treinamento fornecendo ao modelo informações suficientes para descobrir o padrão e concluir a tarefa em mãos. Não faz sentido sobrecarregar um modelo com todas as informações de uma vez e interromper seu fluxo natural de inteligência.

Engenharia rápida e modelos CLIP

O modelo CLIP (Contrastive Language-Image Pre-training) foi desenvolvido em 2021 pelo laboratório de pesquisa em inteligência artificial OpenAI.

Segundo os pesquisadores, o CLIP é "uma rede neural treinada em vários pares (imagem, texto). Pode ser instruído em linguagem natural para prever o trecho de texto mais relevante dado uma imagem, sem otimizar diretamente a tarefa, semelhante ao -shot de GPT-2 e 3.”

Com base em um modelo de rede neural, o CLIP foi treinado em mais de 400 milhões de pares imagem-texto contendo imagens correspondentes a legendas. Usando essas informações, as pessoas podem inserir imagens no modelo, e o modelo gerará o que considera o título ou resumo mais preciso. A citação acima também se refere aos recursos zero-shot do CLIP, o que o torna um tanto especial entre os modelos de aprendizado de máquina.

Por exemplo, espera-se que a maioria dos classificadores treinados para reconhecer maçãs e laranjas tenham um bom desempenho na classificação de maçãs e laranjas, mas geralmente falham na detecção de bananas. Certos modelos (incluindo CLIP, GPT-2 e GPT-3) podem reconhecer bananas. Em outras palavras, eles podem realizar tarefas para as quais não foram explicitamente treinados. Essa capacidade é conhecida como aprendizado de tiro zero.

Exemplo de engenharia de prompt

A partir de 2022, a evolução dos modelos de IA está se acelerando. Isso torna a engenharia de dicas cada vez mais importante. Primeiro usamos modelos de linguagem como GPT-3, BERT para processamento de texto para texto. Em seguida, usamos Dall-E, Imagen, MidJourney e StableDiffusion para conversão de texto em imagem. Neste estágio, estamos migrando para texto para vídeo com o Make-A-Video da Meta, e agora o Google está trabalhando em seu próprio Imagen Video. Os modelos de IA eficazes hoje se concentram em obter mais com menos! Um exemplo é DreamFusion: Text to 3D using 2D Diffusion, criado pelo Google Research Labs.

Em resumo, os modelos de difusão de IA são modelos generativos, o que significa que produzem resultados semelhantes àqueles nos quais foram treinados. Os modelos de difusão, por definição, funcionam adicionando ruído aos dados de treinamento e recuperando esses dados invertendo o processo de ruído para gerar uma saída. O DreamFusion da Google Research é capaz de converter texto em imagens 3D sem ter um grande conjunto de dados 3D rotulados (não disponível no momento).

É isso! Como explicou a equipe de pesquisa:

"A adaptação dessa abordagem para a síntese 3D requer conjuntos de dados em grande escala de dados 3D rotulados e arquiteturas eficientes para eliminar ruído de dados 3D, nenhum dos quais existe atualmente. Neste trabalho, essas limitações são contornadas usando um modelo de difusão de texto para imagem para realizar síntese de texto para 3D."

Por que isso é importante? Depois de mais de duas décadas sendo principalmente baseados em texto ou imagens 2D na web, agora é a hora de habilitar formatos aprimorados, como 3D, que podem funcionar bem em um ambiente AR.

Resumindo, imagine que você está usando os óculos AR do Google, e esses modelos de IA abaixo podem aumentar dinamicamente o mundo real com objetos 3D, permitindo que você torne suas experiências AR ainda mais atraentes.

Ao mesmo tempo, a OpenAI anunciou o lançamento dos recursos de fala para texto do Whisper. Combinados, esses modelos de IA criarão um ambiente multimodal onde uma pessoa ou uma pequena equipe pode aproveitar todas essas ferramentas para geração de conteúdo, produção de filmes, medicina e muito mais! Isso significa que algumas indústrias anteriormente inacessíveis se tornam mais fáceis de expandir à medida que as barreiras à entrada são removidas. Pode ser testado/lançado/iterado mais rapidamente, permitindo que o mercado evolua mais rapidamente.

A Internet evoluiu por quase 30 anos, mas muitos setores (da saúde à educação) ainda estão limitados a modelos antigos. Uma década de inteligência artificial pode embaralhar completamente as cartas. Cada modelo de IA será solicitado da mesma maneira, mas a maneira como a máquina é solicitada pode ser muito sutil e a máquina pode produzir muitas saídas diferentes devido a variações nas sugestões.

Apenas em outubro de 2022:

A Stability AI anunciou US$ 101 milhões em financiamento para inteligência artificial de código aberto.
A Jasper AI, uma startup que desenvolve uma plataforma de "conteúdo de inteligência artificial", levantou US$ 125 milhões com uma avaliação de US$ 1,5 bilhão. Jasper está adquirindo a startup de IA Outwrite, um verificador de gramática e estilo com mais de 1 milhão de usuários.
A OpenAI, avaliada em quase US$ 20 bilhões, está em negociações avançadas com a Microsoft para obter mais financiamento.

Hoje, com dicas, você pode gerar mais e mais resultados.

Alguns casos de uso do OpenAI podem ser gerados a partir de dicas. Desde respostas a perguntas até classificadores e geradores de código. O número de casos de uso que a IA habilita por meio de dicas está crescendo exponencialmente.

Outro aplicativo legal? Você pode criar seus próprios sapatos de acordo com as instruções:

Solicitar DreamStudio AI para gerar um par de tênis personalizado.

Exemplos de engenharia oportunos e estudos de caso

Aqui está um exemplo rápido de engenharia com algumas práticas recomendadas no processo.

Exemplo de dica do ChatGPT

geração de código

Criação de conteúdo

análise de dados

Educação e treinamento

tomada de decisão e resolução de problemas

Pontos principais:

A engenharia de dica é um conceito de processamento de linguagem natural (NLP) que envolve a descoberta de entradas que produzem resultados desejados ou úteis.
Como na maioria dos processos, a qualidade da entrada na engenharia imediata determina a qualidade da saída. Projetar sugestões eficazes pode aumentar a probabilidade de um modelo retornar uma resposta favorável e contextualmente apropriada.
O modelo CLIP (Contrastive Language-Image Pre-training), desenvolvido pela OpenAI, é um exemplo de modelo que usa pistas para classificar imagens e legendas em mais de 400 milhões de pares imagem-legenda.