O caminho para a inovação em IA: 14 artigos de AI-Agents discutindo o futuro da inteligência artificial

Recentemente, o desenvolvimento tecnológico da inteligência artificial geral (AGI) atraiu ampla atenção e discussões acaloradas. Durante este período emocionante, os grandes modelos sempre desempenharam um papel importante, quase ocupando o centro das atenções.

No entanto, duas importantes figuras técnicas da OpenAI, Andrej Karpathy e Lilian Weng, enviaram recentemente um sinal emocionante para o mundo exterior: os agentes de IA baseados em LLM se tornarão uma importante direção de desenvolvimento no campo AGI no futuro.

A declaração de Andrej Karpathy atraiu a atenção generalizada. Ele disse que, em comparação com o treinamento de grandes modelos, a OpenAI está atualmente prestando mais atenção à área de Agentes. Esta afirmação implica que a OpenAI está mais interessada na investigação e desenvolvimento de sistemas de IA com capacidades de raciocínio e tomada de decisão.

A visão de Lilian Weng neste campo é mais específica, pois ela acredita que os componentes de um agente incluem LLM (Modelo de Linguagem), memória, habilidades de planejamento e uso de ferramentas.

Esta definição revela os elementos-chave para a construção de Agentes de IA e também nos fornece uma direção clara para o desenvolvimento.

1. HuggingGPT: Resolvendo tarefas de IA com ChatGPT e seus amigos no HuggingFace

Este artigo apresenta um novo sistema, denominado HuggingGPT, que utiliza grandes modelos de linguagem (LLMs) para gerenciar vários modelos de inteligência artificial para resolver tarefas complexas de inteligência artificial intermodal e de domínio. Os autores acreditam que os LLMs apresentam excelentes capacidades de compreensão, geração, interação e raciocínio de linguagem, e podem atuar como controladores para gerenciar modelos de inteligência artificial existentes para resolver tarefas complexas de inteligência artificial. O artigo apresenta o fluxo de trabalho do HuggingGPT: ao receber uma solicitação do usuário, use o ChatGPT para planejar tarefas, selecione um modelo com base na descrição funcional fornecida no HuggingFace, use o modelo de inteligência artificial selecionado para executar cada subtarefa e resumir com base nos resultados da execução . Ao aproveitar os poderosos recursos de linguagem do ChatGPT e os ricos modelos de inteligência artificial do HuggingFace, o HuggingGPT é capaz de lidar com tarefas complexas em uma variedade de modalidades e campos diferentes, e alcançou resultados impressionantes em linguagem, visão, fala e outras tarefas desafiadoras. as conquistas fornecem novas ideias para a inteligência artificial geral (AGI).

Link: https://www.aminer.cn/pub/64264f7b90e50fcafd68e162/

2. Agentes Geradores: Simulacros Interativos do Comportamento Humano

Este artigo apresenta um novo software de simulação computacional denominado "agentes geradores" que pode simular comportamento humano realista. Esses agentes generativos podem realizar ações cotidianas como pessoas reais, como levantar e preparar o café da manhã, ir trabalhar, formar opiniões, perceber uns aos outros e iniciar conversas, etc. Para implementar o agente generativo, o artigo propõe uma arquitetura baseada em um grande modelo de linguagem que pode armazenar os registros de experiência de linguagem natural do agente generativo, sintetizar essas memórias em reflexões de nível superior ao longo do tempo e, em seguida, recuperar dinamicamente essas reflexões para planejar o comportamento. O artigo também mostra como esses agentes generativos podem ser instanciados para preencher um ambiente sandbox interativo semelhante ao SimCity, que permite a interação em linguagem natural com vinte e cinco agentes generativos. Na avaliação, estes agentes generativos produziram comportamentos individuais e de grupo credíveis, de modo que, partindo de uma ideia especificada pelo utilizador de que um agente queria organizar uma festa de Dia dos Namorados, os agentes distribuíram convites para a festa de forma autónoma e fizeram amigos nos dois dias seguintes. Faça novos amigos, convide-se para festas e combinem para festejar juntos na hora certa. Através da ablação, o artigo demonstra que cada componente da arquitetura do agente gerador – observação, planejamento e reflexão – é fundamental para a confiabilidade do comportamento do agente. Ao combinar grandes modelos de linguagem com agentes de interação computacional, este trabalho fornece arquitetura e padrões de interação para obter simulações realistas do comportamento humano.

Link: https://www.aminer.cn/pub/64337e3190e50fcafd76ef32/

3. Dicas introspectivas: modelo de linguagem ampla para tomada de decisão no contexto

Este artigo discute métodos para tomada de decisão contextual usando grandes modelos de linguagem (LLMs). Nos últimos anos, os grandes modelos de linguagem (LLMs) tiveram um impacto significativo no campo do processamento de linguagem natural, alcançando excelentes resultados em diversas tarefas. Neste estudo, os autores usaram “avisos introspectivos” para ajudar os LLMs a auto-otimizarem sua tomada de decisão. Ao examinar introspectivamente as trajetórias, o LLM gera dicas concisas e valiosas para melhorar suas políticas. Esta abordagem melhora o desempenho do agente com poucos ou nenhum exemplo, considerando três cenários importantes: aprender com a experiência passada do agente, integrar demonstrações de especialistas e generalizar para diferentes jogos. É importante ressaltar que alcançamos essas melhorias não ajustando os parâmetros do LLM, mas ajustando as dicas para generalizar os insights dos três cenários descritos acima. Nossa estrutura não apenas apoia, mas também enfatiza as vantagens do uso do LLM para a tomada de decisões contextuais. Demonstramos as vantagens de nossa abordagem por meio de experimentos em mais de 100 jogos TextWorld.

Link: https://www.aminer.cn/pub/646aecaad68f896efa05a6f6/

4. Processamento interativo de linguagem natural

Este artigo revisa o conceito de Processamento Interativo de Linguagem Natural (iNLP) e suas aplicações em diferentes campos. iNLP é um paradigma emergente de processamento de linguagem natural (PNL) que visa abordar as limitações presentes nas estruturas existentes, ao mesmo tempo que permanece consistente com os objetivos finais da inteligência artificial. Nesta estrutura, os modelos de linguagem são vistos como agentes capazes de observar, agir e receber feedback de entidades externas. Especificamente, os modelos de linguagem podem interagir com humanos para melhor compreender e atender às necessidades do usuário, personalizar respostas, conformar-se aos valores humanos e melhorar a experiência do usuário; interagir com bases de conhecimento para aprimorar a representação da linguagem e melhorar a relevância contextual das respostas. e utilizar dinamicamente recursos externos. informações para gerar respostas mais precisas e informadas; interagir com modelos e ferramentas para decompor e processar efetivamente tarefas complexas, aproveitar conhecimentos específicos do domínio para resolver subtarefas específicas e facilitar simulações de comportamento social; interagir com o ambiente Interagir, aprender uma representação de destino linguagem e lidar eficazmente com tarefas como raciocínio, planejamento e tomada de decisão. Este artigo propõe uma definição e estrutura unificadas de iNLP e classifica iNLP, incluindo vários componentes, como objetos interativos, interfaces interativas e métodos interativos. Além disso, o artigo explora métodos de avaliação, aplicações, questões éticas e de segurança neste campo e discute futuras direções de pesquisa. Este artigo de revisão fornece um guia abrangente para pesquisadores interessados ​​em iNLP e fornece uma perspectiva ampla sobre o cenário atual e as tendências futuras na área.

Link: https://www.aminer.cn/pub/646c3addd68f896efa5d195b/

5. Voyager: um agente incorporado e aberto com grandes modelos de linguagem

Voyager é o primeiro agente de aprendizagem ao longo da vida integrado baseado em LLM no Minecraft que pode explorar continuamente o mundo, adquirir várias habilidades e fazer novas descobertas sem intervenção humana. O Voyager consiste em três componentes principais: 1) um currículo automatizado que maximiza a exploração; 2) uma biblioteca crescente de habilidades de código executável para armazenar e recuperar comportamentos complexos; 3) incorporar feedback ambiental, erros de execução e autovalidação para melhorar programas. mecanismo de prompt iterativo. A Voyager interage com o GPT-4 por meio de consultas de caixa preta, evitando assim a necessidade de ajuste fino dos parâmetros do modelo. As habilidades desenvolvidas pela Voyager são temporalmente escaláveis, explicáveis ​​e combináveis, melhorando rapidamente as capacidades dos agentes e reduzindo o esquecimento catastrófico. Empiricamente, a Voyager demonstrou uma forte capacidade de aprender no contexto e ao longo da vida, e demonstrou proficiência extraordinária ao jogar Minecraft. Em comparação com o SOTA anterior, ele obtém 3,3 vezes mais itens exclusivos, percorre distâncias 2,3 vezes mais longas e desbloqueia marcos importantes da árvore tecnológica 15,3 vezes mais rápido. A Voyager é capaz de usar sua biblioteca de habilidades aprendidas para resolver novas tarefas do zero em novos mundos do Minecraft, algo que seria difícil de fazer com outras tecnologias.

Link: https://www.aminer.cn/pub/64702deed68f896efa5202ea/

6. Diálogo Orientado à Decisão para Colaboração Humano-IA

O artigo descreve uma abordagem para a colaboração homem-máquina chamada “diálogo orientado à decisão” para ajudar os humanos a tomar decisões complexas. Nesta abordagem, o assistente de IA deve colaborar com um ou mais humanos através de linguagem natural para ajudar o usuário a tomar a melhor decisão. O artigo cobre três cenários cotidianos de tomada de decisão: escolher atribuir revisores para um artigo de conferência, planejar uma viagem de várias etapas em uma cidade e negociar um plano de viagem com amigos. Nestes cenários, o assistente de IA e o usuário possuem capacidades e necessidades diferentes que devem ser combinadas entre si para tomar a melhor decisão. Para cada tarefa, o artigo estabelece um ambiente de conversação onde os agentes são recompensados ​​com base na qualidade da sua decisão final. Utilizando esses ambientes, o artigo coleta conversas entre humanos, onde os humanos desempenham o papel de assistentes. A fim de comparar as capacidades de comunicação dos actuais assistentes de inteligência artificial nestes cenários, o artigo também fornece uma linha de base de auto-jogo baseada em grandes modelos de linguagem. Finalmente, o artigo destaca os muitos desafios enfrentados em conversas orientadas para decisões, incluindo comunicação, raciocínio e otimização eficientes, e libera nosso ambiente como uma plataforma de teste para futuros esforços de modelagem.

Link: https://www.aminer.cn/pub/647817b2d68f896efa85106e/

7. Níveis Mínimos de Interpretabilidade para Agentes Morais Artificiais

O tópico deste artigo são os níveis mínimos de interpretabilidade para agentes morais artificiais (AMAs). À medida que os modelos de inteligência artificial (IA) continuam a expandir-se e a ser aplicados, a forma de compreender e confiar nos mecanismos de raciocínio internos destes modelos tornou-se particularmente importante. Para modelos envolvidos na tomada de decisões morais, ou seja, agentes morais artificiais, a interpretabilidade fornece um caminho a seguir. Este artigo fornece uma visão geral deste subcampo de explicabilidade de IA em rápido crescimento e introduz o conceito de “nível mínimo de explicabilidade” (MLI) para fornecer recomendações para a implantação segura no mundo real de vários tipos de agentes.

Link: https://www.aminer.cn/pub/64a39885d68f896efa31e1ca/

8. Liberando a sinergia cognitiva em grandes modelos de linguagem: um agente de resolução de tarefas por meio da autocolaboração multipessoal

Este artigo explora principalmente como alcançar sinergia cognitiva em grandes modelos de linguagem (LLM) para melhorar sua capacidade de resolver tarefas complexas. Embora os LLMs tenham demonstrado certo desempenho como agentes de resolução de tarefas gerais, eles ainda apresentam desafios em tarefas que exigem profundo conhecimento de domínio e raciocínio complexo. O autor propõe um método denominado Solo Performance Prompting (SPP) para transformar um único LLM em um colaborador cognitivo por meio de múltiplas rodadas de autocolaboração com múltiplos atores. Este colaborador cognitivo refere-se a um agente inteligente que coopera com vários agentes para combinar seus pontos fortes e conhecimentos para melhorar a resolução de problemas e o desempenho geral em tarefas complexas. Ao identificar e simular dinamicamente diferentes funções com base na entrada da tarefa, o SPP libera o potencial da colaboração cognitiva no LLM. Os autores descobriram que atribuir funções múltiplas e refinadas ao LLM resolveu melhor o problema do que usar um número único ou fixo de funções. O SPP é avaliado em três tarefas desafiadoras: escrita criativa de curiosidades com uso intensivo de conhecimento, colaboração com codinomes com uso intensivo de raciocínio e quebra-cabeças de grade lógica. Diferente de trabalhos anteriores (como Chain-of-Thought) que apenas melhoram a capacidade de raciocínio do LLM, o SPP estimula efetivamente a capacidade de aquisição de conhecimento interno, reduz fenômenos fictícios e mantém uma forte capacidade de raciocínio. Código, dados e dicas relacionados podem ser encontrados em: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.

Link: https://www.aminer.cn/pub/64ae259c3fda6d7f0658f403/

9. Agentes Comunicativos para Desenvolvimento de Software

Este artigo apresenta um paradigma de agente de comunicação para desenvolvimento de software que aproveita grandes modelos de linguagem para comunicação em linguagem natural durante todo o processo de desenvolvimento de software, simplificando e unificando processos-chave, eliminando assim a necessidade de modelos especializados em cada estágio. No centro deste paradigma está a ChatDev, uma empresa de desenvolvimento de software orientada por chat que, semelhante ao modelo tradicional em cascata, divide o processo de desenvolvimento em quatro fases distintas: design, codificação, teste e documentação. Cada estágio envolve um grupo de agentes, como programadores, revisores de código e engenheiros de teste, facilitando conversas colaborativas e proporcionando um fluxo de trabalho contínuo. A cadeia de chat atua como facilitadora, dividindo cada etapa em subtarefas atômicas, tendo assim um duplo papel, permitindo que soluções sejam propostas e verificadas para resolver com eficiência subtarefas específicas. A análise instrumental do ChatDev mostra que ele possui excelentes recursos de geração de software e pode concluir todo o processo de desenvolvimento de software em menos de sete minutos e custa menos de US$ 1. Não só identifica e mitiga potenciais vulnerabilidades, mas também corrige ilusões subjacentes, mantendo ao mesmo tempo uma eficiência e uma relação custo-eficácia excepcionais. O potencial do ChatDev revela novas possibilidades de integração de LLMs no desenvolvimento de software.

Link: https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaea2a/

10. AgentBench: Avaliando LLMs como Agentes

Este artigo apresenta um benchmark evolutivo multidimensional chamado AgentBench para avaliar as capacidades de grandes modelos de linguagem (LLMs) como agentes. À medida que os LLMs se tornam cada vez mais inteligentes e autónomos, funcionando em tarefas práticas do mundo real, para além das tarefas tradicionais de processamento de linguagem natural, torna-se urgente avaliar as capacidades dos LLMs como agentes em tarefas desafiantes em ambientes interactivos. O artigo testou 25 LLMs (incluindo APIs e modelos de código aberto) e descobriu que os principais LLMs comerciais tiveram um desempenho muito bom como agentes em ambientes complexos, mas havia uma lacuna significativa de desempenho entre eles e os concorrentes de código aberto. Este benchmark faz parte de um projeto em andamento para avaliar sistematicamente o LLM com uma cobertura mais ampla e uma consideração mais aprofundada. Os conjuntos de dados, ambientes e o pacote de avaliação integrado relevantes do AgentBench foram publicados em https://github.com/THUDM/AgentBench.

Link: https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4af3/

11. Formando equipes eficazes de IA humana: construindo modelos de aprendizado de máquina que complementam as capacidades de vários especialistas

O artigo trata do problema de como construir modelos de aprendizado de máquina para complementar as capacidades de múltiplos especialistas em áreas de aplicação onde especialistas humanos trabalham juntos. Pesquisas anteriores focaram principalmente em cenários com apenas um especialista diferente, mas em situações reais pode haver vários especialistas com diferentes capacidades para escolher. Para resolver este problema, o artigo propõe um método para treinar um modelo de classificação para que possa complementar as capacidades de vários especialistas humanos. Ao treinar em conjunto com o sistema de alocação, o classificador aprende a prever com precisão aquelas instâncias que seriam difíceis de serem previstas por especialistas humanos, e o sistema de alocação aprende a atribuir cada instância ao membro da equipe mais apropriado, seja o classificador ou um especialista humano. O método é avaliado em vários experimentos usando conjuntos de dados públicos de especialistas “sintéticos” e conjuntos de dados médicos reais anotados por vários radiologistas. O método supera pesquisas anteriores e é mais preciso do que os melhores especialistas ou classificadores humanos. Além disso, a abordagem é adaptável e pode ser adaptada de forma flexível a equipes de diferentes tamanhos e níveis de diversidade de especialistas.

Link: https://www.aminer.cn/pub/634d809c90e50fcafd4e75bc/Leia o texto original

12. Simbiose Humano-IA: Uma Pesquisa das Abordagens Atuais

Este artigo tem como objetivo fornecer uma visão abrangente das diferentes maneiras pelas quais a inteligência artificial e os humanos podem trabalhar juntos. O artigo destaca vários aspectos do trabalho em equipe humano e de IA, como processos complementares, escopo de tarefas, representação de modelos, hierarquia de conhecimento e objetivos da equipe, e classifica o trabalho nos últimos anos de acordo com essas dimensões. Os autores esperam que esta pesquisa forneça uma ligação mais clara entre a pesquisa em inteligência artificial e equipes humanas e forneça orientação para novos pesquisadores na área.

Link: https://www.aminer.cn/pub/6054791591e0116f82f2d5f4/

13. MindCraft - Teoria da Modelagem da Mente para Diálogo Situado em Tarefas Colaborativas

Este artigo se concentra em como permitir que agentes autônomos cooperem de maneira semelhante à humana no mundo humano. Entre eles, a teoria da mente desempenha um papel importante na cooperação e comunicação humana. Para permitir a aplicação da modelagem da teoria da mente em interações situadas, os autores apresentam um conjunto de dados refinado de tarefas colaborativas realizadas por agentes humanos no mundo de blocos virtuais 3D do Minecraft. Este conjunto de dados fornece informações sobre as crenças dos parceiros sobre o mundo e entre si durante uma interação, proporcionando ricas oportunidades para estudar o comportamento colaborativo humano na comunicação linguística situada. Como um primeiro passo em direção ao nosso objetivo de desenvolver agentes de IA incorporados capazes de inferir os estados de crenças contextuais dos colaboradores, construímos e apresentamos os resultados de modelos computacionais para diversas tarefas de teoria da mente.

Link: https://www.aminer.cn/pub/614164545244ab9dcb9dd85a/

14. São necessários dois para dançar o tango: em direção à teoria da mente da IA

O artigo discute a necessidade da inteligência artificial (IA) colaborar com os humanos e propõe uma abordagem chamada "Teoria da Mente da IA ​​(ToAIM)". O artigo acredita que para que uma equipe de colaboração homem-máquina opere de forma eficaz, não é apenas necessário que a IA compreenda melhor os humanos, mas também que os humanos compreendam melhor a IA. Os autores instanciam essas ideias no campo da resposta visual a perguntas (VQA) e descobrem que, usando apenas um pequeno número de exemplos (50), os não especialistas podem ser treinados para prever melhor as respostas e as falhas futuras de modelos complexos de VQA. Além disso, o artigo avalia o papel dos métodos de explicação (ou explicabilidade) existentes para ajudar os humanos a construir o ToAIM. Surpreendentemente, obter o estado interno do modelo - como confiança nas k principais previsões, mapas de atenção explícitos ou implícitos, etc. - não ajuda as pessoas a prever melhor seu comportamento.

Link: https://www.aminer.cn/pub/599c7971601a182cd263e0b6/


Clique no link para ver todos os artigos dos AI-Agents!

https://www.aminer.cn/topic/64d9caab12da7235fe622b16

Acho que você gosta

Origin blog.csdn.net/AI_Conf/article/details/132557658
Recomendado
Clasificación