Recherche sur l'application des modèles d'intelligence artificielle générative

Cette série d'articles de blog est constituée de notes papier sur l'apprentissage profond/la vision par ordinateur. Veuillez indiquer la source lors de la réimpression.

标题 :Une enquête sur les applications de l'IA générative

Connexion :https://arxiv.org/abs/2306.02781

Résumé

L’IA générative a connu une croissance significative ces dernières années, conduisant à un large éventail d’applications dans des domaines variés. Dans cet article, nous proposons une étude complète de plus de 350 applications d’IA générative, fournissant une taxonomie structurée et une description concise de diverses IA génératives monomodales et multimodales. L'enquête est divisée en sections couvrant une variété d'applications d'IA générative monomode telles que le texte, les images, les vidéos, les jeux et les informations sur le cerveau. Notre enquête vise à fournir aux chercheurs et aux praticiens des ressources précieuses pour les aider à naviguer dans le domaine en pleine expansion de l'intelligence artificielle générative, à promouvoir une meilleure compréhension de l'état de l'art actuel et à stimuler l'innovation dans ce domaine.

1. Introduction

L’émergence de modèles d’IA génératifs révolutionnaires, tels que ChatGPT [229] et DALL-E [247], a donné naissance à une nouvelle ère de synthèse et de traitement de contenu numérique. Plus précisément, ces puissants algorithmes d’apprentissage automatique ont démontré une capacité sans précédent à synthétiser des images, de l’audio, du texte et d’autres modalités de données réalistes [153]. En particulier, ces modèles de génération de langage et d’images de pointe, tirant parti de l’apprentissage profond et des structures de transformation, ont permis de générer de grandes quantités de contenu dans une variété de domaines. L'IA générative fait référence à l'intelligence artificielle qui peut générer de nouveaux contenus plutôt que de simplement analyser ou traiter des données existantes comme un système expert [219]. Les modèles d’IA générative équipés d’énormes ensembles de données et de conceptions complexes possèdent des capacités extraordinaires pour créer du contenu nouveau et diversifié. Ils peuvent traiter et apprendre des informations provenant de sources multiples, telles que Wikipédia [262], Github [94], etc. En exploitant ces riches données, ces modèles peuvent générer un large éventail de formats multimédia, notamment vidéo, audio et texte.

Ces dernières années, la puissance de calcul croissante a tiré parti des réseaux neuronaux profonds [188], des transformateurs et d'autres modèles innovants tels que les réseaux antagonistes génératifs [113] et les auto-encodeurs variationnels [219]. Tous ces modèles capturent efficacement la complexité des données, ce qui les rend efficaces pour modéliser des distributions de probabilité de grande dimension de langage ou d'images dans des domaines spécifiques ou généraux. En combinant des modèles génératifs avec d'autres techniques pour mapper l'espace sémantique de grande dimension sous-jacent du langage ou des images à des représentations multimédias de texte, d'audio ou de vidéo, tout format d'entrée, tel que le texte, peut être transformé en une variété de formats de sortie, tels que en vidéo. Cette polyvalence permet une conversion transparente entre les formats multimédias, rendant les modèles génératifs indispensables dans de nombreuses applications. L’une des caractéristiques les plus frappantes de l’intelligence artificielle générative est son potentiel d’application illimité. Ces modèles peuvent être entraînés pour générer des formats multimédias vraiment différents à partir d'une variété de formats d'entrée, tels que la vidéo, l'audio ou le texte. Par exemple, l’IA générative peut créer des images réalistes à partir de descriptions textuelles, générer du contenu vidéo à partir d’audio et même générer des compositions musicales basées sur un style ou une émotion spécifique. De plus, l’IA générative devrait révolutionner des secteurs tels que la publicité, le divertissement et l’éducation en automatisant la création de contenu et en offrant des expériences personnalisées. Avec la capacité d’apprendre à partir de plusieurs sources de données et de générer une variété de sorties multimédias, ces modèles peuvent aider les entreprises et les particuliers à économiser du temps et des ressources tout en ouvrant de nouvelles possibilités créatives. En résumé, les modèles d’IA générative, avec leur accès à des données riches et à des conceptions complexes, offrent un potentiel sans précédent pour la création et la transformation de contenu. Ils apprennent des données provenant de différentes sources, génèrent divers formats multimédia et transforment les entrées dans un format en sorties dans un autre, fournissant ainsi un outil indispensable dans le monde technologique d'aujourd'hui.

Dans des travaux récents, des enquêtes ont été réalisées sur les grands modèles de langage (LLM) et l'IA générative, couvrant différentes techniques d'application [328, 85, 323, 326, 324, 68, 325]. Contrairement aux enquêtes précédentes, cette revue complète vise à fournir une perspective unique en mettant en évidence non seulement les modèles génératifs les plus importants et leur technologie sous-jacente, mais également toutes les différentes utilisations de cette technologie. De plus, nous fournissons un paysage concurrentiel actualisé dans ce secteur en pleine croissance et les modèles qui soutiennent cette croissance.

Cette ressource comprend 15 catégories, dont texte, images, vidéo, 3D, code et logiciels, parole, compréhension de l'IA, affaires, jeux, musique, biotechnologie, cerveau, autres et multimodal. Dans chaque section, une classification systématique des technologies actuelles, y compris les modèles et outils disponibles, est détaillée. En proposant une exploration systématique de ces diverses applications de l’IA, cette enquête constitue une référence importante pour les chercheurs, les universitaires et les professionnels, leur permettant de mieux comprendre le paysage évolutif de l’IA générative et ses impacts de grande envergure.

Par exemple, un concepteur de jeux 3D peut avoir divers besoins en IA générative pour son projet. Il peut trouver des solutions à ses besoins en IA 3D dans deux catégories : 3D et Jeux, permettant des résultats plus spécifiques et des réponses différentes. Des solutions à ses besoins plus professionnels peuvent également être trouvées dans les catégories Business et Text. Grâce à cette enquête, nous pensons que les utilisateurs pourront avoir une bonne idée de la direction que prend l’IA générative et où ils pourraient trouver la technologie dont ils ont besoin.

Dans cet article, nous proposons l'idée d'un dictionnaire complet pour les applications d'IA générative les plus populaires qui transforment considérablement des choses comme le jeu vidéo [199], le design [183] ​​et les opérations commerciales [2] dans l'industrie. Les difficultés rencontrées par les utilisateurs pour identifier les programmes développés dans chacun des différents domaines d'application confirment la nécessité de disposer d'un outil de référence complet.

2 Classification de base des modèles

Cet article explore les applications émergentes de l’IA générative, en se concentrant sur son potentiel transformateur dans divers domaines, notamment l’art, les affaires, la biotechnologie et le design. Nous classons l’IA générative en la divisant en 13 parties, en fonction du résultat qu’elle produit, du contexte dans lequel elle est utilisée et de son objectif commercial. Le lecteur peut noter que de nombreux modèles peuvent être classés dans la catégorie texte car leur sortie est du texte. De nombreux modèles de rédaction peuvent également être classés dans la catégorie texte. La catégorisation présentée ci-dessous vise à permettre aux utilisateurs potentiels de technologies d'IA générative de trouver rapidement les technologies qu'ils utiliseront en fonction de cas d'utilisation. Dans la première partie de cet article, nous avons présenté les catégories dans lesquelles nous classons les technologies actuelles d’IA générative. Nous proposons ici des résumés dans différentes catégories :

  1. Catégorie de texte : les techniques d'IA générative de la catégorie de texte sont conçues pour créer et manipuler du texte en langage naturel. Ces technologies incluent des modèles de langage capables de générer du texte de type humain, comme le modèle GPT d’OpenAI. Bien que les plus connus de ces modèles soient les chatbots, comme ChatGPT d’OpenAI ou BARD de Google, cette catégorie comprend également d’autres types de modèles, notamment les assistants à la rédaction de texte, les modèles de langage scientifique ou les chatbots. Le critère principal pour cette catégorie est que le modèle génère du texte en sortie.

  2. Catégorie d'image : les techniques d'IA générative de la catégorie d'image se concentrent sur la création et la manipulation d'images visuelles. Le critère principal pour cette catégorie est que le résultat final soit une image. Cela peut inclure des modèles de génération d'images capables de créer des images à partir de descriptions textuelles, ainsi que des modèles d'édition d'images. Pour simplifier, la catégorie est divisée en création d’images artistiques, création d’images photoréalistes et édition d’images. Certains modèles qui effectuaient simultanément deux tâches ou plus ont été placés au hasard dans l’une des catégories. Les autres modèles de cette catégorie incluent les représentations texte-mise en page et texte-moléculaire, qui ne peuvent pas être incluses dans les autres catégories mentionnées ci-dessus.

  3. Catégorie vidéo : les technologies d'IA générative de la catégorie vidéo sont conçues pour créer et manipuler du contenu vidéo. Le critère principal pour cette catégorie est que le résultat final soit une vidéo. Cela inclut principalement des modèles de création vidéo capables de générer un nouveau contenu vidéo basé sur des descriptions textuelles. D'autres modèles incluent la post-production, la génération de texte en scène, la capture de texte en mouvement, l'image en vidéo et le doublage vidéo.

  4. Catégorie 3D : les technologies d'IA générative de la catégorie 3D se concentrent sur la création et la manipulation d'objets et d'environnements tridimensionnels. Le critère principal est que le résultat généré soit un modèle 3D complet. De plus, il existe des modèles 4D et 3D conçus spécifiquement à des fins Metaverse. Les entrées incluent du texte, des images uniques, des images et des modèles 2D.

  5. Catégorie Code et Logiciel : Les techniques d'IA générative de la catégorie Code et Logiciel visent à automatiser le codage et la création de logiciels. Le critère principal est que le résultat final soit du code. Cela comprend différentes catégories : texte vers code, texte vers site Web, texte vers logiciel et texte vers application. D'autres modèles moins courants incluent la conception vers le code, le texte vers le logiciel, le texte vers RPA et les transcodeurs. La catégorie texte vers logiciel a été conçue pour accueillir Adept, une entreprise qui souhaitait que les utilisateurs communiquent avec les ordinateurs uniquement via la saisie de texte, c'est pourquoi elle est incluse ici.

  6. Catégorie Parole : les technologies d'IA générative de la catégorie Parole se concentrent sur la création et la manipulation du langage parlé. Toutes ces techniques convertissent les entrées en sorties vocales. Celui-ci est divisé en synthèse vocale, synthèse vocale et édition vocale.

  7. Catégorie de compréhension de l'IA : les techniques d'IA générative de la catégorie de compréhension de l'IA sont les modèles qui peuvent transformer les entrées en sortie textuelle. Cette catégorie spéciale découle de la nécessité d'une catégorie qui résume les modèles capables de convertir une variété d'entrées en parole. Les entrées comprennent : la parole, les images, l'audio et la vidéo, les images, les vidéos, les métaphores, les données semi-structurées, les données structurées, les films et les régions génératives.

  8. Catégorie Business : les technologies d'IA générative de la catégorie Business se concentrent sur l'application de l'intelligence artificielle pour améliorer les processus commerciaux et la prise de décision. De nombreux modèles mentionnés dans les catégories susmentionnées, tels que ChatGPT dans la catégorie texte ou Midjourney dans la catégorie image, peuvent également être utilisés par les entreprises. Néanmoins, le but de cette catégorie est que les personnes travaillant dans une entreprise moyenne trouvent un modèle qui fonctionne pour leurs opérations commerciales. Ceux-ci sont divisés en marketing, nouveaux modèles commerciaux et opérations commerciales.

  9. Catégorie Jeux : La technologie d’IA générative dans la catégorie Jeux vise à faciliter le développement de jeux. Ils utilisent des modèles de texte, 3D et d’images pour atteindre leurs objectifs. Ceci est divisé en création de jeux vidéo et en personnages.

  10. Catégorie Musique : Les technologies d'IA générative de la catégorie musique se concentrent sur la création et la manipulation de contenu musical. Cela inclut la génération de musique, l’édition musicale et les modèles de danse sur musique.

  11. Catégorie Biotechnologie : Les technologies d'IA générative de la catégorie Biotechnologie visent à appliquer l'IA générative à la recherche biologique et aux applications médicales. Cela peut inclure des modèles capables de prédire la structure d’une protéine ou d’une séquence d’ADN, ainsi que des outils de découverte de médicaments permettant d’identifier de nouveaux médicaments candidats. Cette catégorie a été développée en raison de la richesse des applications d’IA générative dans ce domaine, même si certains de ces modèles pourraient également être inclus dans la catégorie commerciale.

  12. Catégorie Cerveau : les technologies d'IA générative de la catégorie Cerveau se concentrent sur l'application de l'IA générative pour aider les gens à communiquer. Cela inclut les modèles cerveau-texte et cerveau-image.

  13. Autre catégorie : la catégorie Autre a été créée spécifiquement pour accueillir Alphatensor, une technologie pionnière d'intelligence artificielle pour la découverte d'algorithmes, et AutoGPT, un modèle qui tente de mettre en œuvre un GPT autonome.

  14. Catégorie multimodale : la catégorie multimodale est destinée aux modèles qui peuvent prendre en compte plusieurs types d'entrées ou générer plusieurs formes de données. D'autres modèles mentionnés, tels que Text to Slides, disposent également de cette fonctionnalité, mais ces autres modèles ne peuvent entrer dans l'une des autres catégories mentionnées précédemment.

3 Applications d'intelligence artificielle générative

Dans cette section, nous présentons un large aperçu des applications d'IA générative, divisé en sous-sections basées sur différents sujets.

3.1 Texte

Les modèles textuels, notamment ceux centrés sur les chatbots conversationnels, ont révolutionné l’intelligence artificielle depuis le lancement de ChatGPT. À l'aide du traitement du langage naturel et de grands modèles de langage, ces modèles disposent de nombreuses fonctionnalités très utiles telles que la génération de résumés, l'aide à l'écriture, la génération de code, la traduction linguistique et l'analyse des sentiments. Grâce aux capacités de ChatGPT, ils constituent un axe majeur de l’intelligence artificielle générative et des millions d’utilisateurs ont commencé à en bénéficier [163].

IA conversationnelle

L’IA conversationnelle a toujours été l’un des sujets les plus brûlants dans le domaine de l’intelligence artificielle. Ces services agissent comme des chatbots, capables d'effectuer une grande variété de tâches et de convertir des invites textuelles en sortie texte. Ils sont alimentés par de grands modèles de langage, ou LLM. Les modèles de langage à grande échelle (LLM) font référence à des modèles de langage de transformateur contenant des dizaines de milliards (ou plus) de paramètres entraînés sur des données textuelles à grande échelle, tels que GPT-3, PaLM, Galactica et LLaMA [328]. Certaines de leurs capacités incluent la génération de texte, le raisonnement de bon sens, le raisonnement spatial [177], le raisonnement mathématique ou l'aide à la programmation [298] [142]. En termes d'opérations commerciales, il existe de nombreuses applications telles que la prévision de la demande, l'optimisation des stocks et la gestion des risques [69]. Au moment de la rédaction de ces articles, bon nombre de ces capacités sont en cours de recherche, tout comme les capacités des LLM sont continuellement découvertes.

L'exemple le plus connu est ChatGPT, qui a été formé sur des données antérieures à 2021 et dispose désormais de fonctionnalités bêta pour les dernières données, y compris des plugins [83]. D'autres chatbots qui n'incluent pas d'informations de mise à jour incluent Claude ou Stanford Alpaca [63, 278]. Les modèles avec des informations mises à jour incluent Bing AI, BARD de Google (optimisé par LaMDA), les versions bêta de ChatGPT, DuckAssist, Metaphor ou Perplexity AI [83, 128, 207, 236, 237].

texte à la science

Dans le domaine scientifique, d'autres applications peuvent également être envisagées, parmi lesquelles Galactica [293] et Minerva [191] ont été fusionnées. Galactica est un modèle de langage à grande échelle capable de stocker, combiner et traiter le langage scientifique. Minerva est un modèle de langage à grande échelle axé sur les tâches de raisonnement quantitatif telles que les problèmes de mathématiques, de sciences et d'ingénierie de niveau collégial. Bien que ces modèles ne remplacent en aucun cas le raisonnement humain sur ces tâches, ils ont montré des résultats prometteurs.

simulation texte-auteur

Ces modèles ont récemment démontré leur capacité à recréer certains styles d’écriture. Des exemples récents ont montré que les LLM sont capables d'imiter le style d'écriture d'auteurs tels que Daniel C. Dennett[263] ou H.P. Lovecraft[145]. L'article de Dennett a montré que les experts sur le travail de Dennett avaient un taux de réussite de 51 % pour distinguer le travail des philosophes de celui des grands modèles de langage. L'article de Lovecraft a montré que les lecteurs humains sans exposition préalable à Lovecraft étaient incapables de faire la différence entre le texte écrit par l'auteur et le texte écrit par ChatGPT. Il s’agit de réalisations exceptionnelles qui démontrent la puissance des modèles linguistiques pour imiter l’écriture grâce à un réglage fin.

L’IA générative peut également être utilisée pour une aide à l’écriture en temps réel. Les chatbots mentionnés précédemment, comme ChatGPT, peuvent être utilisés à cet effet, mais des applications spécialisées ont également été créées, comme GrammarlyGO [154] et PEER [262]. GrammarlyGO est un assistant d'écriture créé par Grammarly qui peut rédiger des brouillons, des plans, des réponses et des révisions. PEER est similaire au logiciel Grammarly mais est finement adapté aux articles académiques, fournissant des explications sur son fonctionnement.

Envoyer un SMS à un avis médical

Grâce à un réglage fin, de grands modèles de langage se sont également révélés utiles pour les recommandations médicales préliminaires. Il convient de noter que ces modèles ne sont pas encore totalement adaptés à cet usage et ne doivent pas être utilisés pour remplacer l’humain. Certains de ces modèles incluent Chatdoctor [92], GlassAI [148], Med-PaLM 2 [270] et YourDoctor AI [317]. Ils ont démontré leur capacité à récupérer des connaissances médicales, à les raisonner et à répondre à des questions médicales, avec de bons résultats par rapport aux médecins. Med-PaLM 2 a obtenu un score élevé de 86,5 sur l'ensemble de données MedQA. Une fois de plus, ces modèles démontrent la remarquable capacité à créer des réponses précises grâce à un réglage précis. La plus grande startup trouvée dans cet espace est Hippocratic AI [159], qui a développé des LLM qui ont surpassé le GPT-4 sur les ensembles de données médicales.

texte pour voyager

D'autres fonctionnalités incluent la création d'itinéraires de voyage, et des exemples d'application incluent Roam Around [258], TripNotes [47] ou le plug-in Kayak pour ChatGPT [3]. Les deux premiers démontrent la capacité de créer des horaires de visite, tandis que le plug-in Kayak est capable de rechercher des hôtels, des vols et bien plus encore grâce au langage naturel.

document en texte

Enfin, l’IA générative peut également utiliser le langage naturel pour récupérer des informations à partir de documents. Deux applications incluent ChatDOC [92] et MapDeduce [203]. Ils peuvent rapidement extraire, localiser et résumer les informations dans les documents PDF grâce à des requêtes en langage naturel.

3.2 Images

L'intelligence artificielle génératrice d'images n'a cessé d'évoluer depuis la sortie de DALL-E 2 en 2022. Cette technologie est utile à la fois pour la création artistique et pour un usage professionnel, et peut être utilisée pour créer des images basées sur des invites textuelles, ainsi que pour l'édition d'images. En matière de création artistique, elle repousse les limites de la créativité et conduit à des révolutions. En termes de création d'images, des applications avancées telles que Midjourney fournissent des images très réalistes, ce qui donne l'impression que la peinture raster est un pas de plus.

l'édition d'image

L'IA générative s'est avérée très utile dans l'édition d'images. Certaines applications utiles incluent Alpaca AI [59], I2SB [198] et Facet AI [134]. Certaines des capacités de ces applications incluent l'inpainting, la suppression, l'amélioration de la résolution, la super-résolution, la suppression du flou et la génération de cartes de profondeur. Un exemple d'utilisation de l'IA générative pour l'édition d'images est Photoroom AI [238], qui permet au logiciel d'effacer les arrière-plans et de supprimer des objets des images. La restauration faciale peut même être réalisée grâce à l’intelligence artificielle générative, comme le démontre l’outil Face Restoration de Tencent [309, 294]. Ils y parviennent grâce aux GAN (Generative Adversarial Networks), l’un des piliers de l’intelligence artificielle générative et du deep learning. Pour la créativité, Stable Diffusion Reimagine permet aux utilisateurs de générer plusieurs variations d'une seule image [175].

images artistiques

En ce qui concerne les images artistiques, de nombreuses plates-formes ont été créées pour créer des images artistiques via des invites textuelles. Quelques exemples incluent OpenART [230] utilisant DALL-E 2 [248], Midjourney [211], Stable Diffusion [124] et Mage.Space qui crée des images basées sur des invites de texte, qui utilise Stable Diffusion pour la génération d'art, et Mage.Space qui utilise la diffusion stable pour la génération d'art., DALL-E 2, la diffusion guidée par CLIP, VQGAN+CLIP et le transfert de style neuronal pour la génération d'images artistiques par NightCafe. D'autres plates-formes incluent Wonder [312], une application mobile pour la création d'images artistiques, et Neural.Love [170, 224], une plate-forme alimentée par l'IA pour l'édition et l'amélioration audio, vidéo et d'images, qui comprend un générateur d'art parmi lequel choisir. une variété de styles, comme la fantasy ou la science-fiction. Contrairement à d'autres plateformes, DALL-E [248] et Midjourney [211] utilisent leurs propres modèles pour la génération d'images.

Ces modèles se sont également révélés utiles pour d’autres tâches d’image artistique. La création de tatouages ​​peut être facilitée par Tattoos AI [290]. De plus, des mèmes Internet peuvent être créés via Supermeme AI [283]. De plus, avec Profile Picture AI, vous pouvez générer des avatars artistiques en utilisant vos propres exemples d’images.

Images réalistes

En termes de création d'images réalistes, un grand nombre de modèles permettant de générer des images réalistes ont vu le jour. Ils incluent Bing AI Image Creator [73], Craiyon [111], DALL-E 2 [248], GLIGEN [195] [194], Imagen [160], Midjourney [211], Muse [89] [88], Parti [318], Runway ML Text-to-Image [259] et Stable Diffusion ML [124]. Avec la saisie de texte, ils tentent de générer des images réalistes. Au-delà de la simple génération de texte en image, ils ont de nombreuses autres utilisations pour l’IA générative. À partir d’échantillons d’images, l’IA générative peut créer des images réalistes. Booth AI [75] peut créer rapidement des photos de style de vie à partir d’exemples d’images de sujets. D'autres applications, telles qu'Aragon AI [6], Avatar AI [10] et PrimeProfile [243], peuvent créer des avatars à partir d'exemples d'images. L'IA générative peut également optimiser le processus de conception via le texte. PLaY [97] montre comment utiliser la diffusion latente pour transformer du texte en mise en page. De plus, Autodraw [67] est un modèle de dessin qui convertit des dessins simples en formes, ce qui permet d'optimiser rapidement le processus de conception.

3.3 Vidéo

L'IA générative vidéo aide les cinéastes à créer des récits. Bien qu'il s'agisse encore d'un domaine en développement en raison de la complexité de la génération vidéo, les cas d'utilisation répertoriés, tels que la vidéo humaine numérique, la capture de mouvements humains et le doublage vidéo, sont des utilisations révolutionnaires qui pourraient rapidement conduire à des changements technologiques.

3.4 Texte en vidéo

Production vidéo générale Les modèles texte-vidéo en sont encore à leurs débuts, mais il existe déjà de nombreuses applications qui tentent de réussir dans la génération vidéo. Les plus grands modèles incluent Imagen Video,[160], Meta Make A Video[30], Phenaki[306] et Runway Gen-2[259]. Imagen Video utilise un modèle de diffusion en cascade pour créer une sortie vidéo. Meta Make a Video est un modèle de génération vidéo créé par Meta Research qui permet le montage texte-vidéo, image-vidéo et vidéo. Bien qu’ils soient loin de créer un résultat réaliste, ils montrent des signes encourageants et peuvent être utiles pour réaliser des vidéos simples. Phenaki crée des vidéos de plusieurs minutes via des invites textuelles. De plus, Runway Gen-2 peut générer des vidéos à partir d'entrées de texte, de vidéo et d'image. Des vidéos plus courtes sous forme de GIF peuvent être générées via CogVideo [104], un modèle formé en héritant du modèle texte-image pré-entraîné CogView2.

Ces modèles vidéo ont de nombreuses applications dans la création de vidéos avec des personnages numériques. Des applications telles que Colossyan AI[105], Elai AI[131], Heygen AI[158], Hour One AI[162], Rephrase AI[253] et Synthesia[285] peuvent créer des vidéos professionnelles avec différents avatars. Certaines de ces applications, comme Synthesia, combinent cette technologie avec la synthèse vocale dans 120 langues différentes. De plus, l’IA générative peut être utilisée pour convertir des articles en sortie vidéo. SuperCreator[282] est une application mobile qui utilise l'intelligence artificielle générative pour générer de courtes vidéos pour TikTok, Reels et Shorts en saisissant simplement un article. De plus, Synths Video[287] peut convertir des articles en vidéos YouTube.

L'IA générative permet une personnalisation vidéo plus approfondie, ce qui peut être utile pour les entreprises. Un bon exemple est Tavus AI [291], une plateforme de génération vidéo qui personnalise automatiquement les vidéos pour chaque membre du public. De plus, D-ID [123] utilise la technologie de l’intelligence artificielle générative pour créer des vidéos en temps réel pour une expérience humaine immersive.

Ils peuvent également être utilisés pour la génération de vidéos artistiques. Par exemple, Kaiber [179] est une application qui crée des vidéos artistiques à travers des invites de texte et d'images. Il peut même être utilisé dans la production cinématographique, Opus AI [233] est un générateur de texte en vidéo pour tout, des scènes aux personnages, en passant par les dialogues, les effets visuels et bien plus encore.

L’IA générative peut également être utilisée pour la génération d’images en vidéo, ce qui est utile pour la réalité virtuelle. Deux modèles créés grâce à l'intelligence artificielle générative sont GeoGPT [252] et SE3DS [182]. GeoGPT fournit une nouvelle méthode pour synthétiser des vidéos cohérentes à long terme à partir d'une image de scène unique et de trajectoires de mouvement de caméra à grande échelle. SE3D est une méthode permettant de générer des images et des vidéos haute résolution à partir de nouveaux points de vue, y compris des points de vue bien au-delà de l'image d'entrée, tout en conservant une cohérence tridimensionnelle grâce à l'utilisation de GAN (Generative Adversarial Networks) image à image.

D'autres méthodes de génération vidéo remarquables incluent Riverside AI [257], un site Web de production vidéo alimenté par l'IA avec des capacités d'édition, Scenescape [141], une méthode de génération de vue continue basée sur le texte et le modèle de diffusion du mouvement humain [296].

3.5 3D

Ces technologies facilitent la conception 3D avec de simples invites textuelles, images ou vidéos. Ils ont diverses applications, comme la production de jeux, le métaverse ou l’urbanisme, où la conception 3D est cruciale.

3.6 Texte en 3D

Grâce à l'intelligence artificielle générative, les modèles 3D peuvent être générés à partir de plusieurs types d'entrées (texte, images, images et modèles 2D). Concernant la saisie de texte, certains modèles importants incluent Adobe Firefly [5], Dreamfusion [242], GET3D [144], Magic3D [196], Synthesis AI [286] et Text2Room [267]. Ils créent des formes 3D texturées à partir de la saisie de texte. Pour l'entrée 3D avec animation, Mirage [214] est un outil 3D qui génère des éléments 3D animés. Nous pouvons même générer des modèles 4D grâce à l'IA générative, comme le générateur de scènes dynamiques démontré par MAV3D [269].

En termes de saisie d'images, nous pouvons créer des modèles 3D en utilisant des images uniques et plusieurs images. Pour l'entrée d'une seule image, les modèles courants incluent GeNVS [87], Kaedim [178], Make-It-3D [289] et RealFusion [205]. Pour l'entrée multi-images, nous avons NVIDIA Lion [322], EVA3D [161], Neural-Lift-360 [315] et Scenedreamer [96]. Surtout pour les gens, nous avons PersoNeRF [311], qui accepte des exemples d'images de portrait et génère des modèles 3D. Nous pouvons également générer des modèles 3D à partir d'images 2D. Nous pouvons également convertir l'entrée vidéo en modèles 3D via Deepmotion [118] et Plask AI [241]. Enfin, on peut aussi créer des modèles 3D à partir de points géométriques, NVIDIA LION [322].

Cette technologie peut être appliquée au Metaverse. Deux entreprises qui ont combiné l'intelligence artificielle générative et le Metaverse sont Metaphysic AI [208] et Versy AI [51].

3.7 Codes et logiciels

Depuis le début de cette technologie, les développeurs en ont beaucoup bénéficié, qu'il s'agisse de Github Copilot ou de ChatGPT. Grâce au langage naturel, ces modèles peuvent aider les utilisateurs à programmer et à créer des sites Web. Ils peuvent également aider les programmeurs dans des tâches plus répétitives, telles que la rédaction de documentation. L'application la plus ambitieuse, Adept, affirme même que la PNL pourrait permettre aux utilisateurs de communiquer avec des ordinateurs en utilisant uniquement le langage. La démocratisation du code peut aider de nombreux professionnels ayant une formation non technique à utiliser facilement ces programmes, ce qui peut constituer une avancée technologique majeure.

3.8 Texte en code

Génération de code multilingue Il existe de nombreux logiciels capables de générer du code multilingue à partir de la saisie de texte. Bien que ChatGPT soit largement utilisé pour le codage, des applications d’IA plus génératives sont également créées à cet effet. Bien qu’il s’agisse principalement d’assistants de codage, ils sont également capables de générer du code via des invites textuelles. Certains d'entre eux sont Alphacode [193], Amazon Codewhisperer [61], BlackBox AI [13], CodeComplete [101], CodeGeeX [329], Codeium [102], Mutable AI [221], GitHub Copilot [146], GitHub Copilot X [147], GhostWriter Replit [255] et Tabnine [53]. Ils servent à compléter, interpréter, transformer et générer du code. Ils génèrent de nouvelles lignes de code basées sur le contexte et la syntaxe. Comme on peut le constater, c’est l’un des domaines qui connaît le plus grand nombre de candidatures. Ils peuvent être personnalisés en fonction de votre style d’écriture. Codex [95] est le modèle derrière GitHub Copilot, l'assistant de codage le plus connu. Pour la documentation du code, Mintlify [212] et Stenography [279] sont devenus des moyens importants d'utiliser l'intelligence artificielle générative pour la documentation du code.

En termes de langages de programmation spécifiques, la génération de code de feuille de calcul a été largement explorée grâce à l'intelligence artificielle générative. Certaines applications incluent AI Office Bot [54], Data Sheets GPT [265], Excel Formulabot [140], Google Workspace AI-Sheets [150] et Sheets AI [42]. Ils peuvent générer rapidement des formules avec des invites textuelles, et AI Office Bot peut même interpréter ces formules. De plus, il existe des applications pour la génération de code SQL telles que AI2SQL [56] et Seek AI [41]. La traduction de code est également rendue possible grâce à l’intelligence artificielle générative, dont Vercel AI Code Translator [299] est l’un des outils les plus utiles. Même le langage naturel peut contribuer à renforcer la sécurité du réseau grâce à des éléments tels que Microsoft Security Copilot [210]. Il s'agit d'un outil d'analyse de sécurité basé sur l'IA qui répond rapidement aux menaces, traite les signaux et évalue les risques.

Concernant la création de sites internet, il existe Durable [129] et Mutiny [222]. Les deux applications peuvent générer des sites Web avec des images et du texte via des invites textuelles. Surtout pour la génération d'interfaces utilisateur, nous avons trois applications, Diagram AI [121], Galileo AI [21] et Uizard AI [304], qui utilisent l'intelligence artificielle générative pour générer de bonnes interfaces utilisateur et optimiser l'expérience client. The.com [297] automatise même la génération de pages Web afin que les entreprises puissent créer des pages personnalisées pour chaque client.

En ce qui concerne la création d'applications, il existe de nombreuses applications idéales pour la génération d'applications. Concernant les applications, Flutterflow [138], Imagica AI [168] et Google Generative App Builder [151] peuvent générer des applications d'IA de niveau entreprise pour les utilisateurs n'ayant pas de formation technique. En ce qui concerne les applications Web, Debuild AI [116], Literally Anything IO [174] et Second AI [264] sont des exemples de technologies d'IA générative qui permettent aux utilisateurs de créer facilement des applications Web via des invites textuelles. De plus, la création d'applications LLM est désormais facilement accessible aux professionnels non techniques via la saisie de texte et de données, comme démontré par Berri AI [71] et Scale Spellbook [39]. Enfin, grâce au langage naturel, il est désormais possible de concevoir des applications avec des données privées, comme le montre Zbrain [321].

Dans le monde du codage, d’autres technologies ont émergé. Un exemple est la technologie design-to-code mise en œuvre par Locofy [29], qui convertit les conceptions en code pour les applications mobiles et le Web. De plus, il existe des outils d'automatisation de texte via Drafter AI [19], une plate-forme qui automatise les tâches d'analyse les plus complexes, et Lasso AI [27] qui utilise le langage naturel pour créer toute automatisation de processus robotique. Même Adept [4] est apparu, un projet qui permet au langage naturel d'interagir avec tout ce qui se passe dans les ordinateurs.

3.9 Discours

La technologie vocale tente d'imiter la parole humaine. La technologie de synthèse vocale a facilité la production vocale. D’autres technologies de synthèse vocale rendent le clonage vocal très simple grâce à l’intelligence artificielle générative. Cette technologie offre des possibilités futures infinies dans des domaines tels que les podcasts, les vidéos YouTube ou l'aide à la communication pour les sourdines.

3.10 Synthèse vocale

En matière de création vocale, l'IA générative a permis de créer facilement des enregistrements vocaux via des invites textuelles. Un grand nombre de plateformes ont été créées, dont Coqui [109], Descript Overdub [119], ElevenLabs [132], Listnr [197], Lovo AI [26], Resemble AI [256], Replica Studios [280], Voicemod. [307] et Wellsaid [52]. Le modèle le plus important est AudioLM [76], le framework de génération audio de haute qualité de Google avec une cohérence à long terme.
Quant aux modèles parole-parole, ACE-VC [166] et VALL-E [308] sont les modèles les plus importants. En particulier, VALL-E peut prendre un enregistrement de trois secondes de la voix d'une personne et reproduire cette voix, convertissant le texte écrit en discours avec une intonation et une émotion authentiques basées sur le contexte du texte. D'autres technologies capables de générer une sortie vocale incluent Supertone AI [284], qui offre des capacités d'édition vocale, et Dubverse [127], qui convertit les enregistrements vidéo en parole, ce qui le rend idéal pour le doublage vidéo.

3.11 Compréhension de l'IA

L’IA a atteint un haut niveau de conversion de différents types d’informations telles que le texte, la vidéo et la voix en langage naturel. Ceci est très utile car l’IA est capable de communiquer avec les gens et de convertir des formes de communication complexes en textes plus simples. Si nous pouvons convertir n'importe quelle entrée en texte, nous pouvons alors facilement la comprendre et même utiliser cette sortie comme entrée pour d'autres techniques, rendant le modèle d'IA plus complet.

3.12 Synthèse parole-texte

L'un des principaux domaines est la technologie de synthèse vocale, car les sous-titres et les transcriptions sont très utiles. Les applications incluent Cogram AI [103], Deepgram AI [117], Dialpad AI [122], Fathom Video [135], Fireflies AI [137], GoogleUSM [327], Papercup [234], Reduct Video [305], Whisper [ 246] et Zoom IQ [331]. Ces technologies peuvent faire plus que de simples tâches de synthèse vocale, et certaines peuvent faire bien plus. Deepgram AI peut identifier les locuteurs, la langue et les mots-clés. Dialpad AI comprend des recommandations en temps réel, des résumés d'appels et des points de contact client automatisés. Papercup peut même traduire et générer des paroles avec une voix humaine. Enfin, Zoom a intégré l'IA dans son système, y compris les résumés de discussion et les brouillons d'e-mails. En combinant plusieurs techniques d'IA générative, nous pouvons voir comment les flux de travail peuvent être optimisés.
Il existe d'autres techniques qui peuvent même convertir des images en texte. Ces techniques peuvent être utilisées dans des domaines tels que la vision par ordinateur pour aider l’IA à mieux comprendre le contenu généré par l’homme. Pour ces technologies, quelques exemples d'applications incluent Flamingo [57], Segment Anything [181] et VisualGPT [93]. Flamingo peut même effectuer cette tâche sur une entrée vidéo. Pour l'entrée vidéo, nous trouvons TwelveLabs [184] et MINOTAUR [152]. TwelveLabs peut extraire des fonctionnalités clés des entrées vidéo, telles que des actions, des objets, du texte à l'écran, de la parole et des personnes, et convertir le tout en représentations vectorielles. Ces vecteurs permettent des recherches rapides. Minotaur gère la compréhension basée sur des requêtes de longues vidéos. Dans ce domaine, il existe également un modèle appelé MOVIECLIP [77] qui est très utile car il permet d'identifier avec précision les scènes visuelles dans les films. Grâce à cette technologie, nous pouvons voir les ordinateurs commencer à comprendre efficacement les ensembles de données non structurées.

Il existe même des plates-formes capables de convertir de nombreuses formes de saisie en texte. Primer AI [36] est un outil capable de comprendre et de traiter de grandes quantités de texte, d’images, d’audio et de vidéo en temps réel. Il aide à comprendre et à traiter ces informations pour protéger la sécurité et la démocratie. Quant à Speak AI [40], il aide les équipes de marketing et de recherche à transformer l’audio, la vidéo et le texte non structurés en informations concurrentielles à l’aide de la transcription et du traitement du langage naturel. Avec ces deux technologies, nous pouvons voir comment l’IA générative peut nous aider à analyser rapidement de grands ensembles de données non structurées. Nous pouvons même comprendre et opérer via Primer, et obtenir rapidement des informations grâce à Speak AI.

L'IA générative s'est également révélée utile pour convertir des tableaux de données en texte. Quelques exemples d'applications d'IA générative utilisées à cette fin incluent Defog AI [18], MURMUR [260] et TabT5 [62]. MURMUR est particulièrement capable de comprendre les données non structurées. Si nous parvenons à perfectionner cette technologie, cela pourrait avoir un impact significatif sur l’optimisation des décisions commerciales, car elle peut aider à comprendre rapidement les données tabulaires.
Cette technologie est également appliquée pour générer une modélisation région-texte. GriT [314] est un transformateur conçu pour parvenir à la compréhension des objets via des paires région et texte, où la région est utilisée pour localiser l'objet et le texte est utilisé pour décrire l'objet. Cela peut être très utile pour les tâches de détection d'objets.

3.13 Affaires

L'IA générative a des applications commerciales claires dans de nombreux domaines technologiques répertoriés, tels que le texte, les images et la vidéo, et peut aider les entreprises à réduire les coûts, à réduire les tâches répétitives et même à automatiser d'autres processus plus créatifs et plus coûteux, tels que la conception, les documents marketing. ou la production de diaporamas. Cela pourrait même permettre l’émergence de nouveaux types d’entreprises basées sur l’IA, comme Harvey qui automatise le droit ou Truewind qui automatise la comptabilité. Bien que ces technologies n’en soient qu’à leurs débuts, nous pouvons imaginer comment l’IA générative va changer le mode de fonctionnement des entreprises, comme indiqué ci-dessous.

3.14 Commercialisation

Pour le marketing, l’IA générative a eu un impact énorme car elle facilite la génération de zones créatives et d’images. En termes de rédaction, un grand nombre d'applications ont été développées, parmi lesquelles Anyword [64], Copy AI [14], Google Workspace- Gmail et Docs [150], Hyperwrite [167], Jasper [25], Letterdrop [189] , Regie AI [37], Simplified AI [268], Type AI [49] et Writesonic [313]. Les fonctionnalités de ces applications incluent la rédaction d'e-mails, le contenu de sites Web, les brouillons, les réponses, le contenu marketing et les descriptions de produits. On voit bien que l’optimisation de ces processus serait très utile pour de nombreuses entreprises. En fait, Regie AI ajustera même le ton de votre LM au ton de votre entreprise, le rendant ainsi plus conforme aux besoins de l'entreprise. Ici encore, nous voyons comment les entreprises peuvent combiner plusieurs technologies d'IA générative pour optimiser leurs processus, comme Jasper, qui peut créer des publications, des e-mails, des blogs et des rapports sur les réseaux sociaux.

Plus précisément, pour la création de contenu sur les réseaux sociaux, il existe des applications telles que Clips AI [100], Pictory AI [239], Predis AI [34], Tweethunter [303] et Tweetmonk [48]. Clips AI et Pictory AI réutilisent le contenu long dans des publications sur les réseaux sociaux. Predis AI génère des publications vidéo et image dans le langage de la marque. Tweethunter et Tweetmonk génèrent tous deux des tweets avec du contenu de marque. Nous pouvons voir comment l’IA générative peut s’adapter à votre marque et automatiser rapidement ces processus. Les entreprises peuvent également utiliser l'IA générative pour générer des podcasts, tels que les Bytepods [320].

Les publicités peuvent également être créées grâce à l'intelligence artificielle générative, et nous pouvons voir de nombreuses applications telles que Ad Creative AI [112], Clickable [99], Omneky [228], Pencil [235] et Waymark [310]. Le dernier Waymark est très utile car il génère des vidéos basées sur l'analyse des données du réseau. De plus, LensAI [28] est également très utile car il optimise les publicités en identifiant les objets, les signes, les actions et les arrière-plans. Les récits publicitaires peuvent également être alimentés par l’intelligence artificielle générative, comme AI 21 Labs [55] et Subtxt [43] peuvent aider.

L’IA générative peut également être utilisée pour automatiser les communications avec les clients. Une gamme d'applications peut fournir des chatbots personnalisés pour votre entreprise, tels que One Reach AI [33], OpenSight AI [232], Brainfish [78] et Yuma AI [319]. Le courrier électronique peut également être automatisé grâce à des outils d'IA générative tels que InboxPro [169], Lavender [187], Smartwriter [273] et Twain [302]. Certaines de ces technologies incluent même des données sur les réseaux sociaux et des analyses de courrier électronique pour optimiser les opérations. Même des plateformes avec assistants vocaux ont été créées, comme Poly AI [35].

Les ventes peuvent également être alimentées par l’intelligence artificielle générative grâce à la pléthore d’applications créées. Les centres de contact peuvent être optimisés grâce à des applications telles que Cresta [15], Forethought AI [139], Grain AI [22] et Replicant [254], qui peuvent améliorer l'expérience client. Replicant peut résoudre les problèmes de service client par téléphone, SMS et chat. Cresta et Grain, quant à eux, fournissent une assistance en temps réel aux centres de contact. Cresta transforme les informations en temps réel en actions en temps réel, tandis que Grain AI automatise l'enregistrement, l'enregistrement et la capture des informations pour les conversations avec les clients. Quant à Forethought, il vise à automatiser l’expérience client. Pour la préparation des ventes, il existe une application appelée Tennr [295] qui génère une préparation parfaite des réunions avant chaque appel commercial. Il existe même une application appelée Copy Monkey AI [108] conçue pour optimiser le classement organique des listes et des produits Amazon.

Nous pouvons voir des entreprises investir des ressources dans l’intelligence artificielle, comme par exemple EinsteinGPT [261] créé par Salesforce pour générer du contenu personnalisé sur Salesforce Cloud. Il générera du contenu dans chaque interaction de vente, de service, de marketing, de commerce et d'informatique pour améliorer l'expérience client. Grâce à l’intelligence artificielle générative, la génération de contenu visuel peut être pilotée. Les conceptions peuvent être créées rapidement en utilisant uniquement des invites textuelles, comme le démontre Microsoft Designer [209], qui peut créer des invitations, des cartes postales électroniques, des graphiques, etc. Il est même possible de créer des logos grâce à l’intelligence artificielle générative, comme le montrent Brandmark [79] et Looka AI [201]. Brandmark crée également d'autres contenus professionnels, tels que des cartes de visite. Si vous avez besoin d'idées de noms d'entreprise, vous pouvez utiliser Namelix [223], Brandinition [81] et Brandsnap [80] pour générer des noms d'entreprise.

L’IA générative peut également aider les entreprises à automatiser les tâches répétitives. Ceci peut être réalisé grâce à certaines applications telles que Bardeen AI [12], Magical AI [202] et Notion AI [32]. Ces applications, conçues spécifiquement pour les tâches répétitives, sont particulièrement utiles pour les entreprises cherchant à automatiser des processus relativement simples grâce au machine learning.

L’IA générative peut également aider les parties plus stratégiques et avancées d’une entreprise. Des applications telles que Rational AI [176] peuvent aider à créer diverses analyses commerciales. Les applications peuvent aider les entreprises à gérer leurs employés à grande échelle grâce à la synthèse des conversations et à l'automatisation du support aux employés, telles que Albus ChatGPT [272], ChatGPT dans Slack [272] et Moveworks [217]. La création de produits peut également être optimisée grâce à l'intelligence artificielle générative, telle que Cohere AI [16], qui permet à LM de récupérer, générer et classer du texte pour créer des produits optimaux. Des retours peuvent être obtenus rapidement pour mieux comprendre les idées d’une entreprise grâce à l’IA générative, telle que Venturus AI [50] et Mixo AI [213], qui analysent les idées commerciales.

Les flux de travail des analystes peuvent également être facilités grâce à l’IA générative. Ceci peut être réalisé en aidant à la génération de diapositives et aux études de marché. En ce qui concerne la génération de diapositives, plusieurs applications peuvent créer des présentations en langage naturel. Certaines de ces applications incluent Autoslide AI [9], Canva Docs to Decks [84], ChatBA [91], Decktopus AI [17], Gamma AI [143], Google Workspace AI-Slides [150], Tome AI [45] et diapositive AI [38]. Certaines de ces applications peuvent fonctionner avec des invites de texte courtes, comme Tome AI, tandis que d'autres peuvent transformer des documents en diaporamas en saisissant un texte long, comme Canva Docs. De plus, Decktopus crée même des annotations de diapositives, ce qui peut être très utile.

3.15 Jeux

L’industrie du jeu bénéficiera grandement de la possibilité d’utiliser des techniques d’IA générative à partir d’images, de textes et de modèles 3D. Les modèles 3D peuvent faciliter la création et les modèles de texte peuvent être utilisés pour le récit et les personnages. Nous pouvons considérer les jeux comme une étude de cas claire sur la manière dont l’IA générative peut être utilisée dans toutes les parties de la chaîne de valeur d’une industrie donnée.

L’IA générative peut être utilisée dans la production de jeux vidéo. Ceci peut être réalisé grâce à des applications telles que CSM [114], Iliad AI [24] et Latitude [186]. Pixelvibe [240], spécialisé dans les actifs de jeux, aide à créer des actifs grâce à l'intelligence artificielle générative. De plus, pour les textures de jeux, Armorlab est un logiciel conçu pour la création de textures basée sur l'intelligence artificielle. Il existe même maintenant un modèle appelé MarioGPT [281] conçu pour la génération ouverte de niveaux texte-jeu basée sur LM.

Surtout pour les personnages du jeu, nous trouvons Character AI [90], ConvAI [107], InWorld AI [173] et RCT AI Chaos Box [249]. ConvAI et InWorld AI créent des personnages grâce au langage naturel. Entrez simplement les paramètres de votre personnage et vous obtiendrez votre personnage complet. Quant à RCT AI Chaos Box, le moteur utilise un apprentissage par renforcement profond pour générer dynamiquement des réponses de PNJ et de nouveaux scénarios en analysant les entrées des joueurs en temps réel.

Ces applications et modèles combinent plusieurs aspects du processus de production de jeux avec l'intelligence artificielle générative, offrant ainsi aux développeurs de jeux davantage d'outils et de ressources pour améliorer la qualité et la créativité de leurs jeux. L’application de l’IA générative peut avoir un impact considérable sur l’industrie du jeu vidéo, depuis la création d’actifs de jeu jusqu’au développement de personnages et de scénarios.

3.16 Musique

L’IA générative peut également grandement faciliter la création musicale. Cela peut être accompli avec des indices textuels de base ou de la musique supplémentaire. Cela aide les artistes à écrire des chansons et même à créer de la musique de base avec des invites textuelles simples.

De nombreuses applications ont été développées pour générer de la musique à partir du langage naturel. Ils comprennent Aiva [7], ERNIE-music [330], Harmonai [156], Infinite Album [58], Jukebox [120], Mubert [218], Musico [220], Noise2Music [164], Sonify [275], sonore [276] et Splash AI Beatbot [70]. Ils ont la capacité de générer de la musique à partir d’un langage naturel simple. Musico peut même réagir aux gestes, mouvements, codes et autres sons. Même la danse commence à se transformer en musique à travers un modèle appelé EDGE [301]. Enfin, l'édition musicale peut également être réalisée grâce à l'intelligence artificielle générative, telle que Moises AI [215] et SingSong [125].

3.17 Biotechnologie

Les techniques d’intelligence artificielle générative facilitent le processus de modélisation moléculaire dans le domaine de la biotechnologie. Cela facilite la découverte de médicaments et la modélisation des protéines, favorisant ainsi les progrès dans ce domaine. À mesure que ces technologies se développent, la biotechnologie aura peut-être plus de facilité à réaliser ses progrès. Absci Corporation [1], cotée au Nasdaq, utilise déjà l'IA générative dans son processus de création de médicaments.

3.18 Découverte de médicaments

Concernant la découverte de médicaments, NVIDIA Bionemo [225] est un service cloud qui fournit des modèles d'intelligence artificielle biomoléculaire génératifs et prédictifs à grande échelle pour la recherche sur la découverte de médicaments. De nombreuses entreprises utilisent l’IA générative pour la création de médicaments, notamment Absci, Atomic AI [8], BigHat AI [72], Exscientia [133], Menten AI [206] et ProteinQure [271]. Ils combinent l’apprentissage automatique et les connaissances biologiques pour créer des médicaments.

En termes de modélisation des protéines, les modèles découverts incluent BARTSmiles [98], un modèle de langage génératif pour la représentation moléculaire, et Alphafold [251], un programme informatique permettant de prédire la structure des protéines dans le génome humain. En outre, deux sociétés se concentrent sur l’intelligence artificielle générative pour les opérations commerciales de conception de protéines, à savoir Cradle [110] et Profluent [244].

3.19 Cerveau

Des modèles cérébraux pourraient aider les personnes muettes à communiquer grâce à l’intelligence artificielle générative. Bien que ces technologies soient encore jeunes, des résultats prometteurs sont déjà visibles dans ce domaine. En termes de modèles de conversion des signaux cérébraux en texte, nous trouvons le Speech From Brain de Meta AI [31] et l’enregistrement cérébral non invasif [130]. Ils tentent tous deux de décoder la parole à partir d’enregistrements cérébraux non invasifs. Utiliser la diffusion stable pour les images cérébrales [288] est une nouvelle méthode basée sur le modèle de diffusion (DM), appelé diffusion stable, pour reconstruire des images à partir de l'activité cérébrale humaine.

4 autres

Cette classification s'applique à d'autres modèles. Premièrement, Alphatensor [136] est un système d’intelligence artificielle basé sur la découverte d’algorithmes basés sur l’apprentissage par renforcement. Le travail d'Alphatensor consiste à améliorer l'efficacité de la multiplication matricielle, qui se produit dans de nombreux calculs de base. Le processus de découverte automatisée d’algorithmes est complexe car l’espace des algorithmes possibles est immense. Par conséquent, ce modèle utilise AlphaTensor, qui est entraîné pour jouer à un jeu solo dans le but de trouver une décomposition tensorielle dans un espace de facteurs finis. AlphaTensor a découvert de nombreux algorithmes dont la complexité de la taille de la matrice surpassait les techniques de pointe.

De plus, AutoGPT [155] est devenu un modèle très connu dans la communauté de l’intelligence artificielle générative. Ce programme est alimenté par GPT-4 et peut connecter de manière autonome les « esprits » LLM pour atteindre n'importe quel objectif que vous vous fixez.

4.1 Multimodalité

Les modèles peuvent tirer pleinement parti des technologies répertoriées, en les combinant en une seule application. Ces applications répertoriées acceptent une variété d’entrées, qui peuvent grandement contribuer aux progrès de l’intelligence artificielle. De plus, les projets d’agents multitâches comme GATO pourraient constituer l’avenir de l’IA générative. Bien que certains modèles, notamment les modèles texte-diapositive, tirent parti de nombreuses techniques d'IA générative, ces modèles ont été choisis car ils ne convenaient pas à d'autres classifications.

Bien qu'elle n'ait pas encore été rendue publique, la quatrième version de GPT, GPT-4, peut accepter la saisie d'images et de texte et générer une sortie de texte, comme le montre le rapport technique de GPT-4 [229]. Dans le domaine des chatbots pouvant accepter plusieurs entrées de données, le bot ERNIE [316] créé par Baidu inclura la possibilité de répondre à des questions mathématiques, de rédiger des textes marketing, de répondre à des questions sur la littérature chinoise et de générer des réponses multimédias. De plus, il est capable de répondre à des questions dans plusieurs dialectes.

Concernant les modèles de langage multimodaux, Kosmos-1 [165] est un modèle de langage multimodal doté de multiples capacités. Il comprend la compréhension et la génération du langage, des tâches de perception du langage, notamment le dialogue multimodal, le sous-titrage d'images, la réponse visuelle aux questions et des tâches visuelles telles que la reconnaissance d'images avec description. Quant à Prismer [200], il s’agit d’un modèle de langage visuel expert multimodal. Certaines tâches incluent le sous-titrage d'images, la réponse aux questions, la détection d'objets et la segmentation. Ce modèle rivalise avec les modèles de vision de pointe actuels sans nécessiter de grandes quantités de données de formation. Quant à PALM-E [126], il s’agit d’un modèle complet avec langage multimodal. D'une part, PaLM-E est avant tout un modèle développé pour les robots et peut résoudre des tâches pour de nombreux types de robots et selon de nombreuses modalités (images, états du robot et représentations de scènes neuronales). Dans le même temps, PaLM-E est également un modèle de vision et de langage doté de larges capacités. Il peut effectuer des tâches visuelles, telles que décrire des images, détecter des objets ou classer des scènes, et est également doué pour les tâches verbales, telles que citer de la poésie, résoudre des équations mathématiques ou générer du code.

Quant aux tentatives d'agent universel, GATO [250] est un agent unique qui va au-delà de la sortie texte. Il adopte une stratégie générale de multimodalité, multitâche et multi-incarnation. Jouez à des jeux, discutez et appuyez sur des boutons en même temps sur le même réseau. Quant à la General Intelligence [171], il s’agit d’une société chargée de développer des agents dotés de capacités générales. Leur objectif est de déployer des systèmes d’IA alignés au niveau humain, capables de se généraliser à un large éventail de tâches économiquement utiles et d’aider la recherche scientifique.

En ce qui concerne les services cloud multimodaux pour l'IA générative, NVIDIA Picasso [226] est un service cloud permettant de créer et de déployer des applications d'image, de vidéo et 3D basées sur l'IA générative. Il intègre du texte en image, du texte en vidéo et du texte en modèle 3D.

Il existe même un framework appelé HuggingGPT [266] qui exploite le LLM (par exemple ChatGPT) pour connecter divers modèles d'IA à la communauté d'apprentissage automatique (par exemple Hugging Face) afin de résoudre des tâches d'IA. Il permet au LLM d'agir en tant que contrôleur, gérant les modèles d'IA existants pour résoudre des tâches d'IA complexes, et les langages peuvent être des interfaces universelles pour améliorer cela. Il obtient des résultats impressionnants dans les domaines du langage, de la vision, de la parole et d’autres tâches difficiles, ouvrant ainsi de nouvelles voies pour une intelligence artificielle avancée.

À propos d'Adobe Firefly [5], il s'agit d'une famille de modèles Adobe capables de créer des images, des vecteurs, des vidéos et des modèles 3D à l'aide de texte. Il est désormais disponible dans Photoshop, permettant aux utilisateurs d'ajouter, d'agrandir et de supprimer du contenu des images à l'aide de simples invites textuelles.

5 Conclusion et travaux futurs

Dans l’ensemble, l’IA générative a montré un grand potentiel pour révolutionner une variété d’industries et remodeler nos interactions avec le contenu numérique. À mesure que ces modèles continuent d’évoluer, ils offrent aux entreprises et aux particuliers des capacités sans précédent en matière de création de contenu, de résolution de problèmes et de prise de décision. Leur capacité à générer des images, du son, du texte et d’autres modalités de données réalistes ouvre de nouvelles opportunités d’innovation et de croissance, tout en rendant les expériences plus personnelles et efficaces. Cependant, à mesure que nous adoptons cette technologie puissante, il est nécessaire de s’attaquer aux problèmes éthiques et aux pièges potentiels associés à son utilisation. Par exemple, des problèmes éthiques peuvent surgir avec des applications comme ChatDoctor, qui fournit des diagnostics médicaux. En promouvant le développement responsable et l’adoption de l’IA générative, nous pouvons exploiter son potentiel de transformation pour façonner un avenir plus créatif, plus productif et plus prospère qui profite aux entreprises et aux particuliers.

Quant aux travaux futurs, cette enquête continuera à être mise à jour. Depuis la sortie de ChatGPT-3, la plupart de ces applications ont été publiées. Cette enquête continuera à s'élargir à mesure que de nouvelles technologies seront publiées.

Les références

(……)

Guess you like

Origin blog.csdn.net/I_am_Tony_Stark/article/details/134085813