LLM Papers Weekly Report|De Meta AI, Université de Londres, Université de Cambridge, ByteDance et d'autres institutions

Un grand modèle (LLM) est un modèle d'intelligence artificielle conçu pour comprendre et générer le langage humain. Ils sont formés sur de grandes quantités de données textuelles et peuvent effectuer un large éventail de tâches, notamment la synthèse de texte, la traduction, l'analyse des sentiments, etc. Les LLM se caractérisent par leur grande échelle, contenant des milliards de paramètres, qui les aident à apprendre des modèles complexes dans les données linguistiques. Ces modèles sont souvent basés sur des architectures d'apprentissage en profondeur telles que Transformers, ce qui les aide à atteindre des performances impressionnantes sur diverses tâches NLP.

Fin 2022, OpenAI a lancé ChatGPT, un modèle de langage à grande échelle basé sur GPT-3.5. En raison de ses excellentes performances, ChatGPT et le modèle de langage à grande échelle qui le sous-tend sont rapidement devenus un sujet brûlant dans le domaine de l'intelligence artificielle, attirer l'attention des chercheurs et des développeurs.

Cette semaine, 10 excellents articles dans le domaine du LLM ont été sélectionnés, provenant d'institutions telles que Meta AI, l'Université de Londres, l'Université de Cambridge et ByteDance.

Pour faciliter la lecture, seuls le titre de l'article, l'auteur, le résumé de ChatPaper et d'autres informations sont répertoriés. Si vous êtes intéressé, vous pouvez cliquer sur le lien pour afficher le texte original, synchronisation des données côté PC (la collection peut être visualisée sur le PC côté), et les nouveaux journaux quotidiens peuvent également se connecter à la petite page.

1. Llama 2 : page de détails sur l'article Open Foundation and Fine-Tuned Chat Models

Lien : https://www.aminer.cn/pub/64b758dd1a5852438b7976ff/

Revue de ChatPaper : Cet article présente Llama 2, un ensemble de grands modèles de langage (LLM) pré-entraînés et optimisés allant de 7 milliards à 70 milliards de paramètres. Parmi eux, Llama 2-Chat est un LLM optimisé pour les scénarios de dialogue et surpasse les modèles de chat open source sur la plupart des benchmarks testés. Sur la base de nos évaluations humaines de l'utilité et de la sécurité, Llama 2-Chat peut être un remplacement approprié pour les modèles à source fermée. Le document décrit en détail la méthode de réglage fin et la méthode d'amélioration de la sécurité de Llama 2-Chat, afin que la communauté puisse s'appuyer sur cette base et promouvoir le développement responsable de LLM.

2. DialogStudio : vers la collection de données unifiées la plus riche et la plus diversifiée pour la page de détails de l'article sur l'IA conversationnelle

Lien : https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb086/

Examen de ChatPaper : cet article présente l'ensemble de données de dialogue le plus vaste et le plus riche appelé DialogStudio, qui vise à remédier au manque de diversité et d'exhaustivité des collections d'ensembles de données de dialogue existantes. DialogStudio inclut des données de dialogue en domaine ouvert, de dialogue orienté tâche, de compréhension du langage naturel, de recommandation de conversation, de résumé de dialogue et de dialogue guidé par les connaissances, ce qui en fait une ressource extrêmement riche et diversifiée pour la recherche de dialogue et la formation de modèles. Pour améliorer encore l'utilité de DialogStudio, les auteurs identifient des licences pour chaque ensemble de données et conçoivent des conseils sensibles au domaine pour les dialogues sélectionnés afin de faciliter le réglage fin en fonction des instructions. En outre, les auteurs développent également des modèles d'IA conversationnelle à l'aide de collections d'ensembles de données, et des expériences d'apprentissage fragmenté et de scénarios d'apprentissage à quelques coups démontrent la supériorité de DialogStudio. Pour améliorer la transparence et prendre en charge la recherche basée sur les ensembles de données et les tâches, ainsi que la pré-formation des modèles de langage, tous les ensembles de données, licences, codes et modèles liés à DialogStudio sont accessibles au public.

3. Sur l'origine des LLM : un arbre et un graphique évolutifs pour 15 821 grands modèles de langage page de détails sur l'article

Lien : https://www.aminer.cn/pub/64b8b1bd3fda6d7f062b9845/

Tour d'horizon de ChatPaper : cet article, intitulé "Origins of Large Language Models: Evolutionary Trees and Graphs of 15,821 Large Language Models", résume à quel point les grands modèles de langage (LLM) sont devenus importants depuis la fin de 2022, tels que ChatGPT et des LLM tels que Bard attirer des millions d'utilisateurs. Des centaines de nouveaux LLM sont annoncés chaque semaine, dont beaucoup sont déposés dans Hugging Face, un référentiel de modèles et d'ensembles de données d'apprentissage automatique. Jusqu'à présent, près de 16 000 modèles de génération de texte ont été téléchargés sur le site. Avec l'afflux de LLM, il est intéressant de voir quels squelettes, configurations, méthodes de formation et familles de LLM sont populaires ou à la mode. Cependant, aucun index LLM complet n'est actuellement disponible. Cet article utilise la nomenclature relativement systématique de Hugging Face LLM pour le regroupement hiérarchique, et utilise n-gramme et fréquence de terme - fréquence de document inverse (TF-IDF) pour identifier les communautés dans LLM. Le document propose une application Web publique appelée "Constellation" pour naviguer et explorer le grand graphique de 15 821 LLM qu'ils ont produits. Constellation peut générer rapidement une variété de visualisations, y compris des treemaps, des graphiques, des nuages ​​de mots et des nuages ​​de points.

4. Comment le comportement de ChatGPT évolue-t-il au fil du temps ?

Lien : https://www.aminer.cn/pub/64b76c6a3fda6d7f068ee31b/

Examen de ChatPaper : cet article étudie le comportement de ChatGPT dans le temps. Les auteurs ont évalué les performances des versions de mars et juin 2023 de GPT-3.5 et GPT-4 sur quatre tâches différentes : 1) résoudre des problèmes mathématiques, 2) répondre à des questions sensibles/dangereuses, 3) générer du code et 4) raisonnement visuel. L'étude a révélé que les performances et le comportement de GPT-3.5 et GPT-4 peuvent varier considérablement au fil du temps. Par exemple, GPT-4 (mars 2023) est très efficace pour identifier les nombres premiers (précision de 97,6 %), mais GPT-4 (juin 2023) fonctionne très mal sur ces problèmes (précision de 2,4 %). Fait intéressant, GPT-3.5 (juin 2023) est bien meilleur dans cette tâche que GPT-3.5 (mars 2023). GPT-4 était moins disposé à répondre aux questions sensibles en juin qu'en mars, et GPT-4 et GPT-3.5 avaient plus d'erreurs malformées dans la génération de code en juin qu'en mars. Ensemble, ces résultats montrent que le comportement d'un même service LLM peut changer considérablement sur une période de temps relativement courte, ce qui souligne la nécessité d'une surveillance continue de la qualité LLM.

5. Page de détails sur les défis et les applications des grands modèles de langage

Lien : https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb083/

Revue de ChatPaper : Le titre de cet article est "Challenges and Applications of Large Language Models", et le résumé mentionne que les grands modèles de langage (LLM) sont passés de rien à omniprésents en quelques années. En raison du développement rapide du domaine, il est difficile d'identifier les défis restants et les domaines d'application des résultats existants. Cet article vise à établir un ensemble systématique de problèmes ouverts et d'histoires de réussite d'applications afin que les chercheurs en apprentissage automatique puissent comprendre plus rapidement l'état actuel du domaine et améliorer la productivité.

6. BuboGPT : Activation de la mise à la terre visuelle dans la page de détails de l'article sur les LLM multimodaux

Lien : https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecd4/

Examen de ChatPaper : Cet article présente un modèle de langage multimédia appelé BuboGPT, qui vise à obtenir une base visuelle, c'est-à-dire à permettre au modèle de marquer clairement l'emplacement des objets dans l'image. Les modèles de langage multimédia traditionnels, tels que MiniGPT-4, LLaVA et X-LLM, etc., ont encore amélioré leur capacité à interagir avec les humains en combinant plusieurs entrées multimédia telles que des images, des vidéos et la parole. Cependant, ces modèles n'ont souvent qu'une compréhension grossière d'un signal multimédia donné, mais ne peuvent pas expliquer les parties spécifiques de l'entrée. Pour améliorer l'expérience utilisateur et élargir les scénarios d'application des modèles de langage multimédia, les auteurs proposent le modèle BuboGPT, qui peut fournir une compréhension fine des objets visuels et d'autres formes multimédias données grâce à des interactions cross-média. Lors de la génération de réponses ou de descriptions, BuboGPT peut localiser l'emplacement exact des objets dans une image. Les auteurs proposent également un schéma de formation en deux étapes et un ensemble de données d'instructions pour fournir au modèle des capacités de compréhension conjointes texte-image-audio. Les résultats expérimentaux montrent que BuboGPT présente d'excellentes capacités de compréhension multimodale et de mise à la terre visuelle lors de l'interaction humaine, à la fois dans des combinaisons de médias alignés et non alignés.

7.Planter une graine de vision dans la page de détails du modèle de langage large

Lien : https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaeaa5/

Revue de ChatPaper : Cet article présente SEED, un élégant générateur de jetons d'image qui permet aux grands modèles de langage (LLM) de voir et de dessiner en même temps. Les recherches antérieures sur les tokenizers d'images ont rencontré un goulot d'étranglement, car les cadres utilisant des jetons visuels quantifiés ne fonctionnent pas aussi bien que BLIP-2 et al. sur la compréhension et la génération multimodales. Malgré ses limites, on pense toujours qu'il unifie naturellement les représentations visuelles et textuelles, rendant les LLM évolutifs pour la formation multimodale. Deux principes clés de l'architecture et de la formation de SEED sont identifiés dans cette étude, facilitant efficacement l'alignement ultérieur avec le LLM. Le premier principe est que les jetons d'image doivent être indépendants des emplacements des patchs physiques 2D, mais plutôt survenir via des dépendances causales 1D, présentant une interdépendance intrinsèque cohérente avec les mécanismes de prédiction autorégressive de gauche à droite dans les LLM. Le deuxième principe est que les jetons d'image doivent capturer une sémantique de haut niveau cohérente avec le niveau d'abstraction sémantique dans les mots, et optimiser la discrimination et la reconstruction pendant la phase d'apprentissage du tokenizer. Ainsi, avec un réglage fin LoRA efficace, le LLM standard est capable de générer une image en texte et un texte en image, simplement en y incorporant SEED. Une pré-formation multimodale complète et un ajustement des instructions peuvent conduire à de meilleurs résultats, mais cela sera exploré dans de futures recherches. Cette version de SEED a été formée en 5,7 jours à l'aide de 64 GPU V100 et de 5 millions de paires image-texte accessibles au public. Des études préliminaires mettent en évidence le grand potentiel des jetons visuels discrets dans le LLM multimodal et l'importance d'une tokenisation d'image appropriée dans une recherche plus large.

8. Retentive Network: A Successor to Transformer for Large Language Models page de détails de l'article

Lien : https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecfd/

Revue de ChatPaper : Cet article propose Retentive Network (RetNet) comme infrastructure de modèles de langage à grande échelle, qui peut simultanément atteindre un parallélisme de formation, un raisonnement à faible coût et de bonnes performances. L'article déduit d'abord théoriquement le lien entre la récurrence et l'attention. Ensuite, un mécanisme de rétention est proposé pour la modélisation de séquences, supportant trois modes de calcul, à savoir parallèle, boucle et boucle de bloc. Plus précisément, les représentations parallèles peuvent prendre en charge la parallélisation de la formation. La représentation en boucle peut atteindre un faible coût O ( 1 ) O(1)O ( 1 ) inférence, améliorant le débit de décodage, la latence et l'utilisation de la mémoire GPU sans sacrifier les performances. La représentation du cycle de bloc peut modéliser de manière pratique de longues séquences et a une complexité de calcul linéaire, et chaque bloc peut être codé en parallèle tout en bouclant pour résumer les informations dans le bloc. Les résultats expérimentaux montrent que RetNet obtient de bons résultats de mise à l'échelle, une formation parallèle, un déploiement à faible coût et des capacités de raisonnement efficaces dans la modélisation du langage. Ces propriétés intéressantes font de RetNet un solide successeur pour les grands modèles de langage, surpassant Transformer.

9.TableGPT : Vers unification des tables, du langage naturel et des commandes dans une seule page de détails sur l'article GPT

Lien : https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaed33/

ChatPaper Summary : Dans les bases de données du monde réel, les tables sont omniprésentes et nécessitent beaucoup de temps et d'efforts pour être analysées et manipulées. Avec le développement des grands modèles de langage (LLM), la saisie en langage naturel facilite l'interaction avec les formulaires. Cet article présente TableGPT, un cadre de formation unifié qui permet aux LLM de comprendre et de manipuler des tableaux, et de le faire à l'aide de commandes fonctionnelles externes. Il introduit la capacité d'interaction de table transparente, qui peut répondre à diverses questions, manipulation de données (telles que les opérations d'insertion, de suppression, de requête et de modification), visualisation de données, génération de rapports d'analyse et prévisions automatiques et autres fonctions. TableGPT est conçu pour offrir commodité et convivialité aux utilisateurs, leur permettant d'utiliser facilement des données tabulaires. Son concept de base est la représentation globale de la table, qui permet à LLM de comprendre pleinement la totalité de la table, et pas seulement les méta-informations de la table. En formant simultanément LLM aux modalités tabulaires et textuelles, TableGPT atteint une compréhension approfondie des données tabulaires et permet des opérations tabulaires complexes via des opérations de chaîne de commande. Surtout, l'avantage de TableGPT est qu'il s'agit d'un système autonome plutôt que de s'appuyer sur des interfaces API externes. En outre, il prend en charge un flux de traitement de données efficace, le rejet de requêtes (le cas échéant) et le déploiement privé, ce qui accélère le réglage fin des données de domaine et garantit la confidentialité des données, améliorant ainsi l'applicabilité du cadre.

10.Page de détails sur les agents de communication pour le développement de logiciels

Lien : https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaea2a/

Revue de ChatPaper : Cet article présente un agent d'intelligence de communication pour le développement de logiciels. L'agence est composée de personnes aux identités différentes, notamment des PDG, des programmeurs professionnels, des ingénieurs de test et des concepteurs artistiques. Lorsque des "clients" humains présentent des tâches initiales à CHATDEV Corporation (telles que "développer un jeu de Go"), les agents communiquent et s'authentifient efficacement grâce au chat collaboratif. Ce processus automatise la construction de solutions logicielles complètes, y compris le code source, les dépendances environnementales et les manuels d'utilisation.

Guess you like

Origin blog.csdn.net/AI_Conf/article/details/131890860