Articles populaires en juillet 丨 Llama 2 open source balaie le monde des grands modèles, l'IA développe son propre logiciel et Transformer s'étend à 1 milliard de jetons

60% de 2023 est passé ! L'IA a continuellement démontré des capacités incroyables dans le passé. Les journaux populaires de juillet ont été mis à jour. Par rapport à l'influence des journaux précédents, cette fois-ci, nous accordons plus d'attention à ce que la technologie nous apporte ?

Tout d'abord, l'open source de Llama 2 a attiré l'attention du grand monde des modèles, et il est gratuit et disponible dans le commerce, y compris trois variantes de paramètres de 7 milliards, 13 milliards et 70 milliards, qui sont optimisées pour les cas d'utilisation de dialogue. En tant que modèle de langage puissant, la version open source de Llama 2 a démontré sa force dans de multiples scénarios d'application en raison de ses excellentes performances et de sa flexibilité.

L'équipe du professeur Sun Maosong de l'Université de Tsinghua a étudié la formation de plusieurs grands agents modèles en un groupe pour exploiter une entreprise de technologie virtuelle pour le développement de logiciels collaboratifs. Il s'agit d'un nouveau concept, l'IA fournit de l'imagination, nous avons des raisons de nous attendre à ce que cette tendance soit plus largement utilisée à l'avenir.

Le LONGNET proposé par Microsoft peut étendre l'échelle du modèle Transformer à 1 milliard de Tokens. Cela signifie que le modèle Transformer peut traiter des séquences de texte plus longues et ainsi obtenir de meilleurs résultats dans des tâches de traitement du langage plus naturel.

Ici, nous montrons les articles populaires les plus représentatifs de 17. Si vous souhaitez obtenir tous les articles, veuillez cliquer sur le lien à la fin de l'article.

1.Llama 2 : Fondation ouverte et modèles de discussion affinés

Meta a ouvert une version gratuite et disponible dans le commerce de Llama 2, avec trois variantes de paramètres de 7 milliards, 13 milliards et 70 milliards, optimisées pour les cas d'utilisation conversationnels.
insérez la description de l'image ici

2. Intelligence artificielle pour la science dans les systèmes quantiques, atomiques et continus

Un examen de l'IA pour la science par 63 universitaires de 4 institutions. L'article souligne certains problèmes rencontrés par l'intelligence artificielle dans la science des systèmes quantiques, atomiques et continus, discute d'autres défis techniques courants et fournit des ressources d'apprentissage et pédagogiques Une liste taxonomique pour promouvoir la poursuite de la recherche et du développement dans le domaine de l'IA pour la science.
insérez la description de l'image ici

3.Meta-Transformer : un cadre unifié pour l'apprentissage multimodal

Les auteurs proposent un cadre appelé Meta-Transformer qui exploite un encodeur figé pour la perception multimodale sans données de formation multimodales appariées. pointent vers un avenir prometteur pour le développement de l'intelligence multimodale unifiée à l'aide de Transformers.
insérez la description de l'image ici

4.Architectures de réseau optimisées pour la formation de grands modèles de langage avec des milliards de paramètres

Les auteurs constatent que le modèle de communication des LLM est unique, ne nécessitant qu'une communication entre tous à large bande passante entre de petits groupes de GPU, tandis que les communications en dehors de ces groupes sont triviales, clairsemées et uniformément réparties. Pour résoudre ce problème, les auteurs proposent une nouvelle architecture réseau qui divise le cluster en un ensemble de GPU connectés par une interconnexion à large bande passante non bloquante, appelée domaine HB. Le coût du réseau peut être réduit jusqu'à 75% sans compromettre les performances de la formation LLM.
insérez la description de l'image ici

5.TokenFlow : fonctionnalités de diffusion cohérentes pour un montage vidéo cohérent

Étant donné une vidéo source et un signal de texte cible pour générer une vidéo de haute qualité, les auteurs proposent un cadre qui exploite la puissance des modèles de diffusion texte-image pour les tâches de montage vidéo axées sur le texte.
insérez la description de l'image ici

6.Agents de communication pour le développement de logiciels

L'équipe du professeur Sun Maosong de l'Université de Tsinghua a récemment étudié comment faire en sorte que plusieurs grands agents modèles forment un groupe pour exploiter une entreprise de technologie virtuelle (ChatDev) pour le développement de logiciels collaboratifs. Étant donné une seule exigence de langage naturel, ChatDev peut aider les utilisateurs à générer des logiciels de manière entièrement automatique.
insérez la description de l'image ici
7. Réseau rétentif : un successeur de Transformer pour les grands modèles de langage

L'article propose une architecture de réseau RetNet pour construire des modèles de langage à grande échelle, tout en réalisant un parallélisme de formation, un raisonnement à faible coût et de bonnes performances.
insérez la description de l'image ici

8.DreamTeacher : pré-entraînement des backbones d'images avec des modèles génératifs profonds

Ce travail présente DreamTeacher, un cadre d'apprentissage de représentation de caractéristiques auto-supervisé, utilisant des réseaux génératifs pour pré-entraîner les dorsales d'images en aval.
insérez la description de l'image ici

9.Encodeur automatique en contexte pour la compression de contexte dans un grand modèle de langage

Introduit un modèle nommé In-context Autoencoder (ICAE) pour la compression de contexte dans les grands modèles de langage.
insérez la description de l'image ici
10. Une enquête sur les réseaux de neurones graphiques pour les séries chronologiques : prévision, classification, imputation et détection d'anomalies

Un aperçu complet de GNN pour les séries chronologiques, y compris les tâches de prévision, de classification, de détection des anomalies et de complétion des données manquantes.
insérez la description de l'image ici
11.CAME : Optimisation efficace de la mémoire adaptative guidée par la confiance

ACL2023 article exceptionnel, des chercheurs de l'Université nationale de Singapour, du laboratoire Huawei Noah's Ark et d'autres chercheurs ont proposé un optimiseur CAME, qui a les mêmes performances qu'Adam tout en réduisant la consommation de mémoire. La formation d'un grand modèle de langage via l'optimiseur CAME peut réduire considérablement le coût de la formation du modèle.
insérez la description de l'image ici
12.VoxPoser : cartes de valeurs 3D composables pour la manipulation robotique avec des modèles de langage

L'équipe de Li Feifei incarne les dernières réalisations en matière d'intelligence. Le robot est connecté à un grand modèle et a mené des recherches à grande échelle dans des environnements de robots simulés et réels. Il peut effectuer plus de 30 tâches opérationnelles quotidiennes spécifiées dans un langage naturel de forme libre.
insérez la description de l'image ici
13. Une enquête sur la classification des graphiques et la prédiction des liens basée sur GNN

Le but de cet article est d'introduire des méthodes de classification de graphes et de prédiction de liens basées sur des réseaux de neurones de graphes.D'abord, les principes de base des réseaux de neurones à convolution de graphes sont présentés en détail, puis des modèles de réseaux de neurones de graphes basés sur des mécanismes d'attention et des auto-encodeurs sont décrits, et leurs applications et ensembles de données associés dans des tâches telles que la classification des nœuds, la classification des graphes et la prédiction des liens.
insérez la description de l'image ici
14.LONGNET : Mise à l'échelle des transformateurs à 1 000 000 000 de jetons

L'article présente une variante de Transformer, LONGNET, qui peut étendre les longueurs de séquence à plus d'un milliard de jetons sans sacrifier les performances pour des séquences plus courtes.
insérez la description de l'image ici

15.Segmenter tout ce qui rencontre le suivi des points

Le document propose la méthode SAM-PT, qui étend les capacités du modèle SAM pour suivre et segmenter n'importe quelle cible dans des vidéos dynamiques.
insérez la description de l'image ici
16. Générez n'importe quoi n'importe où dans n'importe quelle scène

Un modèle de diffusion texte-image capable de générer des scènes arbitraires, des lieux arbitraires et des objets arbitraires est introduit.
insérez la description de l'image ici
17. RT-2 : Les modèles vision-langage-action transfèrent les connaissances Web au contrôle robotique

Cette recherche porte sur la façon d'appliquer directement des modèles de langage visuel formés sur des données à l'échelle d'Internet au contrôle de bout en bout de robots afin d'améliorer la généralisation et de permettre l'émergence d'un raisonnement sémantique.
insérez la description de l'image ici

Cliquez sur le lien pour télécharger la "Collection d'articles à lire absolument en juillet :

https://www.aminer.cn/topic/64d08d4d7dcf6a339bc6713c

Articles populaires en juillet 丨 Llama 2 open source balaie le monde des grands modèles, l'IA développe son propre logiciel et Transformer s'étend à 1 milliard de jetons

Je suppose que tu aimes