60% de 2023 est passé ! L'IA a continuellement démontré des capacités incroyables dans le passé. Les journaux populaires de juillet ont été mis à jour. Par rapport à l'influence des journaux précédents, cette fois-ci, nous accordons plus d'attention à ce que la technologie nous apporte ?
Tout d'abord, l'open source de Llama 2 a attiré l'attention du grand monde des modèles, et il est gratuit et disponible dans le commerce, y compris trois variantes de paramètres de 7 milliards, 13 milliards et 70 milliards, qui sont optimisées pour les cas d'utilisation de dialogue. En tant que modèle de langage puissant, la version open source de Llama 2 a démontré sa force dans de multiples scénarios d'application en raison de ses excellentes performances et de sa flexibilité.
L'équipe du professeur Sun Maosong de l'Université de Tsinghua a étudié la formation de plusieurs grands agents modèles en un groupe pour exploiter une entreprise de technologie virtuelle pour le développement de logiciels collaboratifs. Il s'agit d'un nouveau concept, l'IA fournit de l'imagination, nous avons des raisons de nous attendre à ce que cette tendance soit plus largement utilisée à l'avenir.
Le LONGNET proposé par Microsoft peut étendre l'échelle du modèle Transformer à 1 milliard de Tokens. Cela signifie que le modèle Transformer peut traiter des séquences de texte plus longues et ainsi obtenir de meilleurs résultats dans des tâches de traitement du langage plus naturel.
Ici, nous montrons les articles populaires les plus représentatifs de 17. Si vous souhaitez obtenir tous les articles, veuillez cliquer sur le lien à la fin de l'article.
1.Llama 2 : Fondation ouverte et modèles de discussion affinés
Meta a ouvert une version gratuite et disponible dans le commerce de Llama 2, avec trois variantes de paramètres de 7 milliards, 13 milliards et 70 milliards, optimisées pour les cas d'utilisation conversationnels.
2. Intelligence artificielle pour la science dans les systèmes quantiques, atomiques et continus
Un examen de l'IA pour la science par 63 universitaires de 4 institutions. L'article souligne certains problèmes rencontrés par l'intelligence artificielle dans la science des systèmes quantiques, atomiques et continus, discute d'autres défis techniques courants et fournit des ressources d'apprentissage et pédagogiques Une liste taxonomique pour promouvoir la poursuite de la recherche et du développement dans le domaine de l'IA pour la science.
3.Meta-Transformer : un cadre unifié pour l'apprentissage multimodal
Les auteurs proposent un cadre appelé Meta-Transformer qui exploite un encodeur figé pour la perception multimodale sans données de formation multimodales appariées. pointent vers un avenir prometteur pour le développement de l'intelligence multimodale unifiée à l'aide de Transformers.
4.Architectures de réseau optimisées pour la formation de grands modèles de langage avec des milliards de paramètres
Les auteurs constatent que le modèle de communication des LLM est unique, ne nécessitant qu'une communication entre tous à large bande passante entre de petits groupes de GPU, tandis que les communications en dehors de ces groupes sont triviales, clairsemées et uniformément réparties. Pour résoudre ce problème, les auteurs proposent une nouvelle architecture réseau qui divise le cluster en un ensemble de GPU connectés par une interconnexion à large bande passante non bloquante, appelée domaine HB. Le coût du réseau peut être réduit jusqu'à 75% sans compromettre les performances de la formation LLM.
5.TokenFlow : fonctionnalités de diffusion cohérentes pour un montage vidéo cohérent
Étant donné une vidéo source et un signal de texte cible pour générer une vidéo de haute qualité, les auteurs proposent un cadre qui exploite la puissance des modèles de diffusion texte-image pour les tâches de montage vidéo axées sur le texte.
6.Agents de communication pour le développement de logiciels
L'équipe du professeur Sun Maosong de l'Université de Tsinghua a récemment étudié comment faire en sorte que plusieurs grands agents modèles forment un groupe pour exploiter une entreprise de technologie virtuelle (ChatDev) pour le développement de logiciels collaboratifs. Étant donné une seule exigence de langage naturel, ChatDev peut aider les utilisateurs à générer des logiciels de manière entièrement automatique.
7. Réseau rétentif : un successeur de Transformer pour les grands modèles de langage
L'article propose une architecture de réseau RetNet pour construire des modèles de langage à grande échelle, tout en réalisant un parallélisme de formation, un raisonnement à faible coût et de bonnes performances.
8.DreamTeacher : pré-entraînement des backbones d'images avec des modèles génératifs profonds
Ce travail présente DreamTeacher, un cadre d'apprentissage de représentation de caractéristiques auto-supervisé, utilisant des réseaux génératifs pour pré-entraîner les dorsales d'images en aval.
9.Encodeur automatique en contexte pour la compression de contexte dans un grand modèle de langage
Introduit un modèle nommé In-context Autoencoder (ICAE) pour la compression de contexte dans les grands modèles de langage.
10. Une enquête sur les réseaux de neurones graphiques pour les séries chronologiques : prévision, classification, imputation et détection d'anomalies
Un aperçu complet de GNN pour les séries chronologiques, y compris les tâches de prévision, de classification, de détection des anomalies et de complétion des données manquantes.
11.CAME : Optimisation efficace de la mémoire adaptative guidée par la confiance
ACL2023 article exceptionnel, des chercheurs de l'Université nationale de Singapour, du laboratoire Huawei Noah's Ark et d'autres chercheurs ont proposé un optimiseur CAME, qui a les mêmes performances qu'Adam tout en réduisant la consommation de mémoire. La formation d'un grand modèle de langage via l'optimiseur CAME peut réduire considérablement le coût de la formation du modèle.
12.VoxPoser : cartes de valeurs 3D composables pour la manipulation robotique avec des modèles de langage
L'équipe de Li Feifei incarne les dernières réalisations en matière d'intelligence. Le robot est connecté à un grand modèle et a mené des recherches à grande échelle dans des environnements de robots simulés et réels. Il peut effectuer plus de 30 tâches opérationnelles quotidiennes spécifiées dans un langage naturel de forme libre.
13. Une enquête sur la classification des graphiques et la prédiction des liens basée sur GNN
Le but de cet article est d'introduire des méthodes de classification de graphes et de prédiction de liens basées sur des réseaux de neurones de graphes.D'abord, les principes de base des réseaux de neurones à convolution de graphes sont présentés en détail, puis des modèles de réseaux de neurones de graphes basés sur des mécanismes d'attention et des auto-encodeurs sont décrits, et leurs applications et ensembles de données associés dans des tâches telles que la classification des nœuds, la classification des graphes et la prédiction des liens.
14.LONGNET : Mise à l'échelle des transformateurs à 1 000 000 000 de jetons
L'article présente une variante de Transformer, LONGNET, qui peut étendre les longueurs de séquence à plus d'un milliard de jetons sans sacrifier les performances pour des séquences plus courtes.
15.Segmenter tout ce qui rencontre le suivi des points
Le document propose la méthode SAM-PT, qui étend les capacités du modèle SAM pour suivre et segmenter n'importe quelle cible dans des vidéos dynamiques.
16. Générez n'importe quoi n'importe où dans n'importe quelle scène
Un modèle de diffusion texte-image capable de générer des scènes arbitraires, des lieux arbitraires et des objets arbitraires est introduit.
17. RT-2 : Les modèles vision-langage-action transfèrent les connaissances Web au contrôle robotique
Cette recherche porte sur la façon d'appliquer directement des modèles de langage visuel formés sur des données à l'échelle d'Internet au contrôle de bout en bout de robots afin d'améliorer la généralisation et de permettre l'émergence d'un raisonnement sémantique.
Cliquez sur le lien pour télécharger la "Collection d'articles à lire absolument en juillet :