Suivi en temps réel des tendances de la recherche scientifique丨7.21 Nouveaux articles sélectionnés, avec résumé ChatPaper

En tant que chercheur scientifique, vous devez rechercher et parcourir quotidiennement une grande quantité de littérature académique pour obtenir les derniers progrès scientifiques et technologiques et les résultats de la recherche. Cependant, les méthodes traditionnelles de récupération et de lecture ne peuvent plus répondre aux besoins des chercheurs.

ChatPaper, un outil de connaissance des documents qui intègre la récupération, la lecture et les questions-réponses sur les connaissances. Vous aider à améliorer rapidement l'efficacité de la recherche et de la lecture d'articles, à obtenir les dernières tendances de la recherche dans le domaine et à faciliter la recherche scientifique.
insérez la description de l'image ici

Combiné avec la fonction d'abonnement dynamique de pointe, sélectionnez les nouveaux articles populaires du jour d'arXiv pour former un résumé des articles, afin que chacun puisse comprendre plus rapidement les tendances de pointe.

Si vous souhaitez avoir un dialogue approfondi sur un certain article, vous pouvez directement copier le lien de l'article sur votre navigateur ou aller directement sur la page ChatPaper : https://www.aminer.cn/chat/g/

Liste des nouveaux articles en vedette pour le 21 juillet 2023 :

1. Une enquête sur la gestion du dialogue dans la page de détails de l'article sur l'interaction homme-robot

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062733bd/

Revue de ChatPaper : Discute de la question de la gestion du dialogue dans l'interaction homme-machine. Alors que les robots sociaux sont de plus en plus déployés auprès du public, l'amélioration des interactions avec ces robots est essentielle. Le langage parlé fournit une interface intuitive pour l'interaction homme-machine, et la gestion du dialogue est un élément clé de ces systèmes interactifs. Cependant, pour surmonter les défis actuels et obtenir des interactions fluides, riches et engageantes, une approche plus structurée combinant l'interaction homme-machine et la gestion du dialogue est nécessaire. Dans cette revue systématique, nous analysons l'état actuel de l'art de la gestion du dialogue dans l'interaction homme-machine, en nous concentrant sur les types de gestionnaires de dialogue utilisés, leurs capacités, les méthodes d'évaluation et les problèmes spécifiques aux défis de la gestion du dialogue dans l'interaction homme-machine. interaction. Nous identifions les défis et les frontières scientifiques actuelles liés aux méthodes de gestion du dialogue, aux domaines d'interaction, à l'apparence du robot, au contexte physique et à la multimodalité.

2. Génération de mouvement humain : une page de détails sur l'article d'enquête

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062733ba/

Revue de ChatPaper : L'article passe principalement en revue la recherche dans le domaine de la génération de mouvement humain, expliquant les objectifs de la recherche, les progrès et les défis dans ce domaine. L'article mentionne que la génération de mouvement humain vise à générer des séquences de poses humaines naturelles et montre un grand potentiel dans les applications pratiques. Ces dernières années, des progrès significatifs ont été réalisés dans les techniques de collecte de données de mouvement et les méthodes de génération, ce qui a suscité un intérêt pour la génération de mouvement humain. Cependant, cette tâche reste difficile en raison de la complexité de la locomotion humaine et de la relation implicite avec les signaux conditionnels. L'article présente le contexte du mouvement humain et des modèles génératifs, et passe en revue les approches représentatives pour trois sous-tâches principales : la génération de mouvement humain à partir du texte, de l'audio et du contexte de la scène. En outre, l'article donne un aperçu des ensembles de données et des mesures d'évaluation communs, et discute des problèmes ouverts et des futures directions de recherche potentielles. On espère que cette revue fournira à la communauté des chercheurs une compréhension globale de ce domaine en développement rapide et stimulera de nouvelles idées pour résoudre les problèmes non résolus.

3. FLASK : évaluation du modèle de langage à grain fin basée sur la page de détails du document sur les ensembles de compétences d'alignement

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062733dd/

Examen de ChatPaper : l'article illustre les défis de l'évaluation des grands modèles linguistiques (LLM), à savoir l'évaluation fine des modèles linguistiques basée sur des ensembles de compétences alignés. Les méthodes d'évaluation actuelles sont généralement des évaluations grossières qui ne tiennent pas compte de la nature des instructions de l'utilisateur qui nécessitent des combinaisons de compétences instance par instance, limitant ainsi l'interprétation des véritables capacités des LLM. Pour résoudre ce problème, les auteurs proposent le protocole d'évaluation FLASK, qui peut être utilisé à la fois pour l'évaluation basée sur un modèle et sur l'homme, et décompose la notation grossière en niveaux d'ensemble de compétences instance par instance. Avec FLASK, les auteurs ont comparé plusieurs LLM open source et propriétaires et ont observé une forte corrélation entre l'évaluation du modèle et l'évaluation humaine. FLASK permet aux développeurs de mesurer plus précisément les performances des modèles et d'améliorer les modèles en analysant les facteurs qui rendent les LLM compétents dans des compétences spécifiques. Pour les praticiens, FLASK peut recommander un modèle adapté à une situation spécifique en comparant de manière exhaustive divers LLM.

4. SciBench : Évaluer les capacités de résolution de problèmes scientifiques au niveau collégial des grands modèles de langage page de détails de l'article

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062732a8/

Examen de ChatPaper : souligne les capacités insuffisantes des modèles de langage à grande échelle (LLM) actuels pour résoudre des problèmes scientifiques complexes. Les modèles linguistiques actuels à grande échelle ont réalisé des progrès remarquables sur les repères mathématiques, mais la plupart de ces repères ne concernent que les matières du collège et du lycée, ne contiennent que des questions à choix multiples et se limitent à la portée des opérations arithmétiques de base. Pour résoudre ces problèmes, cet article présente SciBench, une suite de benchmarks étendue conçue pour étudier systématiquement les capacités de raisonnement nécessaires à la résolution de problèmes scientifiques complexes. SciBench contient deux ensembles de données organisés : un ensemble ouvert contenant des questions scientifiques de niveau collégial tirées de manuels de mathématiques, de chimie et de physique, et un ensemble fermé contenant des questions d'examens de premier cycle en informatique et en mathématiques. Grâce à l'étude de référence sur ces deux ensembles de données, les résultats montrent que les LLM actuels n'atteignent qu'une performance insatisfaisante de 35,80 % sur le score global. De plus, grâce à des études détaillées sur les utilisateurs, les chercheurs ont classé par erreur les LLM en dix compétences de résolution de problèmes. Les résultats de l'analyse ont montré qu'aucune stratégie d'incitation n'a surpassé les autres de manière significative et que certaines stratégies qui ont montré des améliorations dans des capacités spécifiques de résolution de problèmes ont entraîné une baisse d'autres capacités. L'article espère que SciBench pourra promouvoir le développement ultérieur des LLM dans la capacité de raisonnement, contribuant ainsi finalement à la recherche et à la découverte scientifiques.

5. Page de détails de l'article sur le rôle de l'entropie et de la reconstruction dans l'apprentissage auto-supervisé à vues multiples

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062733c7/

Examen de ChatPaper : le document expliquant le mécanisme de réussite de l'apprentissage non supervisé à vues multiples (MVSSL) n'est pas encore entièrement compris. La borne inférieure de l'information mutuelle (MI) par InfoNCE a été étudiée en comparant les méthodes MVSSL. Cependant, la relation entre les autres méthodes MVSSL et MI reste incertaine. Les auteurs considèrent une borne inférieure différente pour MI consistant en l'entropie et le terme de reconstruction (ER), et analysent la principale méthode MVSSL par cette borne inférieure. Avec cette borne inférieure ER, nous montrons que les méthodes basées sur les clusters telles que DeepCluster et SwAV maximisent l'IM. Les auteurs réinterprètent également la mécanique des méthodes basées sur la distillation telles que BYOL et DINO, montrant qu'elles maximisent explicitement le terme de reconstruction et encouragent implicitement l'entropie stable, et le confirment expérimentalement. Les auteurs montrent que la substitution des limites inférieures ER aux objectifs de l'approche MVSSL commune peut atteindre des performances compétitives tout en les rendant plus stables lors de la formation avec des tailles de lots plus petites ou des coefficients de moyenne mobile exponentielle (EMA) plus petits. De plus, l'auteur fournit un lien vers un référentiel Github associé.

6. PASTA : page de détails sur les agents transformateurs d'action-état préformés

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062733e5/

Examen de ChatPaper : Résout les problèmes des approches existantes pour l'utilisation de modèles de transformateurs pré-entraînés dans l'apprentissage par renforcement. La plupart des méthodes existantes reposent sur des objectifs de pré-formation complexes adaptés à des applications spécifiques en aval, limitant leur applicabilité à un large éventail de tâches. L'étude aborde cette question en proposant un modèle appelé PASTA et en l'examinant de manière exhaustive. Une approche unifiée est adoptée dans l'étude et couvre un large éventail de tâches en aval, y compris le clonage de comportement, l'apprentissage par renforcement hors ligne, la robustesse des pannes de capteur et l'adaptation aux changements dynamiques. L'objectif de cette étude est de comparer systématiquement divers choix de conception et de fournir aux praticiens des informations précieuses pour construire des modèles robustes. Les points forts de la recherche incluent la tokenisation au niveau des composants d'action et d'état, l'utilisation d'objectifs de pré-formation de base (tels que la prédiction du prochain jeton), la formation de modèles dans plusieurs domaines simultanément et l'utilisation de l'ajustement efficace des paramètres (PEFT). Les modèles développés dans cette étude contenaient moins de 10 millions de paramètres, et l'application de PEFT a permis d'affiner moins de 10 000 paramètres lors de l'adaptation en aval, rendant ces modèles accessibles à une large population et reproduisant des résultats expérimentaux. Nous espérons que cette étude encouragera d'autres recherches sur la représentation des trajectoires RL à l'aide de transformateurs choisis en fonction de la conception des premiers principes et contribuera à un apprentissage solide des politiques.

7. Meta-Transformer: A Unified Framework for Multimodal Learning paper page de détails

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f06273356/

Examen de ChatPaper : l'article traite d'un problème difficile dans l'apprentissage multimodal, c'est-à-dire comment concevoir un modèle de réseau unifié pour traiter les informations provenant de plusieurs modalités. En raison de l'écart inhérent entre ces modalités, il est difficile de concevoir un modèle de réseau capable de gérer simultanément diverses modalités. Pour résoudre ce problème, les auteurs proposent un cadre appelé Meta-Transformer, qui utilise un encodeur gelé pour la perception multimodale sans données de formation multimodales appariées. Dans Meta-Transformer, les données d'entrée brutes de diverses modalités sont mappées dans un espace de jetons partagé, permettant aux encodeurs suivants d'extraire des caractéristiques sémantiques de haut niveau des données d'entrée. Meta-Transformer se compose de trois composants principaux : un tokenizer de données unifié, un encodeur à modalité partagée et une tête spécifique pour les tâches en aval. Les résultats expérimentaux montrent que Meta-Transformer peut gérer une variété de tâches, y compris la perception de base (texte, image, nuage de points, audio, vidéo), les applications pratiques (rayons X, infrarouge, hyperspectral et IMU) et l'exploration de données (graphiques , tableaux et séquentiellement). Meta-Transformer indique un avenir prometteur pour le développement d'intelligence multimodale unifiée à l'aide de Transformer.

8. Brain2Music: Reconstruire la musique à partir de la page de détails de l'article sur l'activité cérébrale humaine

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f0627347c/

Examen de ChatPaper : l'article présente une méthode de reconstruction de la musique à partir de l'activité cérébrale humaine. Les chercheurs ont capturé l'activité cérébrale humaine à l'aide de l'imagerie par résonance magnétique fonctionnelle (IRMf) et ont reconstruit la musique à l'aide du modèle de récupération de musique ou de génération de musique MusicLM. L'étude a révélé que la musique générée par cette méthode était similaire aux stimuli musicaux ressentis par les gens en termes de propriétés sémantiques telles que le style musical, l'instrumentation et l'humeur. Les chercheurs ont également exploré la relation entre les différents composants de MusicLM et l'activité cérébrale grâce à une analyse de modélisation d'encodage basée sur les voxels. En outre, l'article examine quelles régions du cerveau représentent des informations sur les stimuli musicaux décrits en texte brut. L'article fournit du matériel supplémentaire, y compris des exemples de musique reconstruite.

9. TokenFlow : page de détails sur le papier de fonctionnalités de diffusion cohérentes pour un montage vidéo cohérent

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f06273194/

Examen de ChatPaper : la recherche souligne que les modèles de génération vidéo actuels sont toujours à la traîne par rapport aux modèles d'image en termes de qualité visuelle et de contrôle de l'utilisateur sur le contenu généré. Les auteurs proposent un cadre qui exploite la puissance des modèles de diffusion texte-image pour les tâches de montage vidéo axées sur le texte. Plus précisément, étant donné une vidéo source et un repère de texte cible, le procédé génère une vidéo de haute qualité qui suit le texte cible tout en préservant la disposition spatiale et le mouvement de la vidéo d'entrée. Les auteurs observent que la cohérence des vidéos éditées peut être obtenue en appliquant la cohérence dans l'espace des caractéristiques diffuses. Les auteurs y parviennent en propageant explicitement les caractéristiques de diffusion en exploitant les correspondances inter-cadres déjà présentes dans le modèle. Par conséquent, ce framework ne nécessite aucune formation ni ajustement, et peut être utilisé avec n'importe quelle méthode d'édition de texte en image prête à l'emploi. Les auteurs présentent des résultats de montage de pointe sur une variété de vidéos du monde réel.

10.Les grands modèles linguistiques façonnent et sont façonnés par la société : une enquête sur la page de détails de l'article sur les modèles de publication d'arXiv

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062732eb/

Revue ChatPaper : La question principale de l'article est de savoir comment la recherche sur les modèles linguistiques à grande échelle (LLM) a un impact profond dans le domaine universitaire et comment elle est façonnée par des facteurs sociaux. Les auteurs se sont concentrés sur les changements dans les modèles de publication entre 2018-2022 et 2023 en analysant 388 000 articles publiés sur CS et Stat arXiv. Les auteurs analysent l'augmentation de la proportion d'articles de LLM, le degré d'attention reçu par les sujets liés au LLM, la corrélation entre les auteurs qui rédigent des articles de LLM et leurs antécédents et sujets de recherche, les facteurs qui distinguent les articles de LLM les plus cités et les modèles de modèles de collaboration internationale . Les auteurs notent que la recherche LLM est de plus en plus axée sur l'impact social : dans le sous-arXiv "Ordinateurs et société", la proportion d'articles liés au LLM a été multipliée par 18, et les auteurs d'articles LLM récemment publiés se sont davantage concentrés sur les applications et l'impact social que sur l'expérience. auteurs. La recherche LLM est également influencée par la dynamique sociale : les auteurs documentent les écarts entre les sexes et les écarts académiques/industriels dans les sujets sur lesquels les auteurs LLM se concentrent, ainsi que les divisions américano-chinoises dans les réseaux collaboratifs. Dans l'ensemble, l'analyse des auteurs démontre les manières profondes dont la recherche LLM façonne et est façonnée par la société, illustrant la nécessité d'une perspective sociotechnique.

11.Une enquête sur ce qu'il faut partager dans l'apprentissage fédéré : perspectives sur l'utilité du modèle, la fuite de confidentialité et l'efficacité de la communication 论文详情页

Lien : https://www.aminer.cn/pub/64ba03413fda6d7f062732bc/

Examen de ChatPaper : l'article traite des informations à partager dans l'apprentissage fédéré, en se concentrant sur l'utilité du modèle, les fuites de confidentialité et l'efficacité de la communication. La plupart des recherches actuelles sur l'apprentissage fédéré se concentrent sur les méthodes de partage des paramètres du modèle pendant la formation, tout en ignorant le potentiel de partage d'autres formes d'informations locales. Cet article se distingue des articles précédents par quatre contributions distinctes. Tout d'abord, la méthode FL est classée dans une nouvelle catégorie à travers la méthode de partage, comprenant trois modes de partage d'informations : le partage de modèles, le partage de données synthétiques et le partage de connaissances. Deuxièmement, la vulnérabilité des différentes méthodes de partage aux attaques contre la vie privée est analysée et les mécanismes de défense qui offrent certaines garanties de confidentialité sont passés en revue. Troisièmement, les performances et les frais généraux de communication de différentes méthodes de partage dans FL sont comparés, et la fuite potentielle de confidentialité est évaluée par le biais d'attaques d'inversion de modèle et d'inférence d'appartenance, tandis que l'efficacité de diverses méthodes de défense est comparée. Enfin, les lacunes potentielles des méthodes actuelles sont discutées et des orientations futures d'amélioration sont suggérées.


Comment utiliser ChatPaper ?

La méthode d'utilisation de ChatPaper est très simple. Ouvrez la page d'accueil d'AMiner et entrez dans la page ChatPaper à partir de la barre de navigation en haut de la page ou dans le coin inférieur droit.
insérez la description de l'image ici

Sur la page ChatPaper, vous pouvez choisir d'avoir un dialogue basé sur un seul document ou un dialogue basé sur l'ensemble de la bibliothèque (bibliothèque personnelle), et vous pouvez choisir de télécharger un PDF local ou de rechercher directement des documents sur AMiner.

Je suppose que tu aimes

Origine blog.csdn.net/AI_Conf/article/details/131892713
conseillé
Classement