Suivi en temps réel des tendances de la recherche scientifique 丨 7.17 nouveaux articles sélectionnés, avec résumé ChatPaper

En tant que chercheur scientifique, vous devez rechercher et parcourir quotidiennement une grande quantité de littérature académique pour obtenir les derniers progrès scientifiques et technologiques et les résultats de la recherche. Cependant, les méthodes traditionnelles de récupération et de lecture ne peuvent plus répondre aux besoins des chercheurs.

ChatPaper, un outil de connaissance des documents qui intègre la récupération, la lecture et les questions-réponses sur les connaissances. Vous aider à améliorer rapidement l'efficacité de la recherche et de la lecture d'articles, à obtenir les dernières tendances de la recherche dans le domaine et à faciliter la recherche scientifique.

Combiné avec la fonction d'abonnement dynamique de pointe, sélectionnez les nouveaux articles populaires du jour d'arXiv pour former un résumé des articles, afin que chacun puisse comprendre plus rapidement les tendances de pointe.

Si vous souhaitez avoir un dialogue approfondi sur un certain article, vous pouvez directement copier le lien de l'article sur votre navigateur ou aller directement sur la page ChatPaper : https://www.aminer.cn/chat/g/

Liste des nouveaux articles en vedette pour le 17 juillet 2023 :

1. NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis page de détails sur l'article

Lien : https://www.aminer.cn/pub/64b4bd0d3fda6d7f0654fbb3/?f=cs

Revue de ChatPaper : L'article aborde le problème de la génération de mouvements humains 3D réalistes qui interagissent avec les objets d'une scène. L'idée clé proposée par les auteurs est de créer un champ d'interaction neuronale sur un objet spécifique, qui produit la distance au collecteur d'interaction efficace en fonction de la pose humaine d'entrée. Ce champ d'interaction guide l'échantillonnage d'un modèle de diffusion de l'action humaine conditionné par l'objet pour encourager une sémantique plausible du toucher et des capacités. Pour prendre en charge l'interaction avec des données rares, les auteurs proposent un pipeline de données synthétiques automatisé. À cette fin, ils intègrent des poses spécifiques ancrées dans l'interaction extraites de données de capture de mouvement limitées dans un modèle de mouvement pré-formé avec des priors de mouvement humain de base. À l'aide d'un modèle de diffusion guidée formé sur des données synthétiques générées, ils synthétisent les actions d'assise et de levage de plusieurs sujets, surpassant les autres méthodes en termes de qualité de mouvement et de mouvements réussis. Les auteurs appellent leur framework NIFTY : Trajectory Synthesis for Neural Interaction Fields.

2.DreamTeacher : page de détails de l'article sur la préformation des backbones d'images avec des modèles génératifs profonds

Lien : https://www.aminer.cn/pub/64b4bd0d3fda6d7f0654fb9a/?f=cs

Examen de ChatPaper : ce travail présente DreamTeacher, un cadre d'apprentissage de représentation de caractéristiques auto-supervisé, qui exploite les réseaux génératifs pour pré-entraîner les dorsales d'images en aval. Les chercheurs proposent d'extraire des connaissances d'un modèle génératif formé dans une ossature d'image standard pour une tâche de perception spécifique. Ils ont étudié deux méthodes de distillation des connaissances : 1) Incorporer les fonctionnalités apprises par le modèle génératif dans le squelette de l'image cible comme alternative à la pré-formation sur de grands ensembles de données étiquetés (tels que ImageNet ); 2) Distiller les étiquettes du réseau génératif dans The couche logique du backbone cible. Les chercheurs ont effectué une analyse détaillée de plusieurs modèles génératifs, de repères de prédiction denses et de divers programmes de pré-formation. Les expériences démontrent que DreamTeacher surpasse de manière significative les méthodes d'apprentissage de représentation auto-supervisées existantes dans tous les aspects. La pré-formation ImageNet non supervisée à l'aide de DreamTeacher montre des améliorations significatives par rapport à la pré-formation de classification ImageNet sur les ensembles de données en aval, démontrant les modèles génératifs, en particulier les modèles génératifs de diffusion, comme des approches prometteuses pour l'apprentissage de la représentation sur des ensembles de données à grande échelle et diversifiés. .

3.Mega-TTS 2 : Texte-parole sans prise de vue avec des invites vocales de longueur arbitraire page de détails sur le papier

Lien : https://www.aminer.cn/pub/64b4bd093fda6d7f0654f518/?f=cs

Examen de ChatPaper : les précédents modèles TTS multi-haut-parleurs à grande échelle ont atteint cet objectif avec succès, mais seulement dans les 10 secondes suivant l'enregistrement. Cependant, la plupart des modèles ne peuvent exploiter que des informations limitées dans des signaux de parole courts, ce qui affecte gravement les performances lors de l'imitation fine de l'identité. Cet article présente Mega-TTS 2, un modèle général TTS multi-locuteurs à tir zéro capable de synthétiser la parole de locuteurs invisibles à l'aide d'indices de longueur arbitraire. Plus précisément, les auteurs conçoivent un encodeur de timbre multi-références pour extraire les informations de timbre de plusieurs discours de référence ; et former un modèle de langage prosodique qui peut gérer des signaux de parole de longueur arbitraire. Avec ces conceptions, le modèle des auteurs s'adapte aux invites de différentes longueurs, étendant la limite supérieure de la qualité de la parole de la synthèse vocale sans prise de vue. De plus, les auteurs introduisent des signaux de source arbitraires, exploitant les probabilités dérivées de plusieurs sorties P-LLM lors de la génération pour générer des rythmes expressifs et contrôlables. De plus, les auteurs proposent un modèle de durée autorégressif au niveau des phonèmes pour introduire des capacités d'apprentissage contextuel dans la modélisation de la durée. Les résultats expérimentaux démontrent que cette approche permet non seulement la synthèse de la parole préservant l'identité de locuteurs invisibles pour des signaux courts, mais permet également d'améliorer les performances lors de l'utilisation de signaux plus longs.

4. Page de détails sur l'article Apprendre à récupérer des exemples en contexte pour les grands modèles de langage

Lien : https://www.aminer.cn/pub/64b4bd093fda6d7f0654f4de/?f=cs

Examen de ChatPaper : l'article montre que l'efficacité de l'apprentissage contextuel dans les grands modèles de langage repose sur la qualité des exemples sélectionnés. Cependant, comment sélectionner des exemples de contexte de haute qualité est un défi. Cet article propose un nouveau cadre pour résoudre ce problème en entraînant itérativement un retriever dense. Le cadre forme d'abord un modèle de récompense basé sur les commentaires d'un modèle de langage pour évaluer la qualité des exemples candidats, puis utilise la distillation des connaissances pour former un récupérateur dense basé sur un double encodeur. Les expériences démontrent que le cadre améliore considérablement les performances de l'apprentissage contextuel et démontre la généralisation à des tâches invisibles pendant la formation. Une analyse approfondie montre que le modèle améliore les performances en récupérant des exemples avec des modèles similaires, et cette amélioration est cohérente entre les modèles de langage de différentes tailles.

5. Page de détails sur le papier Copier, c'est tout ce dont vous avez besoin

Lien : https://www.aminer.cn/pub/63dcdb422c26941cf00b6339/?f=cs

Examen de ChatPaper : l'article souligne que les modèles de génération de texte traditionnels génèrent une sortie en sélectionnant des mots dans un vocabulaire fixe, tandis qu'il propose une nouvelle approche qui considère la génération de texte comme une copie progressive de fragments de texte à partir de collections de texte existantes (par exemple, un mot ou une phrase). La méthode décompose la tâche de génération de texte en une série d'opérations de copier-coller en calculant des représentations contextualisées de fragments de texte significatifs et en les indexant à l'aide d'outils de recherche vectoriels efficaces : à chaque pas de temps, nous extrayons Rechercher les fragments de texte appropriés au lieu de choisir à partir de vocabulaires indépendants. Les résultats expérimentaux montrent que la méthode atteint une meilleure qualité de génération en répliquant à partir des données d'apprentissage d'origine et est validée (0,758 contre 0,691 MAUVE) sur un benchmark de modélisation de langage standard (WikiText-103). De plus, la méthode montre que des gains de performances supplémentaires peuvent être obtenus en augmentant la taille de la collection de textes sans formation supplémentaire. De plus, le procédé peut également réaliser une adaptation de domaine efficace en passant simplement à n'importe quelle collection de textes spécifique à un domaine, également sans formation supplémentaire. Enfin, le procédé améliore l'efficacité de l'inférence en réduisant les étapes de décodage et atteint une meilleure efficacité d'inférence que les modèles autorégressifs traditionnels au niveau du marqueur.

6. DIALGEN: Dialogues collaboratifs générés par l'homme-LM pour une meilleure compréhension de la page de détails de l'article sur les conversations homme-homme

Lien : https://www.aminer.cn/pub/64b4bd093fda6d7f0654f463/?f=cs

Examen de ChatPaper : l'article propose une méthode appelée DIALGEN pour résoudre le défi de la compréhension automatique des conversations interhumaines. Ces défis impliquent des informations privées dans des données du monde réel, telles que des données dans des centres d'appels ou des conversations cliniques. L'utilisation de données protégées augmente également le coût de l'annotation, limitant le développement de la technologie. Pour relever ces défis, les auteurs proposent DIALGEN, un framework de génération de dialogue semi-automatique human-in-the-loop. DIALGEN utilise un modèle de langage (ChatGPT) pour générer un texte de dialogue fluide en générant de manière itérative des sous-dialogues et en utilisant la rétroaction humaine pour corriger les incohérences ou rediriger le flux de dialogue. Grâce à des expériences sur des appels de collecte d'informations récapitulatives structurées agent-client pour le suivi de l'état du dialogue, nous montrons que les données DIALGEN peuvent améliorer considérablement les performances du modèle.

7. Exploitation des contre-exemples pour l'apprentissage actif avec la page de détails du papier des étiquettes partielles

Lien : https://www.aminer.cn/pub/64b4bd093fda6d7f0654f5e7/?f=cs

Revue de ChatPaper : Cet article étudie un nouveau problème, l'apprentissage actif avec des étiquettes partielles (ALPL). Dans ce cadre, un oracle annote les échantillons de requête avec des étiquettes partielles, ce qui assouplit l'exigence de l'oracle pour un processus d'étiquetage précis. Pour résoudre le problème ALPL, nous établissons d'abord une ligne de base intuitive qui peut être intégrée de manière transparente dans les cadres AL existants. Bien qu'efficace, cette ligne de base est toujours sujette au surajustement et manque d'échantillons partiels représentatifs basés sur des étiquettes lors de la requête. Inspirés par le raisonnement humain en sciences cognitives, où des inférences précises peuvent être explicitement dérivées de contre-exemples (CE), nous visons à exploiter ce modèle d'apprentissage de type humain pour traiter le surajustement tout en améliorant la sélection dans ALPL. Processus pour un échantillon représentatif. Plus précisément, nous construisons des CE en inversant les étiquettes partielles de chaque instance, puis nous proposons un WorseNet simple mais efficace pour apprendre directement de ce modèle complémentaire. En exploitant les différences de distribution entre WorseNet et le prédicteur, cette modalité d'évaluation contradictoire peut améliorer les performances du prédicteur lui-même et du processus de sélection de l'échantillon, permettant au prédicteur de capturer des modèles plus précis dans les données. Des expériences sur cinq ensembles de données réels et quatre ensembles de données de référence démontrent l'amélioration globale de notre méthode proposée sur dix cadres AL représentatifs, soulignant la supériorité de WorseNet.

8.Générer des données de formation efficaces via la page de détails du papier sur la manipulation d'attributs basée sur LLM

Lien : https://www.aminer.cn/pub/64b4bd093fda6d7f0654f49a/?f=cs

Examen de ChatPaper : l'article propose une nouvelle méthode - la manipulation d'attributs de chaîne de pensées (CoTAM), qui guide l'apprentissage en quelques coups en concevant soigneusement des données à partir de grands modèles de langage (LLM). L'idée principale est de créer des données qui ne changent que dans les propriétés de la cible de la tâche. Inspirée de la manipulation des attributs faciaux, notre méthode utilise des LLM pour manipuler des attributs spécifiques à une tâche et reconstruire de nouvelles phrases de manière contrôlable, ce qui entraîne des données de changement d'étiquette. Différent du contrôle traditionnel des représentations latentes, nous adoptons la méthode de décomposition et de reconstruction de la chaîne de pensée pour adapter le processus des LLM. Des expériences approfondies sur la classification de texte et d'autres tâches valident la supériorité de CoTAM sur les autres méthodes de génération de texte basées sur les LLM avec le même nombre d'échantillons d'apprentissage. L'analyse visualise l'effet de manipulation d'attributs de CoTAM et démontre le potentiel de l'apprentissage guidé par le LLM même avec moins de supervision.


Comment utiliser ChatPaper ?

La méthode d'utilisation de ChatPaper est très simple. Ouvrez la page d'accueil d'AMiner et entrez dans la page ChatPaper à partir de la barre de navigation en haut de la page ou dans le coin inférieur droit.
insérez la description de l'image ici

Sur la page ChatPaper, vous pouvez choisir d'avoir un dialogue basé sur un seul document ou un dialogue basé sur l'ensemble de la bibliothèque (bibliothèque personnelle), et vous pouvez choisir de télécharger un PDF local ou de rechercher directement des documents sur AMiner.

Je suppose que tu aimes

Origine blog.csdn.net/AI_Conf/article/details/131781869
conseillé
Classement