Le 50e numéro de la recommandation du document de la conférence AMiner

La plate-forme AMiner a été développée par le département informatique de l'Université Tsinghua et possède des droits de propriété intellectuelle totalement indépendants en Chine. La plate-forme contient plus de 230 millions d'articles / brevets universitaires et une carte scientifique et technologique de 136 millions d'universitaires, et fournit des services d'information scientifique et technologique professionnels tels que l'évaluation des chercheurs, la découverte d'experts, l'affectation intelligente et les cartes académiques. Le système a été lancé en 2006, attirant plus de 10 millions de visites uniques de propriété intellectuelle de 220 pays / régions du monde entier, avec 2,3 millions de téléchargements de données et plus de 11 millions de visites annuelles. Il est devenu une importante plate-forme expérimentale et de données pour la recherche universitaire et recherche minière sur les réseaux sociaux.


Recommandation de papier ICLR 2021

Planification visuelle basée sur un modèle avec distances fonctionnelles autocontrôlées

Lien vers l'article: https://www.aminer.cn/pub/5fef0fba91e0113b265a00c2/?conf=iclr2021

Raison recommandée: cet article a été sélectionné pour ICLR 2021 Spotlight. Un robot polyvalent doit effectuer diverses tâches dans l'environnement. Un bon moyen de spécifier chaque tâche est d'observer à travers la cible. Cependant, l'utilisation de l'apprentissage par renforcement pour apprendre des stratégies de réalisation des objectifs reste un problème difficile, en particulier lorsque les fonctions de récompense conçues à la main ne sont pas disponibles. Le modèle de dynamique d'apprentissage est une méthode très prometteuse pour apprendre l'environnement sans récompenses ni données axées sur les tâches, mais l'utilisation d'un tel modèle pour planifier et atteindre des objectifs nécessite des fonctions similaires entre les observations et les états d'objectifs Concept de sexe. L'auteur propose une méthode d'auto-supervision basée sur un modèle pour atteindre des objectifs visuels, utilisant à la fois un modèle visuel dynamique et une fonction de distance dynamique utilisant l'apprentissage par renforcement sans modèle. Cette méthode utilise des données hors ligne et non étiquetées pour l'apprentissage, ce qui permet de s'adapter à des ensembles de données volumineux et divers. Lors d'expériences, l'auteur a découvert que sa méthode pouvait apprendre avec succès des modèles qui effectuent diverses tâches pendant les tests, utiliser des bras robotiques simulés pour déplacer des objets dans un distracteur et même apprendre à utiliser des robots du monde réel pour ouvrir et fermer des tiroirs. En comparaison, l'auteur a constaté que cette méthode est nettement meilleure que les méthodes a priori sans modèle et basées sur un modèle.

Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici

Découvrir un ensemble de politiques pour la pire des récompenses

Lien vers l'article: https://www.aminer.cn/pub/600834629e795ed227f53209/?conf=iclr2021

Raison recommandée: cet article a été sélectionné pour ICLR 2021 Spotlight. L'auteur étudie comment construire un ensemble de stratégies qui peuvent être combinées pour résoudre un ensemble de tâches d'apprentissage par renforcement. Parmi eux, l'auteur considère une combinaison spécifique de stratégies, appelée ensemble de politiques d'amélioration (définir des politiques d'amélioration, SIP): étant donné un ensemble de politiques et un ensemble de tâches, le SIP est une combinaison des premiers, et sa performance est au moins en toutes les tâches. Aussi bonne que la performance de ses mandants. L'auteur se concentre sur l'exemple le plus conservateur de SIP, à savoir les politiques set-max (SMP), de sorte que son analyse peut être étendue à n'importe quel SIP. La principale contribution de ce travail est un algorithme qui construit un ensemble de stratégies pour maximiser les pires performances du SMP résultant sur l'ensemble de tâches. Le principe de fonctionnement de l'algorithme est d'ajouter continuellement de nouvelles stratégies à l'ensemble. L'auteur affirme que les pires performances du SMP résultant seront strictement améliorées à chaque itération et que l'algorithme ne s'arrêtera que lorsqu'il n'y aura pas de stratégie menant à une amélioration des performances. L'auteur a évalué empiriquement l'algorithme ci-dessus sur un ensemble de domaines dans Grid World et DeepMind Control Suite.

Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici

Un panda? Non, c'est un paresseux: attaques de ralentissement sur l'inférence de réseau neuronal adaptatif à sorties multiples

Lien vers l'article: https://www.aminer.cn/pub/5f7d8f8b91e011346ad27d99/?conf=iclr2021

Raison recommandée: cet article a été sélectionné pour ICLR 2021 Spotlight. L'augmentation récente de la demande de calcul des réseaux de neurones profonds (DNN), associée à l'observation que la plupart des échantillons d'entrée ne nécessitent que des modèles simples, a déclenché l'intérêt des gens pour les architectures d'entrée-adaptatives-multi-sorties, telles que MSDNets ou Shallow-Deep Networks . Ces architectures peuvent accélérer le raisonnement et intégrer les DNN dans des appareils à faible consommation, tels que l'Internet des objets (IoT). Cependant, il n'est pas clair si les économies de calcul qu'ils procurent peuvent résister de manière robuste à la pression des adversaires. L'adversaire peut ralentir les DNN adaptatifs en augmentant leur temps d'inférence moyen - ceci est similaire à une attaque par déni de service à partir d'Internet. Dans cet article, l'auteur a expérimenté trois DNN multi-export généraux (basés sur VGG16, MobileNet et ResNet56) et une architecture multi-export personnalisée sur deux benchmarks de classification d'images populaires (CIFAR-10 et Tiny ImageNet). La menace a été systématiquement évaluée . À cette fin, les travaux ont démontré que les techniques de production d'échantillons contradictoires peuvent être modifiées pour provoquer un ralentissement, et ont proposé une métrique pour comparer leur impact sur différentes architectures. Les résultats montrent que dans un déploiement IoT typique, une attaque de ralentissement réduira l'efficacité d'un DNN multi-prises de 90% à 100% et amplifiera le délai de 1,5 à 5 fois.

Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici
Insérez la description de l'image ici

AMiner, un moteur de recherche académique à intelligence cognitive: https://www.aminer.cn/

# AMiner # # thèses #

Je suppose que tu aimes

Origine blog.csdn.net/AI_Conf/article/details/114988455
conseillé
Classement