[Computer Vision] CVPR 23 | Visual Transformer Un nouveau paradigme d'apprentissage ! Améliorer les performances ViT avec des données de longue traîne

1. Introduction

Adresse papier :

https://arxiv.org/abs/2212.02015

insérez la description de l'image ici
insérez la description de l'image ici
Lien codé :

https://github.com/XuZhengzhuo/LiVT

2. Présentation

Apprendre à partir de données étiquetées déséquilibrées est une tâche courante mais difficile dans le domaine de l'apprentissage automatique. Ces dernières années, Vision Transformer, en tant que modèle puissant, a montré des résultats satisfaisants sur plusieurs tâches de vision. Cependant, la capacité et les caractéristiques de Visual Transformer à traiter les données de distribution à longue traîne doivent être explorées plus avant.

À l'heure actuelle, peu de modèles de reconnaissance à longue traîne existants utilisent directement les données à longue traîne pour former Visual Transformer (ViT). La recherche basée sur des poids pré-formés prêts à l'emploi peut conduire à des résultats de comparaison injustes, il est donc nécessaire d'analyser et de résumer systématiquement les performances des transformateurs visuels sous des données à longue traîne.

Cet article vise à combler cette lacune dans la recherche, en discutant en détail des forces et des faiblesses des transformateurs visuels lorsqu'ils traitent des données à longue traîne. Cet article se concentrera sur la manière d'utiliser efficacement les données à longue traîne pour améliorer les performances des transformateurs visuels et explorera de nouvelles méthodes pour résoudre le problème du déséquilibre des données. Grâce à la recherche et au résumé de cet article, l'équipe de recherche devrait fournir des conseils et une inspiration utiles pour améliorer encore les performances du modèle visuel Transformer dans les tâches de données à longue traîne. Cela fournira de nouvelles idées et solutions pour résoudre le problème de déséquilibre des données existant dans le monde réel.

Grâce à une série d'expériences, l'article a révélé que sous le paradigme supervisé, le transformateur visuel subira une grave dégradation des performances lorsqu'il traitera des données déséquilibrées, tandis que le transformateur visuel entraîné avec une distribution équilibrée des données étiquetées présente des avantages de performances évidents. Par rapport au réseau convolutif, cette fonctionnalité est plus évidente sur le transformateur visuel. D'autre part, les méthodes de pré-formation non supervisées ne nécessitent pas de distribution d'étiquettes, donc avec la même quantité de données de formation, Visual Transformer peut présenter des capacités d'extraction et de reconstruction de caractéristiques similaires.

Sur la base des observations et des résultats ci-dessus, la recherche propose un nouveau paradigme pour l'apprentissage des données déséquilibrées, visant à mieux adapter le modèle visuel Transformer aux données à longue traîne. Grâce à l'introduction de ce paradigme, l'équipe de recherche espère tirer pleinement parti des informations des données à longue traine et améliorer les performances et la capacité de généralisation du modèle visuel Transformer lorsqu'il s'agit de données étiquetées déséquilibrées.

3. Méthode

Cet article est la première étude systématique de la formation de transformateurs visuels avec des données à longue traîne. Dans le processus, les principales contributions suivantes ont été apportées :

Tout d'abord, cet article analyse en profondeur les facteurs limitants de la méthode de formation supervisée traditionnelle sur le transformateur visuel pour apprendre des données déséquilibrées, et sur cette base, un processus de formation en deux étapes est proposé, qui divise le biais inductif inhérent du transformateur visuel modèle et le biais statistique de la distribution des étiquettes en étapes Apprentissage pour réduire la difficulté d'apprentissage des données de longue traîne. La première étape utilise la pré-formation populaire de reconstruction de masque, et la deuxième étape utilise une perte équilibrée pour affiner la supervision.

insérez la description de l'image ici

Deuxièmement, cet article propose une fonction de perte d'entropie croisée binaire équilibrée et donne une dérivation théorique rigoureuse. La perte d'entropie croisée binaire équilibrée a la forme :

insérez la description de l'image ici
Par rapport à la perte d'entropie croisée équilibrée précédente, notre fonction de perte montre de meilleures performances sur le modèle visuel de transformateur et a une vitesse de convergence plus rapide. La dérivation théorique dans l'étude fournit une explication rigoureuse de la rationalité de la fonction de perte, renforçant encore la fiabilité et l'efficacité de notre méthode.

insérez la description de l'image ici
Comparaison de la vitesse de convergence de différentes fonctions de perte.

Sur la base des contributions ci-dessus, cet article propose un nouveau paradigme d'apprentissage, LiVT, pour faire jouer pleinement la capacité d'apprentissage du modèle visuel Transformer sur des données à longue traîne, et améliorer considérablement les performances du modèle sur plusieurs ensembles de données. Ce schéma permet d'obtenir de bien meilleures performances que la ligne de base visuelle de Transformer sur plusieurs jeux de données.

insérez la description de l'image ici
Précision sur ImageNet-LT sous différents paramètres :

insérez la description de l'image ici
Performances sur les jeux de données ImagNet-LT (à gauche) et iNaturalist18 (à droite) :

Dans le même temps, cet article vérifie également que sous la même taille de données de formation, le modèle ViT-B formé à l'aide du sous-ensemble de distribution longue queue (LT) et du sous-ensemble de distribution équilibrée (BAL) d'ImageNet présente des capacités de reconstruction similaires. Comme indiqué dans la colonne LT-Large-1600, dans l'ensemble de données ImageNet-LT, de meilleurs résultats de reconstruction peuvent être obtenus avec des modèles plus grands et des époques MGP.

insérez la description de l'image ici

4. Résumé

Cet article propose une nouvelle méthode LiVT basée sur Visual Transformer pour traiter les données déséquilibrées. LiVT utilise une stratégie de formation en deux étapes de modélisation de masque et de réglage fin équilibré, permettant au transformateur visuel de mieux s'adapter à la distribution des données à longue traîne et d'apprendre une représentation plus générale des caractéristiques. Cette méthode réalise non seulement une amélioration significative des performances dans les expériences, mais ne nécessite pas non plus de données supplémentaires et est réalisable pour des applications pratiques.

Je suppose que tu aimes

Origine blog.csdn.net/wzk4869/article/details/131335081
conseillé
Classement