Article : https://arxiv.org/abs/2207.05501

Code : https://github.com/bytedance/Next-ViT

Expérience rapide avec le modèle Next-ViT de la plateforme open source modelscope de DAMO Academy : ModelScope Magic Community

Ces dernières années, avec le développement continu de la technologie de l’intelligence artificielle, la technologie de vision par ordinateur a également continué de progresser. La classification des images est un problème important dans le domaine de la vision par ordinateur et peut être appliquée à de nombreux scénarios pratiques, tels que la sécurité, la maison intelligente, la logistique, etc. Afin de résoudre ce problème, la plate-forme open source de modèles Modelscope de la DAMO Academy a implémenté le modèle NextViT, un modèle chinois de classification d'images d'objets quotidiens en temps réel basé sur Transformer. Il présente une précision et une rapidité extrêmement élevées dans le domaine de la vision par ordinateur. et mérite d’être largement promu.

1. Introduction du modèle NextViT

NextViT est un modèle chinois de classification d'images d'objets quotidiens en temps réel basé sur Transformer, qui utilise une architecture hybride CNN-Transformer innovante Next-ViT. Dans le domaine de la vision par ordinateur, CNN est une architecture de modèle très populaire qui peut traiter efficacement les images, mais nécessite beaucoup de ressources informatiques lors du traitement des images, en particulier lorsque la taille de l'image devient grande. Pour résoudre ce problème, NextViT propose une nouvelle architecture hybride qui combine CNN et Transformer pour utiliser pleinement leurs avantages respectifs afin d'obtenir une efficacité et une précision supérieures.

Différent des autres modèles de classification d'images, NextViT utilise un système d'étiquettes d'objets communs de 1 300, couvrant les nécessités quotidiennes courantes, les animaux, les plantes, les meubles, les équipements, la nourriture et d'autres objets. Les étiquettes sont extraites du corpus massif de la communauté Internet chinoise et conservent la fréquence d'apparition. .Noms d'objets communs supérieurs. Cela rend le modèle NextViT très performant dans la classification des images d'objets quotidiens chinois.

2. Avantages du modèle NextViT

une plus grande précision

NextViT adopte une architecture hybride basée sur Transformer et utilise le mécanisme d'auto-attention du Transformer pour traiter les images afin d'obtenir une plus grande précision. Cette architecture peut mieux gérer les caractéristiques locales et globales des images, permettant au modèle d'avoir de meilleures performances lors du traitement de différents types d'images. Les résultats expérimentaux montrent que les performances du modèle NextViT ont atteint SOTA dans les tâches de classification, de détection et de segmentation. Par exemple, avec des performances équivalentes à CSWin, la vitesse d'inférence est augmentée de 3,6 fois, ce qui est inégalé par d'autres modèles de classification d'images.

2. Vitesse plus rapide

La structure du modèle adopte la structure Next-ViT basée sur Transformer, qui est la première à implémenter TensorRT industriel en temps réel. Dans le modèle ViT existant, en raison de la grande complexité informatique du mécanisme d'attention, il est difficile de fonctionner aussi efficacement que les CNN dans des scénarios de déploiement industriel réels, mais le modèle NextViT utilise une technologie de mise en œuvre en temps réel basée sur TensorRT, qui peut être utilisée dans des scénarios de déploiement industriel réels. Exécuter efficacement dans des scénarios de déploiement industriel.

En général, le modèle de classification d'images d'objets quotidiens chinois en temps réel NextViT est un outil de traitement d'images efficace, précis et facile à utiliser. Il peut non seulement répondre aux besoins de diverses industries, mais également être pratique pour le public dans la vie quotidienne.

application:

Le modèle d'application de cet article a été présenté sur maas. De plus, j'aimerais vous présenter d'autres modèles gratuits open source connexes sur maas. Vous êtes invités à expérimenter et à télécharger (peut être expérimenté sur les téléphones mobiles) :

https://modelscope.cn/models/damo/cv_vit-base_image-classification_Dailylife-labels/summary

https://modelscope.cn/models/damo/cv_vit-base_image-classification_ImageNet-labels/summary

https://modelscope.cn/models/damo/cv_nextvit-small_image-classification_Dailylife-labels/summary

https://modelscope.cn/models/damo/cv_convnext-base_image-classification_garbage/summary

https://modelscope.cn/models/damo/cv_beitv2-base_image-classification_patch16_224_pt1k_ft22k_in1k/summary

https://modelscope.cn/models/damo/cv_beitv2-large_image-classification_patch16_224_pt1k_ft22k_in1k/summary

NextViT : un excellent modèle chinois de classification quotidienne d'images d'objets en temps réel

application:

Acho que você gosta