Documento: https://arxiv.org/abs/2207.05501

Código: https://github.com/bytedance/Next-ViT

Experiencia rápida con el modelo Next-ViT de la plataforma de código abierto modelscope de DAMO Academy: ModelScope Magic Community

En los últimos años, con el desarrollo continuo de la tecnología de inteligencia artificial, la tecnología de visión por computadora también ha seguido avanzando. La clasificación de imágenes es un problema importante en el campo de la visión por computadora y se puede aplicar a muchos escenarios prácticos, como seguridad, hogares inteligentes, logística, etc. Para resolver este problema, la plataforma de código abierto del modelo de alcance del Instituto Bodhidharma implementó el modelo NextViT, que es un modelo chino de clasificación de imágenes de objetos diarios en tiempo real basado en Transformer, que tiene una precisión y velocidad extremadamente altas en el campo de la informática. visión y es digno de una amplia promoción.

1. Introducción al modelo NextViT

NextViT es un modelo chino de clasificación de imágenes de objetos diarios en tiempo real basado en Transformer, que utiliza una innovadora arquitectura híbrida CNN-Transformer Next-ViT. En el campo de la visión por computadora, CNN es una arquitectura de modelo muy popular que puede procesar imágenes de manera eficiente, pero requiere muchos recursos informáticos al procesar imágenes, especialmente cuando el tamaño de la imagen aumenta. Para resolver este problema, NextViT propone una nueva arquitectura híbrida, que combina CNN y Transformer para aprovechar al máximo sus respectivas ventajas, a fin de lograr una mayor eficiencia y precisión.

A diferencia de otros modelos de clasificación de imágenes, NextViT utiliza un sistema de etiquetas de 1300 objetos comunes, que cubren las necesidades diarias comunes, animales, plantas, muebles, equipos, alimentos y otros objetos. Las etiquetas se extraen de una gran cantidad de corpus de la comunidad china de Internet y se conserva la frecuencia de aparición Nombres de objetos comunes más altos. Esto hace que el modelo NextViT funcione muy bien en la clasificación de imágenes de objetos cotidianos chinos.

2. Ventajas del modelo NextViT

mayor precisión

NextViT adopta una arquitectura híbrida basada en Transformer y utiliza el mecanismo de autoatención de Transformer para procesar imágenes y lograr una mayor precisión. Esta arquitectura puede manejar mejor las características locales y globales de la imagen, de modo que el modelo tenga un mejor rendimiento al tratar con diferentes tipos de imágenes. Los resultados experimentales muestran que el modelo NextViT logra el rendimiento SOTA en tareas de clasificación, detección y segmentación. Por ejemplo, con un rendimiento comparable al de CSWin, la velocidad de inferencia aumenta 3,6 veces, lo que no tiene comparación con otros modelos de clasificación de imágenes.

2. Velocidad más rápida

La estructura del modelo adopta la estructura Next-ViT basada en Transformer, que es el primero en implementar TensorRT industrial en tiempo real. En el modelo ViT existente, debido a la alta complejidad computacional del mecanismo de atención, es difícil funcionar tan eficientemente como las CNN en escenarios de implementación industrial reales, pero el modelo NextViT utiliza tecnología de aterrizaje en tiempo real basada en TensorRT, que puede usarse en el mundo real Ejecutar eficientemente en escenarios de implementación industrial.

En general, el modelo de clasificación de imágenes de objetos diarios chinos en tiempo real de NextViT es una herramienta de procesamiento de imágenes eficiente, precisa y fácil de usar. No solo puede satisfacer las necesidades de diversas industrias, sino que también puede ser conveniente para el uso del público en la vida diaria.

solicitud:

El modelo de aplicación de este artículo se ha presentado en maas. Además, me gustaría presentarles otros modelos gratuitos de código abierto relacionados con maas, que pueden experimentar y descargar (se pueden experimentar en teléfonos móviles):

https://modelscope.cn/models/damo/cv_vit-base_image-classification_Dailylife-labels/summary

https://modelscope.cn/models/damo/cv_vit-base_image-classification_ImageNet-labels/summary

https://modelscope.cn/models/damo/cv_nextvit-small_image-classification_Dailylife-labels/summary

https://modelscope.cn/models/damo/cv_convnext-base_image-classification_garbage/summary

https://modelscope.cn/models/damo/cv_beitv2-base_image-classification_patch16_224_pt1k_ft22k_in1k/summary

https://modelscope.cn/models/damo/cv_beitv2-large_image-classification_patch16_224_pt1k_ft22k_in1k/summary

NextViT: un excelente modelo chino de clasificación de imágenes de objetos diarios en tiempo real

solicitud:

Supongo que te gusta