Ensayo en papel | La explicación detallada del rendimiento de clasificación de bases de vectores de ángulos iguales (EBV) basadas en Shengsi es significativamente mejor que los clasificadores tradicionales

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

**Autor:** Li Ruifeng

Título del trabajo

Vectores de base equiangular

Fuente de papel

CVPR 2023

Enlace de papel

https://arxiv.org/abs/2303.11637

enlace de código

https://github.com/msfuxian/EBV

Como marco de IA de código abierto, MindSpore ofrece colaboración entre la industria, la universidad, la investigación y los desarrolladores en un escenario completo, desde el borde del dispositivo hasta la nube, desarrollo minimalista, máximo rendimiento, preentrenamiento de IA a ultra gran escala, desarrollo minimalista y una plataforma segura y confiable. experiencia, 2020.3.28 El código abierto tiene más de 5 millones de descargas. MindSpore ha respaldado cientos de artículos de conferencias importantes sobre IA, ha ingresado a la enseñanza de las 100 mejores universidades y está disponible comercialmente en más de 5000 aplicaciones a través de HMS. Desarrolladores y centros de computación de inteligencia artificial, finanzas, fabricación inteligente, finanzas, nube, tecnología inalámbrica, comunicaciones de datos, energía, consumo 1 + 8 + N, automóviles inteligentes y otros escenarios de automóviles en la nube de última generación se están generalizando gradualmente. utilizado, y es el software de código abierto con el índice Gitee más alto. Todos son bienvenidos a participar en contribuciones de código abierto, kits, modelos de inteligencia colectiva, innovación y aplicaciones de la industria, innovación de algoritmos, cooperación académica, cooperación de libros de IA, etc., y contribuir con sus casos de aplicación en el lado de la nube, el lado del dispositivo, el lado del borde y campos de seguridad.

Con el amplio apoyo de SunSilicon MindSpore por parte de la comunidad científica y tecnológica, la academia y la industria, los artículos de IA basados en SunSilicon MindSpore representaron el 7% de todos los marcos de IA en 2023, ocupando el segundo lugar en el mundo durante dos años consecutivos. Gracias a CAAI y. todas las universidades Con el apoyo de los profesores, continuaremos trabajando duro juntos para realizar investigación e innovación en IA. La comunidad MindSpore apoya las principales investigaciones en artículos de conferencias y continúa generando resultados originales de IA. De vez en cuando seleccionaré algunos artículos excelentes para impulsar e interpretar. Espero que más expertos de la industria, el mundo académico y la investigación cooperen con MindSpore para promover la investigación original de IA. La comunidad Shengsi MindSpore continuará apoyando la innovación y las aplicaciones de IA. De Shengsi MindSpore Para el artículo número 17 de la serie de artículos de conferencias sobre IA, elegí interpretar un artículo del equipo del Dr. Wei Xiushen de la Facultad de Ciencias de la Computación e Ingeniería de la Universidad de Ciencia y Tecnología de Nanjing . agradecer a todos los expertos, profesores y compañeros por sus aportaciones.

MindSpore tiene como objetivo lograr tres objetivos principales: desarrollo sencillo, ejecución eficiente y cobertura completa de escenarios. A través de la experiencia de uso, MindSpore, un marco de aprendizaje profundo, se está desarrollando rápidamente y el diseño de sus diversas API se optimiza constantemente en una dirección más razonable, completa y poderosa. Además, varias herramientas de desarrollo que surgen constantemente de Shengsi también están ayudando a este ecosistema a crear métodos de desarrollo más convenientes y poderosos, como MindSpore Insight, que puede presentar la arquitectura del modelo en forma de diagrama y también puede monitorear dinámicamente varios aspectos. del modelo durante el tiempo de ejecución. Los cambios en los indicadores y parámetros hacen que el proceso de desarrollo sea más conveniente.

El problema que este artículo quiere estudiar es el problema de clasificación de categorías grandes, como los problemas de clasificación de 100.000 o 1 millón de categorías. Para una red como ResNet-50, la última capa lineal para manejar dicho problema de clasificación requiere una cantidad de parámetros de 2048 × 100000 o 2048 × 1000000, lo que hará que fc sea mayor que la cantidad de parámetros de la capa de extracción de características anterior.

Por otro lado, los problemas de clasificación generales eligen vectores one-hot como etiquetas, lo que puede entenderse como una base ortogonal donde el ángulo entre dos vectores cualesquiera es de 90 grados. A finales de 2021, apareció un artículo en el Annual Journal of Mathematics que decía que cuando la dimensión D tiende al infinito, para un ángulo dado, el número de las líneas rectas mencionadas anteriormente con ángulos iguales está relacionado linealmente con D ( consulte Líneas equiangulares con un ángulo fijo).

Entonces, si los ángulos son completamente iguales, el número de categorías es grande y D también debe ser grande. Entonces, la idea al comienzo de este artículo es hacer algunas optimizaciones en el ángulo. Cuando el ángulo se limita aproximadamente a 83-97 (simetría axial), 5000 dimensiones pueden acomodar la base de 100,000 categorías, y al mismo tiempo. No tiene un gran impacto en el rendimiento de la clasificación. Tiene un gran impacto y el conjunto de datos correspondiente también es de código abierto. Además, cuando el ángulo es 0, hay innumerables vectores básicos de este tipo en el espacio, por lo que debe ser cierto. Sin embargo, no existe una solución matemática fija para α, las dimensiones del espacio y el número de dichos vectores, solo en algunos casos especiales. Para obtener respuestas, consulte el libro "Representaciones dispersas y redundantes: de la teoría a las aplicaciones en el procesamiento de señales e imágenes". La parte del código de la tarea de clasificación sigue el ejemplo proporcionado en la documentación oficial de MindSpore. Se puede completar simplemente modificando el conjunto de datos, lo cual es muy conveniente.

Antecedentes de la investigación

El campo de la clasificación de patrones tiene como objetivo asignar señales de entrada en dos o más categorías. En los últimos años, los modelos de aprendizaje profundo han aportado avances en el procesamiento de imágenes, vídeos, audio, texto y otros datos. Con la ayuda de rápidas mejoras en el hardware, los métodos de aprendizaje profundo actuales pueden adaptarse fácilmente a un millón de imágenes y superar el obstáculo anterior de la mala calidad de las características hechas a mano en las tareas de clasificación de patrones. Han surgido y se han utilizado muchos métodos basados en el aprendizaje profundo para resolver problemas de clasificación en diversos escenarios y entornos, como la detección remota, el aprendizaje de pocas oportunidades, los problemas de cola larga, etc.

La Figura 1 ilustra algunos paradigmas típicos de tareas de clasificación. Actualmente, una gran cantidad de métodos de aprendizaje profundo utilizan capas entrenables completamente conectadas combinadas con softmax como clasificadores. Sin embargo, dado que el número de categorías es fijo, dicho clasificador tiene poca escalabilidad y el número de parámetros entrenables del clasificador también aumentará a medida que aumente el número de categorías. Por ejemplo, imagen el consumo de memoria de la capa completamente conectada aumenta linealmente a medida que aumenta el número de categorías N, y el costo computacional de la multiplicación de matrices entre la capa completamente conectada y las características d-dimensionales también aumenta. Algunos métodos basados en el aprendizaje métrico clásico deben considerar todas las muestras de entrenamiento y diseñar pares de muestras positivas/negativas, y luego optimizar un centro de clases para cada categoría, lo que requiere muchos cálculos adicionales para conjuntos de datos a gran escala, especialmente para tareas previas al entrenamiento. .

imagen

Figura 1 Comparación entre paradigmas de clasificación típicos y EBV

1. Clasificador que termina en una capa totalmente conectada de k-way y softmax. A medida que se agregan más categorías, los parámetros entrenables del clasificador crecen linealmente.

2. Tomando la "incrustación de tripletes" como ejemplo del método clásico de aprendizaje métrico, cuando se dan M imágenes, su complejidad es Cuando imagen se agrega una nueva categoría con muestras imagen , la complejidad aumentará a imagen .

3. Nuestros EBV propuestos. Los EBV predefinen incorporaciones normalizadas fijas para diferentes categorías. Los parámetros entrenables de la red no cambian a medida que aumenta el número de categorías, mientras que la complejidad computacional solo imagen crece de a imagen .

introducción del equipo

Grupo de Inteligencia y Percepción Visual (VIP), dirigido por el profesor Wei Xiushen . El equipo ha publicado en las principales revistas internacionales en campos relacionados como IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "Chinese Science: Information Science", etc., y en las principales conferencias internacionales como NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI, etc. Ha publicado más de cincuenta artículos y trabajos relacionados ha ganado un total de 7 campeonatos mundiales en competencias internacionales autorizadas en el campo de la visión por computadora, incluidos DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 y Análisis de personalidad aparente 2016.

Introducción al artículo

En este artículo, proponemos bases vectoriales de ángulos iguales (EBV) para reemplazar los clasificadores comúnmente utilizados en tareas de clasificación de redes neuronales profundas. Los EBV predefinen un vector de base normalizado fijo para todas las categorías. Los ángulos entre estos vectores de base son los mismos y están obligados a ser mutuamente ortogonales tanto como sea posible. Específicamente, en una hiperesfera unitaria de d-dimensionalidad, para cada categoría en la tarea de clasificación, los EBV definen una incrustación normalizada de d-dimensionalidad en la superficie de la hiperesfera. A estas incrustaciones las llamamos vectores base. La distancia esférica de cada par de vectores base satisface una regla definida que hace que la relación entre dos vectores base cualesquiera sea lo más ortogonal y con ángulos similares posible. Para mantener constantes los parámetros entrenables de la red neuronal profunda a medida que aumenta el número de categorías, proporcionamos la definición de EBV basada en los dos problemas matemáticos de Tammes Problem y Equiangular Lines.

Primero, damos una definición específica de EBV. Sabemos que d bases vectoriales ortogonales pueden construir un espacio euclidiano d-dimensional imagen . Al mismo tiempo, si dos vectores están en una relación ortogonal, en matemáticas creemos que los dos vectores no tienen correlación. Sin embargo, dicho espacio d-dimensional puede acomodar hasta d bases vectoriales, es decir, la cantidad de categorías que puede acomodar imagen , y no puede cumplir con los requisitos de reducir el espacio de memoria para una clasificación a gran escala. Por lo tanto, necesitamos optimizar la relación angular entre diferentes bases de vectores. Suponiendo que en la hiperesfera unitaria imagen , tome imagen y defina el rango de ángulos de dos bases vectoriales cualesquiera como imagen . Para una cantidad de categoría N determinada, encuentre imagen el valor mínimo que cumpla con las condiciones o, para uno aceptable imagen , encuentre imagen el rango de valores de la cantidad de categoría N en el espacio, que completa la definición de EBV. Su expresión matemática se puede resumir en encontrar un conjunto base de vectores con ángulos iguales que cumpla las condiciones imagen para que satisfaga:

imagen

Entre ellos, imagen y imagen media imagen , imagen representan imagen la norma euclidiana. Luego, suponiendo imagen que es una función métrica de la unidad de distancia esférica, para cualquier vector de características a consultar imagen , su imagen correlación con la base del vector se puede expresar como:

imagen

Entre ellos, imagen representa imagen los N vectores básicos en el conjunto de bases vectoriales. imagen luego representa los subíndices de todos los vectores base que se calcularán, de manera similar, imagen .

Luego damos el método de generación de EBV. Inicializamos aleatoriamente una matriz imagen para representar el conjunto de bases de vectores de ángulos iguales imagen , donde d representa la dimensión de cada vector de base y N representa el número de vectores de base requeridos. Luego imagen normalice cada vector base d-dimensional en , de modo que imagen la suma de dos vectores base cualesquiera en pueda expresarse imagen como y , y , . De esta manera, la distancia esférica de y puede reemplazarse por similitud coseno, expresada como . En el proceso de descenso de gradiente estocástico, el gradiente de cualquier par de vectores base satisfactorio se corta mediante recorte de gradiente y los pares de vectores base restantes se optimizan al mismo tiempo. La función de optimización general se puede expresar como: imagen imagen imagen imagen imagen imagen imagen imagen imagen imagen

imagen

Es decir, si imagen , el gradiente correspondiente se trunca y ya no se realiza la optimización.

Finalmente, brindamos un método de optimización para EBV cuando se usan en tareas de clasificación. Supongamos que N categorías contienen un total imagen de muestras de datos y sus etiquetas correspondientes son imagen , imagen que representa los datos, imagen que representan las etiquetas correspondientes. imagen El vector de características correspondiente se puede expresar como imagen , donde imagen representa un extractor de características, que generalmente puede entenderse como una red neuronal profunda que se optimizará, y imagen representa los parámetros del extractor de características que se optimizará. Por tanto, la probabilidad imagen de que el vector de características correspondiente a los datos imagen se estime como una categoría imagen se puede expresar como:

imagen

Entre ellos, representa la transposición del imagen peso de la categoría J. imagen En el proceso de generación de EBV, imagen cada vector base del conjunto ha sido imagen regularizado imagen y reemplazado con el peso de categoría en la fórmula (4). imagen Finalmente, se puede obtener la función objetivo para lograr EBV:

imagen

Entre ellos, imagen representa la regularización del imagen vector de características correspondiente , que es un hiperparámetro utilizado para reducir la dificultad de optimización. Luego, el objetivo de optimización finalmente se convierte en maximizar la probabilidad de distribución conjunta , donde representa la función de conexión, que representa la probabilidad de que el vector de características obtenido por el extractor de características se considere una categoría, luego el objetivo de optimización se puede reescribir como minimizar la probabilidad logarítmica negativa de la siguiente manera: imagen imagen imagen imagen imagen imagen imagen imagen

imagen

Resultados experimentales

Hemos realizado experimentos comparativos sobre tareas de clasificación en el conjunto de datos ImageNet-1K, tareas de segmentación de instancias y detección de objetivos en el conjunto de datos MS COCO, segmentación semántica en el conjunto de datos ADE20K y una gran cantidad de tareas de clasificación posteriores. Aquí solo usamos ImageNet-The. Los resultados de la clasificación en 1K se toman como ejemplo para ilustrar la eficacia del método. Para demostrar la eficacia de los EBV propuestos, nuestro método de comparación de referencia se refiere al método de formación de última generación proporcionado por TorchVision. Ofrecemos tres entornos de formación diferentes:

1. Configure A0 para representar la configuración de entrenamiento en el texto original de ResNet;

2. Configurar A1 significa usar el programador de tasa de aprendizaje de caída del coseno y adoptar la estrategia de entrenamiento de calentamiento, mientras se usan estrategias de mejora como la caída de peso y TrivialAugment;

3. Configurar A2 significa agregar las tres estrategias de 1abel-smooth, cutmix y mixup en base a A1.

Como se muestra en la Tabla 1, los resultados experimentales muestran que los EBV tienen una mejora mayor que los clasificadores tradicionales en las mismas configuraciones experimentales.

Tabla 1 Resultados de comparación en el conjunto de validación ImageNet-1K

imagen

Resumen y perspectivas

Este artículo propone un nuevo paradigma para las tareas de clasificación: bases vectoriales de ángulos iguales (EBV). En las redes neuronales profundas, los modelos generalmente manejan tareas de clasificación con capas completamente conectadas de k-way con softmax, y los objetivos de aprendizaje de estos métodos se pueden resumir en mapear las representaciones de características aprendidas en el espacio de etiquetas de la muestra. En el método de aprendizaje métrico, el objetivo de aprendizaje se puede resumir en aprender una función de mapeo para mapear los puntos de datos de entrenamiento desde el espacio original a un nuevo espacio, y acercar el mismo tipo de puntos de muestra en el espacio, y la distancia entre diferentes tipos de puntos se vuelve más lejano. A diferencia de los métodos anteriores, los EBV predefinen un vector de base normalizado fijo para todas las categorías. En el proceso de predefinición, los ángulos entre estos vectores base son los mismos y están obligados a ser lo más ortogonales entre sí. En la etapa de entrenamiento, estos vectores base sirven directamente como objetivos de mapeo fijos para muestras de diferentes categorías, y el objetivo de aprendizaje de los EBV también cambia para minimizar la distancia esférica entre la incorporación de características de la imagen y los vectores base predefinidos. En la fase de verificación, dado que cada categoría está vinculada a un vector de base fijo, la etiqueta de la imagen se puede juzgar por el valor mínimo de la distancia esférica entre la característica incrustada de la imagen y todos los vectores de base. Dado que se trata de un problema de clasificación, la capacitación se puede completar muy rápidamente de acuerdo con el código de muestra oficial de MindSpore.

Ensayo en papel | La explicación detallada del rendimiento de clasificación de bases de vectores de ángulos iguales (EBV) basadas en Shengsi es significativamente mejor que los clasificadores tradicionales

Supongo que te gusta