Conferencias de ensayo | Aprendizaje de PLACO basado en el prototipo de liquidación visual de mercancías minoristas de MindSpore, logrando un aumento de precisión del 2,89%

Autor: Li Ruifeng 

Título del trabajo

Aprendizaje de prototipos para el pago automático

Fuente de papel

IEEE TMM

Enlace de papel

https://ieeexplore.ieee.org/document/10049664/

enlace de código

https://github.com/msfuxian/PLACO

Como marco de IA de código abierto, MindSpore ofrece colaboración entre la industria, la universidad, la investigación y los desarrolladores en un escenario completo, desde el borde del dispositivo hasta la nube, desarrollo minimalista, máximo rendimiento, preentrenamiento de IA a ultra gran escala, desarrollo minimalista y una plataforma segura y confiable. experiencia, 2020.3.28 El código abierto tiene más de 5 millones de descargas. MindSpore ha respaldado cientos de artículos de conferencias importantes sobre IA, ha ingresado a la enseñanza de las 100 mejores universidades y está disponible comercialmente en más de 5000 aplicaciones a través de HMS. Desarrolladores y centros de computación de inteligencia artificial, finanzas, fabricación inteligente, finanzas, nube, tecnología inalámbrica, comunicaciones de datos, energía, consumo 1 + 8 + N, automóviles inteligentes y otros escenarios de automóviles en la nube de última generación se están generalizando gradualmente. utilizado, y es el software de código abierto con el índice Gitee más alto. Todos son bienvenidos a participar en contribuciones de código abierto, kits, modelos de inteligencia colectiva, innovación y aplicaciones de la industria, innovación de algoritmos, cooperación académica, cooperación de libros de IA, etc., y contribuir con sus casos de aplicación en el lado de la nube, el lado del dispositivo, el lado del borde y campos de seguridad.

Con el amplio apoyo de SunSilicon MindSpore por parte de la comunidad científica y tecnológica, la academia y la industria, los artículos de IA basados ​​en SunSilicon MindSpore representaron el 7% de todos los marcos de IA en 2023, ocupando el segundo lugar en el mundo durante dos años consecutivos. Gracias a CAAI y. todas las universidades Con el apoyo de los profesores, continuaremos trabajando duro juntos para realizar investigación e innovación en IA. La comunidad MindSpore apoya las principales investigaciones en artículos de conferencias y continúa generando resultados originales de IA. De vez en cuando seleccionaré algunos artículos excelentes para impulsar e interpretar. Espero que más expertos de la industria, el mundo académico y la investigación cooperen con MindSpore para promover la investigación original de IA. La comunidad Shengsi MindSpore continuará apoyando la innovación y las aplicaciones de IA. De Shengsi MindSpore Para el artículo número 16 de la serie de artículos de conferencias sobre IA, elegí un artículo del equipo del Dr. Wei Xiushen de la Facultad de Ciencias de la Computación e Ingeniería de la Universidad de Ciencia y Tecnología de Nanjing . agradecer a todos los expertos, profesores y compañeros por sus aportaciones.

MindSpore tiene como objetivo lograr tres objetivos principales: desarrollo sencillo, ejecución eficiente y cobertura completa de escenarios. A través de la experiencia de uso, MindSpore, un marco de aprendizaje profundo, se está desarrollando rápidamente y el diseño de sus diversas API se optimiza constantemente en una dirección más razonable, completa y poderosa. Además, varias herramientas de desarrollo que surgen constantemente de Shengsi también están ayudando a este ecosistema a crear métodos de desarrollo más convenientes y poderosos, como MindSpore Insight, que puede presentar la arquitectura del modelo en forma de diagrama y también puede monitorear dinámicamente varios aspectos. del modelo durante el tiempo de ejecución. Los cambios en los indicadores y parámetros hacen que el proceso de desarrollo sea más conveniente.

Este artículo trata principalmente problemas relacionados con la detección de objetivos. A través de la detección de objetivos, es posible detectar con precisión productos minoristas de diferentes categorías y cantidades en una imagen y, finalmente, obtener una lista de compras correspondiente a la "categoría de producto: cantidad de producto". Parte del código para la detección de objetivos puede basarse en la documentación oficial de MindSpore, o en el código y los modelos relacionados con la detección de objetivos proporcionados por la comunidad. Puede realizar fácilmente los requisitos del experimento de este artículo, lo cual es muy conveniente y rápido. .

01

Antecedentes de la investigación

La liquidación visual de productos minoristas es un subcampo de la industria minorista inteligente. Sus escenarios de aplicación comunes son áreas con cajas registradoras no tripuladas, como supermercados, tiendas y tiendas de conveniencia. Los clientes colocan los productos minoristas que desean comprar en las cajas registradoras y luego. a Las cámaras de posición fija capturan imágenes de estos artículos minoristas, que pasan por un sistema de pago visual automático que puede identificar categorías de productos y contarlas con precisión, y finalmente generar una lista de compras completa con el monto total.

El núcleo de la tarea de liquidación visual de productos minoristas es identificar y contar con precisión los productos minoristas en la imagen. Sin embargo, existen tres desafíos principales en esta tarea, a saber, datos de productos minoristas a gran escala, brechas de dominio entre ejemplos de productos individuales e imágenes de liquidación. y diferencias de categorías de productos. Para abordar estos desafíos, Wei et al. propusieron un método de referencia para un marco de detección de objetos que salva las diferencias y brechas entre los dos dominios sintetizando y renderizando imágenes de pago de productos a partir de ejemplos de productos individuales segmentados. De manera similar, IncreACO, DPNet y DPSNet mejoran la estrategia de representación sintética de Wei et al. para obtener una mejor adaptabilidad del dominio, promoviendo así la mejora de la precisión de ACO. Además, S2MC2 también utiliza la capa de inversión de gradiente como método de adaptación del dominio de la capa de características, reemplazando la estrategia de representación sintética.

imagen

Figura 1 Diagrama esquemático de liquidación visual de productos minoristas.

02

introducción del equipo

Grupo de Inteligencia y Percepción Visual (VIP), dirigido por el profesor Wei Xiushen . El equipo ha publicado en las principales revistas internacionales en campos relacionados como IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "Chinese Science: Information Science", etc., y en las principales conferencias internacionales como NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI, etc. Ha publicado más de cincuenta artículos y trabajos relacionados ha ganado un total de 7 campeonatos mundiales en competencias internacionales autorizadas en el campo de la visión por computadora, incluidos DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 y Análisis de personalidad aparente 2016.

03

Introducción al artículo

En este artículo, proponemos un método llamado "Aprendizaje de prototipos para pago visual de mercancías minoristas (PLACO)", que intenta resolver ejemplos de un solo artículo (como capacitación) y la imagen de liquidación (como prueba), la estructura general se muestra en Figura 2. Específicamente, un prototipo es una representación vectorial que representa con precisión la semántica de una categoría en el espacio visual (es decir, una representación de categoría verdadera), generalmente implementada por centros de características específicas de categorías. Otro beneficio de utilizar prototipos de productos para la liquidación visual de mercancías minoristas es que, además de resolver potencialmente las diferencias de dominio, evita el problema de múltiples vistas de los ejemplos de un solo producto. Los prototipos de categorías representan con mayor precisión la semántica de la categoría de un producto que las imágenes de ejemplo de vista única o de vistas múltiples, lo que también demuestra su generalidad y solidez. Además, diseñamos un prototipo de módulo de alineación como solución de adaptación de dominio. Después de obtener ejemplos de productos únicos y prototipos de categorías en el dominio de imagen de asentamiento, logramos la adaptación del dominio reduciendo la distancia entre prototipos homogéneos y ampliando la distancia entre prototipos heterogéneos para mejorar la compacidad intracategoría y la escasez entre categorías.

imagen

Figura 2 Diagrama esquemático del marco PLACO

Para mejorar aún más la capacidad discriminativa de estos clasificadores aprendidos, desarrollamos un método de reordenamiento discriminativo para mejorar su capacidad discriminativa ajustando las puntuaciones de predicción de estas recomendaciones de productos, consulte la Figura 3. Específicamente, clasificamos la puntuación de predicción de la categoría verdadera en la posición más alta para mejorar la confianza de la predicción, mientras que reclasificamos la puntuación de fondo a la segunda posición de acuerdo con las características del clasificador de fondo, es decir, una estrategia de reordenamiento estricta. Además, considerando las características detalladas de los artículos, también introducimos una variable de holgura como una estrategia de reordenamiento suave para proporcionar posibilidades de clasificación razonables para las puntuaciones de predicción de productos detallados. Además, agregamos una pérdida de reconocimiento de etiquetas múltiples a PLACO para modelar la coexistencia de artículos en las imágenes de pago, mejorando así aún más la precisión del pago visual de los artículos minoristas.

imagen

Figura 3 Diagrama esquemático de dos métodos de reordenamiento discriminativo.

04

Resultados experimentales

Realizamos experimentos comparativos sobre el rendimiento del control visual de siete métodos en el conjunto de datos RPC. Entre ellos, el método de Wei et al., IncreACO, DPNet y DPSNet utilizan datos sintéticos y datos de representación para entrenar conjuntamente. El marco principal de detección de objetivos de estos métodos es Faster RCNN o Mask S2MC2 utiliza anotaciones de nivel de puntos más débiles. entrenamiento supervisado Es un método para contar objetos a nivel de puntos basado en mapas de densidad; PSP es el método de versión de conferencia de PLACO en este artículo. PLACO ha mejorado el módulo de alineación prototipo para PSP. Ambos métodos tienen dos redes troncales de detección de objetivos, Faster RCNN. y Cascade RCNN Resultados experimentales del marco. Dado que los datos de RPC se dividen en tres niveles: fácil, medio y difícil según la categoría y cantidad de productos minoristas en la imagen, también informamos los resultados de estos tres niveles y el resultado promedio general al informar los resultados experimentales.

Se puede ver en los resultados que el método PLACO en este artículo básicamente ha logrado los mejores resultados en los marcos de detección de objetivos troncales Faster RCNN y Cascade RCNN, especialmente en la precisión de liquidación del indicador de detección principal (cAcc). " ↑ " en la tabla indica que cuanto mayor es el resultado, mejor es el rendimiento. "↓" indica que cuanto menor es el resultado, mejor es el rendimiento. Los mejores resultados basados ​​​​en el marco Faster RCNN se muestran en negrita en azul. Los mejores resultados basados ​​en el marco Cascade RCNN están resaltados en rojo.

Tabla 1 Resultados de comparación de la liquidación visual de productos minoristas utilizando siete métodos en el conjunto de datos RPC

imagen

05

Resumen y perspectivas

Este artículo propone un prototipo de método de aprendizaje PLACO para el pago automático, que incluye un módulo de aprendizaje de clasificador basado en prototipos, un módulo de reordenamiento discriminativo y un módulo de alineación de prototipos. El módulo de aprendizaje del clasificador basado en prototipos se desarrolló para aliviar implícitamente la brecha de dominio entre los ejemplos utilizados como capacitación y las imágenes de pago utilizadas como prueba. Además, este artículo adopta el módulo de alineación de prototipos como una solución explícita de adaptación de dominio. Este artículo diseña un método de reclasificación discriminativa para mejorar el rendimiento de PLACO mediante la introducción de capacidades más discriminativas en el aprendizaje de clasificadores y categorías detalladas. Este documento aplica una pérdida de etiquetas múltiples para simular la coexistencia de productos en las imágenes de pago. En el conjunto de datos RPC de referencia a gran escala, PLACO logró una precisión de liquidación del 91,03 %, un 2,89 % más que el mejor método anterior. Dado que este artículo trata principalmente problemas de detección de tablas múltiples, puede implementar fácilmente los experimentos requeridos en este artículo de acuerdo con los casos de documentos oficiales de MindSpore o los códigos y modelos relacionados con la detección de objetivos proporcionados por la comunidad, lo cual es muy conveniente y rápido.

 

Un programador nacido en los años 90 desarrolló un software de portabilidad de vídeo y ganó más de 7 millones en menos de un año. ¡El final fue muy duro! Google confirmó despidos, relacionados con la "maldición de 35 años" de los codificadores chinos en los equipos Python Flutter Arc Browser para Windows 1.0 en 3 meses oficialmente GA La participación de mercado de Windows 10 alcanza el 70%, Windows 11 GitHub continúa disminuyendo. GitHub lanza la herramienta de desarrollo nativo de IA GitHub Copilot Workspace JAVA. es la única consulta de tipo fuerte que puede manejar OLTP + OLAP. Este es el mejor ORM. Nos encontramos demasiado tarde.
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/4736317/blog/11072556
Recomendado
Clasificación