Autor: Li Ruifeng
Título do artigo
Aprendizado de protótipo para check-out automático
Fonte de papel
IEEE TMM
Link de papel
https://ieeexplore.ieee.org/document/10049664/
Link do código
https://github.com/msfuxian/PLACO
Como uma estrutura de IA de código aberto, MindSpore traz colaboração entre dispositivos e nuvem de cenário completo entre indústria, universidade, pesquisa e desenvolvedores, desenvolvimento minimalista, desempenho máximo, pré-treinamento de IA em escala ultralarga, desenvolvimento minimalista e um ambiente seguro e confiável. experiência, 2020.3.28 O código aberto tem mais de 5 milhões de downloads. O MindSpore apoiou centenas de artigos de conferências importantes sobre IA, entrou no ensino das 100 melhores universidades e está disponível comercialmente em mais de 5.000 aplicativos por meio do HMS. desenvolvedores e está no centro de computação de IA, finanças, manufatura inteligente, finanças, nuvem, sem fio, comunicações de dados, energia, consumidor 1 + 8 + N, carros inteligentes e outros cenários de carros em nuvem de ponta estão gradualmente se espalhando. usado, e é o software de código aberto com o maior índice Gitee. Todos são bem-vindos para participar de contribuições de código aberto, kits, modelo de inteligência coletiva, inovação e aplicações da indústria, inovação de algoritmos, cooperação acadêmica, cooperação de livros de IA, etc., e contribuir com seus casos de aplicação no lado da nuvem, no lado do dispositivo, no lado da borda e campos de segurança.
Com o amplo apoio do SunSilicon MindSpore da comunidade científica e tecnológica, da academia e da indústria, os artigos de IA baseados no SunSilicon MindSpore representaram 7% de todas as estruturas de IA em 2023, ocupando o segundo lugar no mundo por dois anos consecutivos. Obrigado ao CAAI e. todas as universidades Com o apoio dos professores, continuaremos a trabalhar arduamente juntos para fazer pesquisa e inovação em IA. A comunidade MindSpore apoia as principais pesquisas de artigos de conferências e continua a construir resultados originais de IA. Ocasionalmente, selecionarei alguns artigos excelentes para promover e interpretar. Espero que mais especialistas da indústria, da academia e da pesquisa cooperem com a MindSpore para promover pesquisas originais em IA. de Shengsi MindSpore Para o 16º artigo da série de artigos de conferências de IA, escolhi interpretar um artigo da equipe do Dr. Wei Xiushen da Escola de Ciência da Computação e Engenharia da Universidade de Ciência e Tecnologia de Nanjing . agradecer a todos os especialistas, professores e colegas por suas contribuições.
MindSpore visa atingir três objetivos principais: fácil desenvolvimento, execução eficiente e cobertura completa de cenários. Através da experiência de uso, MindSpore, uma estrutura de aprendizagem profunda, está se desenvolvendo rapidamente, e o design de suas diversas APIs está sendo constantemente otimizado em uma direção mais razoável, completa e poderosa. Além disso, várias ferramentas de desenvolvimento que surgem constantemente de Shengsi também estão ajudando este ecossistema a criar métodos de desenvolvimento mais convenientes e poderosos, como o MindSpore Insight, que pode apresentar a arquitetura do modelo na forma de um diagrama e também monitorar dinamicamente vários aspectos do modelo durante o tempo de execução. Mudanças nos indicadores e parâmetros tornam o processo de desenvolvimento mais conveniente.
Este artigo trata principalmente de questões relacionadas à detecção de alvos. Através da detecção de alvos, é possível detectar com precisão produtos de varejo de diferentes categorias e quantidades em uma imagem e, finalmente, obter uma lista de compras correspondente à "categoria de produto: quantidade de produto". Parte do código para detecção de alvos pode ser baseada na documentação oficial do MindSpore, ou no código e modelos relacionados à detecção de alvos fornecidos pela comunidade. Ele pode facilmente atender aos requisitos do experimento deste artigo, que é muito conveniente e rápido. .
01
Antecedentes da Pesquisa
A liquidação visual de produtos de varejo é um subcampo da indústria de varejo inteligente. Seus cenários de aplicação comuns são áreas com caixas não tripuladas, como supermercados, lojas e lojas de conveniência. Os clientes colocam os produtos de varejo que desejam comprar no caixa e depois. a Câmeras de posição fixa capturam imagens desses itens de varejo, que passam por um sistema de checkout visual automático que pode identificar categorias de produtos e contá-los com precisão e, finalmente, gerar uma lista de compras completa com o valor total.
O núcleo da tarefa de liquidação visual de produtos de varejo é identificar e contar com precisão os produtos de varejo na imagem. No entanto, existem três desafios principais nesta tarefa, a saber, dados de produtos de varejo em grande escala, lacunas de domínio entre exemplos de produtos únicos e imagens de liquidação. e diferenças de categoria de produto. Para enfrentar esses desafios, Wei et al. propuseram um método básico para uma estrutura de detecção de objetos que preenche as diferenças e lacunas entre os dois domínios, sintetizando e renderizando imagens de checkout de produtos a partir de exemplos segmentados de produtos únicos. Da mesma forma, IncreACO, DPNet e DPSNet melhoram a estratégia de renderização sintética de Wei et al. para obter melhor adaptabilidade de domínio, promovendo assim a melhoria da precisão do ACO. Além disso, S2MC2 também usa a camada de inversão de gradiente como método de adaptação de domínio da camada de feição, substituindo a estratégia de renderização sintética.
Figura 1 Diagrama esquemático da liquidação visual de produtos de varejo
02
introdução da equipe
Grupo de Inteligência Visual e Percepção (VIP), liderado pelo Professor Wei Xiushen . A equipe publicou nas principais revistas internacionais em áreas relacionadas, como IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, "Chinese Science: Information Science", etc., e nas principais conferências internacionais, como NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI, etc. Ele publicou mais de cinquenta artigos e trabalhos relacionados ganhou um total de 7 campeonatos mundiais em competições internacionais de autoridade no campo da visão computacional, incluindo DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 e Análise de Personalidade Aparente 2016.
03
Introdução ao artigo
Neste artigo, propomos um método denominado "Aprendizado de protótipo para checkout visual de mercadorias de varejo (PLACO)", que tenta resolver exemplos de item único (como treinamento) e a imagem de liquidação (como teste), a estrutura geral é mostrada em Figura 2. Especificamente, um protótipo é uma representação vetorial que representa com precisão a semântica de uma categoria no espaço visual (ou seja, uma verdadeira representação de categoria), normalmente implementada por centros de recursos específicos de categoria. Outro benefício da utilização de protótipos de produtos para liquidação visual de mercadorias de varejo é que, além de potencialmente resolver diferenças de domínio, evita o problema de múltiplas visualizações de exemplos de produtos únicos. Os protótipos de categoria representam com mais precisão a semântica da categoria de um produto do que imagens de exemplo de visualização única ou de visualização múltipla, o que também comprova sua generalidade e robustez. Além disso, projetamos um módulo de alinhamento de protótipo como uma solução de adaptação de domínio. Depois de obter exemplos de produtos únicos e protótipos de categoria no domínio da imagem de assentamento, conseguimos a adaptação do domínio reduzindo a distância entre protótipos homogêneos e aumentando a distância entre protótipos heterogêneos para aumentar a compactação intracategoria e a dispersão intercategoria.
Figura 2 Diagrama esquemático da estrutura PLACO
Para melhorar ainda mais a capacidade discriminativa desses classificadores aprendidos, desenvolvemos um método de rearranjo discriminativo para melhorar sua capacidade discriminativa ajustando as pontuações de previsão dessas recomendações de produtos, consulte a Figura 3. Especificamente, classificamos a pontuação de predição da categoria verdadeira como a mais alta para melhorar a confiança da predição, enquanto reclassificamos a pontuação de fundo para a segunda posição de acordo com as características do classificador de fundo, ou seja, uma estratégia de rearranjo difícil. Além disso, considerando as características refinadas dos itens, também introduzimos uma variável de folga como uma estratégia de rearranjo suave para fornecer possibilidades razoáveis de classificação para as pontuações de previsão de produtos refinadas. Além disso, adicionamos uma perda de reconhecimento multi-rótulo ao PLACO para modelar a co-ocorrência de itens em imagens de checkout, melhorando assim ainda mais a precisão do checkout visual de itens de varejo.
Figura 3 Diagrama esquemático de dois métodos de rearranjo discriminativo
04
Resultados experimentais
Conduzimos experimentos comparativos sobre o desempenho de verificação visual de sete métodos no conjunto de dados RPC. Entre eles, o método de Wei et al., IncreACO, DPNet e DPSNet, todos usam dados sintéticos e renderização de dados para treinar em conjunto. A estrutura de backbone de detecção de alvo desses métodos é Faster RCNN ou Mask S2MC2 usa anotações de nível de ponto mais fraco; treinamento supervisionado. É um método de contagem de objetos em nível de ponto baseado em mapas de densidade. PSP é o método da versão de conferência do PLACO neste artigo, o módulo de alinhamento de protótipo para PSP é aprimorado. e Cascade RCNN Resultados experimentais do framework. Como os dados RPC são divididos em três níveis: fácil, médio e difícil de acordo com a categoria e quantidade de produtos de varejo na imagem, também reportamos os resultados desses três níveis e o resultado médio geral ao relatar os resultados experimentais.
Pode-se observar pelos resultados que o método PLACO neste artigo alcançou basicamente os melhores resultados nas estruturas de detecção de alvos de backbone RCNN mais rápido e RCNN em cascata, especialmente na precisão de liquidação do indicador de detecção principal (cAcc). "↑" na tabela indica que quanto maior o resultado, melhor o desempenho "↓" indica que quanto menor o resultado, melhor o desempenho Os melhores resultados baseados na estrutura Faster RCNN são mostrados em negrito azul. os melhores resultados baseados na estrutura Cascade RCNN são destacados em vermelho.
Tabela 1 Resultados de comparação da liquidação visual de produtos de varejo usando sete métodos no conjunto de dados RPC
05
Resumo e Perspectiva
Este artigo propõe um protótipo de método de aprendizagem PLACO para verificação automática, incluindo um módulo de aprendizagem de classificador baseado em protótipo, um módulo de rearranjo discriminativo e um módulo de alinhamento de protótipo. O módulo de aprendizagem do classificador baseado em protótipo foi desenvolvido para aliviar implicitamente a lacuna de domínio entre os exemplos usados como treinamento e as imagens de checkout usadas como teste. Além disso, este artigo adota o módulo de alinhamento de protótipo como uma solução explícita de adaptação de domínio. Este artigo projeta um método de reclassificação discriminativa para melhorar o desempenho do PLACO, introduzindo mais capacidades discriminativas na aprendizagem do classificador e categorias refinadas. Este artigo aplica uma perda multi-rótulo para simular a coocorrência de produtos em imagens de checkout. No conjunto de dados RPC de referência em grande escala, a PLACO alcançou uma precisão de liquidação de 91,03%, 2,89% superior ao melhor método anterior. Como este artigo envolve principalmente problemas de detecção de tabela mu, você pode implementar facilmente os experimentos exigidos neste artigo de acordo com os casos oficiais do documento MindSpore ou com os códigos e modelos relacionados à detecção de alvos fornecidos pela comunidade, o que é muito conveniente e rápido.
Um programador nascido na década de 1990 desenvolveu um software de portabilidade de vídeo e faturou mais de 7 milhões em menos de um ano. O final foi muito punitivo! Google confirmou demissões, envolvendo a "maldição de 35 anos" dos programadores chineses nas equipes Flutter, Dart e . Python Arc Browser para Windows 1.0 em 3 meses oficialmente GA A participação de mercado do Windows 10 atinge 70%, Windows 11 GitHub continua a diminuir a ferramenta de desenvolvimento nativa de IA GitHub Copilot Workspace JAVA. é a única consulta de tipo forte que pode lidar com OLTP + OLAP. Este é o melhor ORM. Nos encontramos tarde demais.