Автор: Ли Жуйфэн
Название статьи
Прототип обучения для автоматического оформления заказа
Источник бумаги
IEEE ТММ
Бумажная ссылка
https://ieeexplore.ieee.org/document/10049664/
ссылка на код
https://github.com/msfuxian/PLACO
В качестве платформы искусственного интеллекта с открытым исходным кодом MindSpore предлагает отраслевым, университетским исследованиям и разработчикам полномасштабное сотрудничество между устройствами и облаками, минималистскую разработку, максимальную производительность, сверхкрупномасштабное предварительное обучение искусственному интеллекту, минималистскую разработку, а также безопасную и заслуживающую доверия среду. Опыт, 2020.3.28. MindSpore с открытым исходным кодом было скачано более 5 миллионов раз. Он поддержал более сотни лучших докладов на конференциях по искусственному интеллекту, вошел в преподавание в более чем 100 лучших университетах и коммерчески доступен в более чем 5000 приложениях через HMS. разработчики и находятся в вычислительном центре искусственного интеллекта, финансах, интеллектуальном производстве, финансах, облаке, беспроводной связи, передаче данных, энергетике, потребительских 1 + 8 + N, интеллектуальных автомобилях и других сценариях конечного облачного автомобиля. используется, и это программное обеспечение с открытым исходным кодом с самым высоким индексом Gitee. Приглашаем всех принять участие в проектах с открытым исходным кодом, наборах, моделировании массового интеллекта, отраслевых инновациях и приложениях, инновациях в алгоритмах, академическом сотрудничестве, сотрудничестве в написании книг по искусственному интеллекту и т. д., а также вносить свои примеры приложений на стороне облака, на стороне устройства, на периферии и т. д. поля безопасности.
Благодаря широкой поддержке SunSilicon MindSpore со стороны научно-технического сообщества, научных кругов и промышленности, статьи по искусственному интеллекту, основанные на SunSilicon MindSpore, составили 7% всех инфраструктур искусственного интеллекта в 2023 году, заняв второе место в мире в течение двух лет подряд. Спасибо CAAI и. все университеты. При поддержке преподавателей мы продолжим усердно работать вместе над исследованиями и инновациями в области искусственного интеллекта. Сообщество MindSpore поддерживает ведущие исследования, представленные на конференциях, и продолжает получать оригинальные результаты в области искусственного интеллекта. Я надеюсь, что больше экспертов из промышленности, научных кругов и исследователей будут сотрудничать с MindSpore для продвижения оригинальных исследований в области ИИ. Сообщество Shengsi MindSpore продолжит поддерживать инновации в области ИИ и приложения ИИ. от Shengsi MindSpore. Для 16-й статьи в серии докладов на конференциях по искусственному интеллекту я решил интерпретировать статью доктора Вэй Сюшеня из Школы компьютерных наук и инженерии Нанкинского университета науки и технологий . поблагодарить всех экспертов, профессоров и однокурсников за их вклад.
MindSpore стремится достичь трех основных целей: простота разработки, эффективное выполнение и полный охват сценариев. Благодаря опыту использования MindSpore, платформа глубокого обучения, быстро развивается, а дизайн ее различных API постоянно оптимизируется в более разумном, полном и мощном направлении. Кроме того, различные инструменты разработки, постоянно появляющиеся в Shengsi, также помогают этой экосистеме создавать более удобные и мощные методы разработки, такие как MindSpore Insight, который может представлять архитектуру модели в виде диаграммы, а также может динамически отслеживать различные аспекты. модели во время выполнения. Изменения показателей и параметров делают процесс разработки более удобным.
В этой статье в основном рассматриваются вопросы, связанные с обнаружением целей. Благодаря обнаружению целей можно точно обнаружить розничные продукты различных категорий и количеств на изображении и, наконец, получить список покупок, соответствующий «категория продукта: количество продукта». Часть кода для обнаружения целей может быть основана на официальной документации MindSpore или на коде и моделях, связанных с обнаружением целей, предоставленных сообществом. Он может легко реализовать требования эксперимента этой статьи, что очень удобно и быстро. .
01
Предыстория исследования
Визуальный расчет розничных товаров — это отрасль умной розничной торговли. Его распространенные сценарии применения — это помещения с беспилотными кассами, такие как супермаркеты, магазины и магазины повседневного спроса. Покупатели размещают розничные товары, которые хотят приобрести, на кассе, а затем Камеры с фиксированным положением фиксируют изображения этих розничных товаров, которые проходят через автоматическую систему визуального контроля, которая может идентифицировать категории продуктов и точно их подсчитывать, и, наконец, выдает полный список покупок с общей суммой.
Суть задачи визуального расчета розничных продуктов заключается в точной идентификации и подсчете розничных продуктов на изображении. Однако в этой задаче есть три основные проблемы, а именно: крупномасштабные данные о розничных продуктах, пробелы в доменах между отдельными примерами продуктов и изображениями расчетов. и различия в категориях продуктов. Чтобы решить эти проблемы, Вэй и др. предложили базовый метод для системы обнаружения объектов, которая устраняет различия и пробелы между двумя областями путем синтеза и рендеринга изображений проверки продуктов на основе сегментированных примеров отдельных продуктов. Аналогичным образом, IncreACO, DPNet и DPSNet улучшают стратегию синтетического рендеринга Wei et al, чтобы обеспечить лучшую адаптируемость к предметной области, тем самым способствуя повышению точности ACO. Кроме того, S2MC2 также использует слой инверсии градиента в качестве метода адаптации домена векторного слоя, заменяя стратегию синтетического рендеринга.
Рисунок 1 Принципиальная схема визуального расчета розничных товаров
02
представление команды
Группа визуального интеллекта и восприятия (VIP), возглавляемая профессором Вэй Сюшенем . Команда публиковалась в ведущих международных журналах в смежных областях, таких как IEEE TPAMI, IEEE TIP, IEEE TNNLS, IEEE TKDE, Machine Learning Journal, «Chinese Science: Information Science» и т. д., а также на ведущих международных конференциях, таких как NeurIPS, CVPR, ICCV, ECCV, IJCAI, AAAI и т. д. Он опубликовал более пятидесяти статей, а связанные с ними работы выиграли в общей сложности 7 чемпионатов мира в авторитетных международных соревнованиях в области компьютерного зрения, включая DIGIX 2023, SnakeCLEF 2022, iWildCam 2020, iNaturalist 2019 и Анализ очевидной личности 2016.
03
Введение в статью
В этой статье мы предлагаем метод под названием «Обучение прототипа для визуальной проверки розничных товаров (PLACO)», который пытается решить примеры отдельных товаров (в качестве обучения) и расчетное изображение (в качестве теста). Общая структура показана на рис. Фигура 2. В частности, прототип — это векторное представление, которое точно представляет семантику категории в визуальном пространстве (т. е. истинное представление категории), обычно реализуемое центрами функций, специфичными для каждой категории. Еще одно преимущество использования прототипов продуктов для визуального оформления розничных товаров заключается в том, что, помимо потенциального устранения различий в предметных областях, это позволяет избежать проблемы множественного просмотра примеров одного продукта. Прототипы категорий более точно отражают семантику категории продукта, чем примеры изображений с одним или несколькими представлениями, что также доказывает их универсальность и надежность. Кроме того, мы разработали модуль согласования прототипов в качестве решения для адаптации предметной области. После получения примеров отдельных продуктов и прототипов категорий в области изображения поселения мы добиваемся адаптации домена за счет уменьшения расстояния между однородными прототипами и увеличения расстояния между гетерогенными прототипами для повышения внутрикатегориальной компактности и межкатегорийной разреженности.
Рисунок 2. Схематическая диаграмма структуры PLACO.
Чтобы еще больше улучшить различительную способность этих обученных классификаторов, мы разрабатываем метод дискриминационной перестановки, чтобы улучшить их различительную способность путем корректировки оценок прогнозирования этих рекомендаций по продуктам, см. Рисунок 3. В частности, мы ставим оценку прогноза истинной категории на самый высокий уровень, чтобы повысить достоверность прогноза, одновременно перемещая оценку фона на вторую позицию в соответствии с характеристиками классификатора фона, т. Е. Стратегией жесткой перестановки. Кроме того, учитывая детализированные характеристики товаров, мы также вводим слабую переменную в качестве стратегии мягкой перестановки, чтобы обеспечить разумные возможности ранжирования для прогнозируемых оценок детализированных продуктов. Кроме того, мы добавили в PLACO функцию потери распознавания нескольких меток, чтобы моделировать одновременное появление товаров на изображениях касс, тем самым еще больше повышая точность визуальной проверки розничных товаров.
Рисунок 3. Принципиальная схема двух методов дискриминационной перегруппировки.
04
Результаты эксперимента
Мы провели сравнительные эксперименты по визуальной проверке семи методов на наборе данных RPC. Среди них метод Вэя и др., IncreACO, DPNet и DPSNet используют синтетические данные и данные рендеринга для совместного обучения. Базовая структура целевого обнаружения этих методов — Faster RCNN или Mask RCNN, для которых используются более слабые аннотации точечного уровня; контролируемое обучение. Это метод подсчета объектов точечного уровня на основе карт плотности; PSP — это метод конференц-версии PLACO, в этой статье PLACO усовершенствовал прототип модуля выравнивания для PSP. Оба метода имеют две магистрали обнаружения целей, Faster RCNN. и Каскад RCNN. Экспериментальные результаты системы. Поскольку данные RPC разделены на три уровня: легкий, средний и сложный в зависимости от категории и количества розничных товаров на изображении, при сообщении результатов эксперимента мы также сообщаем результаты этих трех уровней и общий средний результат.
Из результатов видно, что метод PLACO, описанный в этой статье, в основном достиг наилучших результатов как в базовых системах обнаружения целей Faster RCNN, так и в Cascade RCNN, особенно в отношении точности расчета основного индикатора обнаружения (cAcc). «↑» в таблице означает, что чем больше результат, тем лучше производительность. «↓» означает, что чем меньше результат, тем выше производительность. Лучшие результаты, основанные на платформе Faster RCNN, показаны жирным синим шрифтом. лучшие результаты, основанные на структуре Cascade RCNN, выделены красным шрифтом.
Таблица 1. Результаты сравнения визуального расчета розничных товаров семью методами на наборе данных RPC
05
Резюме и перспективы
В этой статье предлагается прототип метода обучения PLACO для автоматической проверки, включающий модуль обучения классификатора на основе прототипа, модуль дискриминационной перестановки и модуль выравнивания прототипа. Модуль обучения классификатору на основе прототипа был разработан для неявного устранения разрыва в предметной области между примерами, используемыми в качестве обучения, и изображениями проверки, используемыми в качестве тестирования. Кроме того, в этой статье модуль согласования прототипов используется в качестве явного решения для адаптации предметной области. В этой статье разработан метод дискриминационного переранжирования для повышения производительности PLACO за счет введения большего количества дискриминационных возможностей в обучение классификаторов и детализированных категорий. В этой статье применяется потеря нескольких меток для имитации одновременного появления продуктов на изображениях кассы. На крупномасштабном эталонном наборе данных RPC PLACO достигла точности расчетов 91,03%, что на 2,89% выше, чем предыдущий лучший метод. Поскольку эта статья в основном затрагивает вопросы обнаружения мю-таблиц, вы можете легко реализовать эксперименты, требуемые в этой статье, в соответствии с официальными документами MindSpore или кодами и моделями, связанными с обнаружением целей, предоставленными сообществом, что очень удобно и быстро.
Программист, родившийся в 1990-х годах, разработал программу для переноса видео и заработал более 7 миллионов менее чем за год. Концовка была очень суровой! Google подтвердил увольнения, связанные с «проклятием 35-летней давности» китайских программистов в командах Flutter, Dart и . Python Arc Browser для Windows 1.0 через 3 месяца официально Доля рынка Windows 10 достигает 70%, Windows 11 GitHub продолжает снижаться GitHub выпускает собственный инструмент разработки AI GitHub Copilot Workspace JAVA. — единственный запрос строгого типа, который может обрабатывать OLTP+OLAP. Это лучший ORM. Мы встречаемся слишком поздно.