エッセイ講義 | MindSpore の小売商品ビジュアル決済プロトタイプに基づく PLACO の学習、精度 2.89% の向上を達成

著者:李瑞峰 

論文タイトル

自動チェックアウトのためのプロトタイプ学習

給紙元

IEEE TMM

ペーパーリンク

https://ieeexplore.ieee.org/document/10049664/

コードリンク

https://github.com/msfuxian/PLACO

オープンソースの AI フレームワークとして、MindSpore は、産学、研究、開発者に、フルシナリオのデバイス、エッジ、クラウドのコラボレーション、ミニマリスト開発、究極のパフォーマンス、超大規模 AI 事前トレーニング、ミニマリスト開発、安全で信頼できるシステムを提供します。経験、2020.3. 28 オープンソースは 500 万以上のダウンロードがあり、数百以上の AI のトップカンファレンスの論文をサポートしており、トップ 100 以上の大学で教育されており、HMS を通じて 5000 以上のアプリで商用利用できます。 AI コンピューティング センター、金融、スマート製造、金融、クラウド、ワイヤレス、データ通信、エネルギー、消費者向け 1+8+N、スマート カー、その他のエンドエッジ クラウド カーのシナリオが徐々に広がっています。が使用されており、Gitee インデックスが最も高いオープンソース ソフトウェアです。誰もがオープンソースのコントリビューション、キット、モデルクラウドインテリジェンス、業界の革新とアプリケーション、アルゴリズムの革新、学術協力、AI書籍の協力などに参加することができ、クラウド側、デバイス側、エッジ側、およびアプリケーションケースを貢献することができます。セキュリティフィールド。

科学技術コミュニティ、学界、産業界からの SunSilicon MindSpore の広範なサポートにより、2023 年には SunSilicon MindSpore に基づく AI 論文が全 AI フレームワークの 7% を占め、2 年連続で世界第 2 位にランクされました。CAAI および CAAI に感謝します。全大学、先生方のご支援を得て、今後もAIの研究とイノベーションに全力で取り組んでまいります。 MindSpore コミュニティは、主要な会議論文の研究をサポートし、オリジナルの AI 結果を構築し続けています。私は時々、優れた論文を選択して解釈していきます。産業界、学界、研究者のより多くの専門家がオリジナルの AI 研究を推進するために MindSpore と協力することを願っています。Shengsi MindSpore コミュニティは今後も AI イノベーションと AI アプリケーションをサポートしていきます。 Shengsi MindSpore から AI カンファレンス論文シリーズの 16 番目の記事として、南京科技大学コンピュータ工学部のWei Xiushen 博士のチームの論文を取り上げたいと思います。すべての専門家、教授、クラスメートの貢献に感謝します。

MindSpore は、開発の容易さ、効率的な実行、シナリオの完全なカバーという 3 つの主要な目標を達成することを目指しています。使用経験を通じて、深層学習フレームワークである MindSpore は急速に発展しており、そのさまざまな API の設計は、より合理的で完全かつ強力な方向に常に最適化されています。さらに、Shengsi から常に登場しているさまざまな開発ツールも、モデル アーキテクチャを図の形式で表示し、さまざまな側面を動的に監視できる MindSpore Insight など、より便利で強力な開発手法を作成するためにこのエコシステムを支援しています。実行時のモデルの変更により、開発プロセスがより便利になります。

この記事では、主にターゲット検出に関連する問題について説明します。ターゲット検出により、画像内のさまざまなカテゴリと数量の小売商品を正確に検出し、最終的に「商品カテゴリ: 商品数量」に対応する買い物リストを取得することができます。ターゲット検出のコードの一部は、MindSpore の公式ドキュメント、またはコミュニティによって提供されるターゲット検出に関連するコードとモデルに基づくことができ、この記事の実験の要件を簡単に実現でき、非常に便利で高速です。 。

01

研究の背景

小売商品のビジュアル決済は、スマート小売業界のサブ分野であり、その一般的なアプリケーション シナリオは、スーパーマーケット、店舗、コンビニエンス ストアなどの無人レジカウンターがあるエリアで、顧客が購入したい小売商品をレジに置きます。 a 固定位置のカメラでこれらの小売店の画像をキャプチャし、その画像が自動視覚チェックアウト システムを通過し、製品カテゴリを識別して正確にカウントし、最終的に合計金額を含む完全な買い物リストを出力します。

小売製品の視覚的決済タスクの核心は、画像内の小売製品を正確に識別してカウントすることです。ただし、このタスクには 3 つの主要な課題があります。つまり、大規模な小売製品データ、単一の製品サンプルと決済画像の間の領域のギャップです。 、および製品カテゴリの詳細なプロパティ。これらの課題に対処するために、Wei らは、セグメント化された単一製品の例から製品チェックアウト画像を合成してレンダリングすることで、2 つのドメイン間の違いとギャップを埋めるオブジェクト検出フレームワークのベースライン方法を提案しました。同様に、IncreACO、DPNet、および DPSNet は、Wei らの合成レンダリング戦略を改善して、より優れたドメイン適応性を実現し、それによって ACO の精度の向上を促進します。さらに、S2MC2 は、合成レンダリング戦略の代わりに、フィーチャ レイヤーのドメイン適応方法として勾配反転レイヤーも使用します。

写真

図1 小売商品のビジュアル決済の概念図

02

チーム紹介

魏秀シェ教授が率いる視覚知能と知覚(VIP)グループ。このチームは、IEEE TPAMI、IEEE TIP、IEEE TNNLS、IEEE TKDE、Machine Learning Journal、「中国科学:情報科学」などの関連分野のトップ国際ジャーナルや、NeurIPS、CVPR、 ICCV、ECCV、IJCAI、AAAI など。彼は 50 以上の論文を発表しており、関連研究は、DIGIX 2023、SnakeCLEF 2022、iWildCam 2020、 iNaturalist 2019、および見かけの性格分析 2016。

03

論文の紹介

本稿では、「小売商品ビジュアルチェックアウトのためのプロトタイプ学習(PLACO)」と呼ばれる手法を提案します。これは、単一品目の例(トレーニングとして)と決済イメージ(テストとして)を解決しようとします。全体の構造は図に示されています。図2。具体的には、プロトタイプは、視覚空間内のカテゴリのセマンティクスを正確に表すベクトル表現 (つまり、真のカテゴリ表現) であり、通常はカテゴリ固有の特徴センターによって実装されます。小売商品の視覚的な決済に製品プロトタイプを利用することのもう 1 つの利点は、ドメインの違いを潜在的に解決できることに加えて、単一の製品例のマルチビューの問題を回避できることです。カテゴリ プロトタイプは、単一ビューまたは複数ビューのサンプル画像よりも製品のカテゴリ セマンティクスをより正確に表現しており、その汎用性と堅牢性も証明しています。さらに、ドメイン適応ソリューションとしてプロトタイプの調整モジュールを設計しました。決済イメージドメインで単一の製品例とカテゴリプロトタイプを取得した後、同種プロトタイプ間の距離を短縮し、異種プロトタイプ間の距離を拡大することでドメイン適応を達成し、カテゴリ内のコンパクトさとカテゴリ間の疎性を強化します。

写真

図2 PLACOフレームワークの概略図

これらの学習された分類器の識別能力をさらに向上させるために、製品推奨の予測スコアを調整することで識別能力を向上させる識別再配置手法を開発しました (図 3 を参照)。具体的には、予測の信頼性を向上させるために真のカテゴリの予測スコアを最高にランク付けする一方で、背景分類器の特性に従ってバックグラウンド スコアを 2 番目の位置に再ランク付けします (つまり、ハード再配置戦略)。さらに、商品のきめ細かい特性を考慮して、きめの細かい商品の予測スコアに合理的なランキングの可能性を提供するためのソフト再配置戦略としてスラック変数も導入します。さらに、チェックアウト画像内のアイテムの同時出現をモデル化するために、PLACO にマルチラベル認識損失を追加しました。これにより、小売品目の視覚チェックアウトの精度がさらに向上しました。

写真

図 3 2 つの判別的再配置手法の模式図

04

実験結果

RPC データセットに対する 7 つのメソッドのビジュアル チェックアウト パフォーマンスに関する比較実験を実施しました。その中で、Wei らの手法、IncreACO、DPNet、および DPSNet はすべて、合成データとレンダリング データを使用して共同トレーニングします。これらの手法のターゲット検出バックボーン フレームワークは、より弱いポイントレベルのアノテーションを使用します。教師ありトレーニングは、密度マップに基づいてポイント レベルのオブジェクトをカウントする方法です。PSP は、この記事の PLACO のカンファレンス バージョンの方法であり、PSP 用のプロトタイプ アラインメント モジュールを強化しました。カスケード RCNN フレームワークの実験結果。 RPC データは、画像内の小売商品のカテゴリと数量に応じて、簡単、中、難しいの 3 つのレベルに分かれているため、実験結果を報告する際には、これら 3 つのレベルの結果と全体の平均結果も報告します。

この結果から、この記事の PLACO 手法は基本的に、Faster RCNN と Cascade RCNN の両方のバックボーン ターゲット検出フレームワーク、特に主要な検出指標の設定精度 (cAcc) において最高の結果を達成していることがわかります。表内の「↑」は、結果が大きいほどパフォーマンスが良いことを示します。「↓」は、結果が小さいほど、パフォーマンスが良いことを示します。Faster RCNN フレームワークに基づく最良の結果は、太字の青色で示されています。 Cascade RCNN フレームワークに基づく最良の結果は、太字で強調表示されます。

表 1 RPC データセット上の 7 つの方法を使用した小売商品のビジュアル決済の比較結果

写真

05

概要と展望

本論文は、プロトタイプベースの分類子学習モジュール、識別的並べ替えモジュール、およびプロトタイプ位置合わせモジュールを含む、自動チェックアウトのためのプロトタイプ学習方法PLACOを提案する。プロトタイプベースの分類器学習モジュールは、トレーニングとして使用されるサンプルとテストとして使用されるチェックアウト画像の間のドメインギャップを暗黙的に軽減するために開発されました。さらに、この論文では、明示的なドメイン適応ソリューションとしてプロトタイプのアライメント モジュールを採用しています。この論文では、分類器学習ときめの細かいカテゴリにより多くの識別機能を導入することにより、PLACO のパフォーマンスを向上させるための識別再ランキング手法を設計します。この論文では、マルチラベル損失を適用して、チェックアウト画像内の製品の同時出現をシミュレートします。大規模なベンチマーク RPC データセットにおいて、PLACO は 91.03% の決済精度を達成し、これまでの最良の方法よりも 2.89% 高くなりました。この記事では主に mu テーブル検出の問題について説明しているため、MindSpore の公式ドキュメントのケースやコミュニティが提供するターゲット検出関連のコードやモデルに従って、この記事で必要な実験を簡単に実装でき、非常に便利で高速です。

 

1990 年代生まれのプログラマーがビデオ移植ソフトウェアを開発し、1 年足らずで 700 万以上の利益を上げました。結末は非常に罰的でした。 Google は、Flutter、Dart、Python チームの中国人プログラマーの「35 歳の呪い」に関係する人員削減を認めた 。Microsoft 無力な中年者にとっては幸運なおもちゃでもある。強力で GPT-4.5 の疑いがある; Tongyi Qianwen オープンソース 8 モデルWindows 1.0 が 3 か月以内に正式に GA Windows 10 の市場シェアは 70% に達し、Windows 11 GitHub がAI ネイティブ開発ツール GitHub Copilot Workspace JAVAをリリースOLTP+OLAP を処理できる唯一の強力なクエリです。これが最高の ORM です。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4736317/blog/11072556