[Paper Express] ICCV2021 - 超相関圧縮に基づく小さなサンプルのリアルタイムで高精度なセマンティック セグメンテーション

[Paper Express] ICCV2021 - 超相関圧縮に基づく小規模サンプル セマンティック セグメンテーション

【原文】:Few-Shot Segmentationのための超相関スクイーズ

作者信息】:Juhong Min Dahyun Kang Minsu Cho

获取地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Min_Hypercorrelation_Squeeze_for_Few-Shot_Segmentation_ICCV_2021_paper.pdf

ブロガーのキーワード:小規模サンプル学習、セマンティック セグメンテーション、4D 畳み込み、超相関

推奨される関連論文:

【论文速递】ECCV2022 - 开销聚合与四维卷积Swin Transformer_小样本分割
- https://phoenixash.blog.csdn.net/article/details/128698210
【论文速递】ACM2022 - 基于嵌入自适应更新和超类表示的增量小样本语义分割
- https://phoenixash.blog.csdn.net/article/details/128676817

まとめ:

少数ショットのセマンティック セグメンテーションの目標は、ターゲット クラスの注釈付きサポート イメージを少数だけ使用して、クエリ イメージからターゲット オブジェクトをセグメント化する方法を学習することです。この困難なタスクには、さまざまなレベルの視覚的な手がかりを理解し、クエリとサポート画像の間のきめ細かい対応を分析する必要があります。この問題に対処するために、マルチレベルの特徴相関と効率的な 4D 畳み込みを利用するハイパーリレーショナル スクイーズ ネットワーク (HSNet) を提案します。中間畳み込み層のさまざまな層からさまざまな特徴を抽出して、4D 相関テンソルのコレクション、つまり超相関を構築します。この方法では、効率的なピラミッド構造の中心軸 4D 畳み込みを使用して、ハイパー相関の高レベルのセマンティック キューと低レベルの幾何学的キューを、粗いものから細かいものまで、正確なセグメンテーション マスクに徐々に絞り込みます。PASCAL-5i、COCO-20i、および FSS-1000 の標準的な少数ショット セグメンテーション ベンチマークでの大幅なパフォーマンスの向上により、提案された方法の有効性が検証されます。

序章:

深い畳み込みニューラル ネットワーク [17、20、64] の出現により、オブジェクト トラッキング [28、29、45]、視覚的対応 [22、44、48]、セマンティック セグメンテーション [7、 47,62]など。ディープ ネットワークの有効性にもかかわらず、大規模なデータセット [9、11、35] の多数の注釈付きの例に対するディープ ネットワークの要件は、特に集中的な予測タスクの場合、データ注釈の人間集約的な性質のため、依然として問題です。セマンティックセグメンテーション [9, 11, 35]. 基本的な制限。この課題に対処するために、さまざまな半教師ありおよび弱教師ありのセグメンテーション方法 [6、26、39、66、72、77、88] が試されており、データ不足の問題を効果的に軽減できます。ただし、注釈付きのトレーニング例がわずかしかないため、ディープ ネットワークの一般化能力の低さは、多くの少数ショット セグメンテーション方法 [10、12、13、19、33、36、37、46、54、61、63] にとって依然として問題です。 , 69 ,70,74,75,80,83,86,87,89] 解決が難しい主な問題。
ここに画像の説明を挿入

対照的に、人間の視覚系は、非常に限られた監視で、新しいオブジェクトの外観を簡単に一般化します。このインテリジェンスの鍵は、同じクラスの異なるインスタンス間の信頼できる通信を見つける能力です。セマンティック対応に関する最近の研究では、密な中間機能 [38、42、44] を活用し、高次元畳み込みただし、最近の少数ショット セグメンテーション研究では、相関学習の方向性を積極的に探求し始めていますが、それらの 36、37、46、65、73、75、80] では、初期層から後期層までのさまざまなレベルで特徴表現を利用していません。また、ペアワイズ特徴相関を構築して、きめの細かい相関パターンをキャプチャすることもできません。多層特徴の密な相関を利用するいくつかの試み [74, 86] がありましたが、これらの試みは、中間の畳み込み層のごく一部のみを使用して、グラフの注意のために単純に密な相関を使用するという意味で制限されています。

この作業では、近年のビジュアル コレスポンデンス研究で最も影響力のある 2 つの手法、マルチレベル機能と 4D 畳み込みを組み合わせ、Hyper-Relational Squeeze Network (HSNet) と呼ばれる新しいフレームワークを設計します。サンプル セマンティック セグメンテーション タスク。図 1 に示すように、私たちのネットワークは、多くの異なる中間 CNN レイヤーからのさまざまな幾何学的/意味的特徴表現を利用して相関テンソルの 4D コレクション、つまりハイパー相関を構築します。これは、複数の視覚的側面にわたる豊富な対応のセットを表します。FPN [34] の作業に続いて、ピラミッド型の設計を採用して、高レベルのセマンティックおよび低レベルの幾何学的手がかりをキャプチャし、深く積み重ねられた 4D conv レイヤーを使用して、粗から細かい方法で正確なマスク予測を行います。高次元畳み込みの多用に起因する計算量を削減するために、合理的な重みのスパース化を通じて効率的な 4D カーネルを設計します。これは、リアルタイムの推論を実現しながら、既存のカーネルよりも効率的で効果的な軽量です。標準の少数ショット セグメンテーション ベンチマーク PASCAL-5i [61]、COCO-20i [35]、および FSS-1000 [33] の改善により、提案された方法の有効性が検証されます。
ここに画像の説明を挿入

【ペーパーエクスプレス | 特集】

フォーラムのアドレス: https://bbs.csdn.net/forums/paper

おすすめ

転載: blog.csdn.net/qq_36396104/article/details/128976052