CVPR2023 セマンティックセグメンテーション論文集

コンピューター ビジョンとパターン認識に関する国際会議 (CVPR) は、コンピューター サイエンスの分野のトップ会議の 1 つであり、画像処理、機械学習、人工知能などの分野における学際的な会議です。

毎年、CVPRカンファレンスでは、画像処理、コンピュータビジョン、パターン認識、機械学習、深層学習、人工知能などを含む複数の研究方向をカバーする多数の論文投稿や学術交流活動が行われます。最も影響力があり、この分野で影響力があり、代表的な学会の一つ。

AMiner は AI テクノロジーを使用して、CVPR2023 に含まれるカンファレンス論文を分類および整理します。今日は、セマンティック セグメンテーションをテーマにした 72 件の論文を共有します。ここでは最も人気のある 10 件の論文を紹介します。ダウンロードして収集することを歓迎します。

1. マスク適応 CLIP を使用したオープン語彙セマンティック セグメンテーションの 論文詳細ページ
著者: Feng Liang、Bichen Wu、Xiaoliang Dai、Kunpeng Li、Yinan Zhao、Hang Zhang、Peizhao Zhang、Peter Vajda、Diana Marculescu リンク: https://
www .aminer.cn/pub/6344dede90e50fcafd24d0b0/
AI レビュー (大規模モデル駆動): オープン セマンティック セグメンテーションの目標は、画像をセマンティック領域に分割することです。最近の 2 段階アプローチでは、最初にクラスセーフ仮説を生成し、次に事前にトレーニングされた視覚言語モデル (CLIP など) を活用して、セグメント化された領域を識別領域に分割します。このパラダイムでは、CLIP モデルが非表示のイメージで適切にパフォーマンスを発揮しないというパフォーマンスのボトルネックを定義します。この問題に対処するために、以前にトレーニングされた CLIP 機能を利用する、改良された CLIP トレーニング方法を提案します。実験結果によると、最高の CLIP システムの F 値は、以前の最高の CLIP システムと比較して 8.8% 向上しました。

2. LaserMix for Semi-Supervised LiDAR Semantic Segmentation 論文詳細ページ
著者: Lingdong Kong、Jiawei Ren、Liang Pan、Ziwei Liu
リンク: https://www.aminer.cn/pub/62c2a9595aee126c0fcf0a45/
AI レビュー (大規模モデル ドライブ):私たちは、LiDAR セグメンテーションにおける未知の半教師あり学習の可能性を調査します。私たちの中心的なアイデアは、線形特徴を使用してラベルのないデータを最大限に活用することです。異なるLiDARスキャンからのレーザービームを混合するレーザーミキサーを提案します。その後、モデルは、混合全体にわたって一貫性のある説得力のある予測を行うことが奨励されます。私たちのフレームワークには 3 つの興味深い特性があります。 1) ライブネス: レーザーの組み合わせは光線表現 (ビューや行列など) にとって安全であるため、それらを普遍的に適用できます。

3. 『Understanding Imbalance Semantic Segmentation Through Neural Collapse』の論文詳細ページ
著者: Zhisheng Zhong、Jiequan Cui、Yibo Yang、Xiaoyang Wu、Xiaojuan Qi、Xiangyu Zhang、Jiaya Jia
リンク: https://www.miner.cn/pub/ 63b63fd190e50fcafd8f584f/
AI 調査 (大規模モデル駆動): この論文では、基礎となる特徴中心と、セマンティック セグメンテーションにおける分類子の対応する構造を調査します。私たちの経験的および理論的分析に基づいて、意味論的な単語のセグメント化が文脈上の関連性と不均衡な分布を自然に生み出すことを指摘します。ただし、この一貫した構造は、少人数のクラスには有益です。これらの利点を維持するために、特徴センターにランダマイザーを導入して、ネットワークが魅力的な構造に近い特徴を学習するように促します。実験結果は、この方法が 2D データセットと 3D データセットの両方でパフォーマンスの大幅な向上を達成できることを示しています。さらに、私たちの方法は ScanNet200 テスト リーダーボードで第 1 位にランクされ、新記録を打ち立てました。

4. Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision 論文詳細ページ
著者: Jilan Xu、Junlin Hou、Yuejie Zhang、Rui Feng、Yi Wang、Yu Qiao、Weidi Xie
リンク: https://www.miner.cn/ pub/640559c290e50fcafddb3868/
AI レビュー (大規模モデル駆動): この論文では、オブジェクトの任意のクラスの指定されたエンティティを事前定義されたクロージャ カテゴリに分割することを目的としたオープン ボキャブラリ セマンティック セグメンテーション (OVS) 問題を検討します。主な貢献は次のとおりです。 まず、OVSegmentor と呼ばれる変換モデルベースの OVS システムを提案します。これは、隠しマーカーを使用せずに、Web 検索からのグラフとテキストのペアのみでトレーニングされます。OVSegmentor は、画像セグメントを学習可能な単一単位ラベルのセットに組み立て、それらを対応するキャプション埋め込みにマッピングします。第 2 に、隠れエンティティの補完とクロスグラフの隠れ一貫性という 2 つの帰納タスクを提案します。前者は、特定のラベル内のすべての非表示エンティティを一般化しようとするため、モデルはきめ細かいビューとエンティティの位置合わせを学習できます。

5. セマンティック セグメンテーションのための動的フォーカス認識位置クエリに関する論文 詳細ページ
著者: Haoyu He、Jianfei Cai、Zizheng Pan、Jing Liu、Jing Zhang、Dacheng Tao、Bohan Zhuang
リンク: https://www.aminer.cn/pub/ 624bb3a25aee126c0fea4e5a/
AI レビュー (大規模モデル駆動): この論文では、Dynamic Focusware Positional Queries (DFPQ) と呼ばれるセマンティック セグメンテーションの問題設計を提案しています。これは、以前にデコードされたブロックの視覚的注意スコアと、対応するブロックの位置エンコーディングに依存して、位置クエリを動的に生成します。画像の特徴。したがって、私たちの方法は、局所的な関係クラスタリングにコンテキストラベルのみを組み込むことで、高解像度の焦点をまたいだ情報を効率的に処理できます。Ade20K と Cityscapes に関する広範な実験により、このフレームワークが SOTA で優れたパフォーマンスを示し、Mask2former で大きな競争上の優位性を示すことが示されました。

6. Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation 論文詳細ページ
著者: Lihe Yang、Lei Qi、Litong Feng、Wayne Zhang、Yinghuan Shi
リンク: https://www.aminer.cn/pub/6304456b90e50fcafd12fe39/
AI 調査 (大規模モデル駆動): このペーパーでは、半教師あり分類器による一般的な弱から強へのコンセンサス フレームワークをレビューします。この単純なパイプラインはすでに最近の最先端の作業と比較して競争力のある結果を達成しており、それをパーティショニング シナリオに変換すると、現在の最先端の作業に匹敵するパフォーマンスをすでに達成していると主張します。これに基づいて、干渉空間を拡張するための補完として補助機能干渉フローを提案します。さらに、2 つの強力なビューを同時にガイドできる双方向摂動手法を提案します。これにより、Pascal、Cityscapes、および COCO ベンチマークで既存のすべての手法を上回ります。この研究は、この方法がリモートセンシング読影と医用画像解析の両方において優れたパフォーマンスを発揮することを実証しています。

7. Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation 論文詳細ページ
著者: Zhen Zhao、Lihe Yang、Sifan Long、Jimin Pi、Luping Zhou、Jingdong Wang
リンク: https://www.miner. cn/pub/63969ba790e50fcafdcf1c76/
AI レビュー (大規模モデル駆動): この論文では、SSS パフォーマンスを向上させるためにデータ ノイズに焦点を当てた、シンプルでクリーンな半教師ありセマンティック グループ化手法である AugSeg を提案します。任意の数のデータ変換を選択し、連続空間からラベル付き情報をランダムに注入し、モデルに基づいてさまざまなラベルなしサンプルのパフォーマンスを推定することで、単純化された強度拡張を採用します。さらに、ラベルのないサンプルを改善するためにラベル付きの情報をランダムに注入し、その結果、さまざまな分割プロトコルの下で新しい最先端の結果が得られます。

8. PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 論文詳細ページ著者: Jiacong リンク: https://www.miner.cn/pub/629ec1f85aee126c0fb6e78d/
Xu、Zixiang Xiong、Shankar P. Bhattacharyya ただし、低レベルの詳細と高レベルのセマンティクスを直接結合すると、グラフ欠陥という現象が発生し、既存の 2 クラス モデルのパフォーマンス向上が制限されます。この論文では、神経伝達物質ネットワーク (CNN) と最尤誘導発生器アルゴリズムの間のリンクを切断し、2 つの分岐ネットワークが実際には全尤度リゾルバーのコントローラーではないことを明らかにします。この問題に対処するために、新しい 3 クラスのネットワーク アーキテクチャである pidnet を提案します。pidnet は、詳細なコンテキスト情報および境界情報 (セマンティック アーティファクト) を分析するための 3 つのブランチを保持します。

9. パッチアライン対照学習による語彙意味セグメンテーションを開く論文 詳細ページ
著者: Jishnu Mukhoti、Tsung-Yu Lin、Omid Poursaeed、Rui Wang、Ashish Shah、Philip HS Torr、Ser-Nam Lim リンク: https:
//www.miner .cn/pub/63969ba790e50fcafdcf1cbd/
AI レビュー (大規模モデル駆動): メガネ エンコーダーとテキスト エンコーダーのアライメントのトレーニングを目的とした、変換ベースの投影ベースの知覚学習 (CLIP) の互換性機能の改善を導入します。そうすることで、モデルは特定のテキスト入力に対応する画像領域を識別できるため、トレーニング中にセグメンテーション アノテーションを必要とせずに、それをオープン語彙セマンティック セグメンテーション タスクに効率的に渡すことができます。事前トレーニングされた CLIP デコーダーを使用して、PASCAL VOC、PASCAL Context、COCO Stuff、ADVD20K を含む 4 つの異なる分類基準に基づいてこのタスクを評価します。さらに、CLIP の裏側に適用した場合、PATL はグラフ予測にも適しており、12 個のデータセットを含む完全なシステムでは CLIP よりも高い精度が達成されることも示します。

10. 半教師ありセマンティック セグメンテーションのための競合ベースのクロスビュー一貫性に関する 論文の詳細ページ
著者: Zicheng Wang、Zhen Zhao、Xiaoxia Xing、Dong Xu、Xiangyu Kong、Luping Zhou
リンク: https://www.miner.cn/pub /640166a590e50fcafd68b4fb/
AI レビュー (大規模モデル駆動): 半教師ありセマンティック セグメンテーションは、近年研究でますます注目を集めています。この論文では、新しい衝突ベースのクロスビュー整合性 (CCVC) 手法を提案します。私たちの研究の目的は、2 つのサブネットワークが相関のない観測結果から有益な情報を学習できるようにすることです。特に、最初に新しいクロスビュー一貫性 (CVC) 戦略を提案します。これは、2 つのサブネットワークが同じ入力から異なる特徴を学習することを促進し、これらの異なる特徴はすべて、入力と一致する予測スコアを生成することが期待されます。さらに、モデルが矛盾する予測からより有用な情報を確実に学習できるようにするために、敵対的擬似ラベル付け (CPL) に基づく方法も提案します。私たちは、広く使用されているベースライン データセットである PASCAL VOC2012 と Cityscapes に基づいて新しい手法を評価します。

—————————————————————————————————————

すべてのセマンティック セグメンテーションに関する論文を表示するには、ここをクリックしてください:
https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/130771790