パノプティック セグメンテーション (CVPR 2019)

免責事項: この翻訳は個人の学習記録にすぎません

記事の情報

  • タイトル:パノプティック セグメンテーション (CVPR 2019)
  • 作宇:Alexander Kirillov、Kaiming He、Ross Girshick、Carsten Rother、Piotr Dollar
  • 記事リンク: https://arxiv.org/pdf/1801.00868.pdf

まとめ

パノプティック セグメンテーション (PS) と呼ばれるタスクを提案し、研究します。パノプティック セグメンテーションは、セマンティック セグメンテーション (各ピクセルにクラス ラベルを割り当てる) とインスタンス セグメンテーション (各オブジェクト インスタンスの検出とセグメンテーション) の一般的に異なるタスクを統合します。提案されたタスクには、豊富で完全な一貫性のあるシーン セグメンテーションの生成が必要です。これは、現実世界のビジョン システムに向けた重要なステップです。コンピューター ビジョンの初期の作業には、関連する画像/シーンの解析タスクが含まれていましたが、これらのタスクは現在、適切なメトリックまたは関連する認識の課題が不足しているため、人気がありません。この問題に対処するために、解釈可能で統一された方法ですべてのクラス (モノとモノ) のパフォーマンスをキャプチャする新しいパノプティック品質 (PQ) メトリックを提案します。提案されたメトリックを使用して、3 つの既存のデータセットで PS の人間と機械のパフォーマンスを厳密に調査し、タスクに関する興味深い洞察を明らかにしました。私たちの仕事の目的は、画像セグメンテーションのより統一されたビューに対するコミュニティの関心を復活させることです。詳細な分析と最新の結果については、この論文の arXiv バージョンをご覧ください: https://arxiv.org/abs/1801.00868

1.はじめに

  コンピュータ ビジョンの黎明期には、モノ (人、動物、道具などの数えられるオブジェクト) が大きな注目を集めました。Adelson [1] は、この傾向の賢明さに疑問を呈し、もの (オブジェクト) を認識するシステムを研究することの重要性を強調しました。このモノとモノの二分法は今日まで続いており、視覚認識タスクの分割と、モノとモノのタスクに特化したアルゴリズムの開発に反映されています。

  調査は、多くの場合、セマンティック セグメンテーションと呼ばれるタスクとして説明されます (図 1b を参照)。モノは不定形で数えられないため、このタスクは単にクラス ラベルを画像内の各ピクセルに割り当てることとして定義されます (セマンティック セグメンテーションはモノのクラスをモノとして扱うことに注意してください)。対照的に、物事の研究は、オブジェクトの検出またはインスタンスのセグメンテーションのタスクとして定式化されることがよくあります。ここでの目標は、各オブジェクトを検出し、それぞれ境界ボックスまたはセグメンテーション マスクで線引きすることです (図 1c を参照)。これら 2 つの視覚認識タスクのデータセット、詳細、およびメトリックは、一見関連しているように見えますが、大きく異なります。

  セマンティック セグメンテーションとインスタンス セグメンテーションの間の分割は、これらのタスクのメソッドに並行する裂け目をもたらしました。スタッフ分類器は通常、拡張 [51, 5] を使用した完全な畳み込みネットワーク [30] で構築されますが、オブジェクト検出器は通常、オブジェクト提案 [15] を使用し、領域ベース [37, 14] です。これらのタスクに関する全体的なアルゴリズムの進歩は、過去 10 年間で驚くべきものでしたが、これらのタスクだけに注目すると、重要な何かを見逃す可能性があります。

  自然な疑問が生じます: 物と物の間に和解はありますか? リッチで首尾一貫したシーン セグメンテーションを生成する統合ビジョン システムの最も効率的な設計は? これらの問題は、自動運転や拡張現実などの現実世界のアプリケーションとの関連性を考えると、特に重要です。

ここに画像の説明を挿入

図 1: 与えられた (a) 画像について、(b) セマンティック セグメンテーション (ピクセルごとのクラス ラベル)、(c) インスタンス セグメンテーション (オブジェクトごとのマスクとクラス ラベル)、および (d) のグラウンド トゥルースを示します。提案されたパノプティック セグメンテーション タスク (ピクセルごとのカテゴリ + インスタンス ラベル)。PS タスク: (1) モノとモノのクラスを含める、(2) シンプルだが一般的な形式を使用する、(3) すべてのクラスに統一された評価指標を導入する。パノプティック セグメンテーションは、セマンティック セグメンテーションとインスタンス セグメンテーションの両方を一般化し、統合されたタスクが新しい課題をもたらし、革新的な新しいアプローチを可能にすることを期待しています。

  興味深いことに、セマンティックとインスタンスのセグメンテーションが現在の作業を支配していますが、ディープラーニング以前の時代には、シーンの解析 [42]、画像の解析 [43]、または全体的なシーンの理解 [50] など、さまざまな名前を使用して記述された共同タスクに関心がありました。この一般的な方向性には実用的な意味合いがありますが、適切な測定基準や識別の課題が不足しているため、現在は一般的ではありません。

  私たちの仕事では、この方向性を回復することを目指しています。(1) モノとモノのクラスを含め、(2) シンプルだが一般的な出力形式を使用し、(3) 統一された評価メトリックを導入するタスクを提案します。以前の作業を明確に明確にするために、結果のタスクをパノプティック セグメンテーション (PS) と呼びます。「パノラマ」の定義は「1 つのビューに表示されるすべてのものを含む」ことであり、このコンテキストでは、「パノラマ」とは統合された全体的な分割ビューを指します。

  パノプティック セグメンテーションに使用するタスク フォーマットは単純です。画像の各ピクセルにセマンティック ラベルとインスタンス ID を割り当てる必要があります。同じラベルと ID を持つピクセルは同じオブジェクトに属します。スタッフ ラベルの場合、インスタンス ID は無視されます。図 1d に示すように。この形式は、特に重複しないインスタンス セグメンテーションを生成する方法によって以前に採用されています [18、28、2]。私たちはそれを、物や物を含む共同作業に使用します。

  パノプティック セグメンテーションの基本的な側面は、評価に使用されるタスク メトリックです。多くの既存のメトリックは、セマンティックまたはインスタンス セグメンテーションのいずれかで人気がありますが、これらのメトリックは、両方ではなく、それぞれのものまたはものに最適です。ばらばらなメトリクスの使用は、コミュニティが通常、モノとモノのセグメンテーションを分離して研究する主な理由の 1 つだと考えています。この問題に対処するために、§4 でパノラマ品質 (PQ) メトリックを導入します。PQ はシンプルで有益であり、最も重要なことは、物や物のパフォーマンスを統一された方法で測定するために使用できることです。提案された共同指標が、共同タスクのより広範な採用を促進することを願っています。

  パノプティック セグメンテーション タスクにはセマンティック セグメンテーションとインスタンス セグメンテーションが含まれますが、新しいアルゴリズムの課題が生じます。セマンティック セグメンテーションとは異なり、個々のターゲット インスタンスを区別する必要がありますが、これは完全な畳み込みネットワークの課題となります。インスタンスのセグメンテーションとは異なり、オブジェクトのセグメンテーションは重複しないようにする必要があります。これは、各オブジェクトを個別に操作する領域ベースのメソッドに課題をもたらします。モノとモノの間の不一致を解決するために一貫した画像セグメンテーションを生成することは、現実世界への重要なステップです。

  PS のグラウンド トゥルースとアルゴリズムの形式は同じ形式でなければならないため、パノプティック セグメンテーションにおける人間の合意について詳細な研究を行うことができます。これにより、認識とセグメンテーション、モノとモノのパフォーマンスの詳細な分類など、PQ メトリクスをより詳細に理解できます。さらに、人間の PQ を測定することは、マシンのパフォーマンスを理解するのに役立ちます。これは、PS のさまざまなデータセットでパフォーマンスの飽和を監視できるため、重要です。

  最後に、PS のマシン性能に関する予備調査を行います。この目的のために、セマンティックおよびインスタンスセグメンテーションのための一連の後処理ステップを通じて2つの独立したシステムの出力を組み合わせる、単純でおそらく次善のヒューリスティックアルゴリズムを定義します(本質的に複雑で最大に抑制されていない形式)。私たちのヒューリスティックなアプローチは、PS のベースラインを確立し、PS がもたらす主要なアルゴリズムの課題についての洞察を提供します。

  私たちは、3 つの一般的なセグメンテーション データセットで人間と機械のパフォーマンスを調査します。これには、Cityscapes [6]、ADE20k [54]、および Mapillary Vistas [35] のデータセットが含まれます。各データセットについて、最先端の方法の結果をチャレンジの主催者から直接入手しました。将来的には、分析を COCO [25] に拡張し、COCO [25] に関するもの [4] に注釈を付けます。これらのデータセットに関する私たちの結果は、パノプティック セグメンテーションのための人間と機械のパフォーマンスを研究するための強固な基盤を提供します。

  COCO [25] と Mapillary Vistas [35] の両方が、2018 ECCV 認識チャレンジのトラックとしてパノラマ セグメンテーション タスクを含めました。これらの一般的な認識データセットで PS をインスタンスおよびセマンティック セグメンテーション トラックと一緒にすることで、提案された共同タスクの幅広い採用が促進されることを願っています。

2. 関連作品

  コンピューター ビジョンの歴史を通じて、新しいデータセットとタスクが重要な役割を果たしてきました。それらは私たちの分野の進歩とブレークスルーを促進するのに役立ち、同様に重要なことに、私たちのコミュニティが行っている進歩を測定し、認識するのにも役立ちます. たとえば、ImageNet [38] は、視覚認識 [20] のための深層学習技術の最近の人気を促進するのに役立ち、データセットとタスクが持つことができる潜在的な変換機能を例示しています。パノプティック セグメンテーション タスクを導入する私たちの目標は似ています。つまり、コミュニティに挑戦し、研究を新しい方向に推進し、期待されるイノベーションと予想外のイノベーションを可能にすることです。次に、関連するタスクを確認します。

  物体検出タスクアドホック データセット ([44, 46] な​​ど) を使用した顔検出に関する初期の研究は、バウンディング ボックスのオブジェクト検出を一般化するのに役立ちました。その後、歩行者検出データセット [8] がこの分野の進歩に役立ちました。PASCAL VOC データセット [9] は、タスクを、より挑戦的な画像セットで、より多様な汎用オブジェクト クラスのセットにアップグレードします。最近では、COCO データセット [25] が検出をインスタンス セグメンテーションのタスクにプッシュしています。このタスクを構築し、高品質のデータセットを提供することで、COCO は新しくエキサイティングな研究の方向性を定義するのに役立ち、インスタンスのセグメンテーションにおける最近の多くのブレークスルーをもたらしました [36、24、14]。パノプティック セグメンテーションの一般的な目標は似ています。

  セマンティック セグメンテーション タスクセマンティック セグメンテーション データセットには豊富な歴史があり [39, 26, 9]、重要なイノベーションの推進に役立ってきました (たとえば、完全な畳み込みネットワーク [30] は [26, 9] を使用して開発されました)。これらのデータセットには、モノとモノのクラスが含まれていますが、個々のオブジェクト インスタンスは区別されません。最近、Cityscapes [6]、ADE20k [54]、Mapillary Vistas [35] など、多くの新しいセグメンテーション データセットがこの分野に登場しました。これらのデータセットは、実際にはセマンティック セグメンテーションとインスタンス セグメンテーションの両方をサポートしており、各データセットはこれら 2 つのタスクに対して別々の追跡を提供することを選択します。重要なのは、PS が必要とするすべての情報が含まれていることです。言い換えれば、パノプティック セグメンテーション タスクは、新しいデータ収集なしでこれらのデータセットでブートストラップできます。

  マルチタスク学習多くの視覚認識タスクにおける深層学習の成功により、単一のフレームワークで複数の異なる視覚問題を解決する幅広い機能を備えたマルチタスク学習方法に強い関心が寄せられています [19、32、34]。たとえば、UberNet [19] は、単一のネットワークを使用して、オブジェクト検出やセマンティック セグメンテーションなど、複数の低レベルから高レベルのビジョン タスクを解決します。この分野には大きな関心がありますが、パノプティック セグメンテーションはマルチタスクの問題ではなく、画像セグメンテーションの単一の統一されたビューであることを強調します。具体的には、マルチタスクのセットアップでは、独立した一貫性のない出力が可能になりますが、PS では単一の一貫したシーン セグメンテーションが必要です。

  共同セグメンテーション タスクディープ ラーニング以前の時代には、一貫したシーン解釈の生成に強い関心がありました。画像解析の先駆的な研究 [43] は、セグメンテーション、検出、および認識を共同でモデル化するための一般的なベイジアン フレームワークを提案しています。その後、グラフィカル モデルに基づく方法によって、一貫したモノとモノのセグメンテーションが研究されました [50, 41, 42, 40]。これらのアプローチは共通の動機を共有していますが、合意されたタスク定義はなく、さまざまな出力形式とさまざまな評価指標が使用されています。この方向性は、おそらくこれらの理由により、近年あまり人気がなくなっています。

  私たちの仕事では、この一般的な方向性を回復することを目指していますが、以前の仕事とは異なり、タスク自体に焦点を当てています。具体的には、前述のように、PS は (1) モノとモノの両方のクラスを処理し、(2) 単純な形式を使用し、(3) モノとモノの統一されたメトリックを導入します。ジョイント セグメンテーションに関する以前の研究では、さまざまな形式と互いに素なメトリックを使用してさまざまなものを評価していました。重複しないインスタンス セグメンテーションを生成するメソッド [18、3、28、2] は PS と同じ形式を使用しますが、これらのメソッドは通常、モノのクラスのみを扱います。モノとコトにシンプルなフォーマットを使用し、統一されたメトリックを導入することで、共同タスクの幅広い採用を促進したいと考えています。

3. パノラマ セグメンテーション形式

タスク形式パノプティック セグメンテーションの形式は簡単に定義できます。LLによって与えられたL 個のセマンティック クラスは、L : = { 0 , … , L − 1 } \mathcal L:=\{0,…,L-1\} としてL:={ 0 ,L1 }、このタスクには、画像の各ピクセルを変換するパノラマ セグメンテーション アルゴリズムが必要ですiii映射到一对 ( l i , z i ) ∈ L × N (l_i,z_i )∈L×N ( l)εL×N,其中 l i l_i lピクセル i のセマンティック クラスを表すzi z_iインスタンス ID を示します。zi z_i同じクラスのピクセルを異なるフラグメントにグループ化します。Truth アノテーションは同じようにエンコードされます。ぼやけたまたはクラス外のピクセルには、特別な null ラベルを割り当てることができます。つまり、すべてのピクセルにセマンティック ラベルを付ける必要はありません。

ものともののタグセマンティック ラベル セットはサブセットLS t \mathcal L^{S_t }で構成されます。LStLT h \mathcal L^{T_h }LT時間L = LS t ∪ LT h \mathcal L=\mathcal L^{S_t } \cup \mathcal L^{T_h }L=LStLT時間LS t ∩ LT h = ∅ \mathcal L^{S_t } \cap \mathcal L^{T_h }=∅LStLT時間=これらのサブセットは、それぞれ stuff タグと thing タグに対応します。ピクセルがli ∈ LS t としてラベル付けされている場合 l_i∈\mathcal L^{S_t }lεLSt、対応するインスタンス ID zi z_iは関係ありません。つまり、stuff クラスの場合、すべてのピクセルは同じインスタンス (同じ空など) に属します。そうでなければ、同じ( li , zi ) (l_i,z_i )( lここで、li ∈ LT h l_i∈\mathcal L^{T_h }lεLT時間、同じインスタンス (例: 同じ車) に属する、逆に、単一のインスタンスに属するすべてのピクセルは、同じ( li , zi ) (l_i,z_i )を持たなければなりません( l以前のデータセットと同様に、どのクラスがものであるかを選択することは、データセットの作成者に任された設計上の選択です。

セマンティック セグメンテーションとの関係PS タスク形式は、セマンティック セグメンテーション形式を厳密に一般化したものです。実際、どちらのタスクでも、イメージ内の各ピクセルにセマンティック ラベルを割り当てる必要があります。真理値がインスタンスを指定しない場合、またはすべてのクラスがスタッフである場合、タスクの形式は同じです (ただし、タスクのメトリックは異なります)。また、タスクを区別するために、画像ごとに複数のインスタンスを持つ可能性のあるモノのクラスが含まれています。

インスタンス セグメンテーションとの関係インスタンス セグメンテーション タスクには、画像内の各オブジェクト インスタンスをセグメント化する方法が必要です。ただし、セグメントのオーバーラップは許可されますが、パノプティック セグメンテーション タスクでは、セマンティック ラベルとインスタンス ID を各ピクセルに割り当てることしかできません。したがって、PS の場合、オーバーラップは構造上不可能です。次のセクションでは、この違いがパフォーマンス評価において重要な役割を果たすことを示します。

信頼スコアセマンティック セグメンテーションに似ていますが、インスタンス セグメンテーションとは異なり、PS の各セグメントに関連付けられた信頼スコアは必要ありません。これにより、パノラマ タスクは人間と機械に関して対称になります。どちらも同じタイプの画像注釈を生成する必要があります。また、PS の人間の一貫性を評価することも簡単になります。これは、ヒューマン アノテーターが明示的な信頼スコアを提供しないため (個々の精度/リコール ポイントを測定することはできますが)、このような研究では簡単にアクセスできないインスタンス セグメンテーションとは対照的です。信頼スコアは、ダウンストリーム システムにより多くの情報を提供するため、有用な場合があるため、一部の設定では、信頼スコアを生成するために PS アルゴリズムが引き続き必要であることに注意してください。

4. パノラマ セグメンテーション メトリック

  このセクションでは、新しいパノプティック セグメンテーション メトリックを紹介します。まず、既存のメトリクスはセマンティックまたはインスタンスのセグメンテーションに特化しており、モノとモノのクラスの両方を含む共同タスクの評価には使用できないことに注意してください。共同セグメンテーションに関する以前の研究では、独立した指標 ([50, 41, 42, 40] など) を使用して物や物のパフォーマンスを評価することで、この問題を回避していました。ただし、これはアルゴリズム開発に課題をもたらし、比較をより困難にし、コミュニケーションを妨げます。統一されたモノとモノの指標を導入することで、統一されたタスクに関する研究が促進されることを願っています。

  詳細に入る前に、まず、PS に適した指標の次の要件を特定します。

  完全性メトリクスは、タスクのすべての側面を捉えて、モノとモノのクラスを統一された方法で扱う必要があります。

  解釈可能性私たちは、コミュニケーションと理解を容易にするために、識別可能な意味を持つ指標を求めています。

  シンプルさらに、メトリクスは簡単に定義および実装できる必要があります。これにより、透明性が向上し、再実装が容易になります。これに関連して、迅速な評価を可能にするために、メトリクスは計算効率が高い必要があります。

  これらの原則に基づいて、新しいパノラマ品質 (PQ) メトリックを提案します。PQ は、グラウンド トゥルースに対するパノプティック セグメンテーション予測の品質を測定します。これは、(1) セグメント マッチングと (2) 特定の一致に対する PQ 計算の 2 つのステップで構成されます。次に、各ステップについて説明し、既存の指標との比較に戻ります。

4.1 フラグメントマッチング

  予測セグメントとグラウンド トゥルース セグメントは、交差対結合比 (IoU) が厳密に 0.5 より大きい場合にのみ一致すると規定しています。この要件とパノプティック セグメンテーションの重複しない性質により、一意の一致が得られます。各グラウンド トゥルース セグメントは、最大で 1 つの予測セグメント一致を持つことができます。
  定理 1.画像の予測セグメンテーションとグラウンド トゥルース パノプティック セグメンテーションが与えられた場合、各グラウンド トゥルース セグメントは、厳密に 0.5 を超える IoU を持つ対応する予測セグメントを最大 1 つ持つことができ、その逆も同様です。

証拠集合gggは真理の断片、p 1 p_1p1p 2 p_2p22 つの予測フラグメントの場合。定義により、p 1 ∩ p 2 = ∅ p_1∩p_2=∅p1p2= (重ならない)。pi ∩ g ∣ ≥ ∣ g ∣ |p_i∩g|≥|g|pg g 、次の結果が得られます。

I o U ( pi , g ) = ∣ pi ∩ g ∣ ∣ pi ∪ g ∣ ≤ ∣ pi ∩ g ∣ ∣ g ∣ for i ∈ 1 , 2 IoU(p_i,g)=\frac{|p_i∩g|} {|p_i∪g|} ≤ \frac{|p_i∩g|}{|g|} \ \ i∈{1,2} の \quadI o U ( pg )=pg pgg pgfまたはi  ε1 2

i i p 1 ∩ g ∣ + ∣ p 2 ∩ g ∣ ≤ ∣ g ∣ |p_1∩g|+|p_2∩g|≤|g|p1g +p2g g なのでp 1 ∩ p 2 = ∅ p_1∩p_2=∅p1p2=この事実、私たちは得ることができます

I o U ( p 1 , g ) + I o U ( p 2 , g ) ≤ ∣ p 1 ∩ g ∣ + ∣ p 2 ∩ g ∣ ∣ g ∣ ≤ 1 IoU(p_1,g)+IoU(p_2,g) )≤\frac{|p_1∩g|+|p_2∩g|}{|g|} ≤1I o U ( p1g )+I o U ( p2g )g p1g +p2g1

ここに画像の説明を挿入

図 2: 画像のグラウンド トゥルースと予測されたパノプティック セグメンテーションのトイ イラスト。同じ色のフラグメントのペアの IoU は 0.5 より大きいため、一致します。人物クラスのセグメントを真陽性 TP、偽陰性 FN、および偽陽性 FP に分割する方法を示します。

したがって、I o U ( p 1 , g ) ≥ 0.5 の場合 IoU(p_1, g) ≥ 0.5I o U ( p1g )0.5,则I o U ( p 2 , g ) IoU(p_2, g)I o U ( p2g )は 0.5 未満でなければなりません。pppgggの役割を使用して、予測されたセグメントの IoU が 0.5 を厳密に超える可能性があるグラウンド トゥルース セグメントが 1 つしかないことを証明できます。

  一致には、0.5 を超える IoU を持つという要件が必要です。これにより、一意の一致定理が得られ、目的のプロパティの両方が実現されます。まず、対応が一意で簡単に取得できるため、シンプルで効率的です。第二に、それは解釈可能で分かりやすい (そして、これらのタイプのメトリクスでよくある複雑なマッチング問題を解決する必要がない [13, 49])。

  IoU > 0.5 の場合、一意性プロパティにより、合理的な一致戦略 (貪欲および最適を含む) は同一の一致を生成することに注意してください。IoU が小さい場合は、他のマッチング手法が必要になりますが、IoU ≤ 0.5 でのマッチングは実際にはまれであるため、実験では、より低いしきい値は不要であることが示されます。

4.2 PQ 計算

  各クラスの PQ を個別に計算し、クラス全体で平均します。これにより、PQ はクラスの不均衡の影響を受けなくなります。カテゴリごとに、一意の一致により、予測セグメントとグラウンド トゥルース セグメントが 3 つのグループに分けられます。真陽性 (TP)、偽陽性 (FP)、および偽陰性 (FN) であり、一致するセグメント ペア、一致しない予測セグメント、および一致しない真実フラグメントを示します。の 。図 2 に例を示します。これら 3 つのセットを考えると、PQ は次のように定義されます。

PQ = ∑ ( p , g ) ∈ TPI o U ( p , g ) ∣ TP ∣ + 1 2 ∣ FP ∣ + 1 2 ∣ FN ∣ PQ=\frac{∑_{(p,g)∈TP} IoU( p,g) }{|TP|+\frac{1}{2}|FP|+\frac{1}{2}|FN| }PQ=∣TP∣ _ _+21∣FP∣ _ _+21∣FN∣ _ _( p , g ) TPI o U ( p ,g )

チェック済みPQ PQPQ解:∑ ( p , g ) ∈ TPI または U ( p , g ) ∑_{(p, g)∈TP} IoU(p, g)( p , g ) TPI o U ( p ,g )は一致するフラグメントの平均 IoU であり、1 2 ∣ FP ∣ + 1 2 ∣ FN ∣ \frac{1}{2}|FP|+\frac{1}{2}|FN|21∣FP∣ _ _+21FN ∣ が分母に追加され、一致しないフラグメントにペナルティが課されます。すべてのフラグメントは、その領域に関係なく重要性が等しいことに注意してください。さらに、PQ を TP セットのサイズで乗算および除算すると、PQ はセグメンテーション品質 (SQ) 項と認識品質 (RQ) 項の積と見なすことができます。このように書くと、RQ は一般的な F1 スコアです。 [45
ここに画像の説明を挿入
] 、検出設定での品質推定に広く使用されている [33]。SQ は、一致するフラグメントの平均 IoU です。PQ=SQ×RQ の分解が分析の洞察を提供することがわかります。ただし、SQ は一致するフラグメントでのみ測定されるため、これら 2 つの値は独立していないことに注意してください。

  私たちの PQ の定義は、私たちの要件を満たしています。シンプルで解釈可能な式を使用して、すべてのクラスのパフォーマンスを均一な方法で測定します。最後に、穴領域とインスタンス グループを処理する方法について説明します [25]。

  空のラベルグラウンド トゥルースには、(a) クラス外のピクセルと (b) あいまいまたは不明なピクセルの 2 つのソースがあります。通常、2 つのケースを区別できないため、空のピクセルの予測は評価しません。具体的には: (1) マッチング プロセス中に、グラウンド トゥルースで空としてマークされ、IoU 計算に影響しない、予測されたセグメント内のすべてのピクセルを予測から削除します。(2) マッチング後、空の部分のしきい値を削除します。予測されたフラグメントと一致せず、誤検知としてカウントされないピクセル。最後に、出力に null ピクセルが含まれる場合もありますが、これらは評価には影響しません。

  グループ ラベル各インスタンスを正確に記述することが難しい場合、同じセマンティック クラスの隣接するインスタンスに対して、インスタンス ID の代わりにグループ ラベルを使用するのが一般的な注釈の実践 [6、25] です。PQ を計算するには、(1) マッチング中にグループ領域は使用されず、(2) マッチング後、マッチングしきい値を超える同じクラスのグループからのピクセルの一部を含む一致しない予測フラグメントは削除され、次のようには計算されません。偽陽性。

4.3 既存の指標との比較

  PQ を既存のセマンティックおよびインスタンス セグメンテーション メトリクスと比較して結論を​​出します。

セマンティック セグメンテーション メトリックセマンティック セグメンテーションの一般的なメトリックには、ピクセル精度、平均精度、および IoU [30] が含まれます。これらのメトリックは、ピクセル出力/ラベルのみに基づいて計算され、オブジェクト レベルのラベルは完全に無視されます。たとえば、IoU は、正しく予測されたピクセルと、各クラスの予測またはグラウンド トゥルースの合計ピクセル数との比率です。これらのメトリクスはインスタンス ラベルを無視するため、モノのクラスの評価にはあまり適していません。最後に、セマンティック セグメンテーションの IoU は、一致するセグメントの平均 IoU として計算されるセグメンテーション クオリティ (SQ) と同じではないことに注意してください。

インスタンス セグメンテーション メトリックたとえば、インスタンス セグメンテーションの標準メトリックは、平均精度 (AP) [25、13] です。AP では、精度/再現率曲線を推定するために、各ターゲット セグメントに信頼スコアが必要です。信頼スコアはオブジェクト検出には非常に自然ですが、セマンティック セグメンテーションには使用されないことに注意してください。したがって、AP はセマンティック セグメンテーションの出力を測定するために使用することも、PS の出力を測定するために使用することもできません (§3 の信頼性に関する議論も参照してください)。

パノラマ品質PQ は、すべてのクラス (モノとモノ) を統一された方法で処理します。PQ を SQ と RQ に分解すると結果の説明に役立ちますが、PQ はセマンティック メトリックとインスタンス セグメンテーション メトリックの組み合わせではないことに注意してください。代わりに、SQ と RQ が各クラス (モノとモノ) に対して計算され、それぞれセグメンテーションと認識品質が測定されます。したがって、PQ はすべてのカテゴリにわたって評価を統一します。この主張は、§7 の PQ の厳密な実験的評価によって支持されます。これには、それぞれセマンティックおよびインスタンス セグメンテーションの IoU および AP との比較が含まれます。

5. パノラマ セグメンテーション データセット

  私たちの知る限り、密なセマンティック アノテーションとインスタンス セグメンテーション アノテーションを持つ公開データセットは 3 つだけです。Cityscapes [6]、ADE20k [54]、Mapillary Vistas [35] です。3 つのデータセットすべてをパノプティック セグメンテーションに使用します。さらに、将来的には、分析を COCO [25] に拡張する予定です。これについては、最近注釈が付けられました [4]。

  Cityscapes [6] には、都市環境での自己中心的な運転シーンの 5000 枚の画像があります (2975 列車、500 val および 1525 テスト)。19 クラスの高密度ピクセル アノテーション (97% のカバレッジ) があり、そのうち 8 クラスはインスタンス レベルのセグメンテーションがあります。

  ADE20k [54] には、オープン ディクショナリ ラベル セットで密に注釈が付けられた 25,000 を超える画像 (20,000 トレイン、2,000 ヴァル、3,000 テスト) があります。2017 Places Challenge では、全ピクセルの 89% をカバーする 100 のモノと 50 のモノのクラスが選択されました。私たちはこの閉じた語彙を学習に使用します。

  Mapillary Vistas [35] には、幅広い解像度の 25,000 のストリート ビュー画像 (18,000 列車、2,000 val、5,000 テスト) があります。データセットの「研究版」には、28 個のスタッフ クラスと 37 個のクラスがあり、高密度に注釈が付けられています (98% のピクセル カバレッジ)。

6. 人間の一致研究

  パノプティック セグメンテーションの利点は、人間の注釈の一貫性を測定できることです。それに加えて、人間の同意の研究はそれ自体が興味深い目的であり、提案された指標の詳細やさまざまな軸に沿った人間の同意の内訳など、タスクを詳細に理解することができます。これにより、分析がアルゴリズムの選択に影響されることなく、タスクに固有の課題について洞察を得ることができました。さらに、人間の研究は地上の機械の性能に貢献し (§7 を参照)、タスクの理解を調整することができます。

ここに画像の説明を挿入

図 3:セグメンテーションの欠陥画像はスケーリングおよびトリミングされています。上の行 (Vistas 画像): 両方のアノテーターがオブジェクトを車として識別しますが、アノテーターの 1 人が車を 2 台の車に分割します。次の行 (都市景観の画像): セグメンテーションは確かにぼやけています。

ここに画像の説明を挿入

図 4:欠陥分類. 画像はスケーリングおよびトリミングされています。上段 (ADE20k 画像): 単純な誤分類。次の行 (都市景観の画像): シーンは非常に難しく、路面電車はこのセグメントの正しいカテゴリです。多くのバグは修正が困難です。

ここに画像の説明を挿入

表 1: モノとコトの人々の間の一貫性。クラス全体で平均化されたパノプティック、セグメンテーション、および認識品質 (PQ、SQ、RQ) (各クラスの PQ = SQ × RQ) は、パーセンテージとして報告されます。おそらく驚くべきことに、各データセットに対する人間の同意は、モノとモノの両方で比較的類似していることがわかりました。

ここに画像の説明を挿入

表 2:小 (S)、中 (M)、大 (L) オブジェクトの人間の同意とスケールスケールは、パノプティック セグメンテーションの人間の一貫性を決定する上で重要な役割を果たします。大きなオブジェクトでは、SQ と RQ はすべてのデータセットで 80 を超えていますが、小さなオブジェクトでは RQ が急激に低下します。小さなオブジェクトの SQ は比較的妥当です。

ヒューマン アノテーション人間の一貫した分析を可能にするために、データセットの作成者は、30 の Cityscapes 二重注釈付き画像、64 の ADE20k 画像、および 46 の Vistas 画像を惜しみなく提供してくれました。Cityscapes と Vistas の場合、画像は異なるアノテーターによって個別にアノテートされます。ADE20k は、6 か月間隔で同じ画像セットにラベルを付けた訓練を受けたアノテーターによって注釈が付けられました。人間のアノテーターのパノプティック品質 (PQ) を測定するために、画像ごとに 1 つのアノテーションをグラウンド トゥルースと見なし、もう 1 つのアノテーションを予測と見なします。PQ はグラウンド トゥルースおよび予測と対称であるため、順序は重要ではないことに注意してください。

人間の一貫性まず、表 1 は、各データセットに対する人間の合意と、PQ のセグメンテーション品質 (SQ) と認識品質 (RQ) への分解を示しています。予想通り、人間はこのタスクで完璧ではありません。これは、[6、54、35] の注釈品質研究と一致しています。人体のセグメンテーションと分類エラーの視覚化を、それぞれ図 3 と図 4 に示します。
  表1は、人間の同意の上限ではなく、各データセットに対してアノテーターの同意の尺度を確立していることに注意してください。データセット間の数値は比較できないため、データセットの品質を評価するために使用すべきではないことをさらに強調します。クラスの数、注釈付きピクセルの割合、シーンの複雑さはデータセットによって異なり、それぞれが注釈の難易度に大きく影響します。

物事に詰め込みますPSは物と物を分割する必要があります。表 1 には、PQ St と PQ Th も示しています。これらは、それぞれ、ものとものクラスの PQ の平均値です。Cityscapes と ADE20k ではモノとコトの人間の一貫性は近いですが、Vistas からはギャップが大きくなっています。全体として、これは物と物が同じような難しさを持っていることを意味しますが、物事は少し難しいです. メトリクスの詳細な分析については、このペーパーの arXiv バージョンを参照してください。

小さなオブジェクトと大きなオブジェクトPQ がオブジェクトのサイズによってどのように変化するかを分析するために、各データセットの最小の 25%、中間の 50%、および最大の 25% のオブジェクトをそれぞれ考慮して、データセットを小 (S)、中 (M)、および大 (L) のオブジェクトに分割します。 . . 表 2 では、大きなオブジェクトの場合、すべてのデータセットで人間の合意が非常に良好であることがわかります。小さなオブジェクトの場合、RQ は大幅に低下します。これは、ヒューマン アノテーターが小さなオブジェクトを見つけるのに苦労することが多いことを意味します。ただし、小さなオブジェクトが見つかった場合は、比較的うまくセグメント化されています。

7. マシン パフォーマンスのベースライン

  現在、パノプティック セグメンテーション用の単純なマシン ベースラインを提供しています。(1) 最適なインスタンスとセマンティック セグメンテーション システムのヒューリスティックな組み合わせは、パノプティック セグメンテーションでどのように機能するか? (2) PQ は、AP や IoU などの既存の指標とどのように比較されますか? (3) マシンの結果は、以前に提示した人間の結果とどのように比較されますか?

ここに画像の説明を挿入

表 3:インスタンス セグメンテーションのマシン結果(スタッフ クラスは無視)。提案されたヒューリスティック アルゴリズムを使用して、重複しない予測を取得します。APNO AP^{いいえ}A・PNO は、重複しない予測の AP です。予想通り、検出器は複数の重複する仮説を予測することで利益を得るため、重複を削除すると AP が損なわれます。AP が優れているメソッドもAPNO AP^{NO}A・PNOと同様に改善された PQ。

ここに画像の説明を挿入

表 4:セマンティック セグメンテーションのマシン結果(モノのクラスは無視)。平均 IoU が優れているメソッドは、PQ の結果も優れています。G-RMI の PQ はかなり低いことに注意してください。これは、画像には存在しないクラスの小さなパッチが多数幻覚したためです。これは、ピクセル エラーを計算するための IoU にわずかに影響を与えるだけですが、インスタンス エラーを計算するための PQ を大幅に低下させます。

アルゴリズムとデータ既存の確立された方法に照らして、パノプティック セグメンテーションを理解したいと考えています。したがって、既存のトップインスタンスおよびセマンティックセグメンテーションシステムの出力に合理的なヒューリスティック (後述) を適用することにより、基本的な PS システムを作成します。

  3 つのデータセットのアルゴリズムの出力を取得しました。都市景観の場合、現在の主要なアルゴリズムによって生成された検証セットの出力を使用します (セマンティックおよびインスタンス セグメンテーションには、それぞれ PSPNet [53] および Mask R-CNN [14])。ADE20k では、2017 Places Challenge の 1k テスト画像サブセットで、セマンティック [12, 11] およびインスタンス [31, 10] セグメンテーション トラジェクトリの勝者の出力を受け取りました。LSUN'17 セグメンテーション チャレンジの Vista の場合、主催者は 1,000 枚のテスト イメージと、インスタンスおよびセマンティック セグメンテーション トラックの優勝エントリの結果を提供してくれました [29, 52]。

  これらのデータを使用して、最初にインスタンスの PQ とセマンティック セグメンテーション タスクを個別に分析し、次に完全なパノプティック セグメンテーション タスクを調べます。私たちの「ベースライン」は非常に強力であり、より単純なベースラインは、PS 論文での公正な比較に適していることに注意してください。

インスタンスのセグメンテーションインスタンス セグメンテーション アルゴリズムは、重複するセグメントを生成します。PQ を測定するには、まずこれらのオーバーラップを解決する必要があります。この目的のために、単純な非最大抑制 (NMS) のような手順を開発しました。最初に、信頼度に従って予測されたセグメントをランク付けし、スコアが低いインスタンスを削除します。次に、最も信頼できるインスタンスから始めて、並べ替えられたインスタンスを反復処理します。各インスタンスについて、最初に以前のフラグメントに割り当てられたピクセルを削除します。次に、フラグメントの十分な部分が残っている場合は、重複していない部分を受け入れ、そうでない場合はフラグメント全体を破棄します。すべてのしきい値は、PQ を最適化するためにグリッド検索によって選択されます。Cityscapes と ADE20k の結果を表 3 に示します (Vistas は 2017 インスタンス チャレンジのエントリが 1 つしかないため省略されています)。最も重要なことは、AP と PQ が密接に追跡しており、検出器 AP の改善によって PQ も改善されることを期待しています。

セマンティックセグメンテーションセマンティック セグメンテーションでは、設計上重複するセグメントがないため、PQ を直接計算できます。表 4 では、このタスクの標準メトリック平均 IoU と PQ を比較しています。Cityscapes の場合、メソッド間の PQ ギャップは IoU ギャップに対応します。ADE20k の場合、ギャップははるかに大きくなります。これは、IoU が正しく予測されたピクセルをカウントする一方で、PQ がインスタンス レベルで動作するためです。詳細については、表 4 の見出しを参照してください。

パノラマ セグメンテーションPS のアルゴリズム出力を生成するには、前述の NMS に似たプロセスで、重複しないインスタンス セグメントから始めます。次に、これらのフラグメントをセマンティック セグメンテーションの結果と結合します。これは、シング クラスを優先して、モノ クラスとスタッフ クラスの間の重複を解決することによって行われます (つまり、モノ ラベルとそのインスタンス ID を、モノ ラベルとスタッフ ラベルの両方を持つピクセルに割り当てます)。このヒューリスティックは完全ではありませんが、ベースラインとしては十分です。

  表5は、組み合わされた(「パノラマ」)結果から計算されたPQ StおよびPQ Thの性能を、上で個別に予測されたものと比較している。これらの結果については、インスタンスやセマンティック タスクなど、さまざまなコンテストの入賞作品を使用しました。オーバーラップは物事に有利に解決されるため、PQ Th は一定で、PQ St はパノプティック予測に対してわずかに低くなります。パノラマ出力の視覚化を図 5 に示します。

人と機械のパノラマ セグメンテーション人間と機械の PQ を比較するために、上記の機械のパノプティック予測を使用します。人工的な結果については、§6 で説明した二重注釈付きの画像を使用し、これらの画像セットが小さいため、ブートストラップ法を使用して信頼区間を取得します。これらの比較は、異なるテスト画像を使用し、異なるクラスで平均化されているため不完全ですが (デュアル アノテーション付きテスト セットで一致しないクラスをいくつか除外しています)、それでもいくつかの有用なシグナルを提供できます。

  比較結果を表 6 に示します。SQ の場合、機械は人間にわずかに遅れをとっています。一方、マシンの RQ は人間の RQ よりも大幅に低く、特に ADE20k と Vista では顕著です。これは、認識、つまり分類が現在の方法の主な課題であることを意味します。全体として、人間と機械のパフォーマンスには大きなギャップがあります。このギャップが、提案されたパノプティック セグメンテーション タスクに関する将来の研究の動機となることを願っています。

ここに画像の説明を挿入

図 5: Cityscapes (左から 2 番目) と ADE20k (右から 3 番目) のパノラマ セグメンテーション結果予測は、最先端のインスタンスとセマンティック セグメンテーション アルゴリズムを組み合わせた出力に基づいています (表 3 と 4 を参照)。一致したフラグメントのカラー マッチング (IoU > 0.5) (クロスハッチング パターンは不一致領域を示し、黒はラベルのない領域を示します)。カラーとズームで最適に表示されます。

ここに画像の説明を挿入

表 5:パノプティック予測と独立予測「マシン セグメンテーション」行は、個別に計算されたセマンティック セグメンテーション メソッドとインスタンス セグメンテーション メソッドの PQ を示しています (表 3 と 4 も参照)。「マシン パノラマ」の場合、最先端の方法から得られた重複しない ting および stuff 予測を、画像の実際のパノラマ セグメンテーションに組み込みます。マージ ヒューリスティックの使用により、PQT h PQ^{Th}P QT hは変わらず、PQS t PQ^{St}P QStは少し下がっています。

ここに画像の説明を挿入

表 6:人間と機械のパフォーマンス. 考慮されたすべてのデータセットで、人間の同意はマシンのパフォーマンスよりもはるかに高くなっています (おおよその比較、詳細については本文を参照してください)。RQ は特に当てはまりますが、SQ はより近いです。このギャップは ADE20k で最大で、Cityscapes で最小です。ヒューマン アノテーションの小さなサブセットしか利用できないため、ブートストラップを使用し、ヒューマン結果の 5 パーセンタイルと 95 パーセンタイルの誤差範囲を示していることに注意してください。

8. パノラマセグメンテーションの未来

  私たちの目標は、コミュニティに新しいパノプティック セグメンテーション タスクを探索してもらうことで、研究を新しい方向に進めることです。提案されたミッションは、予想されるイノベーションと予想外のイノベーションの両方につながると信じています。最後に、これらの可能性のいくつかと将来の計画について説明します。

  簡単にするために、この論文のPS「アルゴリズム」は、トップインスタンスとセマンティックセグメンテーションシステムの出力のヒューリスティックな組み合わせに基づいています。このアプローチは基本的な最初のステップですが、より興味深いアルゴリズムを導入したいと考えています。具体的には、PS が少なくとも 2 つの領域でイノベーションを推進すると予想されます。(1) PS の 2 つの特性に同時に対処する、深く統合されたエンド ツー エンド モデル。[28, 2, 3, 18] を含む多くのインスタンス セグメンテーション メソッドは、重複しないインスタンス予測を生成することを目的としており、そのようなシステムの基礎として機能します。(2) PS は重複するセグメントを持つことができないため、たとえば学習可能な NMS [7、16] を PS に拡張することに基づいて、何らかの形式の高レベルの「推論」が有益である可能性があります。パノプティック セグメンテーション タスクがこれらの分野の研究を刺激し、視覚における刺激的な新しいブレークスルーにつながることを願っています。

  最後に、パノプティック セグメンテーション タスクは、COCO [25] と Mapillary Vistas [35] によってチャレンジ トラックとして識別され、提案されたタスクがコミュニティで勢いを増し始めていることに注意してください (例 [23, 47, 48, 27 、22、21、17] PS をアドレス指定する)。

謝辞: この研究は、欧州連合のホライズン 2020 研究およびイノベーション プログラム (gr. #647769) の下で、欧州研究評議会 (ERC) によって部分的に資金提供されました。

参考文献

[1] エドワード・H・アデルソン。ものを見ることについて:人間と機械による物質の認識。人間の視覚と電子イメージング、2001 年。1
[2] Anurag Arnab と Philip HS Torr。動的にインスタンス化されたネットワークを使用したピクセル単位のインスタンス セグメンテーション。CVPR、2017 年。2、3、8
[3] Min Bai および Raquel Urtasun。インスタンス セグメンテーションのための深層流域変換。CVPR、2017 年。3、8
[4] Holger Caesar、Jasper Uijlings、Vittorio Ferrari。COCO-Stuff: コンテキスト内のモノとスタッフのクラス。CVPR、2018 年。2、5
[5] Liang-Chieh Chen、George Papandreou、Iasonas Kokkinos、Kevin Murphy、および Alan L Yuille。DeepLab: 深い畳み込みネット、atrous 畳み込み、および完全に接続された CRF を使用したセマンティック イメージ セグメンテーション。パミ、2018.1
[6] マリウス・コルツ、モハメド・オムラン、セバスチャン・ラモス、ティモ・レーフェルド、マルクス・エンツヴァイラー、ロドリゴ・ベネンソン、ウーヴェ・フランケ、ステファン・ロート、ベルント・シーレ。都市景観を意味的に理解するための都市景観データセット。CVPR、2016 年。2、3、5、6
[7] Chaitanya Desai、Deva Ramanan、Charles C Fowlkes。マルチクラス オブジェクト レイアウトの識別モデル。IJCV、2011 年
歩行者検知: 最新技術の評価。PAMI、2012 年。2
[9] マーク エベリンガム、SM アリ エスラミ、リュック ヴァン グール、クリストファー KI ウィリアムズ、ジョン ウィン、アンドリュー ジッサーマン。PASCAL ビジュアル オブジェクト クラスの課題: ふりかえり。IJCV, 2015. 2, 3
[10] Alireza Fathi, Nori Kanazawa, and Kevin Murphy. Places challenge 2017: インスタンス セグメンテーション、G-RMI チーム。2017.7
[11] アリレザ・ファティ、カイ・ヤン、ケビン・マーフィー。Places challenge 2017: シーン解析、G-RMI チーム。2017. 7
[12] Jun Fu、Jing Liu、Longteng Guo、Haijie Tian、Fei Liu、Hanqing Lu、Yong Li、Yongjun Bao、および Weipeng Yan。Places challenge 2017: シーン解析、CASIA IVA JD チーム。2017. 7
[13] Bharath Hariharan、Pablo Arbeláez、Ross Girshick、Jitendra Malik。同時検出とセグメンテーション。In ECCV, 2014. 4, 5
[14] Kaiming He、Georgia Gkioxari、Piotr Dollár、Ross Girshick。R-CNN をマスクします。In ICCV, 2017. 1, 2, 7
[15] J. Hosang、R. Benenson、P. Dollár、B. Schiele。効果的な検出提案を行うにはどうすればよいでしょうか? PAMI、2015 年。1
[16] J Hosang、R Benenson、および B Schiele。非最大抑制の学習。パミ、2017.8
[17] アレクサンダー・キリロフ、ロス・ガーシック、カイミン・ヘー、ピョートル・ダラー。パノプティック フィーチャ ピラミッド ネットワーク。CVPR、2019 年
InstanceCut: マルチカットによるエッジからインスタンスへ。CVPR、2017 年。2、3、8
[19] Iasonas Kokkinos。UberNet: 多様なデータセットと限られたメモリを使用して、低レベル、中レベル、高レベルのビジョン向けのユニバーサル畳み込みニューラル ネットワークをトレーニングします。CVPR、2017年。3
[20] アレックス・クリジェフスキー、イリヤ・スツケバー、ジェフ・ヒントン 深い畳み込みニューラル ネットワークを使用した ImageNet 分類。NIPS、2012 年。2
[21] Jie Li、Allan Raventos、Arjun Bhargava、Tagawa Tagawa、Adrien Gaidon。ものとものを融合させることを学ぶ。arXiv:1812.01192, 2018.8
[22] Qizhu Li, Anurag Arnab, and Philip HS Torr. 弱および半教師ありパノプティック セグメンテーション. In ECCV, 2018. 8 [23] Yanwei Li, Xinze Chen, Zheng Zhu, Lingxi Xie, Guan Huang, Dalong Du
, and Xingang Wang. Attention-guided Unified network for panoptic segmentation. arXiv:1812.03904, 2018. 8
[24] Yi Li, Haozhi Qi, Jifeng Dai, Xiangyang Ji, and Yichen Wei. 完全な畳み込みインスタンス認識セマンティック セグメンテーション. CVPR では、 2017. 2
[25] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár、C Lawrence Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014. 2, 5 , 8
[26] Ce Liu, Jenny Yuen, and Antonio Torralba. SIFT フロー: シーン間の密な対応とその応用. PAMI, 2011. 2, 3
[27] Huanyu Liu, Chao Peng, Changqian Yu, Jingbo Wang, Xu Liu, Gang Yu, and Wei Jiang. An end-to-end network for panoptic segmentation. arXiv:1903.05027, 2019. 8 [28] Shu Liu,
Jiaya Jia, Sanja Fidler, and Raquel Urtasun. SGN: Sequential grouping networks for instance segmentation. In CVPR, 2017. 2, 3, 8 [29]
Shi Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia. LSUN'17 : insatnce segmentation task, UCenter Winner team. 2017. 7
[30] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for Semantic Segmentation. In CVPR, 2015. 1, 3, 5 [31
] Ruixuan Luo, Borui Jiang 、Tete Xiao、Chao Peng、Yuning Jiang、Zeming Li、Xiangyu Zhang、Gang Yu、Yadong Mu、Jian Sun. Places challenge 2017: インスタンス セグメンテーション、Megvii (Face++) team. 2017. 7
[32] ジテンドラ・マリク、パブロ・アルベラエス、ジョアオ・カレイラ、カテリーナ・フラグキアダキ、ロス・ガーシック、ジョージア・ギキオサリ、サウラブ・グプタ、バラス・ハリハラン、アビシェーク・カー、シュバム・トゥルシアニ。コンピューター ビジョンの 3 つの R: 認識、再構築、再編成。PRL、2016 年。3
[33] David R Martin、Charles C Fowlkes、および Jitendra Malik。局所的な明るさ、色、テクスチャの手がかりを使用して、自然な画像の境界を検出する方法を学習します。PAMI、2004 年。5
[34] Ishan Misra、Abhinav Shrivastava、Abhinav Gupta、および Martial Hebert。マルチタスク学習のためのクロスステッチ ネットワーク。CVPR、2016 年。3
[35] Gerhard Neuhold、Tobias Ollmann、Samuel Rota Bulò、PeterKontschieder。ストリート シーンのセマンティックな理解のためのマップ ビスタ データセット。CVPR、2017 年。2、3、5、6、8
[36] ペドロ・オ・ピニェイロ、ローナン・コロベール、ピオトル・ダラー。オブジェクトの候補をセグメント化することを学ぶ。NIPS、2015 年。2
[37] Shaoqing Ren、Kaiming He、Ross Girshick、および Jian Sun。R-CNN の高速化: 領域提案ネットワークを使用したリアルタイムのオブジェクト検出に向けて。1
[38] Olga Russakovsky、Jia Deng、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、Andrej Karpathy、Aditya Khosla、Michael Bernstein、Alexander C. Berg、および Li Fei-Fei
ImageNet 大規模視覚認識チャレンジ。IJCV、2015 年。2
[39] ジェイミー ショットン、ジョン ウィン、カーステン ロザー、アントニオ クリミニシ。Textonboost: マルチクラス オブジェクト認識のためのジョイントの外観、形状、およびコンテキスト モデリング。とセグメント。ECCV、
2006 年。2
[40] Min Sun、B. Kim、Pushmeet Kohli、および Silvio Savarese。オブジェクト プロパティの相互作用を介して物と物を関連付けます。PAMI、2014 年 3、4
[41] Joseph Tighe と Svetlana Lazebnik。物事を見つける: 領域と模範ごとの検出器を使用した画像解析。CVPR、2013 年。3、4
[42] Joseph Tighe、Marc Niethammer、Svetlana Lazebnik。オブジェクト インスタンスとオクルージョンの順序によるシーンの解析。CVPR、2014 年。2、3、4
[43] Zhuowen Tu、Xiangrong Chen、Alan L Yuille、Song-Chun Zhu。画像解析: セグメンテーション、検出、認識を統合します。IJCV、2005 年。2、3
[44] R. Vaillant、C. Monrocq、および Y. LeCun。画像内のオブジェクトのローカリゼーションに対する独自のアプローチ。IEE Proc。視覚、画像、および信号処理について、1994. 2
[45] CJヴァンライスベルゲン。情報検索。ロンドン:バターワース、1979年。5
[46] ポール・ヴィオラとマイケル・ジョーンズ。シンプルな機能のブーストされたカスケードを使用した迅速なオブジェクト検出。CVPR、2001 年。2
[47] Yuwen Xiong、Renjie Liao、Hengshuang Zhao、Rui Hu、Min Bai、Ersin Yumer、および Raquel Urtasun。UPSNet: 統合されたパノプティック セグメンテーション ネットワーク。arXiv:1901.03784, 2019. 8
[48] ティエンジュ ヤン、マクスウェル D コリンズ、ユークン チュー、ジージン ファン、ティン リウ、シャオ チャン、ヴィヴィアン セー、ジョージ パパンドレウ、リャンチー チェン。DeeperLab: シングルショット画像パーサー。arXiv:1902.05093, 2019. 8
[49] Yi Yang、Sam Hallman、Deva Ramanan、および Charles C Fowlkes。画像セグメンテーション用の階層化されたオブジェクト モデル。パミ、2012. 4
[50] Jian Yao、Sanja Fidler、および Raquel Urtasun. シーン全体の記述: ジョイント オブジェクトの検出、シーンの分類、およびセマンティック セグメンテーション. CVPR、2012 年. 2、3、4 [51] Fisher Yu および Vladlen Koltun.
マルチ-dilated convolutions によるコンテキスト集約のスケーリング.In ICLR, 2016.1
[52] Yi Zhang、Hengshuang Zhao、および Jianping Shi.LSUN'17: セマンティック セグメンテーション タスク、PSPNet 勝者チーム.2017.7 [53
] Hengshuang Zhao、Jianping Shi , Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 7
[54] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. ADE20K データセットによるシーン解析. CVPR、2017 年 2、3、5、6
[55] Yan Zhu、Yuandong Tian、Dimitris Mexatas、Piotr Dollár。セマンティック アモーダル セグメンテーション。CVPR、2017年。 3

おすすめ

転載: blog.csdn.net/i6101206007/article/details/126655228
おすすめ