セマンティックセグメンテーションのための階層的なマルチスケールアテンション

セマンティックセグメンテーションのための階層的なマルチスケールアテンション

セマンティックセグメンテーションに対する階層型マルチスケールの注目

https://arxiv.org/pdf/2005.10821.pdf

まとめ

マルチスケール推論は、セマンティック セグメンテーションの結果を改善するためによく使用されます。複数の画像スケールがネットワークを介して渡され、結果は平均または最大プーリング方法を使用して結合されます。この論文では、マルチスケール予測を組み合わせるためのアテンションベースのアプローチを提案します。特定のスケールでの予測が特定の故障モードをより適切に解決できること、およびネットワーク学習がこれらのスケールの選択にバイアスをかけて、このような場合により良い予測を生成できることを示します。私たちのアテンション メカニズムは階層的であるため、他の最先端の方法と比べてメモリ効率が約 4 倍になります。これにより、トレーニングの高速化に加えて、より大きなクロップ サイズを使用できるようになり、モデルの精度が向上します。Cityscapes と Mapillary Vista の 2 つのデータセットに対する手法の結果を示します。弱くラベル付けされた画像が多数含まれる都市景観の場合、自動アノテーションを利用して一般化を改善します。私たちのアプローチを使用して、Mapillary (61.1 IOU val) と Cityscapes (85.1 IOU test) で新しい最先端の結果を達成しました。
キーワード: セマンティックセグメンテーション・アテンション・自動ラベリング

1 はじめに


図 1: 推論スケールにおけるセマンティック セグメンテーションの一般的な失敗モードを示します。最初の行では、小さな柱がダウンスケール (0.5 倍) 画像では一貫性なくセグメント化されていますが、アップスケール (2 倍) 画像ではより正確に予測されます。2 行目では、より大きな道路/孤立エリアは、低解像度 (0.5x) でより適切にセグメント化されます。

セマンティック セグメンテーションのタスクは、画像内のすべてのピクセルを N カテゴリのいずれかに属するものとしてラベル付けすることです。このタスクでは、一部のタイプの予測は低い推論解像度で最適に処理される一方、他のタイプのタスクはより高い推論解像度でより適切に処理されるというトレードオフがあります。たとえば、オブジェクトのエッジや薄い構造などの詳細では、より適切な予測を行うために拡大された画像サイズを使用する必要があることがよくあります。同時に、よりグローバルなコンテキストを必要とする大規模な構造の予測は、多くの場合、ネットワークの受容野で必要なコンテキストをより多く観察できるため、画像サイズを小さくした方がうまくいきます。後者の問題を分類の混乱と呼びます。図 1 にその例を示します。

マルチスケール推論の使用は、このトレードオフを解決する一般的な方法です。さまざまなスケールを使用して予測を行い、平均プーリングまたは最大プーリングを使用して結果を組み合わせると、結果が改善されることがよくあります。平均化を使用して複数のスケールを組み合わせると結果が向上することがよくありますが、優れた予測と不適切な予測を組み合わせてしまうという問題に直面します。たとえば、特定のピクセルについて、2x スケールからの最良の予測が得られ、0.5x スケールからの予測がより悪い場合、平均はこれらの予測を組み合わせて次善の出力を生成します。一方、最大プーリングでは、特定のピクセルに対して N スケールの 1 つを使用することが選択され、最適な答えは、さまざまなスケールにわたる予測の重み付けされた組み合わせとなる可能性があります。

この問題に対処するために、Chen らによって提案された方法と同様に、ピクセル レベルでマルチスケール予測を組み合わせる方法を予測するアテンション メカニズムを採用します。我々は、ネットワークが隣接するスケール間の相対的な重みを予測することを学習できるようにする階層的アテンション メカニズムを提案します。私たちの方法では、その階層的な性質により、トレーニング パイプラインに追加のスケールを 1 つだけ追加するだけで済みますが、[1] などの他の方法では、トレーニング段階で追加の各推論スケールを明示的に追加する必要があります。たとえば、マルチスケール評価のターゲット推論スケールが {0.5、1.0、および 2.0} である場合、他のアテンション手法では、最初にこれらすべてのスケールでネットワークをトレーニングする必要があり、結果は 4.25 倍 (0. 5 2 + 2.0) 2 0.5^ 2 + 2.0^ 20.5 _2+2.0 _2 ) 追加のトレーニング費用。私たちの方法ではトレーニング中に 0.5 倍のスケールを追加するだけで済みますが、これは 0.25 倍 ( 0. 5 2 0.5^2)の増加にすぎません。0.5 _2 ) コスト。さらに、私たちが提案する階層メカニズムは、以前に提案された方法よりも利用可能なリソースを有効に活用するために、推論中に追加のスケールを選択する柔軟性も提供します。

都市景観で最先端の結果を達成するために、粗い画像に自動アノテーションを付ける戦略も採用して、データセットの多様性を高め、それによって一般化を向上させます。私たちの戦略は、[2、3、4] を含むいくつかの最近の研究からインスピレーションを得ています。一般的なソフト ラベル付け戦略とは異なり、ハード ラベル付けを採用してラベル ストレージ サイズを管理します。これにより、ディスク IO コストが削減され、トレーニング スループットが向上します。

1.1 研究貢献

  • 効率的な階層型マルチスケール アテンション メカニズムは、クラスの混乱と詳細損失の問題を解決するのに役立ち、ネットワークが複数の推論スケールからの予測を最適に組み合わせる方法を学習できるようにします。
  • ハードしきい値ベースの自動アノテーション戦略では、ラベルのない画像を利用して IOU を改善します。
  • Cityscapes (85.1 IOU) および Mapillary Vistas (61.1 IOU) データセットで最先端の結果が得られます。

2 関連作品

マルチスケール コンテキスト メソッド現在の最先端のセマンティック セグメンテーション ネットワークは、より低い出力ステップ サイズのネットワーク トランクを使用しているため、ネットワークは詳細をより適切に解析できますが、その結果、受容野も縮小します。受容野が狭くなると、ネットワークがシーン内の大きなオブジェクトを予測することが困難になる可能性があります。ピラミッドプーリングは、マルチスケールコンテキストを組み合わせることで、縮小した受容野を相殺できます。PSPNet [5] は、空間ピラミッド プーリング モジュールを使用します。このモジュールは、ネットワーク トランクの最後の層から取得した特徴を入力として利用し、一連のプーリングと畳み込み操作を通じてマルチスケールの特徴を組み合わせます。DeepLab [6] は、Atrous Spatial Pyramid Pooling (ASPP) を使用しています。これは、異なる拡張率の拡張畳み込みを使用して高密度の特徴を作成し、PSPNet よりも有利です。最近では、ZigZagNet [7] と ACNet [8] は、ネットワーク トランク機能だけでなく中間機能を利用して、マルチスケール コンテキストを作成します。

関連するコンテキスト メソッドピラミッド プーリング手法は通常、プーリングと拡張が対称的に適用されるため、固定された正方形のコンテキスト領域に焦点を当てます。さらに、そのようなテクニックは静的で学習不可能な傾向があります。ただし、連想コンテキスト手法はピクセル間の関係に焦点を当ててコンテキストを構築するものであり、正方形の領域に限定されません。連想コンテキストメソッドには学習特性があり、画像の構成に基づいてコンテキストを構築できます。この技術は、長い電車や高くて狭い街灯柱など、正方形でない意味領域に対して、より適切なコンテキストを構築します。OCRNet [9]、DANET [10]、CFNet [11]、OCNet [12]、およびその他の関連研究 [13、14、15、16、17、18、19、20] は、より適切なコンテキストを構築するためにそのような関係を使用しています。

マルチスケール推論相関関係法とマルチスケール コンテキスト法 [21、22、23、9] は両方とも、最適な結果を得るためにマルチスケール評価を使用します。複数のスケールでネットワーク予測を組み合わせる 2 つの一般的な方法は、平均化と最大プーリングであり、平均プーリングの方が一般的です。ただし、平均プーリングでは、異なるスケールの出力を同じ重みで組み合わせる必要があり、これは理想的ではない可能性があります。Chen ら [1、24] は、アテンション ヘッドを使用して複数のスケールを組み合わせています。彼らは、ニューラル ネットワークの最終機能を使用してトレーニングされる、あらゆるスケールにわたって注意力を訓練します。Yang et al. [24] は、さまざまなネットワーク層での機能の組み合わせを使用して、より適切なコンテキスト情報を構築しています。ただし、どちらの方法も、ネットワークとアテンション ヘッドが固定されたスケールのセットを使用してトレーニングされるという特徴を共有しています。実行時には、これらのスケールのみを使用できます。それ以外の場合は、ネットワークを再トレーニングする必要があります。この論文は、推論時にスケールの数に影響されない、階層ベースの注意メカニズムを提案します。さらに、私たちが提案した階層的注意メカニズムは、平均プーリングのパフォーマンスを向上させるだけでなく、カテゴリやシーンにおけるさまざまなスケールの重要性を診断的に視覚化できることを示します。さらに、私たちの方法は、他のアテンションまたはピラミッドプーリング方法(たとえば、[22、25、26、9、27、10、28])から独立しています。これらの方法は単一スケールの画像を使用し、マルチレベルの特徴をよりよく組み合わせてアテンションを実行するためです。高解像度の予測を生成します。

自動タグ付け都市景観に関する現在の最先端のセマンティック セグメンテーション作業のほとんど、特に [12、29] は、大まかに注釈が付けられた約 20,000 枚の画像を使用して完全にトレーニングされています。ただし、ラベルが粗すぎるため、各粗い画像の大部分にはラベルが付けられていません。都市景観で最先端の結果を達成するために、Xie ら [2] およびその他の半教師あり自己トレーニング セマンティック セグメンテーション手法 [30、31、32、33、 34] およびラベル付け方法 (例: [4, 35, 36, 3]) から擬似的にインスピレーションを得たものです。都市景観の粗い画像に密なラベルを生成します。私たちが生成するラベルにはラベルのない領域がほとんどないため、ラフ画像の内容をすべて最大限に活用することができます。

画像分類のための自動ラベル付け作業のほとんどは連続ラベルまたはソフトラベルを使用しますが、当社ではストレージ効率とトレーニング速度のためにハードしきい値ラベルを生成します。ソフト ラベルを使用する場合、教師ネットワークは各ピクセルの N カテゴリに連続確率を提供しますが、ハード ラベルの場合は、しきい値を使用してピクセルごとに単一のトップレベル カテゴリを選択します。[37, 4] と同様に、大まかな都市景観画像に対して硬く密なラベルを生成します。例を図 4 に示します。Xie らとは異なり、ラベルの反復的な改善は実行しませんが、教師モデルの完全なトレーニングの 1 回の反復では、デフォルトの粗い注釈付き画像と細かい注釈付き画像を使用します。この共同トレーニングの後、ラフ画像に自動的にラベルが付けられ、教師トレーニング レシピの画像に置き換えられ、最先端のテスト結果が得られます。私たちが提案する階層的注意アルゴリズムと偽のハードラベルを組み合わせることで、都市景観に関する最先端の結果を得ることができます。

3. 階層的マルチスケールアテンションメカニズム

私たちのアテンション メカニズムは概念的には [1] と非常に似ており、スケールごとに密なマスクが学習され、続いて各スケールでの予測とマスクのピクセルごとの乗算とピクセルごとのスケール間加算が行われます。および方法による予測結果については、図 2 を参照してください。Chen のメソッドを明示的メソッドと呼びます私たちの階層的アプローチでは、各固定スケールのすべてのアテンション マスクを同時に学習するのではなく、隣接するスケール間の相対的なアテンション マスクを学習します。ネットワークをトレーニングするときは、隣接するスケール ペアのみをトレーニングします。図 2 に示すように、単一 (低位) スケールの一連の画像特徴が与えられた場合、2 つの画像スケール間の高密度ピクセル レベルの相対的な注意が予測されます。事実上、ペアワイズ スケーリングされたイメージを取得するには、単一の入力イメージを 2 倍にスケール ダウンし、1 倍のスケーリングされた入力と 0.5 倍のスケーリングされた入力が得られますが、他のスケーリング係数を選択することもできます。トレーニング中に画像スケール拡張を使用するため、ネットワーク入力自体は元のトレーニング画像の再スケールされたバージョンであることに注意することが重要です。これにより、ネットワークは複数の画像スケールで相対的な注目を予測できるようになります。推論を実行するとき、学習したアテンションを階層的に適用し、N 個の予測スケールを組み合わせて計算できます。より低いスケールを優先し、より高いスケールに徐々に上げていきます。これにより、よりグローバルなコンテキスト情報を備えたより高いスケールを選択して、より高いスケールからの予測が予測を改善できる箇所を調整できます。
より具体的には、トレーニング中に、指定された入力画像が係数 r でスケーリングされます。ここで、r = 0.5 は 2x ダウンサンプリングを意味し、r = 2.0 は 2x アップサンプリングを意味し、r = 1 は操作なしを意味します。トレーニングでは、r = 0.5 および r = 1.0 を選択しました。次に、r = 1 と r = 0.5 の 2 つの画像が共有ネットワーク トランク経由で送信され、各スケールのセマンティック ロジット (L) とアテンション マスク (α) が生成されます。これらは、マスク (L) 間のロジットを結合するために使用されます。 )。したがって、2 つのスケールでのトレーニングと推論の場合、U は双一次アップサンプリング演算子を表し、* と + はそれぞれピクセル単位の乗算と加算を表し、方程式は形式的に次のように表すことができます。

L ( r = 1 ) = U ( L ( r = 0.5 ) ∗ α ( r = 0.5 ) ) + ( ( 1 − U ( α ( r = 0.5 ) ) ) ∗ L ( r = 1 ) ) (1) L_ {(r=1) }= U(L_{(r=0.5)} ∗ α_{(r=0.5)}) + ((1 − U(α_{(r=0.5)})) ∗ L_{(r =1)}) \tag{1}L( r = 1 )=そして( L( r = 0.5 )ある( r = 0.5 )+(( 1_( r = 0.5 )))L( r = 1 )( 1 )
私たちが提案した戦略を使用すると、次の 2 つの利点があります。

図 2: ネットワーク アーキテクチャ。左側と右側にそれぞれ明示的アーキテクチャと階層化された (私たちの) アーキテクチャを示します。
左側は [1] のアーキテクチャを示しており、各スケールでの注意が明示的に学習されます。右側は、階層的な注意アーキテクチャを示しています。上の右側は、ネットワークが隣接するスケール ペア間の注意を予測することを学習するトレーニング プロセスを示しています。右下の推論は、複数の予測スケールを組み合わせるために階層的/階層的に実行されます。低いスケールでの注意力が、次に高いスケールの寄与を決定します。

  • 推論時にスケールを柔軟に選択できるようになったので、私たちが提案する連鎖型アテンション メカニズムの助けを借りて、0.5x や 1.0x ですでにトレーニングされたモデルに 0.25x や 2.0x などの新しいスケールを追加することが可能です。の。これは、モデルのトレーニング中に使用されたのと同じスケールの使用に制限されていた以前に提案された方法とは異なります。
  • この階層構造により、トレーニング効率が向上し、陽的手法と比較して改善されます。陽的手法を使用する場合、0.5、1.0、2.0 の 3 つの比率が使用される場合、トレーニング コストは0. 5 2 + 1. 0 2 + 2. 0 2 = 5.25 0.5^2 + 1.0^2 + 2.0^ になります。 2 = 5.250.5 _2+1.0 _2+2.0 _2=5.25、単一スケールを使用したトレーニングと比較。私たちが提案する階層的手法を採用する場合、学習コストはわずか0.5 2 + 1.0 2 = 1.25 0.5^2 + 1.0^2 = 1.250.5 _2+1.0 _2=1.25

3.1 アーキテクチャ

バックボーン: このセクションのプロファイリング研究では、ネットワークのバックボーンとして ResNet-50 [38] (出力ストライド 8 で構成) を使用します。最先端の結果を達成するために、私たちはより大規模で強力なバックボーンである HRNet-OCR [9] を使用します。
セマンティック ヘッド: セマンティック予測用に特別に設計された完全畳み込みヘッド。(3x3 conv) → (BN) → (ReLU) → (3x3 conv) → (BN) → (ReLU) → (1x1 conv) で構成されます。最終的な畳み込み出力 num_classes チャネル。
アテンション ヘッド: アテンション予測にセマンティック ヘッド構造と同様の別個のヘッドを使用し、最終的な畳み込み出力に加えて単一のチャネルを出力します。ResNet-50 を足場として使用する場合、セマンティック ヘッドとアテンション ヘッドは ResNet-50 の最終ステージの機能とともに使用されます。HRNet-OCR を使用する場合、セマンティック ヘッドとアテンション ヘッドが OCR ブロックの機能とともに使用されます。HRNet-OCR の場合、 OCR の前に HRNet フレームから機能を直接取得する補助セマンティック ヘッダーもあります。このヘッダには、(1x1 conv) → (BN) → (ReLU) → (1x1 conv) が含まれます。セマンティック ロジットに注意を払った後、双線形アップサンプリングを使用して、予測をターゲット画像サイズまで縮小します。

3.2 分析

マルチスケール アテンション手法の有効性を評価するために、DeepLab V3+ アーキテクチャと ResNet50 バックボーンを使用してネットワークをトレーニングします。表 1 では、階層的注意法が、ベースライン平均法 (49.4) または明示的法 (51.4) と比較して、より高い精度 (51.6) を達成していることを示しています。また、0.25x スケールを追加した場合、私たちの方法が陽的方法よりも大幅に優れた結果を達成することも観察されています。明示的な方法とは異なり、私たちの方法では、追加の 0.25 倍スケールを使用するときにネットワークを再トレーニングする必要はありません。推論時間におけるこの柔軟性は、私たちのアプローチの重要な利点です。トレーニング セッションは 1 つだけですが、それをさまざまなスケールで評価できる柔軟性があります。


表 1: 階層型マルチスケール アテンション メソッドと Mapillary 検証セットの他のメソッドとの比較。ネットワーク アーキテクチャは、DeepLab V3+ と ResNet-50 トランクを組み合わせたものです。評価スケール: マルチスケール評価用のスケール。FLOPS: トレーニング中にネットワークによって消費された浮動小数点演算の相対数。ミニバッチ時間: Nvidia Tesla V100 GPU で測定されたトレーニング ミニバッチ時間。

さらに、ベースライン平均マルチスケール法では、0.25x スケールのみを追加すると IOU が 0.7 減少するため精度に悪影響が出るのに対し、0.25x スケールを追加したメソッドでは精度が 0.6 IOU 向上することも観察されています。ベースライン平均法では、0.25 倍の予測が非常に粗いため、他のスケールで平均すると、車線区分線、マンホール、電話ボックス、街路灯、信号機と信号機標識 (前後)、自転車ラックなどのカテゴリが観察されます。 、など、1.5 IOU 削減されます。予測された粗さにより、エッジやディテールが損なわれます。ただし、ネットワークが最適な方法で 0.25x 予測を適用し、エッジ付近での使用を避けることができるため、提案したアテンション方法を使用すると、0.25x スケールを追加すると結果が 0.6 改善されます。これは、図 3 の左側の細いピラーの画像で確認できます。0.5 倍の予測では、非常に少量の細いピラーのみがカバーされていますが、2.0 倍のスケールでは非常に強い懸念信号があります。次に、右側の非常に広い領域では、注意メカニズムは下位スケール (0.5x) を最大限に活用することを学習し、誤った 2.0x 予測はほとんど使用しません。

3.2.1 シングルスケール機能とデュアルスケール機能

私たちが採用するアーキテクチャでは、下側の 2 つの隣接する画像スケールからの特徴のみを使用してアテンション ヘッドに入力を提供しますが (図 2 を参照)、2 つの隣接するスケールから取得された特徴が入力を提供するようにアテンション ヘッドをトレーニングしようとします。精度に大きな違いは観察されなかったため、一連の特徴を選択しました。

4 都市景観への自動ラベリング

画像分類タスクの自動アノテーションに関する最近の [2] および [39] の作業に触発され、有効なデータセット サイズとラベルの品質を向上させる自動アノテーション戦略で都市景観を強化しました。Cityscapes では、20,000 個の粗くラベル付けされた画像が 3,500 個の細かくラベル付けされた画像とともに使用されます。図 4 に示すように、粗いイメージのラベル品質は非常に中程度で、ラベルのないピクセルが多数含まれています。自動ラベル付け手法を使用することで、ラベルの品質を向上させることができ、モデル IOU に貢献します。

画像分類のための自動ラベル付けでは、一般的な手法はソフト ラベルまたは連続ラベルを使用することであり、教師ネットワークが各ピクセルの N クラスごとにターゲット (ソフト) 確率を提供します。このアプローチの課題はディスク容量とトレーニング速度です。これらのラベルの保存には約 3.2TB のディスク容量が必要です: 20000 画像 * 2048w * 1024 h * 19 カテゴリ * 4B = 3.2TB。これらのラベルを保存することを選択した場合でも、トレーニング中にトレーニングの速度が大幅に低下します。したがって、ハードラベル戦略を採用して、ピクセルが与えられた教師ネットワークのトップクラスの予測を選択します。教師ネットワークの出力確率のしきい値に基づくしきい値ラベル。しきい値を超える教師の予測はグラウンド トゥルース ラベルになります。それ以外の場合、ピクセルは無視カテゴリとしてラベル付けされます。実際には、0.9 のしきい値を使用します。

5 件の結果

5.1 プロトコルの実装

このセクションでは、実装プロトコルについて詳しく説明します。
トレーニングの詳細: 私たちのモデルは、ノードごとに 8 つの GPU を備えた Pytorch [40] を使用し、混合精度の分散データ並列トレーニングと同時バッチ正規化を使用して、Nvidia DGX サーバー上でトレーニングされます。オプティマイザーとして確率的勾配降下法 (SGD) を使用し、各 GPU でバッチ サイズ 1、運動量 0.9、重み減衰 5e-4 でトレーニングします。
私たちは「多項式」学習率戦略を採用しています [41]。主な損失関数としてデフォルト設定の RMI [42] を使用し、補助損失関数としてクロスエントロピーを使用します。都市景観の場合、多項式指数 2.0、初期学習率 0.01 を使用し、2 つの DGX ノードで 175 エポックのトレーニングを行いました。Mapillary の場合、多項式指数 1.0、初期学習率 0.02 を使用し、4 つの DGX ノードで 200 エポックのトレーニングを行いました。[29] と同様に、データ ローダーでクラス均一サンプリングを使用して各クラスを均等にサンプリングします。これは、データが不均衡な場合の結果を改善するのに役立ちます。
データ拡張: ガウスぼかし、色強調、ランダムな水平反転、およびランダムなスケーリング (0.5x ~ 2.0x) を入力画像に適用して、データセットのトレーニング プロセスを拡張します。Cityscapes には 2048x1024 のクロップ サイズを使用し、Mapillary には 1856x1024 のクロップ サイズを使用しました。

図 3: 2 つの異なるシーンの各スケール レベルでの意味予測と注意予測。左側のシーンは細かい詳細の問題を示し、右側のシーンは広い領域のセグメンテーションの問題を示しています。注目の白色は高い値(1.0に近い)を示します。すべてのスケールにわたる特定のピクセルのアテンション値の合計は 1.0 です。左: 細い縁石の柱は 2 倍のスケールで最もよく解決され、注目がそのスケールにより集中することに成功し、2 倍の注目イメージで柱が白く表現されていることを示しています。右: より大きな道路/孤立したエリアは 0.5 倍の縮尺で最もよく予測され、0.5 倍の縮尺ではこのエリアに実際に注目が集まります。

図 4: 自動生成されたラフ画像ラベルの例。自動的に生成された粗いラベル (右) は、元のグラウンド トゥルースの粗いラベル (中央) よりも詳細な注釈情報を提供します。このより詳細な注釈情報により、大きなオブジェクトだけでなく、小さなオブジェクトと大きなオブジェクトの両方が表現されるようになるため、ラベルの配布が改善されます。

表 2: 都市景観検証セットのアブレーション実験。ベースライン方式では、HRNet-OCR をアーキテクチャとして使用します。MS アテンションは、私たちが提案するマルチスケール アテンション手法です。自動ラベル付けとは、トレーニング中に自動的に生成された、またはグラウンド トゥルースのラフなラベルを使用することを意味します。両方のテクノロジーを組み合わせることで、最高の結果が得られます。

5.1.1 都市景観の結果

Cityscapes [43] は、5000 枚の高解像度画像でラベル付けされた 19 の意味カテゴリをカバーする大規模なデータセットです。都市景観では、HRNet-OCRをバックボーンネットワークとして使用し、提案するマルチスケールアテンション手法を採用します。メイン セグメンテーション ヘッドの損失関数として RMI を使用しますが、補助セグメンテーション ヘッドではクロス エントロピーを使用します。これは、RMI 損失を使用すると、トレーニングが深くなるにつれてトレーニング精度が低下することが判明したためです。最初に大規模な Mapillary データセットで事前トレーニングし、次に都市景観でトレーニングすることで最良の結果が得られます。Mapillary の事前トレーニング タスクでは、トレーニングに注意を払いません。train+val 画像から 50% の確率でサンプリングし、サブピクセル レベルの注釈の使用に基づいて自動的にラベル付けされた粗い画像セットを抽出します。テスト時には、scale={0.5,1.0,2.0} と画像の反転を使用します。

表 2 に示すように、都市景観検証セットでアブレーション研究を実施しました。マルチスケール アテンションにより、平均プーリングに基づく HRNet-OCR アーキテクチャと比較して IOU が 0.5% 向上します。自動アノテーションにより、IOU ベースラインが 1.1% 向上します。2 つの手法を組み合わせると、合計で IOU が 1.4% 低下します。

最後に、表 3 に、Cityscapes テスト セットで最も優れたパフォーマンスを発揮した他の手法と比較したこの手法の結果を示します。私たちの方法は 85.1 というスコアを達成し、これはすべての方法の中で報告されている最高の都市景観テスト スコアであり、以前の最高スコアを 0.6 IOU 上回っています。さらに、私たちのメソッドは、3 つのクラスを除くすべてのクラスで最高のクラス内スコアを獲得しています。いくつかの結果を図 5 に視覚的に示します。


表 3: Cityscapes テスト セットの他の方法との比較。各カテゴリの最高の結果は太字で示されています。

5.1.2 Mapillary Vista の結果

Mapillary Vistas [45] は、66 のオブジェクト カテゴリに注釈が付けられた 25,000 枚の高解像度画像を含む大規模なデータセットです。Mapillaryでは、バックボーンネットワークとしてHRNet-OCRを利用し、提案するマルチスケールアテンション方式を採用しています。Mapillary の画像は解像度が非常に高く、異なる場合があるため、[23] で行ったように、長辺が 2177 になるように画像のサイズを変更します。モデルの初期化には、ImageNet 分類でトレーニングされた HRNet 部分からの重みを使用します。Mapillary では 66 カテゴリのメモリ要件が大きいため、クロップ サイズを 1856x1024 に減らします。
表 4 に、Mapillary 検証セットに対するメソッドの結果を示します。私たちの単一モデルのアプローチは 61.1 のスコアを達成しました。これは、次に近い方法である Panoptic Deeplab [23] よりも 2.4 ポイント高く、マルチモデルの組み合わせを使用して 58.7 のスコアを達成しました。

表 4: Mapillary 検証セットの結果の比較。各カテゴリの最高の結果は太字で示されています。

6 結論

本稿ではセマンティックセグメンテーションのための階層的マルチスケールアテンション法を提案する。私たちの方法は、セマンティック セグメンテーションの精度を向上させると同時に、メモリと計算効率も向上させますが、どちらも実際的な問題です。トレーニングの効率によって研究速度が制限され、GPU メモリの効率によって同時にトレーニングできるネットワークのサイズが制限されるため、ネットワークの精度が制限される可能性があります。私たちは、提案した方法が都市景観と地図データセットで一貫した改善を達成できることを実験的に示しています。

謝辞: 有益な議論をしていただいた Sanja Fidler、Kevin Shih、Tommi Kawavisto、Timo Roman に感謝します。

参考文献

[1] Liang-Chieh Chen、Yi Yang、Jiang Wang、Wei Xu、および Alan L. Yuille。スケールへの注意: スケールを意識したセマンティック
画像セグメンテーション、2015 年。
[2] Qizhe Xie、Minh-Thang Luong、Eduard Hovy、および Quoc V. Le。騒々しい学生との自己トレーニングにより
、imagenet 分類が改善されました。2019 年。
[3] Eric Arazo、Diego Ortego、Paul Albert、Noel E O'Connor、および Kevin McGuinness。深い半教師あり学習における擬似ラベル付けと確証バイアス。arXiv プレプリント arXiv:1908.02983、2019。
[4] Dong-Hyun Lee。擬似ラベル: ディープ ニューラル
ネットワークのためのシンプルで効率的な半教師あり学習方法。2013.
[5] 趙恒双、石建平、斉暁娟、王暁剛、賈佳雅。ピラミッド シーン解析ネットワーク。
コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2881 ~ 2890 ページ、2017 年。
[6] Liang-Chieh Chen、Yukun Zhu、George Papandreou、Florian Schroff、Hartwig Adam。
セマンティック画像セグメンテーションのための重要な分離可能な畳み込みを備えたエンコーダ/デコーダ。ECCV、2018年。
[7] Di Lin、Dingguo Shen、Siting Shen、Yuanfeng Ji、Dani Lischinski、Daniel Cohen-Or、Hui Huang。Zigzagnet:
オブジェクトのセグメンテーションにトップダウンとボトムアップのコンテキストを融合します。CVPR、2019年。
[8] Jun Fu、Jing Liu、Yuhang Wang、Yong Li、Yongjun Bao、Jinhui Tang、Hanqing Lu。
シーン解析のための適応コンテキスト ネットワーク、2019 年。
[9] Yuhui Yuan、Xilin Chen、Jingdong Wang。セマンティック セグメンテーションのためのオブジェクト コンテキスト表現、2019 年。
[10] Jun Fu、Jing Liu、Haijie Tian、Yong Li、Yongjun Bao、Zhiwei Fang、Hanqing Lu、
シーン セグメンテーションのためのデュアル アテンション ネットワーク、2018 年
[11] Hang Zhang、Han Zhang、Chenguang Wang、および Junyuan Xie. セマンティック セグメンテーションにおける共起機能.
CVPR において、2019.
[12] Yuhui Yuan および Jingdong Wang. Ocnet: シーン解析のためのオブジェクト コンテキスト ネットワーク、2018.
[13] Yunpeng Chen、Yannis Kalantidis、Jianshu Li、Shuicheng Yan、 Jiashi Feng と Jiashi Feng. A2-nets: Double tention ^
ネットワーク. NIPS にて、2018.
[14] Fan Zhang、Yanqin Chen、Zhihang Li、Zhibin Hon、Jingtuo Liu、Feifei Ma、Junyu Han、および Errui Ding. Acfnet: Attendal
classセマンティック セグメンテーション用の機能ネットワーク、ICCV、2019 年。
[15] Yunpeng Chen、Marcus Rohrbach、Zhicheng Yan、Shuicheng Yan、Jiashi Feng、Yannis Kalantidis. グラフベースの
グローバル推論ネットワーク. arXiv:1811.12814, 2018.
[16] Xiaodan Liang、Zhiting Hu、Hao Zhang、Liang Lin、および Eric P Xing. 記号グラフ推論と畳み込みの融合.
NIPS にて、2018.
[17] ying Li および Abhinav Gupta. グリッドを超えて: 視覚認識のためのグラフ表現の学習. NIPS にて、2018.
[18] Kaiyu Yue、Ming Sun、Yuchen Yuan、Feng Zhou、Erui Ding、および Fuxin Xu. コンパクトな一般化された非ローカル
ネットワーク. NIPS にて. 2018.
[19] Xia Li、Zhisheng Zhong、Jianlong Wu、Yibo Yang、Zhouchen Lin、および Hon Liu. 期待最大化への
注意セマンティック セグメンテーションのためのネットワーク、ICCV、2019 年。
[20] 黄紫龍、王興剛、黄立超、黄常、魏雲超、劉文宇。CCnet:
セマンティック セグメンテーションに対する多方面からの注目。arXiv:1811.11721、2018。
[21] Liang-Chieh Chen、George Papandreou、Florian Schroff、Hartwig Adam。セマンティック画像セグメンテーションのための激しい畳み込みの再考
arXiv:1706.05587、2017。
[22] Liang-Chieh Chen、Yukun Zhu、George Papandreou、Florian Schroff、Hartwig Adam。
セマンティック画像セグメンテーションのための atrous 分離可能畳み込みを備えたエンコーダ-デコーダ
、2018 年。[23] Bowen Cheng、Maxwell D. Collins、Yukun Zhu、Ting Liu、Thomas S. Huang、Hartwig Adam、および Liang-Chieh
Chen。Panoptic-deeplab: ボトムアップ パノプティック セグメンテーションのためのシンプル、強力、高速なベースライン、2019 年。
[24] Shiqi YangとGang Peng。セマンティック セグメンテーションのマルチ スケールによる絞り込みに注意。マルチメディアに関する環太平洋
会議、232 ~ 241 ページ。Springer、2018年。
[25] アシシ・シンハとホセ・ドルツ。医療画像セグメンテーションのためのマルチスケールのセルフガイド アテンション、2019 年。
[26] Guosheng Lin、Anton Milan、Chunhua Shen、Ian Reid。
Refinenet:高解像度セマンティック セグメンテーションのためのマルチパス洗練ネットワーク、2016 年
。[27] Zilong Huang、Xinggang Wang、Lichao Huang、Chang Huang、Yunchao Wei、および Wenyu Liu。CCnet:
セマンティック セグメンテーションに対する多方面からの注目。2019 年10 月、IEEE コンピューター ビジョン国際会議 (ICCV) にて

[28] ハンチャオ・リー、ポンフェイ・ション、ジエ・アン、リンシュエ・ワン。セマンティック セグメンテーションのためのピラミッド アテンション ネットワーク。
arXiv プレプリント arXiv:1805.10180、2018。
[29] Yi* Zhu、Karan* Sapra、Fitsum A Reda、Kevin J Shih、Shawn Newsam、Andrew Tao、および Bryan Catanzaro。
ビデオの伝播とラベルの緩和によるセマンティック セグメンテーションの改善。コンピューター ビジョンとパターン認識に関するIEEE 会議議事録
、8856 ~ 8865 ページ、2019 年。
[30] Qing Lian、Fengmao Lv、Lixin Duan、および Boqing Gong。クロスドメインセマンティックセグメンテーションのための自発的なピラミッドカリキュラムの構築
: 非敵対的アプローチ。2019 年、 IEEE
コンピューター ビジョン国際会議 (ICCV) にて。
[31] ユンシェン・リー、ルー・ユアン、ヌーノ・バスコンセロス。セマンティック
セグメンテーションのドメイン適応のための双方向学習。コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議、2019 年。
[32] Pauline Luc、Natalia Neverova、Camille Couprie、Jakob Verbeek、および Yann LeCun。セマンティック セグメンテーションの将来をより深く予測します
IEEE International Conference on Computer Vision (ICCV)、2017 年。
[33] Yang Zou、Zhiding Yu、BVK Vijaya Kumar、および Jinsong Wang。
クラスバランス型自己トレーニングによるセマンティック セグメンテーションのドメイン適応。2018 年欧州コンピューター ビジョン会議 (ECCV) にて。
[34] Yang Zou、Zhiding Yu、Xiaofeng Liu、BVK Vijaya Kumar、および Jinsong Wang。信頼性の正規化
セルフトレーニング。IEEE International Conference on Computer Vision (ICCV)、2019年。
[35] Ahmet Iscen、Giorgos Tolias、Yannis Avrithis、および Ondrej Chum。深い半
教師あり学習のためのラベル伝播。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、5070 ~ 5079 ページ、
2019 年
。 [36] Weiwei Shi、Yihong Gong、Chris Ding、Zhiheng MaXiaoyu Tao、および Nanning Zheng。min-max 特徴を使用したトランスダクティブ半教師あり深層学習。
ヨーロッパコンピュータビジョン会議 (ECCV)の議事録、299 ~ 315 ページ、2018 年
。 [37] Yiting Li、Lu Liu、Robby T Tan。半教師あり学習における分離された確実性主導型の一貫性損失。
arXiv、arXiv–1901 ページ、2019 年。
[38] 何開明、張祥宇、任少青、孫建。画像認識のための深層残差学習。
コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、770 ~ 778 ページ、2016 年。[
39] Antti Tarvainen および Harri Valpola。意地悪な教師はより良い模範となる: 加重平均一貫性目標により
半教師あり深層学習の結果が改善される、2017 年。
[40] Adam Paszke、Sam Gross、Francisco Massa、Adam Lerer、James Bradbury、Gregory Chanan、Trevor Killeen、
Zeming Lin、Nataliaギメルシャイン、ルカ・アンティガ 他 Pytorch: 命令型スタイルの高性能深層
学習ライブラリ。『神経情報処理システムの進歩』、8024 ~ 8035 ページ、2019 年。
[41] ウェイ・リウ、アンドリュー・ラビノビッチ、アレクサンダー・C・バーグ。パーセネット: よりよく見るためにより広く見る、2015 年。
[42] Zheng Yang Deng Cai Shuai Zhao、Yang Wang。セマンティック セグメンテーションの領域相互情報損失。NeurIPSにて
、2019 年。
[43] マリウス・コルツ、モハメド・オムラン、セバスティアン・ラモス、ティモ・レーフェルト、マルクス・エンツヴァイラー、ロドリゴ・ベネンソン、ウーヴェ・フランケ、ステファン・
ロート、ベルント・シーレ。セマンティックな都市シーンを理解するための都市景観データセット。プロセスで。
[44] Yuan
Yuhui、Xie Jingyi、Chen Xilin、および Wang Jingdong。Segfix:
セグメンテーションのためのモデルに依存しない境界調整。arXiv プレプリント、2020 年。
[45] ゲルハルト・ノイホルト、トビアス・オルマン、サミュエル・ロタ・ブロー、ペーター・コンシーダー。
街路シーンを意味的に理解するための地図表示データセット。2017 年コンピューター ビジョンに関する国際会議 (ICCV) にて。
[46] Lorenzo Porzi、Samuel Rota Bulo、Aleksander Colovic、Peter Kontschieder。シームレスなシーンのセグメンテーション。コンピューター ビジョンとパターン認識 (CVPR)に関する
IEEE 会議、2019 年 6 月。
[47] Tien-Ju Yang、Maxwell D Collins、Yukun Zhu、Jyh-Jing Hwang、Ting Liu、Xiao Zhang、Vivienne Sze、George
Papandreou、およびリャンチエ・チェン。Deeperlab: シングルショット画像パーサー。arXiv プレプリント arXiv:1902.05093、2019

おすすめ

転載: blog.csdn.net/wagnbo/article/details/131023408