画像セグメンテーション - Fast-SCNN: 高速セマンティック セグメンテーション ネットワーク (arXiv 2019)

免責事項: この翻訳は単なる個人的な研究記録です。

記事情報

まとめ

  エンコーダ/デコーダ フレームワークは、オフライン セマンティック イメージ セグメンテーションのための最先端のフレームワークです。自律システムの台頭により、リアルタイム コンピューティングの人気が高まっています。この論文では、低メモリの組み込みデバイスでの効率的なセグメンテーションに適した、高解像度画像データ (1024×2048px) のリアルタイム セマンティック セグメンテーション モデルである高速セグメンテーション畳み込みニューラル ネットワーク (Fast-SCNN) を紹介します。既存の 2 つの高速セグメンテーション ブランチ手法に基づいて、複数の解像度ブランチの低レベルの特徴を同時に計算する「学習済みダウンサンプリング」モジュールを導入します。当社のネットワークは、高解像度の空間詳細と低解像度で抽出された深いフィーチャを組み合わせ、毎秒 123.5 フレームで都市景観上で平均交差対結合比の精度 68.0% を実現します。また、大規模な事前トレーニングが不要であることも示します。ImageNet の事前トレーニングと Cityscapes の大まかにラベル付けされたデータに対する実験で、メトリクスを徹底的に検証します。最後に、ネットワークを変更することなく、サブサンプリングされた入力に対して競合する結果をもたらす高速計算を実証します。

1 はじめに

  高速セマンティック セグメンテーションは、環境との応答性の高い対話を促進するために入力が迅速に解析されるリアルタイム アプリケーションで特に重要です。自律システムとロボット工学への関心の高まりにより、リアルタイムのセマンティック セグメンテーションの研究が最近非常に人気を得ていることは明らかです [21、34、17、25、36、20]。実際、セマンティックラベル付けは他のタイムクリティカルなタスクの前処理ステップとしてのみ使用されることが多いため、実際にはリアルタイムよりも高速なパフォーマンスが必要になることが多いことを強調します。さらに、組み込みデバイス上のリアルタイム セマンティック セグメンテーション (強力な GPU へのアクセスなし) により、ウェアラブル デバイスの拡張現実など、多くの追加アプリケーションが可能になります。文献では、セマンティック セグメンテーションは通常、エンコーダ/デコーダ フレームワークを備えたディープ畳み込みニューラル ネットワーク (DCNN) によって対処されていることがわかります [29、2]。一方で、多くのランタイム効率の高い実装では 2 ブランチまたはマルチブランチ アーキテクチャが採用されています [21、 34、17]。いつもの

  • より大きな受容野は、ターゲットクラス間の複雑な相関関係(つまり、グローバルコンテキスト)を学習するために重要です。

  • 画像内の空間的な詳細は、オブジェクトの境界を維持するために必要です。

  • (分類 DCNN を再ターゲットするのではなく) 速度と精度のバランスをとるには、特定の設計が必要です。

  具体的には、2 ブランチ ネットワークでは、より深いブランチは低解像度でグローバル コンテキストをキャプチャするために使用され、浅いブランチはフル入力解像度で空間の詳細を学習するように設定されます。最終的なセマンティック セグメンテーションの結果は、2 つをマージすることによって提供されます。重要なのは、より深いネットワークの計算コストは​​入力サイズを小さくすることで克服でき、フル解像度の実行は少数のレイヤーのみに使用されるため、最新の GPU でリアルタイム パフォーマンスを実現できることです。エンコーダ/デコーダ フレームワークと比較すると、2 ブランチ アプローチでは、異なる解像度の初期畳み込みが共有されません。ここで、Guided Upsampling Network (GUN) [17] と Image Cascade Network (ICNet) [36] は最初の数層の間でのみ重みを共有し、計算は共有しないことに注目する価値があります。

  この研究では、高速セグメンテーション畳み込みニューラル ネットワーク Fast-SCNN を提案します。これは、古典的なエンコーダ/デコーダ フレームワーク [29、2] を備えた最先端の 2 分岐セットアップ [21、34、17、36] です。リアルタイムのセマンティック セグメンテーション アルゴリズム (図 1)。低レベルの特徴を抽出する初期 DCNN 層に関する観察 [35、19] に基づいて、2 分岐アプローチで初期層の計算を共有します。この手法をダウンサンプリング学習と呼びます。この効果はエンコーダ/デコーダ モデルのスキップ接続に似ていますが、スキップは実行時の効率を維持するために 1 回だけ使用され、効率的な機能共有を確保するためにモジュールは浅く保たれます。最後に、私たちの Fast-SCNN は、効率的な深さ方向の分離可能な畳み込み [30、10] と逆残差ブロック [28] を採用しています。

ここに画像の説明を挿入

図 1. Fast-SCNN は 2 つのブランチ (エンコーダー) 間で計算を共有し、複数のリアルタイム セマンティック セグメンテーション ネットワークを構築します。

  都市景観 [6] に適用された Fast SCNN は、平均 68.0% ( mIoU) の交差結合率を生成します。これは、最先端の BiSeNet (71.4% mIoU) [34] の 2 倍の速さです。

  私たちは 111 万個のパラメータを使用しますが、ほとんどのオフライン セグメンテーション手法 (DeepLab [4] や PSPNet [37] など) や一部のリアルタイム アルゴリズム (GUN [17] や ICNet [36] など) では、それよりもはるかに多くのパラメータが必要です。Fast-SCNN のモデル能力は特に低いです。その理由は 2 つあります。(i) メモリが少ないため組み込みデバイスでの実行が可能になり、(ii) より優れた汎用性が期待されます。特に、ImageNet [27] での事前トレーニングは、精度と汎用性を向上させるためによく提案されています [37]。私たちの研究では、低容量の高速 SCNN に対する事前トレーニングの影響を調査しています。大容量ネットワークの傾向とは反対に、事前トレーニングまたは追加の大まかにラベル付けされたトレーニング データ (Cityscapes [6] で +0.5% mIoU) では、結果にわずかな改善しか得られないことがわかりました。要約すると、私たちの貢献は次のとおりです。

  1. 我々は、高解像度画像 (1024×2048px) に対して競合 (68.0%) 以上のリアルタイム セマンティック セグメンテーション アルゴリズム (123.5fps) である Fast-SCNN を紹介します。

  2. オフライン DCNN で一般的なスキップ接続を適応させ、高速かつ効率的なマルチブランチの低レベル特徴抽出のための浅い学習ダウンサンプリング モジュールを提案します。

  3. 私たちは特に低容量になるように Fast SCNN を設計し、より多くのエポックで実行されるトレーニングが、ImageNet 事前トレーニングまたは小容量ネットワークでの追加の粗いデータを使用したトレーニングと同様に成功することを経験的に検証しています。

  さらに、Fast-SCNN を使用して入力データをサブサンプリングし、ネットワークの再設計を必要とせずに最先端のパフォーマンスを実現します。

2.関連作品

  私たちは、エネルギーとメモリ要件が低いリアルタイム実行に特に焦点を当てて、セマンティック画像セグメンテーションのフレームワークを議論および比較します [2、20、21、36、34、17、25、18]。

2.1 セマンティックセグメンテーションの基礎

  セマンティック セグメンテーション用の最先端の DCNN は、エンコーダとデコーダという 2 つの独立したモジュールを組み合わせています。エンコーダ モジュールは、畳み込み演算とプーリング演算を組み合わせて使用​​して、DCNN 特徴を抽出します。デコーダ モジュールは、サブ解像度の特徴から空間の詳細を復元し、オブジェクトのラベルを予測します (つまり、セマンティック セグメンテーション) [29、2]。最も一般的には、エンコーダは VGG [31] や ResNet [9] などの単純な分類 DCNN 手法に適応されます。セマンティック セグメンテーションでは、完全に接続されたレイヤーが削除されます。

  独創的な完全畳み込みネットワーク (FCN) [29] は、最新のセグメンテーション アーキテクチャの基礎を築きます。具体的には、FCN は、空間詳細を回復するための双線形アップサンプリングのための下位層からのスキップ接続と組み合わせたエンコーダーとして VGG [31] を採用しています。U-Net [26] は、高密度スキップ接続を使用して空間の詳細をさらに活用します。

  その後、DCNN [13, 16] 以前のグローバルな画像レベルのコンテキストに触発されて、PSPNet [37] のピラミッド プーリング モジュールと DeepLab [4] のシュリンキング スペース ピラミッド プーリング (ASPP) が、グローバル画像レベルのコンテキストをエンコードして活用するために使用されました。コンテクスト。

  他の競合ベース セグメンテーション アーキテクチャでは、条件付きランダム フィールド (CRF) [38、3] またはリカレント ニューラル ネットワーク [32、38] が使用されます。ただし、それらはどれもリアルタイムでは実行されません。

  物体検出 [23、24、15] と同様に、速度は画像分割システムの設計において重要な要素になります [21、34、17、25、36、20]。SegNet [2] は、FCN に基づいたエンコーダとデコーダの結合モデルを導入しており、最も初期の効率的なセグメンテーション モデルの 1 つとなります。SegNet に続いて、ENet [20] も、計算コストを削減するために、より少ない層でエンコーダ/デコーダを設計しています。

  最近では、2 分岐システムと複数分岐システムが導入されました。ICNet [36]、ContextNet [21]、BiSeNet [34]、および GUN [17] は、浅いブランチでフル解像度で境界を学習しながら、深いブランチで低解像度の入力でグローバル コンテキストを学習します。

  ただし、最先端のリアルタイム セマンティック セグメンテーションは依然として課題が多く、通常はハイエンドの GPU が必要です。Fast-SCNN は 2 つの分岐方法からインスピレーションを得たもので、共有の浅いネットワーク パスを組み込んで、低解像度で効率的にコンテキストを学習しながら詳細をエンコードします (図 2)。

2.2 DCNNの効率

  効率的な DCNN のための一般的な手法は、次の 4 つのカテゴリに分類できます。

  深さ方向の分離可能な畳み込み: MobileNet [10] は、標準の畳み込みを深さ方向の畳み込みと 1×1 ポイントの畳み込みに分解し、これらを総称して深さ方向の分離可能な畳み込みと呼びます。この因数分解により、浮動小数点演算と畳み込みパラメータが削減されるため、モデルの計算コストとメモリ要件が削減されます。

  DCNN の効率的な再設計: Chollet [5] は、効率的な深さ方向の分離可能な畳み込みを使用して Xception ネットワークを設計しました。MobleNet-V2 は、分類タスク用の効率的な DCNN を構築するために、逆ボトルネック残差ブロック [28] を提案しています。ContextNet [21] は、逆ボトルネック残差ブロックを使用して、効率的なリアルタイム セマンティック セグメンテーションのためのデュアル ブランチ ネットワークを設計します。同様に、[34、17、36] は、リアルタイム パフォーマンスを達成するためのマルチブランチ セグメンテーション ネットワークを提案しています。

  ネットワーク量子化: 浮動小数点乗算は整数演算やバイナリ演算に比べてコストがかかるため、DCNN フィルタとアクティベーションの量子化技術を使用して実行時間をさらに短縮できます [11、22、33]。

  ネットワーク圧縮: プルーニングは、事前トレーニングされたネットワークのサイズを縮小するために使用され、その結果、実行時間が短縮され、パラメーター セットが小さくなり、メモリ フットプリントが小さくなります [21、8、14]。

  Fast-SCNN は、深さ方向に分離可能な畳み込みと残留ボトルネック ブロックに大きく依存しています [28]。さらに、学習からダウンサンプリングまでのモジュールを組み込んだデュアルブランチ モデルを導入し、複数の解像度レベルでの共有特徴抽出を可能にします (図 2)。複数のブランチの最初の層では同様の特徴が抽出されますが [35、19]、一般的な 2 ブランチ手法ではこれが利用されないことに注意してください。ネットワーク量子化とネットワーク圧縮は直交的に適用でき、将来の作業に委ねられます。

ここに画像の説明を挿入

図 2: エンコーダ/デコーダと 2 つの分岐アーキテクチャを備えた Fast-SCNN の概略比較。エンコーダ/デコーダは、通常は深さ方向の畳み込みブロックによって生成される、多くの解像度で複数のスキップ接続を使用します。2 つの分岐方法は、低解像度のグローバルな特徴と浅い空間​​の詳細を利用します。Fast-SCNN は、モジュールをダウンサンプリングする学習において、グローバル コンテキストと最初の層の空間詳細を同時にエンコードします。

2.3 補助タスクの事前トレーニング

  補助タスクの事前トレーニングによりシステムの精度が向上することが一般に認められています。オブジェクト検出 [7] とセマンティック セグメンテーション [4、37] に関する以前の研究では、ImageNet [27] での事前トレーニングでこれを示しています。この傾向に従って、他のリアルタイムの効率的なセマンティック セグメンテーション手法も ImageNet で事前トレーニングされています [36、34、17]。ただし、低容量のネットワークで事前トレーニングが必要かどうかは不明です。Fast-SCNN は、低容量向けに特別に設計されています。私たちの実験では、小規模なネットワークでは事前トレーニングから大きなメリットが得られないことがわかりました。対照的に、積極的なデータ拡張とより多くのエポックでは、同様の結果が得られました。

3. 提案する Fast-SCNN

  Fast-SCNN は、2 ブランチ アーキテクチャ [21、34、17] とスキップ接続を備えたエンコーダ/デコーダ ネットワーク [29、26] からインスピレーションを得ています。初期の層は通常、低レベルの特徴を抽出することに注意してください。スキップ接続をダウンサンプリングされた学習モジュールとして再解釈することで、両方のフレームワークからの重要なアイデアを統合し、高速なセマンティック セグメンテーション モデルを構築できるようになります。図 1 と表 1 に Fast-SCNN のレイアウトを示します。以下では、私たちの動機について説明し、構成要素について詳しく説明します。

ここに画像の説明を挿入

表 1. Fast-SCNN は、標準畳み込み (Conv2D)、深さ方向分離可能畳み込み (DSConv)、逆残差ボトルネック ブロック (ボトルネック)、ピラミッド プーリング モジュール (PPM)、および機能融合モジュール (FFM) ブロックを使用します。パラメータ t、c、n、s は、ボトルネック ブロックの拡張係数、出力チャネルの数、ブロックの繰り返し回数、および繰り返されるブロックの最初のシーケンスに適用されるストライド パラメータを示します。水平線はモジュールを区切っています: 学習ダウンサンプリング、グローバル特徴抽出、特徴融合、および分類器 (上から下)。

3.1 動機

  リアルタイムで動作する現在の最先端のセマンティック セグメンテーション方法は、それぞれが異なる解像度レベルで動作する 2 つのブランチを持つネットワークに基づいています [21、34、17]。入力画像の低解像度バージョンからグローバル情報を学習し、フル入力解像度で浅いネットワークを使用してセグメンテーション結果の精度を向上させます。入力解像度とネットワークの深さが実行時間の主な要素であるため、これら 2 つの分岐方法によりリアルタイム計算が可能になります。

  DCNN の最初の数層がエッジやコーナーなどの低レベルの特徴を抽出することはよく知られています [35、19]。したがって、別々の計算を行う 2 つのブランチ アプローチの代わりに、浅いネットワーク ブロック内の低レベル ブランチと高レベル ブランチの間で特徴量の計算を共有するダウンサンプリングに学習を導入します。

3.2 ネットワークアーキテクチャ

  当社の Fast-SCNN は、学習されたダウンサンプリング モジュール、粗いグローバル特徴抽出器、特徴融合モジュール、および標準分類子を使用します。すべてのモジュールは、深さ方向に分離可能な畳み込みを使用して構築されており、これは多くの効率的な DCNN アーキテクチャの重要な構成要素となっています [5、10、21]。

ここに画像の説明を挿入

表 2. ボトルネック残差ブロックは、拡張係数 t で入力を c チャネルから c' チャネルに転送します。最後の点ごとの畳み込みでは非線形 f が使用されないことに注意してください。入力は高さ h、幅 w を持ち、x/s は層のカーネル サイズとストライドを表します。

3.2.1 ダウンサンプリングの学習

  学習済みダウンサンプリング モジュールでは、3 つのレイヤーを使用します。低レベルの機能共有が効果的で効率的に実装されることを保証するために、3 つのレイヤーのみが使用されます。最初の層は標準畳み込み層 (Conv2D) で、残りの 2 層は深さ方向に分離可能な畳み込み層 (DSConv) です。ここで、DSConv の方が計算効率が高いにもかかわらず、入力画像には 3 つのチャネルしかなく、この段階では DSConv の計算上の利点が無視できるため、Conv2D を使用することを強調します。

  学習されたダウンサンプリング モジュールの 3 つの層はすべて、ストライド 2 を使用し、その後にバッチ正規化 [12] と ReLU が続きます。畳み込み層と深さ層の空間カーネル サイズは 3×3 です。[5、28、21] に従って、深さ方向の畳み込みと点方向の畳み込みの間の非線形性を省略します。

3.2.2 グローバル特徴抽出器

  グローバル特徴抽出モジュールは、画像セグメンテーションのグローバル コンテキストをキャプチャすることを目的としています。入力画像の低解像度バージョンを操作する一般的な 2 分岐メソッドとは異なり、このモジュールは学習した出力をダウンサンプリングされたモジュールとして直接取得します (解像度は元の入力の 1 8 \frac{1}{8} です)81)。このモジュールの詳細な構造を表 1 に示します。MobileNet-V2 [28] (表 2) によって導入された効率的なボトルネック残差ブロックを使用します。特に、入力サイズと出力サイズが同じ場合、ボトルネック残差ブロックに対して残差接続を使用します。ボトルネック ブロックは、効率的な深さ方向の分離可能な畳み込みを使用し、パラメーターと浮動小数点演算の数を減らします。さらに、異なる領域に基づいてコンテキスト情報を集約するために、ピラミッド プーリング モジュール (PPM) [37] が最後に追加されます。

3.2.3 機能融合モジュール

  ICNet [36] や ContextNet [21] と同様に、効率を確保するために単純に機能を追加することを好みます。あるいは、より洗練された機能融合モジュール ([34] など) を使用して、実行時のパフォーマンスを犠牲にして精度を向上させることもできます。機能融合モジュールの詳細を表 3 に示します。

ここに画像の説明を挿入

表 3. Fast-SCNN の機能融合モジュール (FFM)。点ごとの畳み込みは目的の出力を持ち、非線形 f を使用しないことに注意してください。特徴を追加した後、非線形 f が使用されます。

3.2.4 分類器

  分類器では、2 つの深さ方向の分離可能な畳み込み (DSConv) と 1 つの点方向の畳み込み (Conv2D) を使用します。特徴融合モジュールの後にいくつかのレイヤーを追加すると精度が向上することがわかりました。分類器モジュールの詳細を表 1 に示します。

  Softmax は適切な勾配を使用するため、トレーニング中に使用されます。推論中に、両方の関数が単調増加するため、コストのかかるソフトマックス計算を argmax に置き換えることができます。このオプションを Fast-SCNN cls(classification) と呼びます。一方、標準の DCNN ベースの確率モデルが必要な場合は、Fast-SCNN prob(probability) として示されるソフトマックスが使用されます。

3.3 既存技術との比較

  私たちのモデルは 2 ブランチ フレームワークからインスピレーションを得ており、エンコーダー・デ・エンコーダーのアプローチからのアイデアを組み込んでいます (図 2)。

3.3.1 2分岐モデルとの関係

  最先端のリアルタイム モデル (ContextNet [21]、BiSeNet [34]、GUN [17]) は 2 つのブランチ ネットワークを使用します。ダウンサンプリングされた学習モジュールは、浅く、フル解像度から学習され、特徴融合モジュールに使用されるため、空間パスと同等です (図 1)。

  私たちのグローバル特徴抽出モジュールは、このメソッドのより深い低解像度ブランチに相当します。代わりに、グローバル特徴抽出器は、最初の数層の計算を学習されたダウンサンプリング モジュールと共有します。レイヤーを共有することで、特徴抽出の計算の複雑さが軽減されるだけでなく、Fast-SCNN は1 8 \frac{1}{8}を使用するため、必要な入力サイズも削減されます。811 4 \frac{1}{4}の代わりに解像度41グローバル特徴抽出の解像度。

3.3.2 エンコーダ・デコーダモデルとの関係

  提案された Fast-SCNN は、FCN [29] や U-Net [26] のようなエンコーダ/デコーダ フレームワークの特殊なケースとみなすことができます。ただし、FCN の複数のスキップ接続や U-Net の高密度のスキップ接続とは異なり、Fast-SCNN は計算とメモリを削減するために 1 つのスキップ接続のみを使用します。

  DCNN の初期層でのみ機能を共有することを推奨する [35] と一致して、ネットワークの初期段階でスキップ接続を見つけます。対照的に、従来技術は通常、スキップ接続を適用する前に、各解像度でより深いモジュールを使用します。

4. 実験

  私たちは、Cityscapes データセット [6] の検証セットで提案した高速セグメンテーション畳み込みニューラル ネットワーク (Fast-SCNN) を評価し、Cityscapes テスト セット (つまり、Cityscabes ベンチマーク サーバー) でのパフォーマンスを報告します。

4.1 実装の詳細

  効率的な DCNN に関しては、実装の詳細が理論と同じくらい重要です。したがって、ここではセットアップを注意深く説明します。Pythonを使用した機械学習プラットフォームTensorFlowの実験を行いました。私たちの実験は、Nvidia Titan X (Maxwell) または Nvidia Titan Xp (Pascal) GPU、CUDA 9.0、および CuDNN v7 を搭載したワークステーションで実行されます。実行時評価は単一の CPU スレッドと GPU で実行され、前方推論時間を測定します。100 フレームを使用して書き込みを行い、平均 100 フレーム/秒 (fps) の測定値を報告します。

  運動量 0.9、バッチ サイズ 12 の確率的勾配降下法 (SGD) を使用します。[4, 37, 10] からインスピレーションを得て、基本学習率 0.045、検出力 0.9 の「ポリ」学習率を使用します。MobileNet-V2 と同様に、 ℓ 2 \ell2であることがわかります。2正則化は深さ方向の畳み込みでは不要です。他の層ではℓ 2 \ell22は 0.00004 です。セマンティック セグメンテーションのトレーニング データは限られているため、0.5 ~ 2 の間のランダムなサイズ変更、変換/トリミング、水平反転、カラー チャネル ノイズと明るさなど、さまざまなデータ拡張手法を適用します。私たちのモデルはクロスエントロピー損失を使用してトレーニングされています。ダウンサンプリングの終わりまでの補助損失と重み 0.4 のグローバル特徴抽出モジュールを学習することが有益であることがわかりました。

  バッチ正規化 [12] は、各非線形関数の前に使用されます。ドロップアウトは、ソフトマックス レイヤの前の最後のレイヤでのみ使用されます。MobileNet [10] や ContextNet [21] とは対照的に、モデル全体で使用する深さ方向の分離可能な畳み込みを使用した場合でも、Fast-SCNN は ReLU を使用するとより高速にトレーニングし、ReLU6 よりわずかに高い精度を達成できることがわかりました。

  DCNN のパフォーマンスは、より多くの反復回数でトレーニングすることで改善できることがわかりました。そのため、特に明記しない限り、Cityescapes データセット [6] を使用してモデルを 1000 エポックでトレーニングします。ここで、111 万個のパラメータを使用するため、Fast-SCNN の容量が意図的に非常に低く設定されていることは注目に値します。後で、積極的なデータ拡張技術により過剰適合の可能性が低くなることを示します。

ここに画像の説明を挿入

表 4. Cityscapes テスト セットでの他の最先端のセマンティック セグメンテーション手法と比較した、提案された Fast-SCNN のクラスおよびカテゴリ mIoU。パラメータの数は数百万単位です。

ここに画像の説明を挿入

表 5. Nvidia Titan X (Maxwell、3072 CUDA コア) での TensorFlow ランタイム (fps) [1]。「*」の付いた方法は、Nvidia Titan Xp (Pascal、3840 CUDA コア) での結果を示します。Fast-SCNN の 2 つのバージョン、ソフトマックス出力 (prob) とターゲット ラベル出力 (cls) を示します。

4.2 都市景観の評価

  私たちは、都市の道路に関する最大の公的に利用可能なデータセットである都市景観に関する私たちの提案した Fast-SCNN を評価します [6]。このデータセットには、ヨーロッパの 50 の異なる都市から撮影されたさまざまな高解像度画像 (1024×2048px) のセットが含まれています。高ラベル品質の画像が 5000 枚あります。トレーニング用に 2975 枚、検証用に 500 枚、テスト用に 1525 枚です。トレーニング セットと検証セットのラベルが利用可能で、テスト結果は評価サーバーで評価できます。さらに、20,000 個の弱く注釈が付けられた画像 (粗いラベル) をトレーニングに使用できます。細かいデータと細かくラベル付けされた粗いデータのみの両方の結果をレポートします。Cityscapes は 30 のクラス ラベルを提供しますが、評価に使用されるクラスは 19 のみです。交差対和集合比 (mIoU) の平均値とネットワーク推論時間は以下に報告されます。

  Cityscapes のホールドアウト テスト セットで全体的なパフォーマンスを評価します [6]。提案された Fast-SCNN は、他の最先端のリアルタイム セマンティック セグメンテーション手法 (ContextNet[21]、BiSeNet[34]、GUN[17]、ENet[20]、ICNet[36])) とオフラインで同等です。方法 (PSPNet[37] と DeepLab-V2[4] の比較) を表 4 に示します。Fast-SCNN は 68.0% の mIoU を達成し、BiSeNet (71.5%) や GUN (70.4%) よりわずかに低くなります。ContextNet は 66.1% のみを達成しました。

  表 5 は、さまざまな解像度での実行時間を比較しています。ここで、BiSeNet (57.3 fps) と GUN (33.3 fps) は Fast-SCNN (123.5 fps) よりも大幅に遅いです。Fast-SCNN は、ContextNet (41.9 fps) と比較して、Nvidia Titan X (Maxwell) 上でも大幅に高速です。したがって、Fast-SCNN は精度の低下はわずかですが、最先端のランタイムを大幅に改善すると結論付けています。この時点で、私たちのモデルが低メモリの組み込みデバイス向けに設計されていることを強調します。Fast-SCNN は 111 万個のパラメータを使用しますが、これは競合他社の BiSeNet の 580 万個のパラメータに比べて 5 分の 1 です。

  最後に、スキップ接続の寄与をゼロにし、Fast-SCNN のパフォーマンスを測定します。検証セットの mIoU は 69.22% から 64.30% に減少します。定性的な結果を図 3 に示します。予想どおり、Fast-SCNN は、特に境界付近や小さいサイズのオブジェクトにおいて、スキップ接続の恩恵を受けます。

ここに画像の説明を挿入

表 6. Cityscapes 検証セットのさまざまな Fast-SCNN 設定のカテゴリ mIoU。

4.3 事前トレーニングデータと弱くラベル付けされたデータ

  R-CNN [7] や PSPNet [37] などの高容量 DCNN は、さまざまな補助タスクを使用した事前トレーニングによってパフォーマンスが向上することが示されています。Fast-SCNN が低容量になるように特別に設計したため、事前トレーニングの有無、および追加の弱くラベル付けされたデータの有無でパフォーマンスをテストしたいと考えています。私たちの知る限り、低容量 DCNN での事前トレーニングと追加の弱くラベル付けされたデータの重要性はこれまで研究されていませんでした。結果を表6に示す。

  特徴融合モジュールを平均プーリングに置き換えることにより、ImageNet [27] で Fast-SCNN を事前トレーニングします。分類モジュールにはソフトマックス層のみが含まれます。Fast-SCNN は、ImageNet 検証セットで 60.71% のトップ 1 精度と 83.0% のトップ 5 精度を達成します。この結果は、Fast-SCNN の容量が、ImageNet 上のほとんどの標準 DCNN と同等のパフォーマンス (>70% トップ 1) を達成するには不十分であることを示唆しています [10、28]。Cityscapes の検証セットでは、ImageNet 事前トレーニングを使用した Fast-SCNN の精度は 69.15% の mIoU を生成しますが、これは事前トレーニングなしの Fast-SCNN よりも 0.53% 高いだけです。したがって、ImageNet の事前トレーニングでは Fast-SCNN の大幅な改善を達成できないと結論付けます。

ここに画像の説明を挿入

図 3. Fast-SCNN セグメンテーション結果の視覚化。最初の列: 入力 RGB 画像、2 番目の列: Fast-SCNN の出力、最後の列: スキップ接続の寄与をゼロにした後の Fast-SCNN の出力。すべての結果において、Fast-SCNN は、特に境界や小さいサイズのオブジェクトにおいて、スキップ接続の恩恵を受けています。

  Cityscapes の都市道路と ImageNet の分類タスクの重複は限られているため、両方のドメインの容量が限られているため、Fast-SCNN のメリットが得られない可能性があると想定するのが合理的です。したがって、Cityscapes が提供する 20,000 個の大まかにラベル付けされた追加画像を組み込みます。これらの画像は類似したドメインのものであるためです。ただし、粗いトレーニング データ (ImageNet の有無にかかわらず) でトレーニングされた Fast-SCNN は、事前トレーニングなしの元の Fast-SCNN よりも同様に動作し、わずかに改善するだけです。小さな変更は些細なものであり、DCNN のランダムな初期化によるものであることに注意してください。

  ここで、補助タスクの処理はネットワーク内のアーキテクチャの変更が必要なため、簡単ではないことに注意してください。さらに、ライセンスの制約とリソースの不足により、このセットアップはさらに制限されます。ImageNet の事前トレーニングも弱くラベル付けされたデータも、低容量の DCNN に大きな利益をもたらすことがないことが示されたため、これらのコストが節約されます。図 4 はトレーニング曲線を示しています。粗いデータでトレーニングされた Fast-SCNN は、ラベルの品質が弱いため、反復の点で遅くなります。どちらの ImageNet 事前トレーニング済みバージョンも、初期のエポック (トレーニング セットのみの場合は最大 400 エポック、追加の粗いラベル付けされたデータを使用してトレーニングする場合は 100 エポック) でパフォーマンスが向上します。これは、モデルを最初からトレーニングする場合、同様の精度を達成するためにモデルをより長くトレーニングするだけで済むことを意味します。

ここに画像の説明を挿入

図 4. 都市景観上のトレーニング カーブ。反復精度 (上) とエポック精度 (下) が表示されます。破線は、Fast-SCNN の ImageNet 事前トレーニングを表します。

4.4 入力解像度の低下

  フル解像度の入力がない、または強力な GPU にアクセスできない組み込みデバイスに興味があるため、半分および 4 分の 1 の入力解像度でのパフォーマンスを調査して評価を終了します (表 7)。

  1/4 解像度では、Fast-SCNN は 485.4 フレーム/秒で 51.9% の精度を達成し、250 フレーム/秒の (匿名) MiniNet で mIoU を 40.7% 大幅に改善します [6]。半分の解像度では、285.8 フレーム/秒で 62.8% mIoU を達成できます。Fast-SCNN は変更を加えることなく、より低い入力解像度に直接適用できるため、組み込みデバイスに最適であることを強調します。

ここに画像の説明を挿入

図 5. Cityscapes [6] 検証セットに対する Fast-SCNN の定性的結果。最初の列: 入力 RGB 画像、2 番目の列: グラウンド トゥルース ラベル、最後の列: Fast-SCNN 出力。Fast-SCNN は、68.0% のクラスレベルの mIoU、84.7% のカテゴリレベルの mIoU を達成します。

ここに画像の説明を挿入

表 7. Cityscapes テスト セットでのさまざまな入力解像度での Fast-SCNN の実行時間と精度 [6]。

5。結論

  上で説明したように、リアルタイムのシーン理解のための高速セグメンテーション ネットワークを提案します。マルチブランチ ネットワークを共有する計算コストにより、実行時の効率が向上します。実験では、スキップ接続が空間の詳細を復元するのに有益であることが示されています。また、低容量ネットワークの場合、トレーニング時間が十分に長ければ、追加の補助タスクに関するモデルの大規模な事前トレーニングは不要であることも示します。

参考文献

[1] M. アバディら。アル。TensorFlow: 異種システム上の大規模機械学習、2015 年。6
[2] V. Badrinarayanan、A. Kendall、および R. Cipolla。SegNet: 画像セグメンテーションのためのディープ畳み込みエンコーダ/デコーダ アーキテクチャ。TPAMI、2017. 1、2、6
[3] L.-C. チェン、G. パパンドレウ、I. コッキノス、K. マーフィー、AL ユイル。深い畳み込みネットと完全に接続された CRF を使用したセマンティック画像セグメンテーション、2014. 2
[4] L.-C. チェン、G. パパンドレウ、I. コッキノス、K. マーフィー、AL ユイル。DeepLab: 深層畳み込みネット、Atrous 畳み込み、および完全に接続された CRF を使用したセマンティック画像セグメンテーション。arXiv:1606.00915 [cs]、2016. 2、3、5、6
[5] F. Chollet。Xception: 深さ方向に分離可能な畳み込みを使用した深層学習。arXiv:1610.02357 [cs]、2016. 3、4
[6] M. コード、M. オムラン、S. ラモス、T. レーフェルド、M. エンツヴァイラー、R. ベネンソン、U. フランケ、S. ロス、および B. シーレ。セマンティックな都市シーンを理解するための都市景観データセット。CVPR、2016 年。2、5、6、8
[7] R. Girshick、J. Donahue、T. Darrell、および J. Malik。正確なオブジェクト検出とセマンティック セグメンテーションのための豊富な機能階層、2013 年 3、6
[8] S. Han、H. Mao、および WJ Dally。深層圧縮: プルーニング、訓練された量子化、およびハフマン コーディングを使用して深層ニューラル ネットワークを圧縮します。ICLR、2016 年。3
[9] K. He、X. Zhang、S. Ren、および J. Sun。画像認識のための深層残差学習。arXiv:1512.03385 [cs]、2015. 2
[10] A. ハワード、M. ジュー、B. チェン、D. カレニチェンコ、W. ワン、T. ウェイアンド、M. アンドリート、および H. アダム。MobileNets: モバイル ビジョン アプリケーション向けの効率的な畳み込みニューラル ネットワーク。arXiv:1704.04861 [cs]、2017. 2、3、4、5、6
[11] I. Hubara、M. Courbariaux、D. Soudry、R. El-Yaniv、および Y. Bengio。二値化されたニューラル ネットワーク。生理学研究所にて。2016. 3
[12] S. イオッフェと C. セゲディ。バッチ正規化: 内部共変量シフトを削減することでディープ ネットワーク トレーニングを加速します。arXiv:1502.03167 [cs]、2015 年 4、5
[13] S. Lazebnik、C. Schmid、および J. Ponce。特徴のバッグを超えて: 自然シーンのカテゴリを認識するための空間ピラミッド マッチング。CVPR、第 2 巻、2169 ~ 2178 ページ、2006 年。2
[14] H. Li、A. Kadav、I. Durdanovic、H. Samet、および HP Graf。効率的な ConvNet のためのプルーニング フィルター。ICLR にて、2017.3
[15] W. リュー、D. アンゲロフ、D. エルハン、C. セゲディ、S. リード、C.-Y. フー、そしてACバーグ。ssd: シングルショットマルチボックス検出器。2015. 2
[16] A. ルッキ、Y. リー、XB ボッシュ、K. スミス、および P. フア。空間的およびグローバルな制約はセグメンテーションに本当に必要ですか? ICCV、2011 年。2
[17] D. マッツィーニ。リアルタイムのセマンティック セグメンテーションのためのガイド付きアップサンプリング ネットワーク。BMVC にて、2018 年。1、2、3、4、5、6
[18] S. Mehta、M. Rastegari、A. Caspi、L. Shapiro、および H. Hajishirzi。ESPNet: セマンティック セグメンテーションのための拡張畳み込みの効率的な空間ピラミッド。arXiv:1803.06815 [cs]、2018. 2
[19] C. Olah、A. Mordvintsev、および L. Schubert。機能の視覚化。蒸留、2017. 1、3、4
[20] A.パスケ、A.シャウラシア、S.キム、E.クルルシエロ。ENet: リアルタイム セマンティック セグメンテーションのためのディープ ニューラル ネットワーク アーキテクチャ。arXiv:1606.02147 [cs]、2016 年 1、2、3、6
[21] R. Poudel、U. Bonde、S. Liwicki、および S. Zach。Contextnet: セマンティック セグメンテーションのコンテキストと詳細をリアルタイムで調査します。BMVC にて、2018 年。1、2、3、4、5、6
[22] M. ラステガリ、V. オルドネス、J. レドモン、A. ファルハディ。XNOR-Net: バイナリ畳み込みニューラル ネットワークを使用した ImageNet 分類。ECCV、2016 年。3
[23] J. Redmon、S. Divvala、R. Girshick、および A. Farhadi。確認するのは一度だけです: 統合されたリアルタイムの物体検出。CVPR、2016 年。2
[24] J. Redmon および A. Farhadi。Yolo9000: より良く、より速く、より強く、2016. 2
[25] E・ロメラ、J・M・アルバレス、LM・ベルガサ、R・アロヨ。ERFNet: リアルタイム セマンティック セグメンテーションのための効率的な残差因数分解 ConvNet。高度道路交通システムに関する IEEE トランザクション、2018 年 1、2、6
[26] O. Ronneberger、P. Fischer、および T. Brox。U-Net: 生物医学画像セグメンテーションのための畳み込みネットワーク。MICCAI にて、2015 年。2、3、5
[27] O. Russakovsky、J. Deng、H. Su、J. Krause、S. Satheesh、S. Ma、Z. Huang、A. Karpathy、A. Khosla、M . バーンスタイン、A. バーグ、L. フェイフェイ。ImageNet の大規模視覚認識チャレンジ。国際コンピュータービジョンジャーナル (IJCV)、2015. 2、3、6
[28] M. サンドラー、A. ハワード、M. ジュー、A. ジモギノフ、L.-C. チェン。逆残差と線形ボトルネック: 分類、検出、セグメンテーションのためのモバイル ネットワーク。arXiv:1801.04381​​ [cs]、2018. 2、3、4、6
[29] E. シェルハマー、J. ロング、および T. ダレル。セマンティック セグメンテーションのための完全な畳み込みネットワーク。PAMI、2016 年。1、2、3、5
[30] L. シフレ。画像分類のためのリジッドモーション散乱。博士論文、2014 年。2
[31] K. Simonyan および A. Zisserman。大規模な画像認識のための非常に深い畳み込みネットワーク。CoRR、abs/1409.1556、2014. 2
[32] F. Visin、M. Ciccone、A. Romero、K. Kastner、K. Cho、Y. Bengio、M. Matteucci、および A. Courville。Reseg: セマンティック セグメンテーションのためのリカレント ニューラル ネットワーク ベースのモデル、2015 年。2
[33] S.ウー、G.リー、F.チェン、およびL.シー。ディープ ニューラル ネットワークにおける整数のトレーニングと推論。ICLR、2018 年。3
[34] C. Yu、J. Wang、C. Peng、C. Gao、G. Yu、および N. Sang。Bisenet: リアルタイムのセマンティック セグメンテーションのための双方向セグメンテーション ネットワーク。ECCV、2018 年。1、2、3、4、5、6
[35] MD Zeiler および R. Fergus。畳み込みネットワークの視覚化と理解。ECCV、2014 年。1、3、4、5
[36] H. Zhao、X. Qi、X. Shen、J. Shi、および J. Jia。高解像度画像のリアルタイム セマンティック セグメンテーションのための ICNet。ECCV、2018 年。1、2、3、4、6
[37] H. Zhao、J. Shi、X. Qi、X. Wang、および J. Jia。ピラミッド シーン解析ネットワーク。CVPR にて、2017 年 2、3、4、5、6
[38] S. チェン、S. ジャヤスマナ、B. ロメラ-パレデス、V. ビニート、Z. スー、D. ドゥ、C. ファン、および PHS Torr。リカレント ニューラル ネットワークとしての条件付きランダム フィールド。ICCV にて、2015 年 12 月 2

おすすめ

転載: blog.csdn.net/i6101206007/article/details/132098913