I. 概要
SegNet は、自動運転やインテリジェント ロボットを解決するためにケンブリッジによって提案された画像セマンティック セグメンテーション用のディープ ネットワークであり、オープン ソースであり、caffe フレームワークに基づいています。SegNetは FCN に基づいており、VGG-16ネットワークによって得られたセマンティック セグメンテーション ネットワークを修正しています。SegNet には 2 つのバージョン、すなわちSegNetとベイジアン SegNetがあります。同時に、SegNet の作成者は、次に従って基本バージョン(浅いネットワーク)を提供しています。ネットワークの深さ。
2. 構造
1. アーキテクチャの紹介
-
SegNet と FCN の考え方は非常に似ていますが、Encoder と Decoder で使用されるテクノロジーには一貫性がありません。
-
SegNet のエンコーダ部分は、VGG16 の畳み込みネットワークの最初の 13 層を使用します。
-
各エンコーダ層はデコーダ層に対応します。
-
最終デコーダの出力はソフトマックス分類器に供給され、各ピクセルのクラス確率を個別に生成します。
-
左側はコンボリューション抽出機能で、プーリングにより受容野を増加させると同時に画像を小さくします。この処理はエンコーダーと呼ばれます。
-
右側はデコンボリューション (ここではデコンボリューションとコンボリューションに違いはありません) とアップサンプリングです。デコンボリューションにより、画像分類の特徴が再現され、アップサンプリングは画像の元のサイズに復元されます。このプロセスは Decoder と呼ばれます。
- 緑のプーリングと赤のアップサンプリングは、最大プーリング インデックス(最大プーリング インデックス) を通じて接続されています。
-
最後に、Softmaxを通じて、さまざまな分類の最大値が出力され、最終的なセグメンテーション マップが取得されます。
2.エンコーダー
-
畳み込み層 + バッチ正規化層 + RELU、その後に最大プーリングが続きます。
-
SegNet で使用される畳み込みは同じ畳み込みです。つまり、画像の元のサイズは畳み込み後も維持されます。
3.デコーダー—プーリングとアップサンプリング
-
Decoder プロセスでは、同じ畳み込みを使用してアップサンプリングされた拡大画像の情報を強化します。そのため、Pooling プロセスで失われた情報は、学習を通じて Decoder で取得できます。
-
アップサンプリングはプーリングの逆プロセスです (インデックスはアップサンプリング プロセスで役割を果たします)
- SegNet のプーリングと他のプーリングには、追加のインデックス関数(この記事のハイライトの 1 つ) があります。つまり、各プーリングは、2x2 フィルターの max によって選択された重みの相対位置を保存します。
-
SegNet アップサンプリングにはトレーニングや学習は必要ありません (ストレージ容量を消費するだけです)。
-
FCN は転置畳み込み戦略を使用します。つまり、特徴のデコンボリューションの後にアップサンプリングが行われます。このプロセスは学習する必要があります。
-
max-pooling インデックスの利点:
- 境界分割の改善
- パラメータの数を減らしてエンドツーエンドのトレーニングを実現
- このアップサンプリング モードは、あらゆるエンコーダ/デコーダ ネットワークに含めることができます。
-
アップサンプリングの場合: 疎な特徴マップ -> 複数の畳み込み -> 密な特徴マップ。
-
SegNet の畳み込みは、従来の CNN の畳み込みと何ら変わりません。
4.ベイジアン セグネット
A. 事前確率: (確率理論: 原因から結果を推定する)
最後の SegNet では、各ピクセルが各クラスの確率を計算し、ソフトマックスを通じて最も高い確率を持つものを出力します。その後、このピクセルはこのクラスとみなされ、対応する確率がこのピクセルが属する確率となります。このクラス。
B. 事前確率の欠点:
- サンプルが異なる場合、事前確率が正しいことは保証できません。
- 事後確率が必要です(確率理論: ベイズの公式は結果から原因を推定します)。これにより、結果の信頼性の程度、つまり信頼度が得られます。
C. 異なる:
ネットワーク: 通常のベイジアン SegNet と比較すると、畳み込み層に DropOut 層を追加するだけです。
D. ドロップアウト:
———————————————
補習:
- 従来のニューラル ネットワークにおける DropOut 層の主な機能は、重みの過剰適合を防止し、学習能力を強化することです。
- 入力が DropOut 層を通過した後、一部のニューロンがランダムに無効になります (重みは 0)、つまり、一部のニューロンのみがアクティブになります。その結果、この反復の前方伝播および後方伝播では重みの一部のみが学習されます。 ;
- DropOut 層は二項分布に従い、結果は 0 または 1 になります。
———————————————
- ベイジアン SegNet では、SegNet の作成者は確率を 0.5 に設定します。つまり、毎回半分のニューロンだけが動作します。
- Bayesian SegNet では、複数のサンプリングが DropOut 層を通じて実装されます。複数のサンプリングのサンプル値が最終出力であり、分散はその不確実性です。分散が大きいほど、不確実性も大きくなります。
E. ベイジアン SegNet の有用性:
- 分類の境界位置については、不確実性が大きい、つまり信頼度が低い。
- 画像のセマンティック セグメンテーションが間違っている場所では、信頼度も低くなります。
- 人物と自転車、道路と歩道など区別が難しいカテゴリでは、両者が重なると不確実性が高まります。
3. いくつかの結果
新しい評価指標BF 指標: 境界 F1 指標
2 つのデータセットを試しました。
- 道路シーンのセグメンテーション用の CamVid データセット。
- 1 つは屋内シーンのセグメンテーション用の SUN RGB-D データセットです。
1. 道路シーンセグメンテーション用の CamVid データセット
道路シーン セグメンテーションの CamVid データセットについて、従来の方法と比較した場合:
上に示したように、SegNet はマルチクラス セグメンテーション問題に関して非常に優れた結果を達成しています。クラス平均、世界平均ともに最高レベルを達成しています。
道路シーンのセグメンテーションの CamVid データセットについて、深層学習手法と比較して、
最高のグローバル平均精度 (G)、カテゴリ平均精度 (C)、mIOU および境界 F1 測定値 (BF) が得られました。その結果は、FCN、DeepLabv1、DeconvNet を上回ります。
定性的結果:
2. 屋内シーンのセグメンテーション用の SUN RGB-D データセット
屋内シーンでセグメント化された SUN RGB-D データセットと深層学習手法の比較:
同様に、SegNet は FCN、DeconvNet、DeepLabv1 よりも優れており、
mIOU インジケーターについては、SegNet が DeepLabv1 よりわずかに悪いだけです。
さまざまなクラスのクラス平均精度:
大きいサイズのオブジェクトの場合は高い精度、
小さいサイズのオブジェクトの場合は低い精度。
定性分析結果:
3. 記憶と推論時間
SegNet にはデコーダ アーキテクチャが含まれているため、SegNet は FCN よりも低速です。
SegNet はトレーニングおよびテスト中のメモリ要件が低く、モデル サイズは FCN よりもはるかに小さいです。
参照