画像セグメンテーション タスク。その目的はピクセル レベルの分類を実現することです。出力結果は入力画像と同じサイズの 2 次元行列であり、行列内の値はピクセルが属するカテゴリに対応します。
1。概要
1.1 タスクの種類
-
セマンティック セグメンテーション: 各ピクセルが属するカテゴリ (物やオブジェクトのカテゴリを含む) であり、同じカテゴリの隣接するインスタンス間では区別できません。
-
インスタンスのセグメンテーション: 各オブジェクト カテゴリとマスク (オブジェクト カテゴリのみ)
-
パノラマ セグメンテーション: カテゴリのインスタンス ID と各ピクセルが属するオブジェクト カテゴリ、および同じカテゴリの隣接するインスタンスを区別できます。
1.2 評価指標
-
mIOU: 各カテゴリのセグメンテーション交差率の平均
-
mAcc: 分類精度の平均
2 セマンティックセグメンテーションモデル
2.1 FCN
FCN、正式名称完全畳み込みネットワーク
セグメンテーションの出力は入力画像と同じサイズの 2 次元行列であり、行列内の値はピクセルが属するクラスに対応します。FCN では、出力フィーチャの次元を必要な次元に調整するために、fc レイヤーの代わりに 1x1 conv が使用されます。
セグメンテーションのプロセスでは、まず画像をダウンサンプリングして画像の特徴を抽出しますが、このとき特徴マップのサイズは継続的に縮小され、元の画像と同じサイズの特徴マップを出力するためにアップサンプリングが行われます。必要とされている。アップサンプリングには通常、アップサンプリング、変換変換、アンプーリングの 3 つの方法があります。
-
アップサンプリング:バイリニア補間
-
転置変換、デコンボリューション
-
プーリング解除
2.1.1 モデルの構造
アップサンプリング戦略: アップサンプリングにはマルチサイズの特徴マップを使用し、要素ごとに追加して特徴融合を行います。
2.1.2 メリットとデメリット
-
アドバンテージ
-
任意の入力サイズ
-
浅い情報を組み合わせる
-
-
欠点がある
-
セグメンテーション結果が十分に細かくない(浅い情報が十分に考慮されていない)
-
文脈情報を効果的に考慮しない(受容野が小さい)
-
2.2 ユーネット
2.2.1 モデルの構造
U-Netはエンコーダ-デコーダのU字型構造を採用しています。アップサンプリング プロセス中、特徴の融合は連結の形式で行われます。サイズが一致しない場合は、クロップ操作を使用して、対応するサイズの特徴マップが取得されます。
2.2.2 メリットとデメリット
-
利点: アップサンプリングのたびに特徴マップの上位層が連結されるため、浅い層の情報が最大限に活用され、エッジ精度の向上に役立ちます。
-
デメリット: メモリ使用量が多い
2.3 PSPネット
PSP-Net (ピラミッド シーン解析ネットワーク) は、FCN に基づいて、グローバル情報をより適切に考慮するために、モデルのパフォーマンスを向上させるためにホール コンボリューション モジュールと空間ピラミッド プーリング モジュールを導入しています。
2.3.1 モデルの構造
-
フレーム全体
-
背骨
拡張された ResNet、元の Resnet にホール コンボリューションを導入し、受容野を増加します。
Atrous コンボリューション: コンボリューション カーネルがデータを処理する際の値の間隔を定義する、「膨張率」と呼ばれるハイパーパラメーターが導入されます。
1. 受容野を増やす
2. 解像度を下げないでください (stride=1、パディング)
3. 追加のパラメータや計算を導入しません
-
Spatial Pyramid Pooling モジュール: 入力特徴マップ上で異なるスケールのプーリング操作を実行することにより、複数のスケールの特徴情報が融合され、元の特徴マップと連結され、ローカル フィーチャとグローバル フィーチャがより適切に結合されます。このモジュールには主に次の操作が含まれます。
-
アダプティブ プール
-
1X1 コンバージョン
-
アップサンプル
-
連結
-
2.4 DeepLabシリーズ
DeepLab シリーズは、Google チームによって提案された一連のセマンティック セグメンテーション アルゴリズムです。
-
ディープラボ V1
-
フレーム全体
-
-
ディープラボ v2
-
フレーム全体
-
ASPP
-
ASPPモジュールの目的はPSP-NetのSPPモジュールと同様であり、異なるスケールの特徴情報を統合し、ローカル特徴とグローバル特徴を総合的に考慮する。違いは、ASPP は拡張畳み込み + 要素ごとの加算演算の拡張係数を使用し、SPP は異なるサイズのプーリング + 連結演算を使用することです。
-
ディープラボ V3
-
フレーム全体
-
アップグレードされた ASPP モジュール
アップグレードされた aspp モジュールでは、マルチスケール情報をより適切に統合するために、aspp と比較していくつかの調整が行われています。
-
マルチグリッド
DeepLab v3 のマルチグリッド戦略は、HDC (ハイブリッド拡張コンボリューション) のアイデアを参照しており、1 つのブロック内で拡張率の異なる複数の拡張コンボリューションを連続的に使用するというアイデアです。HDC の提案は、ホールの畳み込みが引き起こす可能性のあるグリッド問題を解決することです。これは、上位層の拡張畳み込みで使用される拡張レートが大きくなると、入力のサンプリングが非常にまばらになり、その結果、一部の局所情報が失われるためです。さらに、局所的な相関関係の一部は失われますが、長距離にある意味的に無関係な情報の一部は取得されます。
グリッド化の理由は、連続する拡張畳み込みが同じ拡張率を使用するためです。図 (a) では、3 つの拡張畳み込みが連続的に使用されているため、中心点の分類結果への影響は周囲の連続ピクセル点から生じます。HDC の原理は、連続的な拡張コンボリューションに異なる拡張率を使用することです。図 (b) で使用されている拡張率は連続的であり、中心点カテゴリに影響を与える領域は連続領域であるため、連続的なセグメンテーションを生成することが容易になります。効果。
残差ネットワークの元の構造は Block-1 から Block-4 に直接コピーされ、その後 block4 が 3 回コピーされて block5-7 が得られます。これは、異なる拡張率を使用して、グリッディングの問題を回避しながら受容野を増加させます。
-
-
ディープラボ V3+
DeepLabv3+ モデルの全体的なアーキテクチャは次の図に示されており、Encoder の本体は atrous コンボリューションを備えたバックボーン ネットワークであり、atrous コンボリューションを備えた Atrous Spatial Pyramid Pooling モジュール (Atrous Spatial Pyramid Pooling、ASPP) に接続されています。スケール情報; DeepLabv3 と比較して、v3+ には Decoder モジュールが導入されており、浅い情報と深い情報をさらに統合してセグメンテーション境界の精度を向上させます。
-
フレーム全体
-
バックボーン:Dirated Xception
-
デコーダ
DeepLabv3 の場合、ASPP モジュールによって取得された特徴マップの Output_stride は 8 または 16 で、1x1 分類層を通過した後、元の画像サイズに直接双線形補間されます。これは非常に暴力的なデコーダ方法であり、特に Output_stride=16 です。ただし、これはより詳細なセグメンテーション結果を取得するのに役立たないため、v3+ モデルは参照用に EncoderDecoder 構造を使用し、新しい Decoder モジュールを導入します。まず、エンコーダーによって取得された特徴を双線形補間して 4x 特徴を取得し、次にエンコーダー内の対応するサイズの低レベルの特徴 (ResNet の Conv2 層など) を連結します。 256 では、低レベルの特徴の次元が非常に高い可能性があります。エンコーダによって取得された高レベルの特徴が弱くなるのを防ぐために、最初に 1x1 畳み込みを使用して低レベルの特徴の次元 (出力次元) を削減します。論文は48)。2 つの特徴を連結した後、3x3 畳み込みを使用して特徴をさらに融合し、最後に双線形補間を実行して元の画像と同じサイズのセグメンテーション予測を取得します。
-
2.5 HRNetシリーズ
HRNet は、2019 年に Microsoft Research Asia によって提案されたまったく新しいニューラル ネットワークです。以前の畳み込みニューラル ネットワークとは異なり、このネットワークはネットワークの深層でも高解像度を維持できるため、予測される意味情報はより正確になり、空間情報がより正確になり、またより正確になります。
前に説明したセグメント化されたネットワーク アーキテクチャには、主にエンコーダとデコーダの 2 つの部分が含まれています。エンコーダ部分は、主に解像度圧縮 (ダウンサンプリング - ダウンサンプリング) を通じて意味論的な集約を行い、豊富な意味論的特徴を取得し、分類に適していますが、連続的なダウンサンプリング プロセスで多くの空間情報が失われるため、セグメンテーションには役立ちません。位置に敏感なタスク: セグメンテーションの精度を向上させるために、デコーダー部分は徐々に解像度を上げ、最終的に高解像度の特徴マップを取得します。このような高解像度の機能は、位置に敏感なタスクにより適しており、より多くの空間を保持できます。情報。ただし、ダウンサンプリングとその後のアップサンプリングのプロセスでは、特徴マップの解像度が最初に低下し、その後上昇しますが、空間情報は依然として失われます。これに基づいて、HRNet は高解像度の特徴マップを維持するネットワークを設計し、より優れた正確な位置情報を取得できるようにしました。
-
高解像度の回復(PSP-Net、DeepLabなどのエンコーダ-デコーダ)
-
高解像度を維持(HRNet)
異なる解像度の特徴マップ融合方法:
ヘッド構造の多様化:
2.5.1 MScaleOCR
MscaleOCRNet は HRNet シリーズに属し、HRNet のネットワーク構造と比較して、HRNet セグメンテーションの結果から画像内の各ピクセルと他のピクセルとの関係重みを計算し、元の特徴と重ね合わせて OCRNet ネットワークを形成し、分類を行います。 OCRNet に基づいており、レイヤーのマルチスケール トレーニングによって最終的な MscaleOCRNet が形成されます。
2.6トランスシリーズ
2.6.1 セグフォーマー
3 インスタンスセグメンテーション/パノラマセグメンテーションモデル
4 モデル性能の概要