BiSeNet - 軽量のリアルタイム セマンティック セグメンテーション

序文

セマンティックセグメンテーションの分野では、入力画像をピクセルごとに分類する必要があるため、計算量が非常に多くなります。一般に、セマンティック セグメンテーションによって生成される計算量を削減するには、画像のサイズを削減する方法とモデルの複雑さを軽減する方法の 2 つがあります。

画像のサイズを小さくすると、計算量を直接的に減らすことができますが、画像では多くの詳細が失われ、精度に影響します。

モデルの複雑さを軽減すると、モデルの特徴抽出能力が弱まり、セグメンテーションの精度に影響します。

したがって、リアルタイムと精度の両方のパフォーマンスを考慮して、セマンティック セグメンテーション タスクに軽量モデルを適用する方法は非常に困難です。

ビセネット

論文アドレス: [1808.00897] BiSeNet: リアルタイム セマンティック セグメンテーションのための双方向セグメンテーション ネットワーク (arxiv.org)

このペーパーでは、以前のリアルタイム セマンティック セグメンテーション アルゴリズムを要約し、現在 3 つの高速化方法があることがわかります。

  1. 計算の複雑さを軽減するために、クリッピングまたはサイズ変更によって入力サイズを制限しますこの方法はシンプルで効果的ですが、空間的な詳細が失われると、特に境界部分で予測が損なわれ、その結果、測定と視覚化の精度が低下します。
  2. 特にバックボーン モデルの初期段階では、ネットワーク チャネルの数を減らすことで処理を高速化しますが、これにより空間情報が弱まってしまいます。
  3. モデルの最終段(ENetなど)を破棄し、極めてコンパクトなフレームワークを追求この方法の欠点も明らかです。ENet は最終段階でダウンサンプリング (ダウンサンプリング削減ピクセル サンプリング) を破棄するため、モデルの受容野が大きなオブジェクトをカバーするのに十分ではなく、その結果、識別能力が低下します。

[ダウンサンプリング - 一般にピクセルを抽出し、場合によっては畳み込みによって、画像内のピクセルの総数を減らす方法]

BiSeNet は、新しい双方向セグメンテーション ネットワークであり、空間位置情報を保存して高解像度の特徴マップを生成するために小さなステップ サイズ一方、目的の受容野を取得するために高速ダウンサンプリング レートのセマンティック パスを設計します。これら 2 つのモジュールの上に新しい機能融合モジュールが導入され、2 つの機能マップを融合して速度と精度のバランスを実現します。

[受容野]畳み込みニューラル ネットワークの各層によって出力された特徴マップ上のピクセルは、入力画像上の領域のサイズにマッピングされます一般的な説明は、元の画像のサイズと比較した特徴マップ上の点は、畳み込みニューラル ネットワーク機能が入力画像を認識できる領域でもあり、これは畳み込みカーネルのサイズに関連するというものです。

  • 空間パス 空間パスは、より多くのチャネルと浅いネットワークを使用して、豊富な空間情報を保持し、高解像度の特徴を生成します
  • コンテキスト パス Context Path は、より少ないチャネルとより深いネットワークを使用して、十分なコンテキストを迅速にダウンサンプリングします。
  • これら 2 つのネットワークの出力に基づいて、機能融合モジュール (FFM)も 2 つの機能を融合するように設計されています

構造分析:

 

 

特徴量の重ね合わせ方法(加算と連結)の違い

 損失関数:

モデルのトレーニングは補助損失関数によって監視され、 BiSeNet全体の出力は主損失関数によって監視されますさらに、コンテキスト パスの出力も、多層監視と同様に、2 つの特別な補助損失関数を追加することによって監視されます。上記の損失関数はすべて Softmax です。最後に、パラメータ α を使用して、主損失関数と補助損失関数の重みのバランスがとれます。

おすすめ

転載: blog.csdn.net/m0_59056870/article/details/126818958