論文の読書: PIDNet: PIDControllers からインスピレーションを得たリアルタイム セマンティック セグメンテーション ネットワーク

出典: 2023CVPR

元のリンク: https://arxiv.org/abs/2206.02066

出典:GitHub - XuJiacong/PIDNet: これは、私たちの最近の研究の公式リポジトリです: PIDNet

0. 概要

        デュアルブランチ ネットワーク構造は、リアルタイムのセマンティック セグメンテーション タスクにおいてその効果と有効性を示していますただし、高解像度の詳細と低周波数のコンテキストを直接融合することの欠点は、詳細な特徴が周囲のコンテキスト情報によって簡単に圧倒されてしまうことです。このオーバーシュート現象は、既存のデュアルブランチ モデルのセグメンテーション精度の向上を制限します。この論文では、畳み込みニューラル ネットワーク (CNN) と比例積分微分 (PID) コントローラーをリンクし、デュアル ブランチ ネットワークが同様のスーパーチューニング問題を抱える比例積分 (PI) コントローラーと同等であることを明らかにしました。この問題に対処するために、我々は新しい 3 ブランチ ネットワーク構造を提案します。PIDNet は、それぞれ詳細ブランチ、コンテキスト ブランチ、および境界情報を解決する 3 つのブランチで構成され、境界アテンションを使用して詳細ブランチとコンテキスト ブランチの融合をガイドします。当社の PIDNet ファミリは推論速度と精度の間で最適なトレードオフを実現しており、その精度は都市景観と CamVid データセットで同様の推論速度を持つ既存のすべてのモデルを上回っていますこのうち、都市景観における PIDNet-S の推論速度は 78.6%、推論速度は 93.2 FPS、CamVid の推論速度は 80.1%、推論速度は 153.7 FPS でした。

1 はじめに

        比例積分微分 (PID) コントローラーは、ロボット操作 [3]、化学プロセス [24]、電力システム [25] など、現代の動的システムやプロセスで広く使用されている古典的な概念です。近年、より優れた制御性能を備えた多くの高度な制御戦略が開発されていますが、PID コントローラーはそのシンプルさと堅牢さにより、依然としてほとんどの産業用途で第一の選択肢となっています。さらに、PID コントローラーのアイデアは他の多くの分野に拡張されています。たとえば、研究者は、アルゴリズムのパフォーマンスを向上させるために、画像のノイズ除去 [32]、確率的勾配シンク [1]、および数値最適化 [50] に PID の概念を導入しました。この論文では、PID コントローラーの基本概念を利用して、新しいリアルタイム セマンティック セグメンテーション タスク アーキテクチャを設計し、広範な実験を通じて、モデルが以前のすべての研究よりも優れており、推論速度と精度を達成していることを実証します。図 1 に示します。

        セマンティック セグメンテーションはビジュアル シーン解析の基本的なタスクであり、その目標は入力イメージ内の各ピクセルに特定のクラス ラベルを割り当てることです。インテリジェンスへの需要の高まりに伴い、セマンティック セグメンテーションは、自動運転 [16]、医療画像診断 [2]、リモート センシング画像 [54] などのアプリケーションの基本的な認識コンポーネントとなっています。FCN [31] から始まった深さ方向畳み込みは、従来の方法を大幅に改善し、徐々にセマンティック セグメンテーションの分野を支配し、多くの代表的なモデルを提案しました [4、6、40、48、59、60]。より良いパフォーマンスを達成するために、重要な詳細を失うことなくピクセル間の文脈上の相関関係を大規模に学習できるようにこれらのモデルを装備するためのさまざまな戦略を導入します。これらのモデルのセグメンテーション精度は有望ですが、計算コストが法外に高いため、自動運転車 [16] やロボット手術 [44] などのリアルタイム シナリオへの適用が大幅に妨げられています。

        リアルタイムまたはモビリティのニーズを満たすために、研究者は多くの効率的な意味論的単語セグメンテーション モデルを提案してきました。具体的には、ENet [36] は軽量デコーダを採用して、初期段階で特徴マップをダウンサンプリングします。ICNet [58] は、小さな入力を複雑な深いパスにエンコードして、高レベルのセマンティクスを解析します。MobileNet [21、42] は、従来の畳み込みを深さ方向に分離可能な畳み込みに置き換えます。これらの初期の研究により、セグメンテーション モデルの遅延とメモリ使用量は削減されましたが、精度が低いため、現実世界のアプリケーションは大幅に制限されました。最近、2 ブランチ ネットワーク (TBN) アーキテクチャに基づく多くの新規で有望なモデルが文献で提案されており、速度と精度の間の SOTA トレードオフを実現しています [15、20、38、39、52]。

        本稿では、PID コントローラの観点から TBN のアーキテクチャを考察し、TBN が図 2 に示すようなオーバーシュート問題を抱える PI コントローラと同等であることを指摘します。この問題を解決するために、我々は新しい 3 ブランチ ネットワーク構造 PIDNet を設計し、都市景観 [12]、CamVid [5]、および PASCAL Context [33] データセットに対するその優位性を実証します。また、PIDNet の各モジュールの機能をより深く理解するために、アブレーション スタディと機能の視覚化も提供します。ソース コードには https://github.com/XuJiacong/PIDNet からアクセスできます。

        この文書の主な貢献は次の 3 つの側面です。

  • ディープ CNN と PID コントローラーをリンクし、PID コントローラー アーキテクチャに基づいた 3 分岐ネットワークを提案
  • 詳細とコンテキスト機能のバランスをとる Bag fusion モジュールなど、PIDNet のパフォーマンスを向上させる効率的なモジュールを提案します。
  • PIDNet は、既存のすべてのモデルの中で、推論速度と精度の間で最良のトレードオフを実現します。その中で、アクセラレーション ツールを使用しない場合、PIDNet-S は cityapes テスト セットで 78.6% mIOU を達成し、速度は 93.2 FPS に達しましたが、PIDNet-L は最高の精度 (80.6% mIOU) を達成しました。

2.関連作品

        このセクションでは、高精度とリアルタイムの要件を達成するための代表的な方法についてそれぞれ説明します。

2.1 高精度セマンティックセグメンテーション

        セマンティック セグメンテーションへの初期のアプローチは、エンコーダ - デコーダ アーキテクチャ [4、31、40] に基づいており、エンコーダはストライド コンボリューションまたはプーリング操作を通じてその受容野を徐々に拡大し、デコーダは高度なセマンティック リカバリの詳細からのデコンボリューションまたはアップサンプリングを使用しますただし、コーデック ネットワークのダウンサンプリング中に空間の詳細が見落とされやすくなります。この問題を軽減するために、空間解像度を低下させることなく視野を拡大する拡張畳み込み [53] が提案されています。これに基づいて、DeepLab シリーズ [7-9] は、ネットワーク内で異なる拡張率を持つ拡張畳み込みを使用しており、以前の研究と比較して大幅に改善されています。拡張畳み込みは、非順次メモリ アクセスのため、ハードウェア実装には適していないことに注意してください。PSPNet [59] は、マルチスケールのコンテキスト情報を解決するためにピラミッド プーリング モジュール (PPM) を導入しています。一方、HRNet [48] は、マルチパスおよび双方向接続を利用して、さまざまなスケールでの表現を学習および融合します。言語マシン上のアテンション メカニズム [47] の長期依存関係解析機能に触発されて、非ローカル操作 [49] がコンピュータ ビジョンに導入され、多くの正確なモデル [17、23、55] が生まれます。

2.2 リアルタイムのセマンティック セグメンテーション

        推論速度と精度の最適なバランスを実現するために、多くのネットワーク アーキテクチャが提案されています。大まかに次のように要約できます。

        軽量のエンコーダとデコーダ

        SwiftNet [35] は、高レベルのセマンティクスに 1 つの低解像度入力を使用し、軽量デコーダーに十分な詳細を提供するために別の高解像度入力を使用します。DFANet [27] は、深さ方向に分離可能な畳み込みに基づく Xception [11] の構造を変更することで軽量のバックボーンを導入し、入力サイズを削減して推論速度を向上させます。ShuffleSeg [18] は、計算量を削減するためにバックボーンとしてチャネル変換とグループ畳み込みを統合する ShuffleNet [57] を使用します。しかし、これらのネットワークのほとんどは依然としてエンコーダ/デコーダ アーキテクチャを採用しており、情報がディープ エンコーダを通過してからデコーダを通過して戻る必要があり、これにより待ち時間が長すぎます。さらに、GPU 上の深さ方向の分離可能な畳み込みの最適化が未熟であるため、従来の畳み込みはより多くの FLOP とパラメータを使用して高速になります [35]。したがって、畳み込み分解とエンコーダ/デコーダ アーキテクチャを回避する、より効率的なモデルを模索します。

        デュアルブランチネットワークアーキテクチャ

        大きな受容野は文脈の関連性を抽出することができ、空間の詳細は境界線の描写や小規模の物体認識に不可欠です。これら 2 つの側面のバランスを取るために、BiSeNet [52] の著者らは、コンテキストの埋め込みと詳細解析のための深さが異なる 2 つのブランチで構成される 2 ブランチ ネットワーク (TBN) アーキテクチャを提案しています。特徴融合モジュール (FFM) が使用されます。コンテキストと詳細情報を融合します。このアーキテクチャの表現能力を向上させたり、モデルの複雑さを軽減したりするために、このアーキテクチャに基づくいくつかのフォローアップ作業が提案されています [38、39、51]。具体的には、DDRNet [20] は双方向接続を導入して、コンテキスト ブランチと詳細ブランチ間の情報交換を強化し、最先端のリアルタイム セマンティック セグメンテーション結果を実現します。ただし、元の詳細なセマンティック情報と低周波コンテキスト情報を直接融合すると、オブジェクトの境界が周囲のピクセルによって過度に浸食されたり、小さなオブジェクトが隣接する大きなオブジェクトに圧倒されたりするリスクがあります (図 2 および 3 に示すように)。       

 3. 方法

        PID コントローラは、図 3 上に示すように、比例 (P) コントローラ、積分 (I) コントローラ、微分 (D) コントローラの 3 つの部分で構成されます。PI コントローラーの実装は次のように記述できます。

P コントローラーは現在の信号に焦点を当てますが、I コントローラーは過去のすべての信号を蓄積します。蓄積された慣性効果により、信号が逆方向に変化すると、単純な PI コントローラーの出力がオーバーシュートします。次に、D コントローラーを導入します。信号が小さくなると、D 成分が負の値になり、オーバーシュートを減らすダンパーとして機能します。同様に、TNS は複数の畳み込み層を通じてコン​​テキストと詳細を個別に解決します。詳細ブランチとコンテキスト ブランチの両方が bn と ReLU を含まない 3 つのレイヤーで構成される単純な 1D の例を考えてみましょう。次に、出力マップは次のように計算できます。

K^D_i = k_{31}k_{22}k_{13} + k_{31}k_{23}k_{12} + k_{32}k_{21}k_{13} +k_{32}k_{22 }k_{12}+k_{32}k_{23}k_{13}+k_{33}k_{21}k_{12}+k_{33}k_{22}k_{11}

K^C_i = k_{32}k_{22}k_{12}

        このうち kmn は m 層コアの n 番目の値であり、 |kmn| は 1 を境に (0,0.01) (DDRNet-23 は 92%) に主に分布しているため、各項目の係数は指数関数的に減少します。層の数が増えるにつれて。したがって、各入力ベクトルの項目数が増えるほど、最終出力への寄与も大きくなります。詳細ブランチでは、I[I-1]、I[I]、および I[I+1] がエントリ全体の 70% 以上を占めており、詳細ブランチがローカル情報により多くの注意を払っていることを示しています

        ただし、I[I−1]、I[I]、および I[I+1] はコンテキスト分岐の全エントリの 26% 未満しか占めていないため、コンテキスト分岐は周囲の情報を強調します

        図 3-下に示すように、コンテキスト ブランチは、詳細ブランチほどローカル情報の変更の影響を受けません。空間ドメインの詳細ブランチとコンテキスト ブランチは、時間ドメインの P (現在) および I (前) コントローラーと同様に動作します。

        PID コントローラーの z 変換の z−1 を e−jω に置き換えます。次のように表されます。

 

入力周波数 ω が増加すると、I コントローラーと D コントローラーのゲインはそれぞれ小さくなり、大きくなります。そのため、P、I、D コントローラーはそれぞれオールパス、ローパス、ハイパス フィルターとして機能します。PI コントローラーは入力信号の低周波部分に注目するため、信号の急激な変化に即座に対応できず、それ自体がオーバーシュートするという問題を抱えています。D コントローラーは、制御出力を入力信号の変化に敏感にすることでオーバーシュートを軽減します。図 3 — 下部は、ディテール ブランチが不正確ではあるがさまざまなセマンティック情報を解析するのに対し、コンテキスト ブランチは低周波のコンテキスト情報を集約し、同様に意味的に大きな平均フィルターを使用することを示しています。詳細情報とコンテキスト情報を直接融合すると、一部の詳細機能が失われます。したがって、TBN はフーリエ領域の PI コントローラーと同等であると結論付けます。

 3.1. PIDNet: 新しい 3 分岐ネットワーク

        オーバーシュートの問題を軽減するために、補助差動分岐 (ADB) を TBN に接続して PID コントローラーをシミュレートし、高周波のセマンティック情報を空間的に強調表示します。各オブジェクト内のピクセルのセマンティクスは一貫しているため、不一致は隣接するオブジェクトの境界でのみ発生します。つまり、オブジェクトの境界のみでセマンティクスの差がゼロではないため、ADB は境界検出を目的としています。したがって、図 4 に示すように、新しい 3 ブランチのリアルタイム セマンティック セグメンテーション アーキテクチャである比例積分微分ネットワーク (PIDNet) を構築します。

        PIDNet には、相補的な機能を備えた 3 つのブランチがあります: 比例 (P) ブランチは詳細な情報を解析して高解像度の特徴マップに保存します; 積分 (I) ブランチはローカルおよびグローバルのコンテキスト情報を集約して長期的な依存関係を解決します; 導関数 (D)ブランチは高周波の特徴を抽出し、境界領域を予測します。[20] と同様に、ハードウェアを使いやすくするためのバックボーンとしてカスケード残差ブロック [19] も採用しています。また、P、I、D 分岐の深さは、高効率を実現するために Moderate、Deep、Shallow に設定されています。したがって、モデルを深化および拡張することにより、pidnet シリーズ (PIDNet-S、M、および L) が生成されました。

[20, 28, 51] に従って、最初の Pag モジュールの出力にセマンティック ヘッドを配置し、ネットワーク全体をより最適化するために        追加のセマンティック ロスl0を生成します。重み付けされたバイナリクロスエントロピー損失l1 は、ダイス損失の代わりに境界検出の不均衡問題を解決するために採用されています [13]。境界領域を強調し、小さなターゲットの特徴を強調するために、より粗い境界に傾いているためです。l2l3は CE 損失を示し、l3 は境界ヘッドによって出力された境界認識 CE 損失 [46] を利用して、セマンティック セグメンテーションと境界検出タスクを調整し、Bag モジュールの機能を強化します。BAS 損失の計算は次のように記述できます。

ここで、 t は事前定義されたしきい値、bi、si,c、および ^si,c はそれぞれ、クラス c の i 番目のピクセルの境界ヘッダー、セグメンテーションのグラウンド トゥルース、および予測結果の出力です。したがって、PIDNet の最終的な損失は次のようになります。

経験に従って、PIDNet のトレーニング損失パラメータを次のように設定します: λ0 = 0.4、λ1 = 20、λ2 = 1、λ3 = 1、t = 0.8。

 3.2 ページ: 高度なセマンティクスの選択的学習

        [20、35、48] で使用される横方向の接続は、異なるスケールの特徴マップ間の情報伝達を強化し、特徴マップ モデルの表現力を向上させます。PIDNet では、I ブランチによって提供される豊富で正確なセマンティック情報は、比較的少数のレイヤーとチャネルを含む P および D ブランチの詳細な解析と境界検出にとって非常に重要です。したがって、I ブランチを他の 2 つのブランチのバックアップとして扱い、必要な情報を提供できるようにします。D ブランチの直接追加によって提供される特徴マップとは異なり、図 5 に示すように、ピクセル アテンション ガイド付き融合モジュール (ピクセル アテンション ガイド付き融合モジュール、Pag) を導入して、P ブランチを選択的に選択できるようにします。有用なセマンティック機能を学習するために I ブランチから融合されました。Pag の基本概念は、attention メカニズム [47] から借用しています。P ブランチと I ブランチの特徴マップ内の対応するピクセルのベクトルをそれぞれ vp と vi として定義すると、シグモイド関数の出力は次のように表すことができます。

σ は、これら 2 つのピクセルが同じオブジェクトに属する確率を表します。σ が高い場合、I ブランチは意味的に豊富で正確であるため、vi がより信頼されます。逆も同様です。したがって、Pag の出力は次のように記述できます。

(緑と青は図 4 の P と I の上部に対応します。図はさらに複雑です。実際、これは非常に一般的です。機能は 2 つの特徴を融合することです。融合率 σ は特徴ベクトルに基づいて計算されます) 2の。)

3.3. PAPPM: コンテキスト高速集約

        グローバル シーンをより適切に構築するために、PSPNet [59] はピラミッド プーリング モジュール (PPM) を導入しています。これは、畳み込み層の前にマルチスケール プーリング マップを連結して、ローカルおよびグローバルのコンテキスト表現を形成します。[20] によって提案された Deep Aggregation PPM (DAPPM) は、PPM のコンテキスト埋め込み能力をさらに向上させ、優れたパフォーマンスを示します。しかし、DAPPM の計算プロセスは詳細に並列化できず、時間がかかり、DAPPM には各スケールで含まれるチャネルが多すぎるため、軽量モデルの表現能力を超える可能性があります。したがって、図 6 に示すように、DAPPM の接続を並列化できるように変更し、スケールあたりのチャネル数を 128 から 96 に減らします。この新しいコンテキスト収集モジュールは Parallel Aggregation PPM (PAPPM) と呼ばれ、PIDNet-M および PIDNet-S に適用されて速度を保証します。深いモデル: PIDNet-L では、DAPPM の深さを考慮して、引き続き DAPPM を選択しますが、チャネル数を減らすことで、計算が減り、速度が速くなります。

 3.4 バッグ: 詳細とコンテキストのバランスを取る

        ADB によって抽出された境界特徴を考慮して、境界注意を利用して詳細 (P) 表現とコンテキスト (I) 表現の融合を導きます。具体的には、図7に示すように、高周波領域と低周波領域をそれぞれ詳細特徴と文脈的特徴で埋める境界注意誘導型融合モジュール(Bag)を設計します。コンテキスト分岐は意味的には正確ですが、特に境界領域や小さなオブジェクトについては、空間的および幾何学的詳細があまりにも失われることに注意してください。詳細ブランチは空間的な詳細をよりよく保持するため、モデルが境界領域に沿った詳細ブランチを信頼し、他の領域をコンテキスト フィーチャで埋めるように強制します。P、I、および D 特徴マップに対応するピクセルのベクトルをそれぞれ vp、vi、および vd として定義すると、Sigmoid、Bag、および Light-Bag の出力は次のように表すことができます。

 ここで、f は畳み込み、バッチ正規化、ReLU の組み合わせです。Bag の 3 × 3 畳み込みを Light-Bag の 2 つの 1 × 1 畳み込みに置き換えますが、Bag と Light-Bag の機能は似ています。つまり、σ > 0.5 の場合、モデルは詳細な特徴よりも信頼します。コンテキスト情報。

 (実際には、上から下まで PDI であり、重み σ として D が使用され、Light-Bag は軽量化するために 1*1 の小さな畳み込みを使用します。これは Pag に似ています)

4. 実験

このセクションでは、都市景観、CamVid、および PASCAL Context ベンチマークでモデルがトレーニングおよびテストされます。

4.1. データセット

街並みCityscape [12] は最も有名な都市シーン解析データセットの 1 つで、さまざまな都市の車の視点から収集された 5000 枚の画像が含まれています。これらの画像は、トレーニング、検証、テストのために 2975、500、1525 のグループに分割されます。画像解像度は 2048×1024 で、リアルタイム モデルとしては困難です。ここでは、アノテーション付きのデータセットのみが使用されます。

カムビッドCamVid [5] は、トレーニング、検証、テスト用に、367 枚、101 枚、および 233 枚の写真に分割された 701 枚の運転シーンの写真を提供します。画像解像度は960×720で、ラベル付きカテゴリは32個あり、そのうち11個が過去作と比較されています。

PASCAL コンテキストは、  PASCAL コンテキスト [33] のシーン全体のセマンティック アノテーションを提供します。これには、トレーニング用の 4998 個の画像と検証用の 5105 個の画像が含まれています。このデータセットは主に高精度モデルのベンチマークに使用されますが、ここでは PIDNet の一般化能力を実証するために使用します。レベル 59 とレベル 60 の両方のシナリオが評価されました。

4.2. 実装の詳細

事前トレーニングモデルを微調整する前に、これまでのほとんどの研究 [20、34、35] と同様に、ImageNet [41] を介してモデルを事前トレーニングします。最終段階で D 分岐を削除し、特徴を直接マージして分類モデルを構築します。トレーニング エポックの総数は 90 で、学習率は最初は 0.1 に設定され、エポック 30 と 60 で 0.1 倍されます。画像は 224×224 にランダムにトリミングされ、データ拡張のために水平方向に反転されます。

トレーニング トレーニング スキームは以前の作品 [15、20、52] とほぼ同じです。具体的には、データ拡張のために、マルチクラスター戦略、ランダムなトリミング、ランダムな水平反転、[0.5, 2.0] の範囲のランダムなスケーリングを使用して学習率を更新します。トレーニング期間の数、初期学習率、重み減衰、都市景観、CamVid および PASCAL Context のクロップ サイズおよびバッチ サイズは [484, 1e−2, 5e−4, 1024×1024, 12], [200,1e− 3] です。 ,5e−4,960×720,12] および [200,1e−3,1e−4,520×520,16]。[20, 51] に従って、都市景観の事前トレーニング済み CamVid モデルを微調整し、過剰適合を避けるために lr < 5e−4 になったときにトレーニング プロセスを停止します。

推論テスト 前に、モデルは Cityscape と CamVid でトレーニングされ、値が設定されます。RTX 3090、PyTorch 1.8、CUDA 11.2、cuDNN 8.0、および Windows Conda 環境で構成されるプラットフォームで推論速度を測定します。[10] とその後の [20、35、45] で提案されたメトリック プロトコルを活用して、バッチ正規化を畳み込み層に統合し、推論速度を測定するためにバッチ サイズを 1 に設定します。

4.3. アブレーション研究

2 ブランチ ネットワーク用の ADB

        PID アプローチの有効性を実証するために、ADB と Bag を既存のモデルと組み合わせます。ここでは、表 1 に示すように、ADB と Bag を備えた BiSeNet [52] と DDRNet [20] という 2 つの代表的なデュアル ブランチ ネットワークを実装します。これらは、都市景観値セットで元のモデルよりもはるかに高い精度を達成します。ただし、余分な計算により推論速度が大幅に低下するため、PIDNet を構築するきっかけになりました。

パグとバッグのコラボレーション

        融合段階の前に、P ブランチは Pag モジュールを使用して、圧倒されることなく I ブランチから有用な情報を取得し、Bag モジュールを導入して詳細な特徴とコンテキスト上の特徴の融合をガイドします。表 2 に示すように、横方向の接続によりモデルの精度が大幅に向上し、事前トレーニングによりモデルのパフォーマンスがさらに向上します。私たちのスキームでは、詳細がネットワーク全体で一貫性を保つ必要があるため、横方向接続と Bag 融合モジュールの追加、または Pag 横方向接続と融合モジュールの追加の組み合わせは意味がありません。したがって、Add + Add と Pag + Bag のパフォーマンスを比較するだけで済みますが、表 2 と表 3 の実験結果は、Pag と Bag (または Light-Bag) の相乗効果の優位性を示しています。図 8 の特徴マップを視覚化すると、2 番目の Pag のシグモイド マップでは、小さなオブジェクトが大きなオブジェクトよりもはるかに暗くなり、私のブランチではより多くの詳細が失われていることがわかります。さらに、Bag モジュールの出力では、図 9 に示すように、境界領域と小さなオブジェクトの特徴も大幅に強化されています。これが、粗い境界検出を選択する理由です。

 

 PAPPM の効率。

リアルタイム モデルの場合、重いコンテキスト集約モジュールにより推論が大幅に遅くなり、ネットワークの表現能力を超える可能性があります。そこで、並列構造と少数のパラメータから構成される PAPPM を提案します。表 3 の実験結果は、軽量モデルでは、PAPPM が DAPPM [20] と同じ精度を達成しますが、加速度は 9.5 FPS であることを示しています。

追加損失の有効性。

PIDNet では、ネットワーク全体の最適化を促進し、各コンポーネントの機能を強調するために 3 つの追加損失が導入されています。表 4 から、パフォーマンスを向上させるには、境界損失 l1 と境界を意識した損失 l3 が必要であることがわかります。特に境界損失 (+1.1% mIOU) は、オンライン ハード サンプル マイニング ( OHEM) [43] により精度がさらに向上します。

 4.4. 比較

カムヴィッド。

CamVid [5] データセットの場合、DDRNet の精度のみが私たちのモデルと比較できるため、公正な比較のために、私たちのプラットフォームよりも先進的な私たちのプラットフォームでその速度をテストします。表 5 の実験結果は、すべてのモデルの精度が 80% mIOU を超え、PIDNet-S-wider は pidnet のチャネル数を単純に 2 倍にし、最高の精度を獲得し、以前のモデルよりもはるかに優れていることを示しています。さらに、PIDNet-S は、以前の最先端モデル DDRNet-23-S と比較して 1.5% mIOU の精度向上を達成し、遅延の追加はわずか 1 ms 程度です。

街並み。

        以前のリアルタイム作品は、その高品質な解釈を考慮して、標準ベンチマークとして都市景観 [12] を使用しています。表 6 に示すように、公平な比較のために、アクセラレーション ツールを使用せずに、同じプラットフォーム上で過去 2 年間にリリースされたモデルの推論速度をテストしました。実験結果は、PIDNet が推論速度と推論精度の間で最適なバランスを達成していることを示しています。その中でも、PIDNet-L は速度と精度の点で SFNet (ResNet18)† や DDRNet-39 を上回り、テスト精度は 80.4% mIOU から 80.64% mIOU に向上し、リアルタイム分野で最も正確なモデルになりました。PIDNet-M と PIDNet-S も、同様の推論速度を持つ他のモデルと比較して高い精度を提供します。PIDNet-S から Pag モジュールと Bag モジュールを削除することで、より高速な代替手段である PIDNet-S-simple が提供されます。これは、一般化があまり良くありませんが、レイテンシ < 10 ms のモデルで最高の精度を達成します。

パスカルコンテキスト。

        PAPPM の Avg(17,8) パスは、PASCAL Context [33] の画像サイズが小さすぎるため削除されました。他の 2 つのデータセットとは異なり、この論文では以前のモデルとの比較のためにマルチスケールおよび反転推論を採用しています。前の 2 つのデータセットと比較して PASCAL コンテキストの注釈が詳細ではないにもかかわらず、表 7 に示すように、私たちのモデルは依然として既存の重いネットワーク上で競争力のあるパフォーマンスを達成しています。

5。結論

        新しい 3 分岐ネットワーク構造であるリアルタイム セマンティック セグメンテーション ネットワーク PIDNet が提案されています。PIDNet は、推論時間と精度の間の最適なバランスを実現します。ただし、PIDNet は境界予測を利用して詳細情報とコンテキスト情報のバランスをとるため、パフォーマンスを向上させるには境界付近の正確なアノテーションが必要であり、これには通常、多くの時間がかかります。

(アイデアはエッジ情報を追加する bmaskrcnn に少し似ていますが、それは本当に PID に関連しているのでしょうか、それともこの形式を借用しているだけで、実際の積分および微分感覚とは何の関係もありませんが、その効果は次のとおりであると言わざるを得ません。きっと良いはず)

おすすめ

転載: blog.csdn.net/qq_53086461/article/details/130844114