【PIDNet】: PIDコントローラーからインスピレーションを得たリアルタイムセマンティックセグメンテーションネットワーク

PIDNet: PID コントローラーからインスピレーションを得たリアルタイム セマンティック セグメンテーション ネットワーク

https://arxiv.org/pdf/2206.02066.pdf
https://github.com/XuJiacong/PIDNet
Jiacong Xu Zixiang Xiong Shankar P. Bhattacharyya
Dept of ECE、Texas A&M University、College Station、TX 77843
[email protected][email protected][email protected]
2023

要約: リアルタイムのセマンティック セグメンテーション タスクでは、デュアル ブランチ ネットワーク アーキテクチャがその効率と有効性を示します。しかし、高解像度の詳細と低周波数のコンテキストを直接融合する方法の問題は、詳細な特徴が周囲のコンテキスト情報によって簡単に圧倒されてしまうことです。この過剰拡張現象により、既存のデュアルブランチ モデルのセグメンテーション精度の向上が制限されます。この論文では、畳み込みニューラル ネットワーク (CNN) と比例積分微分 (PID) コントローラーを接続し、2 分岐ネットワークが比例積分 (PI) コントローラーと同等であることを明らかにします。これは本質的に同様の過拡張問題です。この問題を軽減するために、我々は新しい 3 ブランチ ネットワーク アーキテクチャを提案します。PIDNet には、詳細情報、コンテキスト情報、境界情報をそれぞれ解析するための 3 つのブランチが含まれており、境界アテンションを使用して詳細ブランチとコンテキスト ブランチの融合をガイドします。当社の PIDNet ファミリは、推論速度と精度の間で最適なバランスを実現し、Cityscapes および CamVid データセット上で同様の推論速度を持つ既存のすべてのモデルよりも優れたパフォーマンスを発揮します。具体的には、PIDNet-S は、Cityscapes では 93.2 FPS の推論速度で 78.6% の mIOU を達成し、CamVid では 153.7 FPS の推論速度で 80.1% の mIOU を達成します。

1 はじめに

比例積分微分 (PID) コントローラーは、ロボット操作 [3]、化学プロセス [24]、電力システム [25] など、現代の動的システムおよびプロセスで広く使用されている古典的な概念です。近年、より優れた制御性能を備えた多くの高度な制御戦略が開発されていますが、PID コントローラーはそのシンプルさと堅牢さにより、依然としてほとんどの産業用途で第一の選択肢となっています。さらに、PID コントローラーの考え方は他の多くの分野に拡張されています。たとえば、研究者はアルゴリズムのパフォーマンスを向上させるために、画像のノイズ除去 [32]、確率的勾配降下法 [1]、および数値最適化 [50] に PID の概念を導入しました。この論文では、PID コントローラーの基本概念を適用することにより、リアルタイム セマンティック セグメンテーション タスク用の新しいアーキテクチャを設計し、広範な実験を通じてモデルのパフォーマンスが以前のすべての研究を超え、推論速度と最適なバランスにおいて優れたパフォーマンスを達成することを実証します。精度の間で達成されます。図1示されています。

図 1. Cityscapes [12] テスト セットのリアルタイム モデルの推論速度と精度 (報告済み) の間のトレードオフ。青い星は私たちのモデルを表し、緑の三角形は他のモデルを表します。

セマンティック セグメンテーションは基本的なタスクであり、その目標は、視覚的なシーンを解析するために、入力画像内の各ピクセルを特定のクラス ラベルに割り当てることです。インテリジェンスへの需要の高まりに伴い、セマンティック セグメンテーションは、自動運転 [16]、医療画像診断 [2]、リモート センシング画像 [54] などのアプリケーションの基本的な認識コンポーネントとなっています。従来の手法に対して大幅な改善を達成した FCN [31] から始まり、深層畳み込みネットワークは徐々にセマンティック セグメンテーションの分野を支配するようになり、多くの代表的なモデルが提案されています [4、6、40、48、59、60]。より良いパフォーマンスを達成するために、重要な詳細の欠落を避けるために、大規模なピクセル間の文脈上の依存関係を学習する機能をこれらのモデルに装備するためのさまざまな戦略が導入されています。これらのモデルは優れたセグメンテーション精度を実現しますが、過度の計算コストも必要となるため、自動運転車 [16] やロボット手術 [44] などのリアルタイム シナリオでの適用が大幅に制限されます。

リアルタイムまたはモバイルのニーズを満たすために、研究者はこれまでに多くの効率的かつ効果的なセマンティック セグメンテーション モデルを提案してきました。具体的には、ENet [36] は軽量デコーダを採用し、初期段階で特徴マップをダウンサンプリングします。ICNet [58] は、高レベルのセマンティック情報を解析するために、複雑で深いパスで小さいサイズの入力をエンコードします。MobileNets [21、42] は、深さ方向に分離可能な畳み込みを使用して、従来の畳み込み演算を置き換えます。これらの初期の研究により、セグメンテーション モデルの遅延とメモリ使用量は削減されましたが、精度が低いため、現実世界のアプリケーションでの使用は大幅に制限されました。最近、2 ブランチ ネットワーク (TBN) アーキテクチャに基づいた多くの新規で有望なモデルが文献で提案されており、速度と精度の最適なバランスを実現しています [15、20、38、39、52]。

図 2. 動的システム (左 |) と画像セグメンテーション (| 右) のオーバーシュート問題。左 |: 2 次システムの PI および PID コントローラーのステップ応答; | 右: 最初の行から最後の行まで、実際のアノテーション、DDRNet-23 [20] 出力および ADB-Bag-DDRNet-23 から切り取られました。それぞれ(当社モデル)の画像。

この記事では、PID コントローラーの観点から TBN のアーキテクチャを検証し、TBN が次のようなオーバーシュート問題を伴う PI コントローラーと同等であることを指摘します。図2示されています。この問題を軽減するために、我々は新しい 3 ブランチ ネットワーク アーキテクチャ、つまり PIDNet を設計し、Cityscapes [12]、CamVid [5]、および PASCAL Context [33] データセットに対するその優位性を実証します。また、PIDNet の各モジュールの機能をより深く理解するために、アブレーション スタディと機能の視覚化も提供します。ソース コードには、次のリンクからアクセスできます: https://github.com/XuJiacong/PIDNet

この記事の主な貢献は次の 3 つの側面です。

  • 我々は、ディープ畳み込みニューラル ネットワークと PID コントローラーの間の接続を確立し、PID コントローラー アーキテクチャに基づいた一連の 3 分岐ネットワークを提案しました。
  • PIDNet のパフォーマンスを向上させるために、詳細な機能とコンテキスト上の機能のバランスをとる Bag fusion モジュールなど、いくつかの効率的なモジュールを提案します。
  • PIDNet は、既存のすべてのモデルの中で推論速度と精度の最適なバランスを実現します。特に、PIDNet-S は 93.2 FPS で 78.6% mIOU を達成し、PIDNet-L は、リアルタイム ドメインで実行するアクセラレーション ツールを必要とせずに、Cityscapes テスト セットで最高の精度 (80.6% mIOU) を実証しました。

2.関連作品

このセクションでは、高精度要件とリアルタイム要件にそれぞれ対応する代表的な方法について説明します。

2.1 高精度セマンティックセグメンテーション

初期のセマンティック セグメンテーション手法は、エンコーダ/デコーダ アーキテクチャに基づいていました [4、31、40]。このアーキテクチャでは、エンコーダはストライド畳み込みまたはプーリング操作を通じてその受容野を徐々に拡張し、デコーダはデコンボリューションまたはアップサンプリングを通じて高レベルのセマンティクスから詳細な情報を回復します。ただし、空間的な詳細は、エンコーダ/デコーダ ネットワークのダウンサンプリング プロセス中に見落とされがちです。この問題を軽減するために、空間解像度を低下させることなく視野を拡大できる拡張畳み込み [53] が提案されました。この技術に基づいて、DeepLab シリーズ [7-9] は、ネットワーク内で異なる拡張率を使用して拡張畳み込みを実行し、以前の方法と比較して大幅な改善を達成しました。拡張畳み込みはメモリ アクセスが不連続であるため、ハードウェア実装には適していないことに注意してください。PSPNet [59] は、マルチスケールのコンテキスト情報を解析するためにピラミッド プーリング モジュール (PPM) を導入しています。一方、HRNet [48] は、複数のパスと双方向接続を利用して、さまざまなスケールでの表現を学習および融合します。言語処理におけるアテンション メカニズム [47] の長距離依存関係分析機能に触発されて、非ローカル操作 [49] がコンピューター ビジョンに導入され、多くの正確なモデル [17、23、55] が生まれました。

2.2 リアルタイムのセマンティック セグメンテーション

推論速度と精度の間の最良のトレードオフを達成するために、多くのネットワーク アーキテクチャが提案されています。それらは次のように大まかに要約できます。

軽量エンコーダおよびデコーダSwiftNet [35] は、高レベルのセマンティクスを取得するために低解像度入力を受け取り、軽量デコーダに十分な詳細を提供するために高解像度入力を使用します。DFANet [27] は、Xception [11] のアーキテクチャを変更することで、深さ方向に分離可能な畳み込みに基づく軽量のバックボーン ネットワークを導入し、入力サイズを削減して推論速度を向上させています。ShuffleSeg [18] はバックボーン ネットワークとして ShuffleNet [57] を採用し、チャネルの再配置とグループ化された畳み込みを組み合わせて計算コストを削減します。しかし、これらのネットワークのほとんどは依然としてエンコーダ/デコーダ アーキテクチャを採用しており、情報フローがディープ エンコーダを通過してからデコーダに戻る必要があるため、過剰な遅延が発生します。さらに、GPU 上の深さ方向の分離可能な畳み込みの最適化はまだ未熟であるため、従来の畳み込みは速度は速いですが、FLOP とパラメータが多くなります [35]。したがって、畳み込み分解とエンコーダ/デコーダ アーキテクチャを回避する、より効率的なモデルを模索します。

二重分岐ネットワーク アーキテクチャのコンテキスト依存性は、大きな受容野を通じて抽出できますが、空間の詳細は境界線の描写や小規模の物体認識にとって重要です。両方に対処するために、BiSeNet [52] の著者らは、コンテキストの埋め込みと詳細解析のための深さが異なる 2 つのブランチを含む 2 ブランチ ネットワーク (TBN) アーキテクチャを提案しましたが、融合するために機能融合モジュール (FFM) も使用します。コンテキストと詳細。このアーキテクチャに基づいて、その表現機能を改善したり、モデルの複雑さを軽減したりするためのフォローアップ作業も提案されています [38、39、51]。特に、DDRNet [20] は双方向接続を導入してコンテキスト ブランチと詳細ブランチ間の情報交換を強化し、リアルタイムのセマンティック セグメンテーションで最先端の結果を実現します。ただし、元の詳細なセマンティクスと低周波のコンテキスト情報を直接融合すると、オブジェクトの境界が周囲のピクセルによって過度に浸食され、小さなオブジェクトが隣接する大きなオブジェクトによって圧倒される可能性があります (例:図2と3示されています)。

3. 方法

図 3. 上 |: PID コントローラーと提案されたネットワーク間の類似性; | 下: 左: 周囲のマスク領域をゼロ化し、各ピクセルの現在の特徴と元の特徴の間の類似性を計算; 右: からの画像最初の列から最後の列は、それぞれ、グラウンド トゥルース アノテーション、DDRNet-23 のすべての分岐予測、詳細な分岐予測のみ、およびコンテキスト分岐予測のみを表します。

PID コントローラーは、比例 (P) コントローラー、積分 (I) コントローラー、微分 (D) コントローラーの 3 つのコンポーネントで構成されます。図3-上示されています。PI コントローラーの実装は次のように記述できます。

cout ⁡ [ n ] = kpe [ n ] + ki ∑ i = 0 ne [ i ] (1) \operatorname { c_{ out }} [ n ] = k _ { p } e [ n ] + k _i \sum_ { i = 0 } ^ { n } e [ i ] \tag{1}cアウト[ n ]=kpe [ n ]+k私はi = 0e [ i ]( 1 )
P コントローラーは現在の信号に焦点を当てますが、I コントローラーは過去のすべての信号を蓄積します。蓄積された慣性効果により、信号が反対方向に変化すると、単純な PI コントローラーの出力がオーバーシュートする可能性があります。次に、D コントローラーが導入され、信号が小さくなると D 成分が負になり、オーバーシュートを減らすダンピングの役割を果たします。同様に、TBN は、ストライドの有無にかかわらず、複数の畳み込み層を通じてコン​​テキストと詳細を個別に解析します。詳細ブランチとコンテキスト ブランチの両方がバッチ正規化と ReLU 操作のない 3 つのレイヤーで構成される単純な 1D の例を考えてみましょう。次に、出力マップは次のように計算できます。

OD [ i ] = Ki − 3 DI [ i − 3 ] + ⋯ + Ki DI [ i ] + ⋯ + Ki + 3 DI [ i + 3 ] (2) O _ { D } [ i ] = K ^D _ { i - 3 } I [ i - 3 ] + \cdots + K^D _ { i } I[ i ] + \cdots + K ^D_ { i + 3 } I[ i + 3 ] \tag{ 2}D[ i ]=Ki 3D[3 ]++KD[]++K+3 _D[+3 ]( 2 )
OC [ i ] = Ki − 7 CI [ i − 7 ] + ⋯ + Ki CI [ i ] + ⋯ + Ki + 7 CI [ i + 7 ] (3) O _ { C } [ i ] = K _ { i - 7 } ^ { C }I [ i - 7 ] + \cdots + K _ { i } ^ { C } I[ i ] + \cdots + K _ { i + 7 } ^ { C } I[ i + 7 ]\tag{3}C[ i ]=Ki 7C[7 ]++KC[]++K+7 _C[+7 ]( 3 )
ただし、K i D = k 31 k 22 k 13 + k 31 k 23 k 12 + k 32 k 21 k 13 + k 32 k 22 k 12 + k 32 k 23 k 13 + k 33 k 21 k 12 + k 33 k 22 k 11 K^D_i= k_{31}k_{22}k_{13} + k_{31}k_{23}k_{12} + k_{32}k_{21}k_{13} + k_{32}k_{22}k_{12} + k_{32}k_{23}k_{13} + k_{33}k_{21}k_{12} + k_{33}k_{22}k_{11 }KD=k31k22k13+k31k23k12+k32k21k13+k32k22k12+k32k23k13+k33k21k12+k33k22k11、およびK i C = k 32 k 22 k 12 K^C_i = k_{32}k_{22}k_{12}KC=k32k22k12ここで、kmn k_{mn}km 番目の層のコンボリューション カーネルの n 番目の値を指します。∣ kmn ∣ |kmn|なのでkmn ∣ は、ほとんどが (0, 0.01) の範囲に分布し (DDRNet-23 の場合、値の 92% がこの範囲内にあります)、1 によって制限されます。各項の係数は、数が増えるにつれて指数関数的に減少します。レイヤーが増えます。したがって、各入力ベクトルについて、項が多いほど、最終出力に寄与する可能性が高くなります。詳細分岐では、I [ i − 1 ]、I [ i ] I[i - 1]、I[i][1]I[i] I [ i + 1 ] I[i + 1] [+1 ]の商品数が全体の7割以上を占めており、詳細な支店ほど地域情報を重視していることがわかります。対照的に、コンテキスト分岐では、I [ i − 1 ]、I [ i ] I[i - 1]、I[i][1]I[i] I [ i + 1 ] I[i + 1] [+1 ] はアイテム総数の 26% 未満しか占めていないため、コンテキスト ブランチは周囲の情報にさらに注意を払います。図 3-下これは、コンテキスト ブランチがローカル情報の変更の影響をあまり受けないことを示しています。空間ドメインの詳細ブランチとコンテキスト ブランチは、時間ドメインのPPのように動作します。P (電流) とI(I(私は以前のすべての)コントローラーです。

PID コントローラーのzz を次のように設定します。z変換におけるz − 1 z^{-1}z1はe − j ω e^{-jω}に置き換えられますeは次のように表現できます。

C ( z ) = kp + ki ( 1 − e − jw ) − 1 + kd ( 1 − e − jw ) (4) C ( z ) = k _ { p } + k _ { i } ( 1 - e ^ { - jw } ) ^ { - 1 } + k _ { d } ( 1 - e ^ { - jw } )\tag{4}C ( z )=kp+k私は( 1ej w )1+kd( 1ej w )( 4 )
入力周波数ω ωωが大きくなるDDDコントローラーのゲインはそれぞれ小さくなり、大きくなるため、P、I、D コントローラーはオールパス、ローパス、ハイパス フィルターとして機能します。PI コントローラーは入力信号の低周波数部分により注意を払い、信号の急激な変化に即座に対応できないため、本質的にオーバーシュートの問題が発生しやすくなります。DDDコントローラーは、制御出力を入力信号の変化に敏感にすることでオーバーシュートを軽減します。図 3-下上に示したように、詳細ブランチは精度は低いものの、さまざまな意味情報を解析します。一方、コンテキスト ブランチは低周波のコンテキスト情報を集約し、意味的には大規模な平均化フィルターに似ています。詳細情報とコンテキスト情報を直接融合すると、一部の詳細な機能が失われます。したがって、TBN はフーリエ領域の PI コントローラーと同等であると結論付けます。

3.1. PIDNet: 新しい 3 ブランチ ネットワーク

オーバーシュートの問題を軽減するために、TBN に補助微分分岐 (ADB) を接続して、PID コントローラーを空間的にシミュレートし、高周波のセマンティック情報を強調表示します。各オブジェクト内のピクセルのセマンティクスは一貫していて、隣接するオブジェクトの境界でのみ不一致になります。したがって、セマンティクスの差はオブジェクトの境界でのみ非ゼロになります。ADB の目標は境界検出です。したがって、新しい 3 ブランチのリアルタイム セマンティック セグメンテーション アーキテクチャ、つまり比例積分微分ネットワーク (PIDNet) を構築します。図4示されています。

図 4. 私たちが提案する比例・積分・微分ネットワーク (PIDNet) の基本アーキテクチャの概要。S と B はセマンティクスと境界を表し、Add と Up はそれぞれ要素ごとの合計と双線形アップサンプリング操作を表し、BAS-Loss は境界を意識したクロスエントロピー損失を表します [46]。破線と関連ブロックは、推論フェーズでは無視されます。

PIDNet には、補完的な役割を持つ 3 つのブランチがあります: 比例 (P) ブランチは詳細な情報を解析して高解像度の特徴マップに保存します; 積分 (I) ブランチはコンテキスト情報をローカルおよびグローバルに集約して長距離の依存関係を解析します; 微分 (D) ブランチは) ブランチは高周波特徴を抽出して境界領域を予測します。[20] と同様に、ハードウェアに優しいバックボーン構造としてカスケード残差ブロック [19] も採用しています。さらに、高効率を実現するために、P、I、D 分岐の深さを中、深、浅に設定しています。したがって、モデルを深化および拡張することにより、一連の PIDNet (PIDNet-S、M、および L) を生成しました。

[20、28、51] の方法に従って、最初の Pag モジュールの出力にセマンティック ヘッダーを配置して、追加のセマンティック ロス l0 を生成し、ネットワーク全体をより最適化します。ダイス損失 [13] とは異なり、境界検出の不均衡問題に対処するために、重み付きバイナリ クロスエントロピー損失 l1 を採用します。これは、境界領域を強調表示し、小さなオブジェクトの特性を強調するには、粗い境界の方が適しているためです。l2 と l3 は CE 損失を表しますが、境界ヘッドの出力を利用して境界を認識した CE 損失 [46] を使用して、セマンティック セグメンテーションと境界検出タスクを調整し、Bag モジュールの機能を強化します。BAS 損失の計算は次のように表すことができます。

l 3 = − ∑ i , c { 1 : bi > t } ( si , c log ⁡ i ^ , c ) (5) l _ { 3 } = - \sum _ { i , c } \{ 1 : b _ { i } \gt t \} ( s _ { i , c } \log _ {\hat i , c } )\tag{5}3=c{ 1:b私は>t } ( s cログ_^c( 5 )

このうち、t はあらかじめ定義されたしきい値、bi、si、c b_i、s_{i,c}を表します。b私はs csi ^ , c s_{\hat i,c}s^cこれらは、境界ヘッドの出力、セグメンテーションの真の値、およびカテゴリ c の i 番目のピクセルの予測結果です。したがって、PIDNet の最終的な損失関数は次のように表すことができます。

損失 = λ 0 l 0 + λ 1 l 1 + λ 2 l 2 + λ 3 l 3 (6) 損失 = λ_ { 0 } l _ { 0 } + λ _ { 1 } l _ { 1 } + λ _ { 2 } l _ { 2 } + λ _ { 3 } l _ { 3 }\tag{6}損失_=00+11+22+33( 6 )

経験的に、PIDNet のトレーニング損失パラメーターをλ 0 = 0.4、λ 1 = 20、λ 2 = 1、λ 3 = 1、λ_0 = 0.4、λ_1 = 20、λ_2 = 1、λ_3 = 1 として設定します。0=0.4 l1=20 l2=1 l3=1およびt = 0.8 t = 0.8t=0.8

3.2. Pag: 高レベルの意味情報を選択的に学習する

図 5. Pag モジュールの概略図。σ(x) はシグモイド関数を表し、ここでのすべての畳み込みの畳み込みカーネル サイズは 1×1 です。

[20、35、48] で使用されている横方向の接続は、異なるスケールの特徴マップ間の情報伝達を強化し、モデルの表現能力を向上させます。PIDNet では、I ブランチによって提供される豊富で正確なセマンティック情報は、層とチャネルが比較的少ない P ブランチと D ブランチの詳細な解析と境界検出にとって非常に重要です。したがって、I ブランチを他の 2 つのブランチのバックアップとして扱い、必要な情報を提供できるようにします。提供された特徴マップを直接追加する D ブランチとは異なり、次のようにピクセル アテンション ガイド付き融合モジュール (Pag) を導入します。図5示されているように、これは P ブランチが圧倒されることなく I ブランチから有用な意味論的特徴を選択的に学習するために使用されます。Pag の基本概念はアテンション メカニズムに由来しています [47]。P ブランチと I ブランチの特徴マップの対応するピクセルからのベクトルをv ⃗ p \vec v_pとして定義します。v pv ⃗ i \vec v_iv 私はの場合、シグモイド関数の出力は次のように表すことができます。

σ = シグモイド ( fp ( v ⃗ p ) ⋅ fi ( v ⃗ i ) ) (7) σ= シグモイド ( f _ { p } (\vec v_p)·f_i(\vec v_i))\tag{7}p=Sigmoid ( f _ _ _ _ _ _p(v p) f私は(v 私は))( 7 )

このうち σ は、これら 2 つのピクセルが同じオブジェクトに属する可能性を表します。σ が大きい場合、v ⃗ i \vec v_iを信頼します。v 私はなぜなら、I ブランチは意味的により豊富で正確であり、その逆も同様だからです。したがって、Pag の出力は次のように表すことができます。

Out P ag = σ v ⃗ i + ( 1 − σ ) v ⃗ p (8) Out_{Pag}=σ\vec v_i+(1-σ)\vec v_p\tag{8}アウト_ _ページ_ _=pv 私は+( 1s )v p( 8 )

3.3. PAPPM: 高速集約コンテキスト

グローバル シーン プリアをより適切に構築するために、PSPNet [59] は、畳み込み層の前にマルチスケール プーリング マップを連結してローカルおよびグローバル コンテキスト表現を形成するピラミッド プーリング モジュール (PPM) を導入しています。[20] によって提案されたディープ アグリゲーション PPM (DAPPM) は、PPM のコンテキスト埋め込み能力をさらに向上させ、優れたパフォーマンスを示します。しかし、DAPPM の計算プロセスは深さが深いため並列化できず、多くの時間を消費します。また、DAPPM はスケールごとにチャネルが多すぎるため、軽量モデルの表現能力を超える可能性があります。そこで、DAPPM の接続方法を次のように変更して並列化できるようにしました。図6が示されており、スケールあたりのチャンネル数が 128 から 96 に減少します。この新しいコンテキスト集約モジュールは Parallel Aggregation PPM (PAPPM) と呼ばれ、PIDNet-M および PIDNet-S に適用されて速度を保証します。ディープ モデル PIDNet-L の場合は、その深さを考慮して DAPPM を選択しますが、チャネル数を減らして計算負荷を軽減し、速度を向上させます。

図6. PAPPMの並列構造の概略図。Avg(5,2) は、5×5 コンボリューション カーネルとストライド 2 の平均プーリングを使用することを意味します。

3.4. バッグ: 詳細とコンテキストのバランスをとる

図 7. 極端な場合の (a) Bag モジュールと (b) Light-Bag モジュールの単一チャネル実装。P、I、D はそれぞれ詳細フィーチャ、コンテキスト フィーチャ、境界フィーチャの出力を表します。σ はシグモイド関数の出力を表します。

ADB によって抽出された境界特徴を考慮して、詳細 (P) 表現とコンテキスト (I) 表現の融合を導くために境界注意を採用します。具体的には、次のように境界注意誘導型融合モジュール (Bag) を設計します。図7示されているように、高周波領域と低周波領域をそれぞれ詳細な特徴と文脈上の特徴で埋めるために使用されます。コンテキスト分岐は意味的には正確ですが、空間的および幾何学的詳細、特に境界領域や小さなオブジェクトで大きな損失を受けることに注意してください。より優れた空間的詳細を保持する詳細な分岐の利点を利用して、モデルが境界領域で詳細な分岐をより信頼し、他の領域をコンテキスト特徴で満たすように強制します。P、I、D 特徴マップのピクセルに対応するベクトルをそれぞれv ⃗ p \vec v_pとして定義します。v pv ⃗ i \vec v_iv 私はv ⃗ d \vec v_dv dの場合、Sigmoid、Bag 出力、Light-Bag の出力は次のように表すことができます:
σ = S igmoid ( v ⃗ d ) (9) σ=S igmoid(\vec v_d)\tag{9}p=シグモイド( _ _ _ _ _ _v d( 9 )
Out Pag = fout ( ( 1 − σ ) ⊗ v ⃗ i + σ ⊗ v ⃗ p ) (10) Out_{Pag}=f_{out}((1-σ)⊗\vec v_i+σ ⊗\vec v_p)\tag{10}アウト_ _ページ_ _=fあなた_(( 1s )v 私は+pv p( 10 )
アウトライト = fp ( ( 1 − σ ) ⊗ v ⃗ i + v ⃗ p ) + fi ( σ ⊗ v ⃗ p + v ⃗ i ) (11) Out_{ライト}=f_p((1-σ) ⊗\vec v_i+\vec v_p)+f_i(σ⊗\vec v_p+\vec v_i)\tag{11}アウト_ _軽い_ _ _ _=fp(( 1s )v 私は+v p+f私は( pv p+v 私は( 11 )

ここで、f は畳み込み、バッチ正規化、ReLU の組み合わせを表します。Bag の 3×3 畳み込みを Light-Bag の 2 つの 1×1 畳み込みに置き換えますが、Bag と Light-Bag の機能は似ています。つまり、σ > 0.5 の場合、モデルはより信頼性が高くなります。コンテキスト情報の利用を好みます。

4. 実験

このセクションでは、Cityscapes、CamVid、および PASCAL Context ベンチマーク データセットでモデルをトレーニングし、テストします。

4.1. データセット

Cityscapes. Cityscapes [12] は、最も有名な都市シーンのセグメンテーション データセットの 1 つで、さまざまな都市の車の視点から収集された 5000 枚の画像が含まれています。画像はトレーニング用に 2975 枚、検証用に 500 枚、テスト用に 1525 枚に分割されました。画像の解像度は 2048×1024 ですが、これはリアルタイム モデルにとっては困難です。ここでは、細かく注釈が付けられたデータセットのみが使用されます。

CamVid. CamVid [5] は、運転シーンの 701 枚の画像を提供し、そのうち 367 枚がトレーニングに、101 枚が検証に、233 枚がテストに使用されます。画像解像度は960×720、注釈付きカテゴリ数は32で、そのうち11カテゴリは前作との公正な比較のために使用されています。

PASCAL コンテキスト. PASCAL コンテキスト [33] は、4998 個のトレーニング画像と 5105 個の検証画像を含むシーン全体の意味ラベルを提供します。このデータセットは主に高精度モデルを評価するために使用されますが、ここでは PIDNet の一般化機能を実証するために利用します。59 カテゴリと 60 カテゴリのシナリオの状況も評価されました。

4.2. 詳細な事前トレーニングの実施

モデルを微調整する前に、ImageNet [41] を使用してモデルを事前トレーニングします。これは、ほとんどの以前の研究 [20、34、35] で採用されているアプローチです。D ブランチを削除し、最終段階で特徴を直接マージして、分類モデルを構築します。合計 90 エポックがトレーニングされ、初期学習率は 0.1 に設定され、30 番目と 60 番目のエポックで 0.1 が乗算されます。データ拡張のために、画像をランダムに 224×224 にトリミングし、水平方向に反転します。電車。私たちのトレーニングプロトコルは以前の研究[15、20、52]とほぼ同じです。具体的には、学習率を更新するために多項式戦略を採用し、データ拡張のためにランダムなトリミング、ランダムな水平反転、およびランダムなスケーリング (範囲 [0.5, 2.0]) を実行します。Cityscapes、CamVid、および PASCAL Context の場合、トレーニング エポックの数、初期学習率、重み減衰、クロップ サイズおよびバッチ サイズは [ 484 , 1 e − 2 , 5 e − 4 , 1024 × 1024 , 12 ] および [ 200 , 1 e − 3 , 5 e − 4 , 960 × 720 , 12 ] [484, 1e^{-2}, 5e^{-4}, 1024×1024, 12], [200, 1e^{-3 }, 5e^{-4}, 960×720, 12][ 484 1e _25e _41024×1024 12 ] [ 200 1e _35e _4960×720 12] [ 200 , 1 e − 3 , 1 e − 4 , 520 × 520 , 16 ] [200, 1e^{-3}, 1e^{-4}, 520×520, 16] [ 200 1e _31e _4520×520 16 ][20, 51] の方法に従って、Cityscapes の事前トレーニング済みモデルを微調整し、CamVid をトレーニングし、lr< 5 e − 4 lr < 5e^{-4}l r<5e _−過剰適合を避けるために、トレーニングを4で停止します。推論。テスト前に、モデルは Cityscapes と CamVid のトレーニングおよび検証セットを使用してトレーニングされます。単一の RTX 3090、PyTorch 1.8、CUDA 11.2、cuDNN 8.0、および Windows-Conda 環境で構成されるプラットフォームで推論速度を測定します。[10] によって提案された測定プロトコルと [20、35、45] の方法に従って、バッチ正規化を畳み込み層に統合し、バッチ サイズを 1 に設定して推論速度を測定します。

4.3. アブレーション研究

表 1. BiSeNet および DDRNet での ADB-Bag の分析研究


2 ブランチ ネットワーク内の ADB。PID 法の有効性を実証するために、ADB と Bag を既存のモデルと組み合わせます。ここでは、BiSeNet [52] と DDRNet [20] という 2 つの代表的な 2 分岐ネットワークを実装し、ADB と Bag を使用して実験を行い、Cityscapes 検証セットで元のモデルよりも高い精度を達成しました。表1示されています。ただし、追加の計算により推論速度が大幅に低下するため、PIDNet を構築する動機になりました。

表 2. PIDNet-L での Pag と Bag のアブレーション研究。IM は事前にトレーニングされた ImageNet [41] であり、Add は要素と加算の演算であり、None は横方向の接続がないことを意味します。

表 3. PIDNet-S における PAPPM と Light-Bag の分析研究

ここに画像の説明を挿入します

パグとバッグのコラボレーション。P ブランチは Pag モジュールを利用して、融合ステージの前に I ブランチから有用な情報を学習します。一方、Bag モジュールは詳細な機能とコンテキストに応じた機能の融合をガイドします。表 2 に示すように、サイド接続によりモデルの精度が大幅に向上し、事前トレーニングによりパフォーマンスがさらに向上します。このシナリオでは、保存の詳細はネットワーク全体で一貫している必要があるため、Add 側接続と Bag 融合モジュール、または Pag 側接続と Add 融合モジュールの組み合わせはあまり意味がありません。したがって、Add + Add と Pag + Bag のパフォーマンスを比較するだけで済みます。表2そして表3実験結果は、Pag と Bag (または Light-Bag) の連携の優位性を証明しています。図8の特徴マップの視覚化は、2 番目の Pag のシグモイド マップで、小さなオブジェクトが大きなオブジェクトよりも暗くなり、I ブランチがより詳細な情報を失っていることを示しています。さらに、Bag モジュールの出力により、境界領域や小さなオブジェクトの機能が大幅に強化されます。図9示されているように、これは、粗い境界検出を選択する理由を説明しています。

図 8. Pag モジュールの機能の視覚化。左から右への最初の行は、元の入力イメージ、P 入力、I 入力、および最初の Pag のシグモイド関数出力、2 行目は、2 番目の Pag の実数ラベル、P 入力、I 入力、および Sigmoid 出力です。 3 行目の行 1 と行 4 は、別の画像の対応する結果です。

図 9. Bag モジュールの機能の視覚化。最初の行は左から右に元の入力画像、実ラベル、DDRNet-23 の予測結果、PIDNet-M の予測結果、2 行目は PIDNet の Light-Pag の P、I、D 入力です。 -M と最終出力。 ; 3 行目と 4 行目は、別のイメージの対応する結果です。

PAPPM の効率。リアルタイム モデルの場合、複雑なコンテキスト集約モジュールにより推論が大幅に遅くなり、ネットワークの表現能力を超える可能性があります。そこで、並列構造と少数のパラメータから構成される PAPPM を提案します。表 3 の実験結果は、PAPPM は DAPPM [20] と同じ精度を達成しますが、軽量モデルでは 9.5 FPS 高速であることを示しています。

表 4. PIDNet-L での追加損失と OHEM のプロファイリング研究。

追加損失の有効性。ネットワーク全体の最適化効果を向上させ、各コンポーネントの機能を強調するために、PIDNet に 3 つの追加損失を導入します。によると表4、境界損失l 1 l_11および境界を意識した損失l 3 l_33パフォーマンスを向上させるには、特に境界損失 (+1.1% mIOU) が必要であり、これは D ブランチの必要性を強く示していますが、オンライン ハード サンプル マイニング (OHEM) [43] により精度がさらに向上します。

4.4. 比較

カムヴィッド。CamVid [5] データセットの場合、DDRNet の精度のみが私たちのモデルと同等であるため、私たちのプラットフォームが先進的なものよりも効率的であることを考慮して、公平な比較のために同じ設定を使用して私たちのプラットフォームでその速度をテストします。表5の実験結果は、すべてのモデルの精度が 80% mIOU を超えていることを示していますが、PIDNet-S のチャネル数を単純に 2 倍にした PIDNet-S-wider は、以前のモデルを上回る大きな利点により最高の精度を達成しています。さらに、PIDNet-S は精度において以前の最先端モデル DDRNet-23-S を上回り、mIOU を 1.5% 向上させ、遅延は約 1 ミリ秒追加するだけです。

表 5. CamVid データセットの速度と精度の比較。Cityscapes [12] を使用して事前トレーニングされたモデルには † のマークが付いています。* のマークが付いているモデルの推論速度は、当社のプラットフォームでテストされました。

街並み。以前のリアルタイム作品では、高品質の注釈を考慮して、Cityscapes [12] を標準ベンチマークとみなしています。のように表6示されているように、PIDNet と同様に、公平な比較を行うために、アクセラレーション ツールを使用せずに、同じプラットフォーム上で過去 2 年間にリリースされたモデルの推論速度をテストしました。実験結果は、PIDNet が推論速度と精度の間で最適なバランスを達成していることを示しています。具体的には、PIDNet-L は速度と精度において SFNet (ResNet-18) † および DDRNet-39 を上回り、テスト精度を 80.4% から 80.64% の mIOU モデルに向上させることで、リアルタイム領域で最も正確になりました。PIDNet-M と PIDNet-S も、同様の推論速度を持つ他のモデルと比較して高い精度を提供します。PIDNet-S から Pag モジュールと Bag モジュールを削除し、より高速なオプションである PIDNet-S-Simple を提供します。これは一般化があまり良くありませんが、遅延が 10 ミリ秒未満のモデルの中で最高の精度を示します。

表 6. Cityscapes データセットの速度と精度の比較。他の分割データセットを使用して事前トレーニングされたモデルには † のマークが付いています。* のマークが付いているモデルの推論速度は、当社のプラットフォームでテストされました。PIDNet の GFLOP は、フル解像度の入力に基づいて導出されます。

ここに画像の説明を挿入します

パスカルコンテキスト。PAPPM の Avg(17, 8) パスは、PASCAL Context [33] の画像サイズが小さすぎるため削除されました。他の 2 つのデータセットとは異なり、ここでは以前のモデルとの公平な比較を可能にするためにマルチスケール推論と反転推論が使用されています。前の 2 つのデータセットと比較して PASCAL コンテキストのアノテーションは少なくなっていますが、表 7 に示すように、私たちのモデルは依然として既存の複雑なネットワーク上で競争力のあるパフォーマンスを達成しています。

表 7. Pascal-Context データセットの精度の比較 (バックグラウンド クラスありとなし)。D-Res-101 は、Dirated ResNet-101 モデルを指します。

5。結論

この論文では、リアルタイム セマンティック セグメンテーションのための新しい 3 ブランチ ネットワーク アーキテクチャ、PIDNet を提案します。PIDNet は、推論時間と精度の間で最適なバランスを実現します。ただし、PIDNet は境界予測を利用して詳細情報とコンテキスト情報のバランスをとるため、通常、境界付近の正確な注釈を使用してパフォーマンスを向上するには多くの時間を必要とします。

参考文献

[1] Wangpeng An、Haoqian Wang、Qingyun Sun、Jun Xu、Qionghai Dai、Lei Zhang。深層ネットワークの確率的最適化のための pid コントローラー アプローチ。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、8522 ~ 8531 ページ、2018 年。1
[2] Saiid Asgari Taghanaki、Kumar Abhishek、Joseph Paul Cohen、Julien Cohen-Adad、Ghassan Hamarneh。自然画像と医療画像のディープセマンティックセグメンテーション: レビュー。人工知能レビュー、54(1):137–178、2021。1 [3] ヘロン・ビセンテ・ハルトマン・アヤラとレアンドロ・ドス・サントス・コエーリョ。ロボットマニピュレーターに適用される多目的遺伝的アルゴリズムに基づく pid コントローラーの調整。アプリケーションを備えたエキスパート システム、39(10):8968–8974、2012.1
[4] ビジェイ・バドリナラヤナン、アレックス・ケンダル、ロベルト・シポラ。Segnet: 画像セグメンテーションのための深い畳み込みエンコーダ/デコーダ アーキテクチャ。パターン分析とマシン インテリジェンスに関する IEEE トランザクション、39(12):2481–2495、2017。1、2
[5] Gabriel J Brostow、Julien Fauqueur、Roberto Cipolla。ビデオ内のセマンティック オブジェクト クラス: 高解像度のグラウンド トゥルース データベース。Pattern Recognition Letters、30(2):88–97、2009 年。2、6、7
[6] Liang-Chieh Chen、George Papandreou、Iasonas Kokkinos、Kevin Murphy、および Alan L Yuille。深い畳み込みネットと完全に接続された CRF を使用したセマンティック画像セグメンテーション。arXiv プレプリント arXiv:1412.7062、2014. 1
[7] リャンチエ・チェン、ジョージ・パパンドレウ、イソナス・コッキノス、ケビン・マーフィー、アラン・L・ユイル。Deeplab: 深い畳み込みネット、atrous 畳み込み、および完全に接続された crf を使用したセマンティック画像セグメンテーション。パターン分析とマシン インテリジェンスに関する IEEE トランザクション、40(4):834–848、2017。2、8
[8] Liang-Chieh Chen、George Papandreou、Florian Schroff、および Hartwig Adam。セマンティック画像セグメンテーションのための激しい畳み込みの再考。arXiv プレプリント arXiv:1706.05587、2017. 2
[9] Liang-Chieh Chen、Yukun Zhu、George Papandreou、Florian Schroff、および Hartwig Adam。セマンティック画像セグメンテーションのための重要な分離可能な畳み込みを備えたエンコーダ/デコーダ。欧州コンピューター ビジョン会議 (ECCV) の議事録、801 ~ 818 ページ、2018 年。2
[10] 陳武羊、功信宇、劉暁明、張銭、袁李、王張陽。Fasterseg: より高速なリアルタイム セマンティック セグメンテーションを検索します。arXiv プレプリント arXiv:1912.10917、2019. 6
[11] フランソワ・ショレ。Xception: 深さ方向に分離可能な畳み込みを使用した深層学習。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、1251 ~ 1258 ページ、2017 年。2
[12] Marius Cordts、Mohamed Omran、Sebastian Ramos、Timo Rehfeld、Markus Enzweiler、Rodrigo Benenson、Uwe Franke、Stefan Roth、および Berntシーレ。セマンティックな都市シーンを理解するための都市景観データセット。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、3213 ~ 3223 ページ、2016 年。1、2、6、7
[13] Ruoxi Deng、Chunhua Shen、Shengjun Liu、Huibing Wang、Xinru Liu。明確な境界を予測する方法を学習します。ヨーロッパコンピュータビジョン会議 (ECCV) の議事録、562 ~ 578 ページ、2018 年。4
[14] Henghui Ding、Xudong Jiang、Bing Shuai、Ai Qun Liu、および Gang Wang。シーンセグメンテーションのためのコンテキスト対比機能とゲートマルチスケール集約。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2393 ~ 2402 ページ、2018 年。8
[15] Mingyuan Fan、Shenqi Lai、Junshi Huang、Xiaoming Wei、Zhenhua Chai、Junfeng Luo、および Xiaolin Wei。リアルタイムのセマンティック セグメンテーションのための bisenet の再考。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、9716 ~ 9725 ページ、2021 年。2、6、8
[16] ディ・フェン、クリスチャン・ハース=シュッツ、ラース・ローゼンバウム、ハインツ・ヘルトライン、クラウディウス・グレーザー、ファビアン・ティム、ヴェルナー・ヴィースベック、クラウス・ディートマイヤー。自動運転のためのディープマルチモーダル物体検出とセマンティックセグメンテーション: データセット、方法、課題。IEEE Transactions on Intelligent Transportation Systems、22(3):1341–1360、2020. 1、2
[17] Jun Fu、Jing Liu、Haijie Tian、Yong Li、Yongjun Bao、Zhiwei Fang、および Hanqing Lu。シーンセグメンテーションのためのデュアルアテンションネットワーク。コンピュータ ビジョンとパターン認識に関する IEEE/CVF 会議議事録、3146 ~ 3154 ページ、2019 年。2
[18] Mostafa Gamal、Mennatullah Siam、Moemen AbdelRazek。Shuffleseg: リアルタイムのセマンティック セグメンテーション ネットワーク。arXiv プレプリント arXiv:1803.03816、2018. 2
[19] 何開明、張祥宇、任少清、孫建。画像認識のための深層残差学習。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、770 ~ 778 ページ、2016 年。4
[20] Yuanduo Hon、Huihui Pan、Weichao Sun、および Yisong Jia。道路シーンのリアルタイムかつ正確なセマンティック セグメンテーションを実現するディープ デュアル解像度ネットワーク。arXiv プレプリント arXiv:2101.06085、2021. 2、3、4、5、6、7、8
[21] Andrew G Howard、Menglong Zhu、Bo Chen、Dmitry Kalenichenko、Weijun Wang、Tobias Weyand、Marco Andreetto、Hartwig Adam。Mobilenets: モバイル ビジョン アプリケーション向けの効率的な畳み込みニューラル ネットワーク。arXiv プレプリント arXiv:1704.04861、2017. 2
[22] ピン・フー、ファビアン・カバ、オリバー・ワン、ジェ・リン、スタン・スクラロフ、フェデリコ・ペラッツィ。高速ビデオセマンティックセグメンテーションのための一時分散ネットワーク。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、8818 ~ 8827 ページ、2020 年。7 [
23] Zilong Huang、Xinggang Wang、Lichao Huang、Chang Huang、Yunchao Wei、および Wenyu Liu。CCnet: セマンティック セグメンテーションに対する多方面からの注目。コンピューター ビジョンに関する IEEE/CVF 国際会議議事録、603 ~ 612 ページ、2019 年。2
[24] A Jayachitra と R Vinodha。遺伝的アルゴリズムに基づく連続撹拌タンク反応器の PID コントローラー調整アプローチ。人工知能の進歩 (16877470)、2014. 1
[25] A・コーダバクシアンとR・フーシュマンド。水力発電システムの自動発電制御のための新しい PID コントローラー設計。International Journal of Electrical Power & Energy Systems、32(5):375–382、2010. 1
[26] Saumya Kumaar、Ye Lyu、Francesco Nex、および Michael Ying Yang。キャビネット: 低遅延のセマンティック セグメンテーションのための効率的なコンテキスト集約ネットワーク。2021 年の IEEE ロボティクスとオートメーションに関する国際会議 (ICRA)、13517 ~ 13524 ページ。IEEE、2021. 8
[27] Hanchao Li、Pengfei Xiong、Haoqiang Fan、および Jian Sun。Dfanet: リアルタイムのセマンティック セグメンテーションのための詳細な機能集約。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、9522 ~ 9531 ページ、2019 年。2
[28] Xiangtai Li、Ansheng You、Zhen Zhu、Houlong Zhao、Maoke Yang、Kuiyuan Yang、Shaohua Tan、Yunhai Tong。高速かつ正確なシーン解析のためのセマンティック フロー。European Conference on Computer Vision、775 ~ 793 ページ。Springer、2020 年 4、8
[29] Xin Li、Yiming Zhou、Zheng Pan、Jiashi Feng。部分順序枝刈り: ニューラル アーキテクチャ検索における最適な速度と精度のトレードオフを実現します。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、9145 ~ 9153 ページ、2019 年。8
[30] Guosheng Lin、Anton Milan、Chunhua Shen、および Ian Reid。Refinenet: 高解像度のセマンティック セグメンテーションのためのマルチパス洗練ネットワーク。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、1925 ~ 1934 ページ、2017 年。8
[31] ジョナサン・ロング、エヴァン・シェルハマー、トレバー・ダレル。セマンティック セグメンテーションのための完全な畳み込みネットワーク。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、3431 ~ 3440 ページ、2015 年。1、2
[32] Ruijun Ma、Shuyi Li、Bob Zhang、および Zhengming Li。注意深いニューラル ネットワークと PID コントローラーを使用して、高速かつ堅牢な実画像のノイズ除去を目指します。IEEE Transactions on Multimedia、2021. 1
[33] Roozbeh Mottaghi、Xianjie Chen、Xiaobi Liu、Nam-Gyu Cho、Seong-Whan Lee、Sanja Fidler、Raquel Urtasun、および Alan Yuille。実際のオブジェクト検出とセマンティック セグメンテーションにおけるコンテキストの役割。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、891 ~ 898 ページ、2014 年。2、6、8
[34] ユヴァル・ニルキン、リオール・ウルフ、タル・ハスナー。ハイパーセグ: リアルタイムのセマンティック セグメンテーションのためのパッチワイズ ハイパーネットワーク。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、4061 ~ 4070 ページ、2021 年。6、7、8
[35] Marin Orsic、Ivan Kreso、Petra Bevandic、および Sinisa Segvic。道路走行画像のリアルタイムのセマンティック セグメンテーションのための事前トレーニング済みイメージネット アーキテクチャの擁護。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、12607 ~ 12616 ページ、2019 年。2、3、4、6、8 [36]
Adam Paszke、Abhishek Chaurasia、Sangpil Kim、および Eugenio Culurciello。Enet: リアルタイムのセマンティック セグメンテーションのためのディープ ニューラル ネットワーク アーキテクチャ。arXiv プレプリント arXiv:1606.02147、2016. 2
[37] Juncai Peng、Yi Liu、Shiyu Tang、Yuying Hao、Lutao Chu、Guowei Chen、Zewu Wu、Zeyu Chen、Zhiliang Yu、Yuning Du、他 Pp-liteseg: 優れたリアルタイム セマンティック セグメンテーション モデル arXiv arXiv プレプリント
arXiv:1805.04554、2018. 2 、 3
[39] Rudra PK Poudel、Stephan Liwicki、Roberto Cipolla. Fast-scnn: 高速セマンティック セグメンテーション ネットワーク. arXiv プレプリント arXiv:1902.04502、2019. 2、3
[40] オラフ・ロンネバーガー、フィリップ・フィッシャー、トーマス・ブロックス。Unet: 生物医学画像セグメンテーション用の畳み込みネットワーク。医療画像コンピューティングとコンピュータ支援介入に関する国際会議、234 ~ 241 ページ。Springer、2015. 1、2
[41] オルガ・ルサコフスキー、ジア・デン、ハオ・スー、ジョナサン・クラウス、サンジーブ・サシーシュ、ショーン・マー、ジヘン・ファン、アンドレイ・カルパシー、アディティヤ・コスラ、マイケル・バーンスタイン、他。Imagenet の大規模視覚認識チャレンジ。International Journal of Computer Vision、115(3):211–252、2015. 6
[42] Mark Sandler、Andrew Howard、Menglong Zhu、Andrey Zhmoginov、Liang-Chieh Chen。Mobilenetv2: 逆転した残差と線形ボトルネック。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、4510 ~ 4520 ページ、2018 年。2
[43] アビナフ・シュリヴァスタヴァ、アビナフ・グプタ、ロス・ガーシック。オンラインのハード サンプル マイニングを使用して、領域ベースのオブジェクト検出器をトレーニングします。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、761 ~ 769 ページ、2016 年。7
[44] Alexey A Shvets、Alexander Rakhlin、Alexandr A Kalinin、および Vladimir I Iglovikov。深層学習を使用したロボット支援手術における器具の自動セグメンテーション。2018 年の第 17 回 IEEE 機械学習とアプリケーション国際会議 (ICMLA)、624 ~ 628 ページ。IEEE、2018. 2
[45] Haiyang Si、Zhiqiang Zhang、Feifan Lv、Gang Yu、および Feng Lu。多重空間融合ネットワークによるリアルタイムのセマンティック セグメンテーション。arXiv プレプリント arXiv:1911.07217、2019. 6、7、8
[46] 滝川とわき、デヴィッド・アクーニャ、ヴァルン・ジャンパニ、サンジャ・フィドラー。Gated-scnn: セマンティック セグメンテーション用のゲートされた形状の CNN。コンピュータ ビジョンに関する IEEE/CVF 国際会議議事録、5229 ~ 5238 ページ、2019 年。4
[47] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Łukasz Kaiser、および Illia Polosukhin。必要なのは注意力だけです。神経情報処理システムの進歩、30、2017 年 2、5
[48] Jingdong Wang、Ke Sun、Tianheng Cheng、Burui Jiang、Chaorui Deng、Yang Zhao、Dong Liu、Yadong Mu、Mingkui Tan、Xinggang Wang、他。視覚認識のための深い高解像度表現学習。パターン分析とマシン インテリジェンスに関する IEEE トランザクション、43(10):3349–3364、2020. 1、2、4、8
[49] シャオロン・ワン、ロス・ガーシック、アビナブ・グプタ、カイミン・何。非ローカルニューラルネットワーク。コンピューターに関する IEEE 会議議事録 v
[50] Jiacong Xu および Shankar P Bhattacharyya。pid コントローラー アーキテクチャは、pso アルゴリズムの強化に影響を与えました。『情報通信会議の将来』、587 ~ 603 ページ。Springer、2022 年。1
[51] Changqian Yu、Changxin Gao、Jingbo Wang、Gang Yu、Chunhua Shen、Nong Sang。Bisenet v2: リアルタイムのセマンティック セグメンテーションのためのガイド付き集約を備えた双方向ネットワーク。インターナショナル ジャーナル オブ コンピューター ビジョン、129(11):3051–3068、2021. 3、4、6、7、8
[52] Changqian Yu、Jingbo Wang、Chao Peng、Changxin Gao、Gang Yu、Nong Sang。Bisenet: リアルタイムのセマンティック セグメンテーションのための双方向セグメンテーション ネットワーク。コンピュータ ビジョンに関する欧州会議 (ECCV) の議事録、325 ~ 341 ページ、2018 年。2、3、6、8
[53] Fisher Yu および Vladlen Koltun。拡張畳み込みによるマルチスケールのコンテキスト集約。arXiv プレプリント arXiv:1511.07122、2015. 2
[54] Xiaohui Yuan、Jianfang Shi、Lichuan Gu。リモート センシング画像のセマンティック セグメンテーションのための深層学習手法のレビュー。Expert Systems with Applications、169:114417、2021。1
[55] Yuhui Yuan、Xilin Chen、および Jingdong Wang。セマンティックセグメンテーションのためのオブジェクトコンテキスト表現。コンピューター ビジョンに関する欧州会議、173 ~ 190 ページ。スプリンガー、2020. 2
[56] ハン・ジャン、クリスティン・ダナ、ジェンピン・シー、ジョンユエ・チャン、シャオガン・ワン、アンブリッシュ・チャギ、アミット・アグラワル。セマンティック セグメンテーションのためのコンテキスト エンコーディング。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、7151 ~ 7160 ページ、2018 年。8
[57] Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、および Jian Sun。Shufflenet: モバイル デバイス用の非常に効率的な畳み込みニューラル ネットワーク。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、6848 ~ 6856 ページ、2018 年。2
[58] Hengshuang Zhao、Xiaojuan Qi、Xiaoyong Shen、Jianping Shi、および Jiaya Jia。高解像度画像のリアルタイム セマンティック セグメンテーションのための Icnet。欧州コンピューター ビジョン会議 (ECCV) の議事録、405 ~ 420 ページ、2018 年。2
[59] Hengshuang Zhao、Jianping Shi、Xiaojuan Qi、Xiaogang Wang、および Jiaya Jia. ピラミッド シーン解析ネットワーク. コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2881 ~ 2890 ページ、2017. 1、2、5、 8
[60] Sixiao Zheng、Jiachen Lu、Hengshuang Zhao、Xiatian Zhu、Zekun Luo、Yabiao Wang、Yanwei Fu、Jianfeng Feng、Tao Xiang、Philip HS Torr、ほか シーケンス間の観点からセマンティック セグメンテーションを再考する変圧器.コンピュータ ビジョンとパターン認識に関する IEEE/CVF 会議議事録、6881 ~ 6890 ページ、2021 年。

おすすめ

転載: blog.csdn.net/wagnbo/article/details/131103239
おすすめ