【DDRNets】道路シーンのリアルタイムかつ正確なセマンティックセグメンテーションのためのディープデュアル解像度ネットワーク

道路シーンのリアルタイムかつ正確なセマンティック セグメンテーションのためのディープ デュアル解像度ネットワーク

道路シーンのリアルタイムかつ正確なセマンティック セグメンテーションを実現するディープ デュアル解像度ネットワーク

https://arxiv.org/pdf/2101.06085.pdf
https://github.com/ydhongHIT/DDRNet
Yuanduo Hon、Huihui Pan、Weichao Sun、IEEE シニアメンバー、Yisong Jia
2021

まとめ

セマンティック セグメンテーションは、自動運転車が周囲の状況を理解するための重要なテクノロジーです。現代のモデルの魅力的なパフォーマンスは、多くの場合、大量の計算と長い推論時間を犠牲にしており、自動運転には耐えられません。最近の手法では、軽量のアーキテクチャ (エンコーダ/デコーダまたはデュアルパス) を使用するか、低解像度の画像を推論することで、非常に高速なシーン解析を実現し、単一の 1080Ti GPU で 100 FPS を超える動作を実現しています。ただし、これらのリアルタイム手法と拡張されたバックボーンベースのモデルとのパフォーマンスの差は依然として大きいです。この問題に対処するために、リアルタイムのセマンティック セグメンテーション用に設計された一連の効率的なバックボーンを提案します。提案されたディープ デュアル解像度ネットワーク (DDRNet) は、複数の双方向融合が実行される 2 つのディープ ブランチで構成されます。さらに、私たちは、Deep Aggregation Pyramid Pooling Module (DAPPM) と呼ばれる新しいコンテキスト情報抽出ツール、有効受容野を拡大し、低解像度の特徴マップに基づいてマルチスケールのコンテキストを融合します。私たちの手法は、Cityscapes と CamVid データセットの精度と速度の間の新しい最先端のトレードオフを実現します。特に、単一の 2080Ti GPU 上で、DDRNet-23-slim は、Cityscapes テスト セットで 102 FPS で 77.4% mIoU、CamVid テスト セットで 230 FPS で 74.7% mIoU を達成しています。広く使用されているテスト拡張では、私たちの方法はほとんどの最先端のモデルよりも優れたパフォーマンスを発揮し、必要な計算量が少なくなります。コードとトレーニング済みモデルはオンラインで入手できます。

キーワード- セマンティックセグメンテーション、リアルタイム、ディープ畳み込みニューラルネットワーク、自動運転

1 件の要約

図 1: Cityscapes テスト セットでの速度と精度の比較。赤い三角形は私たちの方法を表し、青い三角形は他の方法を表し、緑の丸はアーキテクチャ検索方法を表します。

セマンティック セグメンテーションは基本的なタスクであり、その目標は、入力画像の各ピクセルを対応するラベルに割り当てることです [1] ~ [3]。これは、医療画像のセグメンテーション、自動運転ナビゲーション、ロボット工学など、多くの実用的なアプリケーションで重要な役割を果たしています [4]、[5]。深層学習テクノロジーの台頭により、畳み込みニューラル ネットワークが画像のセグメンテーションに適用され、手動機能に基づく従来の方法よりも大きな利点が得られました。完全畳み込みネットワーク (FCN) [6] がセマンティック セグメンテーション問題を処理するために提案されて以来、一連の新しいネットワークが提案されています。DeepLab [7] は、高解像度を維持するために ResNet の一部のダウンサンプリング操作を排除し、大きな拡張率で畳み込み操作 [8] を利用して受容野を拡大します。それ以来、atrous 畳み込みベースのバックボーン ネットワークとコンテキスト抽出モジュールは、DeepLabV2 [9]、DeepLabV3 [10]、PSPNet [11]、DenseASPP [12] など、広く使用される標準構造になりました。

セマンティック セグメンテーションは高密度の予測タスクであるため、ニューラル ネットワークは満足のいく結果を得るために大きな受容野を持つ高解像度の特徴マップを出力する必要がありますが、これには計算コストがかかります。広い視野をカバーするために非常に大きな画像を操作する必要があるため、この問題は自動運転におけるシーン解析にとって特に重要です。したがって、上記の方法は推論段階で非常に時間がかかり、実際の自動運転車に直接導入することはできません。精度を向上させるためにマルチスケール テストが使用されるため、1 秒間に 1 つの画像を処理することさえできません。

モバイル デバイスの展開に対する需要の高まりに伴い、リアルタイム セグメンテーション アルゴリズム [13] ~ [17] への注目が高まっています。DFANet [18] は、深いマルチスケール特徴集約と軽量の深さ分離可能な畳み込みを採用しています。、毎秒 100 フレームで 71.3% のテスト mIoU を達成しました。エンコーダ/デコーダのパラダイムとは異なり、[19] の著者らは、空間パスと文脈パスで構成される新しい双方向ネットワーク特に、空間パスは 3 つの比較的幅の広い 3x3 畳み込み層を利用して空間の詳細をキャプチャし、コンテキスト パスはコンテキスト情報を抽出するための事前トレーニングされたコンパクトなバックボーン ネットワークです。[20] を含むこれらの双方向手法は、当時、エンコーダ/デコーダ アーキテクチャよりも高い推論速度を達成しました。

最近、道路シーンのセマンティック セグメンテーションのためのいくつかの競争力のあるリアルタイム方法が提案されています。これらの方法は 2 つのカテゴリに分類できます。GPU 効率の高いバックボーン ネットワークの一種、特に ResNet-18 [21–23]。別のタイプが開発されましたゼロからトレーニングされた複雑で軽量なエンコーダそのうちの BiSeNetV2 [24] は、リアルタイム パフォーマンスの新たなピークに達し、Cityscapes データセット上で 156 フレーム/秒で 72.6% のテスト mIoU を達成しました。しかし、これらの最近の研究では、追加のトレーニング データを使用した [23] を除いて、より高品質な結果が得られる可能性は実証されていません。それらの中には、慎重に設計されたアーキテクチャと調整されたハイパーパラメータにより、スケーラビリティに欠けるものもあります。さらに、より強力なバックボーン ネットワークの開発を考慮すると、ResNet-18 にはほとんど利点がありません。

この論文では、高解像度画像、特に道路走行画像のリアルタイム セマンティック セグメンテーションのための二重解像度ネットワークを提案します。当社の DDRNet はバックボーン ネットワークから始まり、異なる解像度を持つ 2 つの並列の深いブランチに分割されます。1 つの深いブランチは比較的高解像度の特徴マップを生成し、もう 1 つは複数のダウンサンプリング操作を通じて豊富なセマンティック情報を抽出します。効率的な情報融合は、複数の双方向接続を通じて 2 つのブランチ間で実行されます。さらに、低解像度の特徴マップを入力し、マルチスケールのコンテキスト情報を抽出し、それらをカスケード方式でマージする、DAPPM という新しいモジュールを提案します。セマンティック セグメンテーション データセットでトレーニングする前に、二重解像度ネットワークは共通のパラダイムに従って ImageNet でトレーニングされます。

Cityscapes、CamVid、COCOStuff という 3 つの一般的なベンチマークに関する広範な実験結果に基づいて、DDRNets はセグメンテーションの精度と推論速度の間の優れたバランスを実現します。他のリアルタイム アルゴリズムと比較して、私たちの方法は、アテンション メカニズムや追加の変更を使用せずに、Cityscapes および CamVid データセットで新しい最先端の精度を達成します。標準的なテスト強化条件下では、DDRNet は最先端のモデルと同等であり、必要な計算リソースが少なくなります。また、統計的に有意なパフォーマンスを報告し、アブレーション実験を実施して、アーキテクチャの改善と標準的なトレーニング技術の影響を分析します。

主な貢献は次のように要約されます。

  • 深い二重解像度ブランチと複数の双方向融合を備えた一連の新しい双方向ネットワークが、効率的なリアルタイム セマンティック セグメンテーション バックボーン ネットワークとして提案されています。
  • 新しいモジュールは、機能の集約とピラミッド プーリングを組み合わせて、豊富なコンテキスト情報を収集するように設計されています。低解像度の特徴マップで実行すると、推論時間はほとんど増加しません。
  • 私たちのメソッドは、2080Ti で精度と速度の間の新しい最先端のトレードオフを達成し、Cityscapes テスト セットで 102 フレーム/秒で 77.4% mIoU、CamVid テスト セットで 230 フレーム/秒で 74.7% mIoU を達成しました。 。私たちの知る限り、私たちは、細かいアノテーションのみを使用して、ほぼリアルタイム (22 FPS) で都市景観上で 80.4% の mIoU を達成した最初の方法です。

2.関連作品

近年、拡張畳み込みベースの手法により、多くの困難なシナリオにおけるセマンティック セグメンテーションのパフォーマンスが向上しました。先駆的な取り組みにより、エンコーダ/デコーダや 2 パスなどの軽量アーキテクチャによるさらなる可能性が探求されています。さらに、シーン解析タスクでは、コンテキスト情報非常に重要であることがわかりました。このセクションでは、関連する作業を 3 つのカテゴリに分類します。高性能セマンティック セグメンテーション、リアルタイム セマンティック セグメンテーション、およびコンテキスト抽出モジュール

A. 高性能セマンティック セグメンテーション

図 2. 拡張方式、エンコーダ/デコーダ方式、デュアルチャネル方式、およびディープ デュアル解像度ネットワークの比較。

空間的な詳細が欠如しているため、一般的なエンコーダーの最後の層の出力を直接使用してセグメンテーション マスクを予測することはできません。分類バックボーンのダウンサンプリングのみが削除された場合、有効受容野は小さすぎて高レベルの意味情報を学習できません。受け入れられる戦略は、Atrous コンボリューションを利用して、最後の 2 つのダウンサンプリング層を削除しながらピクセル間の長い接続を確立することです。图2 a[10]、[11] に示すとおり。ただし、これは、高解像度の特徴マップの次元の指数関数的な増加とアトラス畳み込み実装の最適化が不十分であるため、リアルタイム推論に新たな課題ももたらします。実際、ほとんどの最先端モデルは拡張されたバックボーンに基づいて構築されているため、自動運転シナリオ分析には適していません。

いくつかの研究が、標準の拡張バックボーンの代替案を探ろうと試みてきました。DeepLabv3plus [25] の著者は、アップサンプリングされた特徴マップと低レベルの特徴マップを融合する単純なデコーダを提案しました。これにより、Atrous 畳み込みから直接高解像度の特徴マップを生成する要件が軽減されます。エンコーダの出力ストライドは 16 に設定されていますが、DeepLabv3plus は依然として競争力のある結果を達成できます。HRNet [26] は深い高解像度表現を強調し、拡張されたバックボーンよりも高い効率を反映しています。HRNet は計算効率が高く、推論が高速であり、高解像度ストリームの多くはサイズがはるかに小さいことがわかります。HRNetV2-W48 を例にとると、1/4 解像度と 1/8 解像度の特徴の次元はそれぞれ 48 と 96 であり、これは激しい畳み込みを使用して事前に訓練された ResNet よりもはるかに小さいです [27]。HRNet の高解像度ブランチははるかに小さいですが、並列低解像度ブランチとマルチスケール フュージョンの繰り返しによって大幅に強化できます。

私たちの仕事は、深く詳細な高解像度の表現から始まり、よりコンパクトなアーキテクチャを提案します。同時に、高解像度の表現を維持し、2 つの簡潔なバックボーンを通じて高レベルのコンテキスト情報を抽出します。

B. リアルタイムのセマンティック セグメンテーション

ほとんどすべてのリアルタイム セマンティック セグメンテーション モデルは、エンコーダ/デコーダ方式とデュアルチャネル方式という 2 つの基本方式を採用しています。どちらのアプローチでも、軽量エンコーダの重要性について説明しています。

1) エンコーダ-デコーダ アーキテクチャ: 拡張畳み込みベースのモデルと比較して、エンコーダ-デコーダ アーキテクチャは直感的に消費する計算時間と推論時間が少なくなります。エンコーダは通常、空間ダウンサンプリングを繰り返してコンテキスト情報を抽出する深いネットワークですが、デコーダは補間または転置畳み込み [28] を通じて解像度を復元し、次のような密な予測を完了します。図2b示されています。特に、エンコーダは、ImageNet で事前にトレーニングされた軽量のバックボーン ネットワーク、または ERFNet [5] や ESPNet [16] のように最初からトレーニングされた効率的なバリアントにすることができます。SwiftNet [21] は、ImageNet 上の事前トレーニングされたエンコーダを最大限に活用し、軽量のサイド接続を利用してアップサンプリングを支援します。著者らは、[29] で、複数の空間融合とカテゴリ境界監視の戦略を提案しました。FANet [22] は、高速アテンション モジュールとネットワーク全体の追加のダウンサンプリングを通じて、速度と精度の良好なバランスを実現します。SFNet [23] では、融合を改善するために隣接するレベルの特徴マップを調整するフロー アライメント モジュール (FAM) が導入されています。

2) デュアルチャネル アーキテクチャ: エンコーダ/デコーダ アーキテクチャにより計算負荷が軽減されますが、ダウンサンプリングを繰り返すと一部の情報が失われるため、アップサンプリングでは完全に回復できず、セマンティック セグメンテーションの精度に影響します。この問題を軽減するために、次のようなデュアルチャネル アーキテクチャ [19] が提案されています。図2c示されています。セマンティック情報を抽出するためのチャネルに加えて、より高解像度の別の浅いチャネルが、補足として豊かな空間詳細を提供します。精度をさらに向上させるために、BiSeNetV2 [24] はコンテキスト埋め込みにグローバル平均プーリングを使用し、アテンションベースの特徴融合方法を提案しています。BiSeNetV1&V2 の 2 つのチャネルは最初は独立していますが、Fast-SCNN [20] の 2 つのブランチは学習ダウンサンプリング モジュールを共有します。CABiNet [30] は Fast-SCNN の全体的なアーキテクチャを採用していますが、コンテキスト ブランチとして MobileNetV3 [31] を使用しています。

既存のデュアルチャネル方式に加えて、DDRNet の深くて高解像度のブランチは、推論効率を確保しながら、複数の機能融合と十分な ImageNet 事前トレーニングを実現できます。私たちの手法は、より高い精度 (Cityscapes データセットで 80% 以上の mIoU) を達成するために簡単に拡張できます。

3) 軽量エンコーダ: MobileNet [32]、ShuffleNet [33]、Xception の小型バージョン [34] など、エンコーダとして使用できる計算効率の高いバックボーン ネットワークが多数あります。モバイルネット標準の畳み込みの代わりに深さ方向に分離可能な畳み込みを使用します, パラメータと計算量を削減します。MobileNetV2 [35] の逆残差ブロックは、深さ方向の分離可能な畳み込みの強力な正則化効果を軽減します。ShuffleNet は、グループ化された畳み込みのコンパクトさを利用して、次のことを提案します。異なるグループ間の情報融合を促進するチャネルシャッフル操作ただし、これらのネットワークには深さ方向に分離可能な畳み込みが多数含まれており、既存の GPU アーキテクチャでは効率的に実装できません。したがって、ResNet-18 [27] は MobileNetV2 1.0x の約 6 倍の FLOP を持っていますが、単一の 1080Ti GPU 上では前者の推論速度が後者 [21] よりも高速です。ただし、既存の軽量バックボーン ネットワークは、画像分類用に過剰に調整されていることが多いため、セマンティック セグメンテーションには最適ではない可能性があります。

C. コンテキスト抽出モジュール

セマンティック セグメンテーションでは、より豊富なコンテキスト情報をどのように取得するかがもう 1 つの鍵となります。Atrous Spatial Pyramid Pooling (ASPP) [9] は、異なるサンプリング レートを持つ並列 Atrous 畳み込み層で構成され、マルチスケールのコンテキスト情報に焦点を当てることができます。ピラミッド プーリング モジュール (PPM) [11] は、畳み込み層の前にピラミッド プーリングを実装し、ASPP よりも計算効率が高くなります。畳み込みカーネルのローカルな特性とは異なり、セルフ アテンション メカニズムはグローバルな依存関係を捉えるのが得意です。したがって、デュアル アテンション ネットワーク (DANet) [36] は、位置アテンションとチャネル アテンションの利点を活用して、特徴表現をさらに改善します。オブジェクト コンテキスト ネットワーク (OCNet) [37] は、セルフ アテンション メカニズムを利用して、オブジェクト コンテキスト、つまり同じオブジェクト カテゴリに属する​​ピクセルのセットを探索します。CCNet [38] の著者は、メモリ使用量と計算効率を改善するためのクロスアテンション メカニズムを提案しました。ただし、これらのコンテキスト抽出モジュールは高解像度の特徴マップ用に設計および実装されているため、軽量モデルには時間がかかりすぎます。低解像度の特徴マップを入力として受け取り、より多くのスケールと詳細な特徴の集約を追加することで PPM モジュールを強化します。低解像度ブランチの最後に追加すると、私たちが提案したモジュールは、OCNet の PPM および Base-OC モジュールよりも優れたパフォーマンスを示します。

3. 方法

このセクションでは、プロセス全体について説明します。プロセスは、ディープ デュアル解像度ネットワークとディープ アグリゲーション ピラミッド プーリング モジュールという 2 つの主要コンポーネントで構成されます。

A. ディープデュアル解像度ネットワーク

便宜上、ResNet などの広く使用されている分類バックボーン ネットワークに高解像度ブランチを追加できます。解像度と推論速度のバランスを取るために、高解像度ブランチに入力画像解像度の 1/8 の解像度で特徴マップを作成させます。したがって、高解像度ブランチは conv3 ステージの最後に追加されます。高解像度ブランチにはダウンサンプリング操作が含まれておらず、低解像度ブランチと 1 対 1 で対応して深い高解像度表現が形成されることに注意してください。次に、複数の双方向特徴融合をさまざまな段階で実行して、空間情報と意味情報を完全に統合できます。

表 I Imagenet 上の DDRNet-23-SLIM および DDRNet-39 のアーキテクチャ。「CONV4×r」はCONV4をr回繰り返すことを意味します。DDRNet-23-SLIM の場合、r = 1、DDRNet-39 の場合、r = 2。

DDRNets-23-slim および DDRNets-39 の詳細なアーキテクチャは次のとおりです。表I示されています。1 つの 7×7 畳み込み層を 2 つの連続する 3×3 畳み込み層に置き換えることにより、元の ResNet の入力モジュールを変更します。残りの基本ブロックを使用して、バックボーンと後続の 2 つのブランチを構築します。出力次元を拡張するには、各分岐の最後にボトルネック ブロックが追加されます。

図 3. DDRNet における双方向融合の詳細。ReLU の前に点単位の合計を実装します。

双方向融合には、高解像度ブランチを低解像度ブランチに融合する (高対低融合) および低解像度ブランチを高解像度ブランチに融合する (低対高融合) が含まれます。高低融合の場合、高解像度の特徴マップは、一連の 3x3 畳み込み (ストライド 2) を通じてダウンサンプリングされ、その後、点単位の合計が続きます。低解像度から高解像度への融合の場合、低解像度の特徴マップは最初に 1×1 畳み込みによって圧縮され、次に双線形補間を使用してアップサンプリングされます。画像3二国間統合をどのように達成できるかを示します。i 番目の高解像度特徴マップXH i X_{Hi}バツこんにちは_および低解像度の特徴マップXL iバツ_これは次のように表現できます。

このうち、FH と FL はそれぞれ高解像度と低解像度の残差基本ブロック列に対応します。TL − H T_{LH}T長さ-高さおよびTH − L T_{HL}TH LLow-to-High および High-to-Low コンバーターを指し、R は ReLU 関数を表します。
合計で、深さと幅が異なる 4 つの二重解像度ネットワークを構築しました。DDRNet-23 は DDRNet-23-slim の 2 倍の幅があり、DDRNet-39 1.5x は DDRNet-39 のより広いバージョンです。

B. ディープ アグリゲーション ピラミッド プーリング モジュール DAPPM

図 5. ディープ集約ピラミッド プーリング モジュールの詳細なアーキテクチャ。入力解像度に応じてマルチスケール分岐数を調整できます。

ここでは、低解像度の特徴マップからコンテキスト情報をさらに抽出するための新しいモジュールを提案します。図 5 に DAPPM の内部構造を示します。1/64 画像解像度の特徴マップを入力として受け取り、指数関数的なストライドを持つ大規模なプーリング カーネルを使用して、1/128、1/256、および 1/512 画像解像度の特徴マップを生成します。入力特徴マップとグローバル平均プーリングによって生成された画像レベルの情報も利用されます。私たちは、単一の 3×3 または 1×1 の畳み込みを介してすべてのマルチスケールのコンテキスト情報を融合するだけでは不十分であると考えています。Res2Net からインスピレーションを得て、最初に特徴マップをアップサンプリングし、次にさらに 3×3 の畳み込みを使用して、階層的な残差方式で異なるスケールのコンテキスト情報を融合します。入力xxの場合x、各スケールyi y_iy私はこれは次のように表現できます。

このうち、C 1 × 1 C_{1×1}C1 × 11×1 畳み込みを表します、C 3 × 3 C_{3×3}C3 × 33×3 畳み込みを表します。U はアップサンプリング操作を表します。P j , k P_{j,k}Pj kカーネル サイズがjj であることを示しますj、歩幅はkkkプーリング層、Pglobal はグローバル平均プーリングを表します。最後に、すべての特徴マップが連結され、1×1 畳み込みによって圧縮されます。さらに、最適化を容易にするために 1×1 投影ショートカットが追加されました。SwiftNet の SPP と同様に、DAPPM は BN-ReLU-Conv のシーケンス実装を使用します。

表 II 入力サイズが 1024×1024 の画像を考慮すると、PPM および DAPPM によって生成されるコンテキストの寸法は次のとおりです。

DAPPM 内では、より大きなプーリング カーネルによって抽出されたコンテキストがより深い情報フローと統合され、さまざまな深さとサイズのプーリング カーネルを統合することによってマルチスケール機能が形成されます。表IIこれは、DAPPM が PPM よりも豊富なコンテキスト情報を提供できることを示しています。DAPPM にはより多くの畳み込み層とより複雑な融合戦略が含まれていますが、入力解像度は画像解像度の 1/64 にすぎないため、推論速度にはほとんど影響しません。たとえば、1024×1024 の画像の場合、特徴マップの最大解像度は 16×16 です。

C. セマンティック セグメンテーションの全体的なアーキテクチャ

図 4. セマンティック セグメンテーションにおける DDRNet の概要。「RB」は逐次残差基本ブロックを表します。「RBB」は、単一の残留ボトルネックブロックを表す。「DAPPM」は、Deep Aggregation Pyramid Pooling Module の略です。「Seg.Head」とは頭部を分割することを意味します。黒の実線はデータ処理 (アップサンプリングおよびダウンサンプリングを含む) を含む情報パスを表し、黒の破線はデータ処理なしの情報パスを表します。「sum」はポイントごとに合計することを意味します。破線のボックスは、推論フェーズ中に破棄されるコンポーネントを表します。

私たちのアプローチを要約すると、図4示されています。セマンティック セグメンテーション タスクの二重解像度ネットワークにいくつかの改善が加えられました。まず、低解像度ブランチの RBB の 3x3 畳み込みストライドは、さらにダウンサンプリングするために 2 に設定されます。次に、DAPPM が低解像度ブランチの出力に追加され、1/64 の画像解像度で高レベルの特徴マップから豊富なコンテキスト情報が抽出されます。さらに、最終的な高から低への融合は、双線形補間と加算融合によって達成される低から高への融合に置き換えられます。最後に、3×3 畳み込み層と 1×1 畳み込み層を含む単純なセグメンテーション ヘッドを設計しました。セグメンテーション ヘッドの計算負荷は、3×3 畳み込み層の出力次元を変更することで調整できます。DDRNet-23-slim の場合は 64 に設定し、DDRNet-23 の場合は 128 に設定し、DDRNet39 の場合は 256 に設定します。セグメンテーション ヘッドと DAPPM モジュールを除くすべてのモジュールは ImageNet で事前トレーニングされていることに注意してください。

D. 徹底した監督

トレーニング段階で追加の監視を追加すると、ディープ畳み込みニューラル ネットワーク (DCNN) の最適化の問題を軽減できます。PSPNet では、ResNet-101 の res4 22 ブロックの出力は補助損失関数を追加することによって監視され、対応する重みは実験結果に従って 0.4 に設定されます [11]。BiSeNetV2 は、セマンティック ブランチの各ステージの最後に追加のセグメンテーション ヘッドを追加する拡張トレーニング戦略を提案します。ただし、各損失のバランスをとり、トレーニング記憶を大幅に増加させる最適な重みを見つけるには、広範な実験が必要です。より良い結果を得るために、SFNet はカスケード深層教師あり学習と呼ばれる同様の戦略を使用します [23]。この論文では、ほとんどの方法と公平に比較​​するために、単純な追加の監視のみを使用します。のように図4示されているように、補助損失を追加し、重みを PSPNet と同じ 0.4 に設定します。テスト段階では、補助セグメンテーション ヘッダーは破棄されます。最終的な損失関数は、クロスエントロピー損失の加重和であり、次のように表すことができます。
L f = L n + α La (3) L_f=L_n+αLa\tag{3}L=L+αLa _( 3 )
ここで、L f L_fLLnL_nL L a L_a Lはそれぞれ最終損失、経常損失、補助損失を表し、α αα は補助損失の重みを表し、この記事では 0.4 です。

4. 実験

A. データセット

Cityscapes [40] は、都市の街路シーンの解析に焦点を当てたよく知られたデータセットの 1 つです。これには、細かく注釈が付けられた 2975 枚のトレーニング画像、500 枚の検証画像、および 1525 枚のテスト画像が含まれています。トレーニング中に、大まかに注釈が付けられた追加の 20,000 枚の画像は使用されません。このデータセットには、セマンティック セグメンテーション タスクに使用できる合計 19 のカテゴリがあります。画像の解像度は 2048×1024 で、リアルタイムのセマンティック セグメンテーションには困難です。

CamVid [41] には 701 個の密に注釈が付けられたフレームが含まれており、それぞれの解像度は 960 × 720 です。これには、367 個のトレーニング画像、101 個の検証画像、233 個のテスト画像が含まれています。トレーニング用のトレーニング セットと検証セットを組み合わせ、以前の研究 [18]、[19]、[21] に従って 11 のカテゴリを使用してテスト セットでモデルを評価します。

COCOStuff [42] は、91 のオブジェクト カテゴリと 91 のシーン カテゴリを含む 182 カテゴリで密に注釈が付けられた 10K の複雑な画像を提供します。11 のオブジェクト カテゴリにはセグメンテーション アノテーションがまったくないことに注意してください。公平な比較のために、[42] の分割 (トレーニング用に 9K、テスト用に 1K) に従います。

B. トレーニング設定

表 III 4 つのスケーリングされた DDRNet のトップ 1 エラー率、パラメータ サイズ、および GFLOPS:

セマンティック セグメンテーション タスクを微調整する前に、以前の研究 [27]、[44] と同じデータ拡張戦略に従って、二重解像度ネットワークが ImageNet データセットでトレーニングされました。すべてのモデルは、224×224 の入力解像度と 256 のバッチ サイズを使用して、4 つの 2080Ti GPU で 100 エポックにわたってトレーニングされました。初期学習率は 0.1 に設定され、30、60、90 エポックでは 10 分の 1 に減少します。SGD を使用して、重み減衰 0.0001、ネステロフ運動量 0.9 を使用してすべてのネットワークをトレーニングします。表IIIImageNet 検証セットのトップ 1 エラー率を示します。DDRNet は、ImageNet 上の多くの適切に設計された軽量バックボーン ネットワークほど効率的ではありませんが、速度のトレードオフを考慮すると、セマンティック セグメンテーション ベンチマークでは依然として良好な結果を達成しています。Cityscapes、CamVid、および COCOStuff のトレーニング設定は次のとおりです。
1) Cityscapes : プロット学習戦略に従って、初期学習率 0.01、運動量 0.9、重み減衰 0.0005 で SGD オプティマイザーを使用し、指数パラメーターは次のとおりです。 0.9 を使用して学習率を削除し、画像のランダムなトリミング、0.5 ~ 2.0 の範囲のランダムなスケーリング、およびランダムな水平反転などのデータ拡張手法を実装します。[18]、[29]、[23] に従って、画像はトレーニング用に 1024×1024 にランダムに切り取られます。すべてのモデルは、4 つの 2080Ti GPU で 484 エポック (約 120K 反復) に対してバッチ サイズ 12 を使用し、同時 BN を使用します。テスト サーバーで評価されるモデルの場合、トレーニング中に train セットと val セットの両方から画像が入力されます。[24] および [23] と公平に比較​​するために、オンライン ハード サンプル マイニング (OHEM) [50] も使用します。
2) CamVid : 初期学習率を 0.001 に設定し、すべてのモデルを 968 エポックでトレーニングします。[18] に従って、画像はトレーニングのためにランダムに 960×720 にトリミングされます。すべてのモデルは単一の GPU でトレーニングされ、その他のトレーニングの詳細は Cityscapes と同じです。Cityscapes で事前トレーニングする場合、モデルを 200 エポックにわたって微調整します。
3) COCOStuff : 初期学習率は 0.001、トレーニング エポックの総数は 110 です。データ拡張の前に、画像の短辺のサイズを 640 に変更します。BiSeNetV2 [24] と同様に、クロップサイズは 640×640 です。その他のトレーニングの詳細は Cityscapes と同じですが、ウェイト減衰は 0.0001 です。推論フェーズでは、画像の解像度を 640×640 に固定しました。

C. 推論の速度と正確さの尺度

推論速度は、バッチ サイズを 1 に設定した単一の GTX 2080Ti GPU を使用し、CUDA 10.0、CUDNN 7.6、および PyTorch 1.3 を使用して測定されました。MSFNet や SwiftNet と同様に、畳み込み層の後のバッチ正規化層は、推論中に畳み込みに統合される可能性があるため除外します。公平な比較のために [51] によって確立されたプロトコルを使用します (画像サイズ: Cityscapes では 2048×1024、CamVid では 960×720、COCOStuff では 640×640)。

ResNet [27] と同様に、Cityscapes テスト セットの精度が公式サーバーによって提供されることを除いて、4 つの実験の最良の結果、平均結果、標準偏差を報告します。

D. 速度と精度の比較

表 IV Cityscapes データセットの精度と速度の比較。検証セットとテストセットの両方の結果を報告します。異なるモデルの推論速度は異なる条件下で測定されるため、対応する GPU モデルと入力解像度が報告されます。GFLOPS 計算では、2048×1024 ピクセルの画像を入力として受け取ります。† が付いている場合、対応する速度は TensorRT 加速を使用して測定されました。

都市景観: から表 4そして図1私たちの方法は、リアルタイム パフォーマンスと高精度の間の新たな最適なバランスを達成していることがわかります。特に、DDRNet-23-slim (当社の最小モデル) は、テスト セットで 102 FPS で 77.4% の mIoU を達成しています。DFANet A および MSFNet* よりも同様の推論速度で 6.1% 高い mIoU を達成し、MSFNet よりも約 2.5 倍高速です。さらに、最小の SFNet よりも 40% 高速であり、テスト セットで 2.9% mIoU の向上を達成しています。特に、私たちの方法は、同様の推論速度を持つ CAS や GAS などのアーキテクチャ検索ベースのリアルタイム セマンティック セグメンテーション方法よりも優れています。より幅広いモデルの場合、DDRNet-23表 4リアルタイム手法の中で全体的に最高の精度を獲得し、37 FPS で 79.4% mIoU を達成しました。DDRNet-23 は、SFNet (ResNet-18) と比較してパフォーマンスが 0.5% 向上し、2 倍の速度で動作します。

DDRNet の詳細な調査を継続し、細かく注釈が付けられたデータのみを使用して、Cityscapes テスト サーバー上で 22 FPS で 80.4% の mIoU を達成しました。Mapillary [52] データセットと [23] と同様の TensorRT アクセラレーションの恩恵を受ける場合、私たちの方法は道路シーンのリアルタイム セマンティック セグメンテーションの巨大なベンチマークを確立できます。Cityscapes 検証セットでは、DDRNet-23-slim は、36.3 GFLOP と 570 万のパラメーターを備え、表 IV で公開されているすべての結果を上回っています。そして、DDRNet-23 は 79.5% mIoU という新たな全体的な最高の結果を達成しました。図6さまざまなシナリオにおける DDRNet-23-slim と DDRNet-23 の視覚化結果が示されています。

図 6. Cityscapes 検証セットの視覚的セグメンテーションの結果。4 つの列は左から右に、それぞれ入力イメージ、グラウンド トゥルース アノテーション、DDRNet-23-slim の出力、および DDRNet-23 の出力を表します。最初の 4 行は 2 つのモデルのパフォーマンスを示し、最後の 2 行はセグメンテーションの失敗のいくつかのケースを表しています。
表 V CAMVID データセットの精度と速度の比較。MSFNet は 1024×768 で実行され、MSFNet* は 768×512 で実行されますが、他のメソッドは 960×720 で実行されます。† とマークされている場合、測定は TensorRT アクセラレーションを使用して行われました。

2) CamVid : 表 V に示すように、DDRNet-23-slim は、Cityscapes での事前トレーニングなしで、CamVid テスト セット上で 230 FPS で 74.7% の mIoU を達成しました。これは 2 番目に高い精度を達成し、他のすべての方法よりも高速に実行されました。特に、DDRNet-23 は、以前の最先端の方式である MSFNet よりも優れたパフォーマンスを発揮します。また、DDRNet-23 は BiSeNetV2-L および SFNet (ResNet-18) よりも大幅にパフォーマンスが向上しており、それらの約 2 倍の速度で動作します。CamVid のトレーニング ピクセルが Cityscapes よりもはるかに少ないことを考えると、DDRNet の優れたパフォーマンスの一部は、ImageNet の十分な事前トレーニングによるものであると考えられます。さらに、Cityscapes で事前トレーニングされたモデルは、リアルタイムの速度で新しい最先端の精度を実現します。特に、Cityscapes で事前トレーニングされた DDRNet-23 は、94 FPS で 80.6% の mIoU を達成し、これは BiSeNetV2-L よりも強力で高速です。対応する視覚化結果は次のとおりです。図7示されています。

図 7. CamVid テスト セットの視覚的セグメンテーションの結果。テスト中に無視されるラベルの色は黒に設定されます。3 つの列は左から右に、それぞれ入力イメージ、グラウンド トゥルースの注釈、DDRNet-23 の出力を表します。最初の 4 行は成功したサンプルを示し、最後の 2 行はセグメンテーションが失敗したいくつかのケースを表しています。
表 VI COCO-Stuff データセットの精度と速度の比較。入力解像度は 640×640 で、PSPNet50 の結果は [24] からのものです。† とマークされている場合、測定は TensorRT アクセラレーションを使用して行われました。

3) COCOStuff : 豊富なカテゴリを備えた、より困難なリアルタイム セマンティック セグメンテーション データセットである COCOStuff での手法も検証します。画像解像度が他の 2 つのデータセットよりも小さいため、低解像度ブランチでは RBB のストライドが 1 に設定されます。画像の形状を変更してマスクを予測する時間は統計には含まれません。表VI非常に困難なシナリオでは、私たちの方法が BiSeNetV2 よりも大きな利点を示すことが示されています。当社の DDRNet-23 は、PSPNet50 と同様の精度で 20 倍高速に動作します。

E. 最新の既存結果との比較

表 VII Cityscapes テスト セットの最先端モデル。OS は最終出力ストライドを表します。すべてのメソッドは、トレーニング セットと検証セットの両方でモデルをトレーニングします。ただし、トレーニング セットのみを使用する † のマークが付いた PSPNet は除きます。GFLOPS の計算は 1024 × 1024 ピクセルの画像を入力として受け取ります。GFLOPS とパラメーターに関するほとんどの結果は [23] にあります。

このセクションでは、セマンティック セグメンテーションにおける DDRNet の機能をさらに実証し、Cityscapes テスト セットの最先端のモデルと比較します。これらの方法では、多くの場合、時間コストに関係なく、より良い結果を達成するために、マルチスケールおよび水平反転推論方法が採用されています。それらと公平に比較​​するために、0.50×、0.75×、1×、1.25×、1.5×、1.75×、2×を含む複数のスケールと、左右反転を含むデータ拡張も採用しています。=表 VII== は、標準テストの強化によって DDRNet-39 の精度が 80.4% から 81.9% に向上していることを示しています。当社の DDRNet-39 は、CCNet、DANet、OCNet などのセルフアテンション モジュールを統合した多くの強力なモデルよりも優れたパフォーマンスを発揮します。特に、私たちの方法では DANet の計算の 11% しか必要としません。DDRNet-39 は、ResNet-101 バックボーンに基づくリアルタイム セマンティック セグメンテーションのための最先端のメソッド SFNet もリードしており、必要な計算量はわずか 34% です。表 VII の他のモデルとサイズが近い DDRNet-39 1.5x は、非常に競争力のあるパフォーマンス (82.4% mIoU) を達成します。

F. HRNetとの比較

表 VIII MIOU、FPS、トレーニング メモリを指標として使用した、DDRNet と HRNet の比較実験:

DDRNet と HRNet の主な違いはブランチの数です。さらに、低解像度ブランチの最後にマルチスケール コンテキスト抽出モジュールを追加します。表VIII実験結果は、推論時間とトレーニング メモリ使用量の点で DDRNet が HRNet よりも優れていることを証明しています。公式実装から 2 つの小規模な HRNet の検証結果を取得します。トレーニング メモリは、補助セグメンテーション ヘッドを除いて、バッチ サイズ 2、クロップ サイズ 1024×512 の単一 2080Ti で測定されます。

G. 都市景観におけるアブレーション実験

表 IX 1024×1024 (デフォルトは 1024×512) での詳細な監視 (DS)、OHEM、および作物トレーニングを含む、標準的な追加の派手な設計が実験結果に及ぼす影響:

1 標準テクニック: 最新の高度なメソッド SFNet [23] にも採用されている、いくつかの基本的なトレーニングテクニックがパフォーマンスに与える影響を分析します。のように表9示されているように、詳細な監視、OHEM、およびより大きな作物サイズを使用してトレーニングすることにより、精度は 76.1 から 77.8 に向上します。

表 X: DAPPM と他のコンテキスト抽出モジュールの比較。RES2 は RES2NET モジュールの略で、BASE-OC は [37] で提案されているオブジェクト コンテキスト モジュールです。

2 DAPPM: DAPPM をピラミッド プーリング (PPM)、セルフ アテンション モジュール (Base-OC)、および Res2Net モジュールと比較しました。テーブルX結果は、提案されたモジュールがシーン解析のパフォーマンスを 74.1% mIoU から 77.8% mIoU に向上させる一方、推論速度にはほとんど影響がないことを示しています。また、DAPPM は、PPM や RES2 と比較して 1% の mIoU 増加を達成しますが、別の最近の手法である Base-OC は、低解像度の特徴マップを使用すると比較的パフォーマンスが劣ります。

表 XI: 二重解像度ネットワークのアブレーション研究。ベースラインは、複雑なセマンティック ブランチを低解像度ブランチに置き換えることによって、BiseNetV2 から適応されています。「+THINER DETAIL BRANCH」は、詳細ブランチの寸法を半分にすることを意味します。「+CONV3」は、CONV3 ステージの最後に詳細分岐を追加することを意味します。「+RESIDUAL」は、3×3 畳み込みを残差基本ブロックに置き換えることを意味します。「+BOTTLENECK」は、各分岐の最後にボトルネック ブロックを追加することを意味します。「+LOW-TO-HIGH FUSION」または「+BILATERAL FUSION」とは、複数の低域から高域への融合または両側性融合を実行することを意味します。

  1. 二重解像度ネットワーク: 実験を高速化するために、OHEM を使用せずに、初期学習率 0.05、クロップ サイズ 1024×512、合計 600 エポックを使用して、すべての双方向ネットワークを最初からトレーニングしました。のように表11示されているように、より詳細な分岐を使用すると、精度が 1.3% 低下し、ベースラインよりもはるかに高速に実行されます。詳細ブランチをネットワークの中間層に接続すると、高解像度での計算が回避されるため、深い高解像度表現の生成に役立ち、推論速度が向上します。ボトルネックにより機能の次元が拡張され、DAPPM と最終セグメンテーション ヘッドのより豊富な機能が生成されます。両側融合により、少ない時間コストでセグメンテーションの精度がさらに向上します。最後に、当社の二重解像度ネットワークは、ベースラインよりも少ないリソースと時間を必要としながら、より優れたパフォーマンスを実現します。

V. 結論:

このペーパーでは、道路シーンのリアルタイムかつ正確なセマンティック セグメンテーションに焦点を当て、追加の派手な設計を使用しないシンプルなソリューションを提案します。特に、リアルタイムのセマンティック セグメンテーションのための効率的なバックボーン構造として、新しいディープ デュアル解像度ネットワークが提案されています。新しいモジュールは、低解像度の特徴マップからマルチスケールのコンテキスト情報を抽出するように設計されています。私たちの知る限り、私たちはリアルタイム セマンティック セグメンテーションに深い高解像度表現を導入した最初の企業であり、私たちのシンプルな戦略は 3 つの一般的なベンチマークで以前のリアルタイム モデルよりも優れたパフォーマンスを発揮します。DDRNet は主に残余基本ブロックとボトルネック ブロックで構成され、モデルの幅と深さを調整することで、速度と精度の幅広いトレードオフを提供します。私たちの方法はシンプルで効率的であるため、リアルタイムで高精度のセマンティック セグメンテーションを実現するための強力なベースラインと考えることができます。今後の研究は、ベースラインの改善とバックボーン ネットワークの他の下流タスクへの移行に焦点を当てます。

参考文献


[1] Z. Liu、X. Li、P. Luo、CC Loy、および X. Tang、「セマンティック セグメンテーションのための深層学習マルコフ ランダムフィールド」、IEEE Transactions on Pattern
Analysis and Machine Intelligence、vol. 40、いいえ。[2] L. Jing、Y. Chen、および Y. Tian、「画像レベルのラベルからの
粗いから細かいセマンティック セグメンテーション」、IEEE Transactions on Image Processing、vol . 8、pp. 1814–1828、2018 [ 3 ] X. Ren、S. Ahmad、L. Zhang、L. Xiang、D. Nie、F. Yang、Q. Wang、および D. Shen、「タスクの分解とセマンティック生物医学画像セグメンテーションのための同期」、IEEE Transactions on Image Processing、vol. [4] M. Saha および C. Chakraborty、「Her2net: セマンティックのための深いフレームワーク






乳がん評価における細胞膜と核のセグメンテーションと分類」
、IEEE Transactions on Image Processing、vol. 27、
いいえ。5、pp. 2189–2200、2018
[5] E. Romera、JM Alvarez、LM Bergasa、および R. Arroyo、「Erfnet: リアルタイム セマンティック セグメンテーションのための効率的な残差因数分解 convnet」、IEEE Transactions on
Intelligent Transportation Systems、vol 。19、いいえ。[6] J. Long、E. Shelhamer、および T. Darrell、「セマンティック セグメンテーションのための完全畳み込みネットワーク」、コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録、
2017ページ。 3431–3440、2015 年。[7] L.-C. チェン、G. パパンドレウ、I. コッキノス、K. マーフィー、AL ユイル、




「深い畳み込みネットと完全に
接続された CRF を使用したセマンティック画像セグメンテーション」、arXiv プレプリント arXiv:1412.7062、2014。
[8] S. Mallat、信号処理のウェーブレット ツアー。エルゼビア、1999 年。
[9] L.-C. Chen、G. Papandreou、I. Kokkinos、K. Murphy、および AL Yuille、
「Deeplab: Semantic imageeggmentation with deep convolutional nets、
atrous convolution、および完全に接続された crfs」、IEEE Transactions on
Pattern Analysis and Machine Intelligence、vol. 40、いいえ。4、834–848ページ、
2017年。
[10] L.-C. Chen、G. Papandreou、F. Schroff、および H. Adam、「
セマンティック イメージ セグメンテーションのための atrous 畳み込みの再考」、arXiv プレプリント
arXiv:1706.05587、2017 年。
[11] H. Zhao、J. Shi、X. Qi、X. Wang、および J. Jia、「ピラミッド シーン解析ネットワーク」、コンピュータ ビジョンとパターン認識
に関する IEEE 会議議事録、2881 ~ 2890 ページ、
2017.
[12] M. Yang、K. Yu、C. Zhang、Z. Li、および K. Yang、「
ストリート シーンにおけるセマンティック セグメンテーションの Denseaspp」、
コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録、pp [ 13
] A. Paszke、A. Chaurasia、S. Kim、および E. Culurciello、「Enet:
リアルタイム セマンティック セグメンテーションのためのディープ ニューラル ネットワーク アーキテクチャ」、arXiv
プレプリント arXiv:1606.02147、2016 [14] Z. Yang、H. Yu
、M. Feng、W. Sun、X. Lin、M. Sun、ZH Mao、
および A. Mian、「リアルタイム セマンティック セグメンテーションのための都市シーンの小さなオブジェクトの拡張」、IEEE Transactions on Image Processing、
vol. [ 15 ] H. Zhao、X. Qi、X. Shen、J. Shi、および J. Jia、「高解像度画像上の
リアルタイム セマンティック セグメンテーションのための Icnet」
Proceedings of
the European Conference on Computer Vision、pp. 405–420、2018.
[16] S. Mehta、M. Rastegari、A. Caspi、L. Shapiro、および H. Hajishirzi、
「Espnet: 拡張畳み込みの効率的な空間ピラミッド」セマンティック
セグメンテーションについて」、欧州コンピュータ ビジョン会議議事録
、552 ~ 568 ページ、2018 年。
[17] B. Jiang、W. Tu、C. Yang、および J. Yuan、「軽量オブジェクト解析のためのコンテキスト統合および機能洗練されたネットワーク」、IEEE Transactions on Image Processing、vol
. [ 18 ] H. Li、P. Xiong、H. Fan、および J. Sun、「Dfanet:リアルタイム セマンティック セグメンテーションのための
ディープ機能集約」、IEEE会議議事録[19] C. Yu、J. Wang、C. Peng、C. Gao、G. Yu、および N. Sang、「Bisenet:双方向セグメンテーション ネットワーク」、2019年。 [ 20 ] RP Poudel、S . Liwicki、および R. Cipolla、「Fast-scnn: 高速セマンティック








[21] M. Orsic、I. Kreso、P. Bevandic、および S. Segvic、「道路走行画像のリアルタイム セマンティック セグメンテーションのための
事前トレーニング済みイメージネット アーキテクチャの擁護において」 [22] P. Hu、F. Perazzi、FC Heilbron 、O. Wang、Z
. Lin、K. Saenko、およびS. スクラロフ、「高速注意によるリアルタイム セマンティック セグメンテーション」、arXivプレプリント arXiv:2007.03815、2020 年。[23] X. Li、A. You、Z. Zhu、H. Zhao、M. Yang、K. Yang、および Y. Tong、「高速かつ正確なシーン解析のためのセマンティック フロー」、arXiv プレプリントarXiv:2002.10120、2020。







[24] C. Yu、C. Gao、J. Wang、G. Yu、C. Shen、および N. Sang、「Bisenet v2:
リアルタイム セマンティック
セグメンテーションのためのガイド付き集約を備えた双方向ネットワーク」、arXiv プレプリント arXiv:2004.02147 、2020。
[25] L.-C. Chen、Y. Zhu、G. Papandreou、F. Schroff、および H. Adam、「セマンティック イメージ セグメンテーションのための重要な分離可能な畳み込みを備えたエンコーダデコーダ」、欧州コンピュータ ビジョン会議議事録、801 ~ 818 ページ、2018

。 [26] K. Sun、Y. Zhao、B. Jiang、T. Cheng、B. Xiao、D. Liu、Y. Mu、X. Wang、W. Liu
、および J. Wang、「ラベル付けのための高解像度表現」 [ 27 ] K. He、X. Zhang、S. Ren、および J. Sun、「画像の深層残差学習


[28] MD Zeiler、D. Krishnan、GW Taylor、R. Fergus、「Deconvolutional network」、2010
IEEEコンピュータ ビジョンとパターン認識
に関するコンピュータ協会会議
、2528 ~ 2535 ページ。[29] H. Si、Z. Zhang、F. Lv、G. Yu、および F. Lu、「乗算空間融合ネットワークによる
リアルタイム セマンティックセグメンテーション」、arXiv プレプリントarXiv:1911.07217、2019。[30] S. Kumaar、Y. Lyu、F. Nex、および MY Yang、「キャビネット:低遅延セマンティック セグメンテーションのための効率的なコンテキスト集約ネットワーク」、arXiv プレプリント arXiv:2011.00993、2020 。[31] A. Howard、M. Sandler、G.チュー、L.-C. チェン、B. チェン、M. タン、W. ワン、






Y. Zhu、R. Pang、V. Vasudevan 他、「Searching for mobilenetv3」、Proceedings
of the IEEE International Conference on Computer Vision、
1314 ~ 1324 ページ、2019
[32] AG Howard、M. Zhu 、B. Chen、D. Kalenichenko、W. Wang、
T. Weyand、M. Andreetto、および H. Adam、「Mobilenets: モバイル ビジョン アプリケーションのための効率的な畳み込みニューラル ネットワーク」、arXiv プレプリント
arXiv:1704.04861、2017。
[33] X. Zhang、X. Zhou、M. Lin、および J. Sun、「Shufflenet: モバイル デバイス向けの非常に効率的な畳み込みニューラル ネットワーク」、コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録、6848 ~ 6856
ページ
、 2018年。

[34] F. Chollet、「Xception: 深さ方向に分離可能な畳み込みによる深層学習」、コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録、1251 ~ 1258 ページ、2017 年。 [35]
M. Sandler、A. Howard、 M. ジュー、A. ジモギノフ、L.-C. Chen、
「Mobilenetv2: 逆残差と線形ボトルネック」、
コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録、
4510 ~ 4520 ページ、2018 年。
[36] J. Fu、J. Liu、H. Tian、Y. Li、Y. Bao、Z. Fang、および H. Lu、「シーン セグメンテーションのためのデュアル アテンションネットワーク」、コンピュータ ビジョンとパターン認識に関する
IEEE 会議議事録、 3146 ~ 3154 ページ、2019 年。 [37] Y. Yuan と J. Wang、「Ocnet: シーン解析のためのオブジェクト コンテキスト ネットワーク」


arXiv プレプリント arXiv:1809.00916、2018。
[38] Z. Huang、X. Wang、L. Huang、C. Huang、Y. Wei、および W. Liu、「Ccnet:
Cris-cross tention for semantic Sepegation」、Proceedingsコンピュータ ビジョンに関する
IEEE 国際会議、603 ~ 612 ページ、2019 年。
[39] S. Gao、M.-M. チェン、K. チャオ、X.-Y. チャン、M.-H. Yang、PH Torr、
「Res2net: 新しいマルチスケール バックボーン アーキテクチャ」、
パターン分析とマシン インテリジェンスに関する IEEE トランザクション、2019 年。
[40] M. Cordts、M. Omran、S. Ramos、T. Rehfeld、M. Enzweiler、R. Benenson、U. Franke、S. Roth、および B. Schiele、「セマンティックな都市シーンの理解のための都市景観データセット」、コンピュータ ビジョンとパターン認識に関する
IEEE 会議議事録、3213 ページ–


[41] GJ Brostow、J. Fauqueur、および R. Cipolla、「ビデオ内のセマンティック オブジェクト クラス
: 高解像度のグラウンド トゥルース データベース」、Pattern Recognition
Letters、vol. 3223、2016 。30、いいえ。[ 42
] H. Caesar、J. Uijlings、および V. Ferrari、「Coco-stuff: Thing andスタッフ クラス
in context」、コンピュータ ビジョン
とパターンに関する IEEE 会議議事録
[43] O. Russakovsky、J. Deng、H. Su、J. Krause、S. Satheesh、S. Ma、Z
. Huang、A. Karpathy、A. Khosla、Mバーンスタイン他、「Imagenet 大
規模視覚認識チャレンジ」、International Journal of Computer
Vision、vol. 115、いいえ。3、211–252ページ、2015年。
[44] S. Xie、R. Girshick、P. Dollar、Z. Tu、および K. He、「ディープ ニューラル ネットワークのための集約残差 '変換」、コンピュータ ビジョンとパターン認識に関する
IEEE 会議議事録、2016 ページ。 [
45 ] V. Badrinarayanan、A. Kendall、
および
R. Cipolla、「Segnet: 画像セグメンテーションのための深い畳み込みエンコーダ/デコーダ アーキテクチャ」、IEEE
Transactions on Pattern Analysis and Machine Intelligence、vol. 39、
いいえ。[46] M. Treml、J. Arjona-Medina、T. Unterthiner、R .
Durgesh、F. Friedmann、
P. Schuberth、A. Mayr、M. Heusel、M. Hofmarcher 、M. Widrich、他、
「自動運転のためのセマンティック セグメンテーションの高速化」、国土交通省、NIPS ワークショップ、vol. 2016 年 2 月
[47] Y. Zhang、Z. Qiu、J. Liu、T. Yao、D. Liu、および T. Mei、「セマンティック セグメンテーションのためのカスタマイズ可能なアーキテクチャ検索」、コンピュータ ビジョンとパターン認識に関する IEEE 会議議事録
、 pp. 11641–11650、2019

[48] P. Lin、P. Sun、G. Cheng、S. Xie、X. Li、および J. Shi、「リアルタイム セマンティック セグメンテーションのためのグラフガイド アーキテクチャ検索」[49] J. Wang、K. Sun、T. Cheng、B. Jiang、C. Deng、Y .
Zhao D. Liu、 Y. Mu、M. Tan、X. Wang、W. Liu、および B. Xiao、「視覚認識のための深層高解像度表現学習」、パターン分析とマシン インテリジェンスに関する IEEE トランザクション、1 ページ– 2020 年 1 月





[50] A. Shrivastava、A. Gupta、R. Girshick、「
オンライン ハード サンプル マイニングによる領域ベースのオブジェクト検出器のトレーニング」、コンピュータ ビジョンとパターン認識に関する IEEE
会議議事録、761 ~ 769 ページ、
2016
[51] W. Chen、X. Gong、X. Liu、Q. Zhang、Y. Li、および Z. Wang、「Fasterseg: より
高速なリアルタイム セマンティック セグメンテーションの探索」、arXiv プレプリント
arXiv:1912.10917、2019 年
[52] G. Neuhold、T. Ollmann、S. Rota Bulo、および P. Kontschieder、「
ストリート シーンの意味論的理解のための地図的景観データセット」、
コンピュータ ビジョンに関する IEEE 国際会議議事録

4990 ~ 4999 ページ、2017年。
[53] S. Chandra、C. Couprie、および I. Kokkinos、「効率的なビデオ セグメンテーションのための深い時空間ランダムフィールド」 、コンピュータ ビジョンとパターン認識に関する
IEEE 会議議事録、8915 ~ 8924 ページ、2018 年。[54] Z. Huang、X. Wang、Y. Wei、L. Huang、H. Shi、W. Liu、および TS Huang、「Ccnet: Criss-cross tention for semantic Sepegation」、IEEE Transactions on Pattern Analysis and Machine Intelligence、1–1 ページ、2020。[55] R. Zhang、S. Tang、Y. Zhang、J. Li、および S. Yan、「Scale-adaptive convolutions for scene parsing」、IEEE International Proceedings Conference on Computer Vision、2031 ~ 2039 ページ、2017 年。[56] S. Kong および CC Fowlkes、「遠近法を使用した反復シーンの解析」










[57] Z. Wu、 C .
Shen、および A. Van Den Hengel、「より広く、またはより深く:
視覚認識のための resnet モデルの再考」、パターン認識、vol. [ 58 ] C. Yu、J. Wang、C. Peng、C. Gao、G.
Yu
、および N. Sang、「セマンティック セグメンテーションのための識別特徴ネットワークの学習」 Proceedings
of the IEEE Con​​ference on Computer Vision and Pattern Recognition、
pp. 1857–1866、2018.
[59] H. Zhao、Y. Zhang、S. Liu、J. Shi、C. Change Loy、D. Lin、および J . Jia、
「Psanet: シーン解析のための点単位の空間注意ネットワーク」
Proceedings of the European Conference on Computer Vision (ECCV)、
pp. 267–283、2018.
[60] Y. Yuan、X. Chen、および J. Wang、「セマンティック セグメンテーションのためのオブジェクトコンテキスト表現
」、arXiv プレプリント arXiv: 1909.11065、2019

おすすめ

転載: blog.csdn.net/wagnbo/article/details/131095555