DeepLabv3+: セマンティック画像セグメンテーション用の Atrous 分離可能畳み込みを備えたエンコーダ/デコーダ - セマンティック画像セグメンテーション用の Atrous 分離可能畳み込みコーデック (ECCV 2018)
免責事項: この翻訳は単なる個人的な研究記録です。
記事情報
- 标题:DeepLabv3+: セマンティック画像セグメンテーションのための Atrous 分離可能畳み込みを備えたエンコーダ/デコーダ (ECCV 2018)
- 著者:Liang-Chieh Chen、Yukun Zhu、George Papandreou、Florian Schroff、Hartwig Adam
- 記事リンク: https://openaccess.thecvf.com/content_ECCV_2018/papers/Liang-Chieh_Chen_Encoder-Decoder_with_Atrous_ECCV_2018_paper.pdf
- 記事コード: https://github.com/tensorflow/models/tree/master/research/deeplab
まとめ
空間ピラミッド プーリング モジュールまたはエンコーダ/デコーダ構造は、ディープ ニューラル ネットワークのセマンティック セグメンテーション タスクに使用されます。前者のネットワークは、フィルタを使用して受信フィーチャを検出するか、複数のレートおよび複数の有効視野で操作をプールすることにより、マルチスケールのコンテキスト情報をエンコードできます。一方、後者のネットワークは、より明確なターゲット境界を徐々に回復することで空間情報をキャプチャできます。この研究では、これら 2 つのアプローチの利点を組み合わせることを提案します。具体的には、私たちが提案するモデル DeepLabv3+ は、特にオブジェクト境界に沿ったセグメンテーション結果を洗練するために、シンプルだが効果的なデコーダ モジュールを追加することで DeepLabv3 を拡張します。Xception モデルをさらに調査し、深さ方向に分離可能な畳み込みを Atrous 空間ピラミッド プーリングとデコーダ モジュールに適用することで、より高速で強力なエンコーダ/デコーダ ネットワークが実現します。PASCAL VOC 2012 および Cityscapes データセットで提案されたモデルの有効性を実証し、後処理なしで 89% および 82.1% のテスト セット パフォーマンスを達成しました。私たちの論文には、https://github.com/tensorflow/models/tree/master/research/deeplab で Tensorflow で提案されたモデルの公開リファレンス実装が付属しています。
キーワード: セマンティック画像セグメンテーション、空間ピラミッドプーリング、エンコーダ-デコーダ、深さ方向分離可能畳み込み。
1 はじめに
画像内の各ピクセルにセマンティック ラベルを割り当てることを目的としたセマンティック セグメンテーション [1、2、3、4、5] は、コンピューター ビジョンの基本的なトピックの 1 つです。完全畳み込みニューラル ネットワーク [8、11] に基づく深層畳み込みニューラル ネットワーク [6、7、8、9、10] は、手作りの機能 [12、13、14、15、16、17] システムに依存するベンチマーク タスクよりも優れたパフォーマンスを発揮します。大幅に改善されました。この研究では、セマンティック セグメンテーションに空間ピラミッド プーリング モジュール [18、19、20] またはエンコーダ デコーダ構造 [21、22] を使用する 2 種類のニューラル ネットワークを検討します。前者は、リッチな画像をキャプチャするために異なる解像度でプーリング機能を使用します。コンテキスト情報は、明確なオブジェクトの境界を取得することができます。
図 1. 空間ピラミッド プーリング モジュール (a) とエンコーダ/デコーダ構造 (b) を使用して DeepLabv3 を改良しました。提案されたモデル DeepLabv3+ には、エンコーダ モジュールからの豊富なセマンティック情報が含まれており、詳細なオブジェクト境界は、シンプルだが効果的なデコーダ モジュールによって復元されます。エンコーダ モジュールを使用すると、アトラス畳み込みを適用することで任意の解像度で特徴を抽出できます。
複数のスケールでコンテキスト情報を取得するために、DeepLabv3 [23] は、異なるレートで複数の並列 atrous 畳み込み (atrous 空間ピラミッド プーリング、略して ASPP と呼ばれます) を適用しますが、PSPNet [24] は、異なるグリッド スケールのプーリング操作を実行します。最後の機能マップには豊富なセマンティック情報がエンコードされていますが、オブジェクト境界に関連する詳細な情報は、ネットワーク バックボーン全体のプーリングや畳み込みにより失われます。これは、atrous 畳み込みを適用してより高密度の特徴マップを抽出することで軽減できます。ただし、最先端のニューラル ネットワーク [7、9、10、25、26] の設計と限られた GPU メモリを考慮すると、入力解像度の 8 倍、さらには 4 倍小さい出力特徴マップを抽出することは、計算量が法外です。ResNet-101 [25] を例にとると、atrous 畳み込みを適用して入力解像度の 16 倍小さい出力特徴を抽出する場合、最後の 3 つの残差ブロック (9 層) 内の特徴を拡張する必要があります。さらに悪いことに、入力の 8 倍小さい出力フィーチャが必要な場合、26 の残りのブロック (78 レイヤー!) が影響を受けます。したがって、このタイプのモデルのより高密度の出力特徴を抽出するには、大量の計算が必要になります。一方、エンコーダ-デコーダ モデル [21、22] は、エンコーダ パスでの計算の高速化を促進し (拡張機能がないため)、デコーダ パスで鮮明なオブジェクト境界を徐々に復元します。これら 2 つのアプローチの利点を組み合わせるために、マルチスケールのコンテキスト情報を組み込むことでエンコーダー/デコーダー ネットワーク内のエンコーダー モジュールを強化することを提案します。
特に、DeepLabv3+ と呼ばれる私たちが提案するモデルは、図 1 に示すように、オブジェクト境界を回復するためのシンプルだが効果的なデコーダー モジュールを追加することにより、DeepLabv3 [23] を拡張します。DeepLabv3 の出力には豊富なセマンティック情報がエンコードされており、拡張畳み込みにより、コンピューティング リソースの予算に応じてエンコーダ機能の密度を制御できます。さらに、デコーダ モジュールにより、詳細なオブジェクト境界の回復が可能になります。
深さ方向の分離可能な畳み込み [27、28、26、29、30] の最近の成功に触発されて、私たちはこの演算も調査し、[31] と同様の Xception モデル [26] をセマンティック セグメンテーションのタスクに適用することによって、 ASPP およびデコーダ モジュールへの拡張された分離可能な畳み込みにより、速度と精度の両方が向上します。最後に、PASCAL VOC 2012 および Cityscapes データセットで提案されたモデルの有効性を実証し、後処理なしで 89.0% および 82.1% のテスト セット パフォーマンスを達成し、新しい最先端のデータセットを作成しました。
要約すると、私たちの貢献は次のとおりです。
-
我々は、強力なエンコーダモジュールとシンプルで効果的なデコーダモジュールとしてDeepLabv3を採用した新しいエンコーダ-デコーダ構造を提案します。
-
私たちの構造では、抽出されたエンコーダ特徴の解像度は、精度と実行時間をトレードオフする拡張畳み込みによって任意に制御できますが、これは既存のエンコーダ/デコーダ モデルでは不可能です。
-
セグメンテーション タスクに Xception モデルを使用し、深さ方向に分離可能な畳み込みを ASPP モジュールとデコーダ モジュールに適用することで、より高速で強力なエンコーダ/デコーダ ネットワークが実現します。
-
私たちが提案したモデルは、PASCAL VOC 2012 および Cityscapes データセットで最先端のパフォーマンスを実現します。また、設計の選択とモデルのバリエーションの詳細な分析も提供します。
-
提案されたモデルの Tensorflow ベースの実装は、https://github.com/tensorflow/models/tree/master/research/deeplab で公開されます。
2.関連作品
完全畳み込みネットワーク (FCN) [8、11] に基づくモデルは、いくつかのセグメンテーション ベンチマーク [1、2、3、4、5] で大幅な改善を達成しました。セグメンテーションのためのコンテキスト情報を利用するために、複数のモデルの変形 [12、13、14、15、16、17、32、33] が提案されており、これにはマルチスケール入力 (つまり、画像ピラミッド) を受け取るモデルも含まれます [34、35、36]。 、 37、 38、 39] または確率的グラフィカル モデル (効率的な推論アルゴリズムを備えた DenseCRF [40] [41] など) を使用するモデル [42、43、44、37、45、46、47、48、49、50、51 、39]。この作業では、主に空間ピラミッド プーリングとエンコーダ/デコーダ構造を使用したモデルについて説明します。
空間ピラミッド プーリング: PSPNet [24] や DeepLab [39、23] などのモデルは、複数のグリッド スケールで空間ピラミッド プーリング [18、19] (画像レベルのプーリング [52] を含む) を実行するか、複数の Parallel Atrous Convolution (と呼ばれる) を適用します。 atrous 空間ピラミッド プーリング (ASPP)。マルチスケール情報を活用することにより、これらのモデルは、いくつかのセグメンテーション ベンチマークで有望な結果を示します。
エンコーダ-デコーダ: エンコーダ-デコーダ ネットワークは、人間の姿勢推定 [53]、物体検出 [54、55、56]、セマンティック セグメンテーション [11、57、21、22、58、59] など、多くのコンピュータ ビジョン タスクに適用されて成功しています。 、60、61、62、63、64]。通常、エンコーダ/デコーダ ネットワークには、(1) 特徴マップを徐々に減らしてより高度な意味情報を取得するエンコーダ モジュールと、(2) 空間情報を徐々に回復するデコーダ モジュールが含まれます。この考えに基づいて、我々は DeepLabv3 [23] をエンコーダ モジュールとして使用し、より鮮明なセグメンテーションのためにシンプルだが効果的なデコーダ モジュールを追加することを提案します。
図 2. 私たちが提案する DeepLabv3+ は、エンコーダ/デコーダ構造を採用することで DeepLabv3 を拡張します。エンコーダ モジュールは、複数のスケールで Atrous コンボリューションを適用することでマルチスケールのコンテキスト情報をエンコードし、シンプルかつ効果的なデコーダ モジュールはオブジェクトの境界に沿ったセグメンテーションの結果を洗練します。
Depthwise Separable Convolution : Depthwise Separable Convolution [27、28] または Group Convolution [7、65]。同等の (またはわずかに優れた) パフォーマンスを維持しながら、計算コストとパラメータの数を削減する強力な演算です。この操作は、最近の多くのニューラル ネットワーク設計で採用されています [66、67、26、29、30、31、68]。特に、[31] の COCO 2017 検出チャレンジの提出と同様に、Xception モデル [26] を調査し、セマンティック セグメンテーション タスクの精度と速度の両方の向上を示します。
3. 方法
このセクションでは、拡張畳み込み [69、70、8、71、42] と深さ方向の分離可能な畳み込み [27、28、67、26、29] を簡単に紹介します。次に、エンコーダ モジュールとして使用される DeepLabv3 [23] を確認し、エンコーダ出力に追加されるデコーダ モジュールについて説明します。また、より高速な計算によってパフォーマンスをさらに向上させる、改良された Xception モデル [26、31] も提案します。
3.1 Atrous コンボリューションを備えたコーデック
Atrous Convolution : Atrous 畳み込み層は、ディープ畳み込みニューラル ネットワークによって計算された特徴の解像度を明示的に制御し、フィルターの視野を調整してマルチスケール情報をキャプチャし、標準的な畳み込み演算を一般化することを可能にする強力なツールです。2 次元信号の場合、出力特徴マップ y 上の位置 i と畳み込みフィルター w ごとに、次のように入力特徴マップ x にアトラス畳み込みが適用されます。 ここで、アトラス レート r は入力信号ストライドのサンプリング方法を決定します
。 。詳細については、興味のある読者に [39] を参照してください。標準畳み込みはレート r=1 の特殊なケースであることに注意してください。レート値を変更することで、フィルターの視野を適応的に変更します。
図 3. 3 × 3 深さ方向の分離可能な畳み込みは、標準畳み込みを (a) 深さ方向の畳み込み (各入力チャネルに単一のフィルターを適用) と (b) 点方向の畳み込み (チャネル全体で深さ方向の畳み込みを結合する) 出力) に分解します。この研究では、(c) に示すように、レート = 2 の場合に示すように、拡張された分離可能な畳み込みを探索します。拡張された畳み込みは深さ方向の畳み込みで使用されます。
深さ分離可能な畳み込み: 深さ分離可能な畳み込みは、標準の畳み込みを深さ方向の畳み込み、次にポイントごとの畳み込み (つまり、1×1 畳み込み) に分解し、計算の複雑さを大幅に軽減します。具体的には、深さ方向の畳み込みは各入力チャネルで独立して空間畳み込みを実行しますが、点方向の畳み込みは深さ方向の畳み込みの出力を結合するために使用されます。TensorFlow [72] による深さ方向の分離可能な畳み込みの実装では、図 3 に示すように、拡張畳み込みが深さ方向の畳み込み (つまり、空間畳み込み) でサポートされています。この研究では、結果として得られる畳み込みを atrous-separable convolution と呼び、atrous-separable convolution は、同様の (またはそれ以上の) パフォーマンスを維持しながら、提案されたモデルの計算の複雑さを大幅に軽減することを発見しました。
エンコーダとしての DeepLabv3 : DeepLabv3 [23] は、拡張畳み込み [69、70、8、71] を使用して、任意の解像度で深層畳み込みニューラル ネットワークによって計算された特徴を抽出します。ここで、出力ストライドは、入力画像の空間解像度と最終出力解像度 (グローバル プーリングまたは完全に接続されたレイヤーの前) の比率として表されます。画像分類タスクの場合、最終的な特徴マップの空間解像度は通常、入力画像の解像度の 32 倍であるため、出力ストライド = 32 となります。セマンティック セグメンテーション タスクの場合、これは、最後の (または 2 つの) ブロックのストライドを削除し、それに応じて拡張畳み込みを適用することで実現できます (たとえば、出力 stride=8 の場合、rate=2 と rate =4 を適用します)。出力 stride=16 を使用します (または 8) より集中的な特徴抽出の場合。さらに、DeepLabv3 は、atrous 空間ピラミッド プーリング モジュールを強化します。これは、さまざまなレートで画像レベルの特徴を伴う atrous 畳み込みを適用することによって、複数のスケールで畳み込み特徴を検出します [52]。私たちが提案するエンコーダ/デコーダ構造では、元の DeepLabv3 のロジットの前の最後の特徴マップをエンコーダ出力として使用します。エンコーダ出力機能マップには 256 チャネルと豊富なセマンティック情報が含まれていることに注意してください。さらに、計算量に応じて、拡張畳み込みを適用することで任意の解像度で特徴を抽出できます。
提案されたデコーダ: DeepLabv3 のエンコーダ機能は通常、出力 stride=16 で計算されます。[23] の研究では、特徴は 16 倍に 2 回アップサンプリングされており、これは単純なデコーダ モジュールと考えることができます。ただし、このような単純なデコーダ モジュールは、ターゲットのセグメンテーションの詳細を回復できない可能性があります。したがって、図2に示すように、シンプルでありながら効果的なデコーダモジュールを提案します。エンコーダの特徴は、まず双線形に 4 倍にアップサンプリングされ、次に同じ空間解像度を持つネットワーク バックボーンからの対応する低レベルの特徴 [73] と連結されます (例: ResNet-101 [25] でストライドする前の Conv2)。対応する低レベルの特徴には通常、多数のチャネル (例: 256 または 512) が含まれており、リッチ エンコーダの重要性を上回る可能性があるため、別の 1×1 畳み込みを低レベルの特徴に適用してチャネル数を削減します。 (モデルには 256 チャネルしかありません) 機能があり、トレーニングがより困難になります。連結後、3×3 畳み込みをいくつか適用して特徴を調整し、続いて 4 倍の単純な双線形アップサンプリングを行います。セクション 4 では、エンコーダ モジュールの出力 stride=16 を使用すると、速度と精度の最適なバランスが達成されることを示します。エンコーダ モジュールに出力 stride=8 を使用すると、計算がさらに複雑になりますが、パフォーマンスがわずかに向上します。
3.2 修正されたアライメント Xception
Xception モデル [26] は、ImageNet [74] 上の高速計算により有望な画像分類結果を示しました。最近、MSRA チーム [31] は Xception モデル (Aligned Xception と呼ばれる) を修正し、物体検出タスクのパフォーマンスをさらに向上させました。これらの発見に触発されて、私たちは Xception モデルをセマンティック画像セグメンテーションのタスクに適応させるという同じ方向に取り組んでいます。特に、MSRA の修正に基づいていくつかの変更を加えました。つまり、(1) [31] と同じより深い Xception ですが、高速計算とメモリ効率のためにイングレス フロー ネットワーク構造を修正しなかった点が異なります。(2) すべて最大プーリング操作は、ストライドを使用した深さ方向の分離可能な畳み込みによって置き換えられます。これにより、拡張された分離可能な畳み込みを適用して、任意の解像度の特徴マップを抽出できます (別の方法は、拡張されたアルゴリズムを最大プーリング操作に拡張することです)、および (3) 追加のバッチ正規化を追加します。 75]、MobileNet 設計 [29] と同様、各 3×3 の深さ方向の畳み込み後の ReLU 活性化。詳細については、図 4 を参照してください。
4. 実験による評価
ImageNet-1k [74]、事前トレーニングされた ResNet-101 [25]、または修正された aligned Xception [26、31] を使用して、拡張畳み込みを介して密な特徴マップを抽出します。私たちの実装は TensorFlow [72] に基づいて構築されており、公開されています。
図 4. Xception を次のように変更しました: (1) より多くのレイヤー (イングレス フローの変更を除いて MSRA と同じ変更)、(2) すべての最大プーリング演算が個別の畳み込みに置き換えられ、(3) 追加のバッチ正規化と ReLU がMobileNet と同様に、3×3 の深さ方向の畳み込みごとに追加されます。
提案されたモデルは、20 の前景オブジェクト クラスと 1 つの背景クラスを含む PASCAL VOC 2012 セマンティック セグメンテーション ベンチマーク [1] で評価されます。元のデータセットには、1464 (トレーニング)、1449 (検証)、1456 (テスト) のピクセルレベルの注釈付き画像が含まれています。[76] によって提供される追加の注釈を使用してデータセットを拡張し、10582 (train aug) のトレーニング画像が得られます。パフォーマンスは、21 のカテゴリにわたって平均されたピクセル交差オーバーユニオン (mIOU) の観点から測定されます。
私たちは [23] と同じトレーニング計画に従い、詳細については興味のある読者に [23] を参照してください。簡単に言うと、同じ学習率スケジュール (つまり、「ポリ」戦略 [52] と同じ初期学習率 0.007)、クロップサイズ 513×513 を採用し、出力ストライド = 16 [75] のときにバッチ正規化パラメーターを微調整します。 ] を使用し、トレーニング中にランダムなスケール データを追加します。提案されたデコーダ モジュールにはバッチ正規化パラメータも含まれていることに注意してください。私たちが提案するモデルは、各コンポーネントの区分的な事前トレーニングを行わずに、エンドツーエンドでトレーニングされます。
4.1 デコーダ設計オプション
「DeepLabv3 特徴マップ」を DeepLabv3 によって計算された最後の特徴マップ (つまり、ASPP 特徴と画像レベルの特徴を含む特徴マップ) として定義し、[k×k,f] をカーネル k×k および f 畳み込み演算によるフィルターとして定義します。 。
ResNet-101 ベースの DeepLabv3 [23] は、出力ストライド = 16 が採用された場合、トレーニングおよび評価中にロジットを 16 で双線形にアップサンプリングします。この単純な双線形アップサンプリングは単純なデコーダ設計と考えることができ、PASCAL VOC 2012 検証セットで 77.21% [23] のパフォーマンスを達成しており、トレーニング中にこの単純なデコーダを使用しないよりは優れています (つまり、トレーニング中にグラウンド トゥルースをダウンサンプリングする)。 ) は 1.2% 優れています。この素朴なベースラインを改善するために、私たちが提案するモデル「DeepLabv3+」では、図 2 に示すように、エンコーダ出力の上にデコーダ モジュールを追加しています。デコーダ モジュールでは、異なる設計選択が行われる 3 つの場所を考慮します。すなわち、(1) エンコーダ モジュールの低レベルの特徴マップのチャネルを削減するための 1 × 1 畳み込み、(2) より鮮明なセグメンテーションを取得するための 3×3結果の畳み込み、および (3) どのエンコーダの低レベル機能を使用する必要があるか。
デコーダ モジュールの 1×1 畳み込みの効果を評価するために、ResNet-101 ネットワーク バックボーンの [3×3, 256] および Conv2 特徴、つまり res2x 残差ブロックの最後の特徴マップ (具体的には、跨ぐ前にマップを作成します)。表 1 に示すように、エンコーダ モジュールの低レベル機能マップのチャネルを 48 または 32 に減らすと、パフォーマンスが向上します。したがって、チャネル削減には [1×1, 48] を採用します。
次に、デコーダ モジュールの 3×3 畳み込み構造を設計し、その結果を表 2 に報告します。Conv2 特徴マップ (ストライド前) を DeepLabv3 特徴マップと連結した後、256 フィルターを備えた 2 つの 3×3 畳み込みを使用する方が、単に 1 つまたは 3 つの畳み込みを使用するよりも効果的であることがわかりました。フィルターの数を 256 から 128 に変更するか、カーネル サイズを 3×3 から 1×1 に変更すると、パフォーマンスが低下します。また、デコーダ モジュールで Conv2 と Conv3 の両方の機能マップを利用する実験も行います。この場合、デコーダの特徴マップは 2 ずつ徐々にアップサンプリングされ、最初に Conv3 と連結され、次に Conv2 と連結され、各特徴マップは [3 × 3, 256] 演算によって洗練されます。デコードプロセス全体は、U-Net/SegNet の設計と似ています [21、22]。ただし、大幅な改善は観察されませんでした。したがって、最終的には、非常にシンプルだが効果的なデコーダ モジュールを採用します。これは、DeepLabv3 特徴マップと 2 つの [3×3, 256] 演算によって洗練されたチャネル削減された Conv2 特徴マップを連結したものです。提案した DeepLabv3+ モデルの出力ストライドは 4 であることに注意してください。GPU リソースが限られているため、より高密度の出力特徴マップ (つまり、出力ストライド < 4) は追求しません。
4.2 ネットワーク バックボーンとしての ResNet-101
精度と速度の観点からモデルのバリエーションを比較するために、提案されている DeepLabv3+ モデルのネットワーク バックボーンとして ResNet-101 [25] を使用した場合の mIOU と乗算加算を表 3 に報告します。拡張畳み込みのおかげで、単一のモデルを使用して、トレーニングと評価中にさまざまな解像度で特徴を取得できます。
表 1. PASCAL VOC 2012 検証セット。デコーダ 1×1 畳み込みの効果は、エンコーダ モジュールからの低レベルの特徴マップのチャネルを削減するために使用されます。[3×3, 256] と Conv2 を使用するようにデコーダー構造内の他のコンポーネントを修正します。
表 2. エンコーダの機能チャネルを減らすために [1×1, 48] を固定する場合のデコーダ構造の影響。Conv2 (ストライド前) 特徴マップと 2 つの追加の [3×3, 256] 演算を使用するのが最も効果的であることがわかりました。VOC 2012 検証セットでのパフォーマンス。
表 3. PASCAL VOC 2012 検証セットで ResNet-101 を使用した推論戦略。train OS: トレーニングで使用される出力ストライド。eval OS: 評価中に使用される出力ストライド。デコーダ: 提案されたデコーダ構造が採用されます。MS: 評価中のマルチスケール入力。Flip: 左右を反転する入力を追加します。
表 4. ImageNet-1K 検証セットの個々のモデルのエラー率。
ベースライン: 表 3 のブロックの最初の行には、[23] の結果が含まれており、評価中により高密度の特徴マップを抽出し (つまり、評価出力ストライド = 8)、マルチスケール入力を取得するとパフォーマンスが向上することが示されています。さらに、左右反転した入力を追加すると、計算量は 2 倍になりますが、パフォーマンスはわずかに向上します。
デコーダの追加: 表 3 のブロックの 2 行目には、提案されたデコーダ構造を採用した場合の結果が含まれています。eval 出力 stride=16 または 8 を使用すると、約 20B の追加の計算オーバーヘッドを犠牲にして、パフォーマンスがそれぞれ 77.21% から 78.85% または 78.51% から 79.35% に向上します。マルチスケールおよび左右反転入力を使用すると、パフォーマンスがさらに向上します。
より粗い特徴マップ: 高速計算のために、トレーニング出力 stride=32 (つまり、トレーニング中に拡張畳み込みがまったくない) でも実験しました。表 3 の 3 行目に示されているように、デコーダを追加すると、74.20B の乗加算のみが必要でありながら、2% の改善がもたらされます。ただし、パフォーマンスは、train 出力 stride=16 と異なる eval 出力 stride 値を使用した場合よりも常に約 1% ~ 1.5% 低くなります。したがって、複雑さの予算に応じて、トレーニングまたは評価中に出力 stride=16 または 8 を使用することを好みます。
4.3 ネットワークのバックボーンとしての Xception
さらに、ネットワーク バックボーンとして、より強力な Xception [26] を使用します。[31] に従って、セクション 3.2 で説明されているように、さらにいくつかの変更を加えました。
ImageNet 事前トレーニング: 提案された Xception ネットワークは、[26] と同様のトレーニング プロトコルを使用して ImageNet-1k データセット [74] 上で事前トレーニングされます。具体的には、運動量 = 0.9、初期学習率 = 0.05、2 エポックごとの速度減衰 = 0.94、および重み減衰 4e−5 の Nesterov 運動量オプティマイザーを使用します。50 個の GPU で非同期トレーニングを使用し、それぞれのバッチ サイズが 32、画像サイズが 299×299 です。目標はセマンティック セグメンテーションのために ImageNet 上でモデルを事前トレーニングすることであったため、ハイパーパラメータの調整にはあまり熱心に取り組みませんでした。表 4 の検証セットでの単一モデルのエラー率と、同じトレーニング体制下で複製されたベースライン ResNet-101 [25] を報告します。修正された Xception では、3×3 の深さ方向の畳み込みごとに追加のバッチ正規化と ReLU が追加されていない場合、Top1 と Top5 の精度がそれぞれ 0.75% と 0.29% 低下することがわかります。
表 5 は、提案されている Xception をセマンティック セグメンテーションのネットワーク バックボーンとして使用した結果を示しています。
ベースライン: まず、表 5 の最初の行ブロックで、提案されたデコーダを使用しない結果を報告します。これは、train 出力 stride=eval 出力 stride=16 の場合、ネットワーク バックボーンとして Xception を使用すると、ResNet-101 を使用した場合と比較してパフォーマンスが約 2% 向上することを示しています。eval 出力 stride=8、推論中のマルチスケール入力を使用し、左右反転入力を追加することによって、さらに改善することもできます。パフォーマンスが向上しないことが判明したマルチグリッド アプローチ [77、78、23] を使用しなかったことに注意してください。
デコーダの追加: 表 5 の 2 行目のブロックに示されているように、すべての異なる推論戦略に対して eval 出力 stride=16 を使用する場合、デコーダを追加すると 0.8% の改善がもたらされます。eval 出力 stride=8 を使用すると、改善は小さくなります。
深さ方向の分離可能な畳み込みの使用: 深さ方向の分離可能な畳み込みの計算効率に触発され、それを ASPP およびデコーダー モジュールにさらに採用しました。表 5 の 3 行目に示されているように、乗加算の計算の複雑さは 33% から 41% 大幅に軽減され、同様の mIOU パフォーマンスを達成しています。
COCO での事前トレーニング: 他の既存のモデルと比較するために、提案した DeepLabv3+ モデルを MS-COCO データセット [79] でさらに事前トレーニングします。これにより、約 2% の追加の改善が得られます。
JFT での事前トレーニング: [23] と同様に、ImageNet-1k [74] および JFT-300M データセット [80、26、81] で事前トレーニングされた、提案された Xception モデルも採用します。さらに 0.8% ~ 1% 改善します。
テスト セットの結果: ベンチマーク評価では計算の複雑さが考慮されていなかったため、最もパフォーマンスの高いモデルを選択し、出力 stride=8 と凍結されたバッチ正規化パラメーターを使用してトレーニングしました。最後に、当社の「DeepLabv3+」は、JFT データセットの事前トレーニングなしとありで、それぞれ 87.8% と 89.0% のパフォーマンスを達成しました。
定性的結果: 図 6 に最適なモデルを視覚化したものを示します。示されているように、私たちのモデルは後処理を行わずにオブジェクトを適切にセグメント化できます。
失敗モード: 図 6 の最後の行に示すように、このモデルでは、(a) ソファと椅子、(b) 大きく遮蔽されたオブジェクト、および (c) ビューがまれなオブジェクトをセグメント化することが困難です。
4.4 オブジェクト境界に沿った改善
このサブセクションでは、オブジェクト境界付近での提案されたデコーダ モジュールの精度を定量化するために、トリプル マッピング実験 [14、40、39] を使用してセグメンテーションの精度を評価します。具体的には、検証セットの「void」ラベル注釈に形態学的拡張を適用します。これは通常、オブジェクトの境界近くで発生します。次に、「ボイド」ラベルの拡張されたバンド (トリプレットと呼ばれる) 内にあるピクセルの平均 IOU を計算します。図 5(a) に示すように、ResNet-101 [25] および Xception [26] ネットワーク バックボーンに提案されたデコーダを使用すると、単純な双線形アップサンプリングと比較してパフォーマンスが向上します。拡張されたバンドが狭くなると、改善はより顕著になりました。図に示すように、最小のトライマップ幅では、ResNet-101 と Xception の mIOU がそれぞれ 4.8% と 5.4% 増加することが観察されました。また、図 5(b) では、提案されたデコーダを使用した効果を視覚化します。
表 5. 変更された Xception を使用する場合の PASCAL VOC 2012 検証セットの推論戦略。train OS: トレーニングで使用される出力ストライド。eval OS: 評価中に使用される出力ストライド。デコーダ: 提案されたデコーダ構造が採用されます。MS: 評価中のマルチスケール入力。Flip: 左右を反転する入力を追加します。SC: ASPP モジュールとデコーダ モジュールは両方とも、深さ方向に分離可能な畳み込みを採用しています。COCO: MS-COCO で事前トレーニングされたモデル。JFT: JFT で事前トレーニングされたモデル。
4.5 都市景観の実験結果
このセクションでは、Cityscapes データセット [3] で DeepLabv3+ の実験を行います。これは、5000 枚の画像 (トレーニング セット、検証セット、テスト セット用にそれぞれ 2975、500、および 1525) と、大まかに注釈が付けられた約 20,000 枚の画像を含む大規模なデータセットです。
表 6. PASCAL VOC 2012 テスト セットで最もパフォーマンスの高いモデルで得られた結果。
図 5. (a) train 出力ストライド = eval 出力ストライド = 16 を使用した場合の、オブジェクト境界付近のトリプルマップ帯域幅の関数としての mIOU。BU: バイリニア アップサンプリング。(b) 単純な双線形アップサンプリング (BU と表記) と比較した、提案されたデコーダ モジュールを使用することの定性的効果。この例では、特徴抽出器として Xception を使用し、出力 stride=eval 出力 stride=16 をトレーニングします。
表 7(a) に示すように、提案された Xception モデルは、ASPP モジュールとイメージ レベルの機能 [52] を含む DeepLabv3 [23] 上のネットワーク バックボーン (X-65 と表記) として使用されます。検証セットでは 77.33% のパフォーマンスが得られました。提案されたデコーダ モジュールを追加すると、パフォーマンスが 78.79% (1.46% 向上) に大幅に向上しました。拡張された画像レベルの特徴を削除すると、パフォーマンスが 79.14% に向上することがわかります。これは、DeepLab モデルの PASCAL VOC 2012 データセットでは画像レベルの特徴がより効果的であることを示しています。また、[31] が物体検出タスクに対して行ったのと同様に、Xception にさらに多くのイングレス フロー レイヤーを追加することが Cityscapes データセット [26] に対して効果的であることもわかりました。より深いネットワーク バックボーン (表では X-71 と示されている) 上に構築された最終モデルは、検証セットで 79.55% の最高のパフォーマンスを達成します。
図 6. 検証セットの視覚化結果。最後の行は故障モードを示しています。
表 7. (a) トレーニング時のトレーニング調整設定を使用した Cityscapes 上の DeepLabv3+。(b) Cityscapes テスト セット上の DeepLabv3+。粗い: 追加のトレーニング セット (粗い注釈) も使用できます。この表には、上位モデルの一部のみがリストされています。
検証セットで最適なモデル バリアントを見つけた後、他の最先端のモデルと競合するために、粗いアノテーションに基づいてモデルをさらに微調整します。表 7(b) に示すように、私たちが提案した DeepLabv3+ はテスト セットで 82.1% のパフォーマンスを達成し、Cityscapes で新しいパフォーマンス レベルを設定しました。
5。結論
私たちが提案するモデル「DeepLabv3+」はエンコーダ-デコーダ構造を採用しており、DeepLabv3を使用して豊富なコンテキスト情報をエンコードし、シンプルでありながら効果的なデコーダモジュールを使用してオブジェクトの境界を回復します。利用可能なコンピューティング リソースに応じて、atrous 畳み込みを適用して、任意の解像度でエンコーダの特徴を抽出することもできます。また、提案されたモデルをより高速かつ強力にするために、Xception モデルと拡張分離可能畳み込みを調査します。最後に、私たちの実験結果は、提案されたモデルが PASCAL VOC 2012 および Cityscapes データセットで新しい最先端のパフォーマンスを確立することを示しています。
謝辞Aligned Xception について貴重な議論をしていただいた Haozhi Qi 氏と Jifeng Dai 氏、フィードバックをいただいた Chen Sun 氏、そしてサポートをいただいた Google Mobile Vision チームに感謝いたします。
参考文献
- Everingham, M.、Eslami, SMA、Gool, LV、Williams, CKI、Winn, J.、Zisserman, A.: パスカルのビジュアル オブジェクト クラスは回顧展に挑戦しています。IJCV (2014)
- Mottaghi, R.、Chen, X.、Liu, X.、Cho, NG、Lee, SW、Fidler, S.、Urtasun, R.、Yuille, A.: オブジェクト検出とセマンティック セグメンテーションにおけるコンテキストの役割野生。で: CVPR。(2014)
- Cordts, M.、Omran, M.、Ramos, S.、Rehfeld, T.、Enzweiler, M.、Benenson, R.、Franke, U.、Roth, S.、Schiele, B.: セマンティックのための都市景観データセット都市風景の理解。で: CVPR。(2016)
- Zhou, B.、Zhao, H.、Puig, X.、Fidler, S.、Barriuso, A.、Torralba, A.: ade20k データセットによるシーン解析。で: CVPR。(2017)
- Caesar, H.、Uijlings, J.、Ferrari, V.: COCO-Stuff: コンテキスト内のモノとスタッフのクラス。で: CVPR。(2018)
- LeCun, Y.、Bottou, L.、Bengio, Y.、Haffner, P.: 文書認識に適用された勾配ベースの学習。で:Proc. IEEE。(1998)
- Krizhevsky, A.、Sutskever, I.、Hinton, GE: 深層畳み込みニューラル ネットワークによる Imagenet 分類。で: NIPS。(2012)
- Sermanet, P.、Eigen, D.、Zhang, X.、Mathieu, M.、Fergus, R.、LeCun, Y.: Overfeat: 畳み込みネットワークを使用した統合された認識、位置特定、および検出。で:ICLR。(2014)
- Simonyan, K.、Zisserman, A.: 大規模な画像認識のための非常に深い畳み込みネットワーク。で:ICLR。(2015)
- Szegedy, C.、Liu, W.、Jia, Y.、Sermanet, P.、Reed, S.、Anguelov, D.、Erhan, D.、Vanhoucke, V.、Rabinovich, A.: 畳み込みをさらに深く掘り下げる。で: CVPR。(2015)
- Long, J.、Shelhamer, E.、Darrell, T.: セマンティック セグメンテーションのための完全畳み込みネットワーク。で: CVPR。(2015)
- He、X.、Zemel、RS、Carreira-Perpindn、M.: 画像ラベル付けのためのマルチスケール条件付きランダム フィールド。で: CVPR。(2004)
- Shotton, J.、Winn, J.、Rother, C.、Criminisi, A.: 画像理解のための Textonboost: テクスチャ、レイアウト、コンテキストを共同モデリングすることによるマルチクラスのオブジェクト認識とセグメンテーション。IJCV (2009)
- Kohli, P.、Torr, PH、他: ラベルの一貫性を強制するための堅牢な高次のポテンシャル。IJCV 82(3) (2009) 302–324
- Ladicky, L.、Russell, C.、Kohli, P.、Torr, PH: オブジェクト クラス画像セグメンテーションのための連想階層 CRF。で:ICCV。(2009)
- Gould, S.、Fulton, R.、Koller, D.: シーンを幾何学的で意味的に一貫した領域に分解します。で:ICCV。(2009)
- Yao, J.、Fidler, S.、Urtasun, R.: シーン全体の説明: ジョイント オブジェクトの検出、シーンの分類、およびセマンティック セグメンテーション。で: CVPR。(2012)
- Grauman, K.、Darrell, T.: ピラミッド マッチ カーネル: 画像特徴のセットによる識別分類。で:ICCV。(2005)
- Lazebnik, S.、Schmid, C.、Ponce, J.: 特徴の袋を超えて: 自然シーン カテゴリを認識するための空間ピラミッド マッチング。で: CVPR。(2006)
- He、K.、Zhang、X.、Ren、S.、Sun、J.: 視覚認識のための深い畳み込みネットワークの空間ピラミッド プーリング。で: ECCV。(2014)
- Ronneberger, O.、Fischer, P.、Brox, T.: U-net: 生物医学画像セグメンテーションのための畳み込みネットワーク。で:ミッカイ。(2015)
- Badrinarayanan, V.、Kendall, A.、Cipolla, R.: Segnet: 画像セグメンテーションのための深い畳み込みエンコーダ/デコーダ アーキテクチャ。パミ (2017)
- Chen, LC、Papandreou, G.、Schroff, F.、Adam, H.: セマンティック画像セグメンテーションのための atrous 畳み込みの再考。arXiv:1706.05587 (2017)
- Zhao, H.、Shi, J.、Qi, X.、Wang, X.、Jia, J.: ピラミッド シーン解析ネットワーク、In: CVPR. (2017)
- He、K.、Zhang、X.、Ren、S.、Sun、J.: 画像認識のための深層残差学習。で: CVPR。(2016)
- Chollet, F.: Xception: 深さ方向に分離可能な畳み込みを使用した深層学習。で: CVPR。(2017)
- Sifre, L.: 画像分類のための剛体運動散乱。博士論文(2014年)
- Vanhoucke, V.: 大規模な視覚表現の学習。ICLR招待講演(2014年)
- Howard, AG、Zhu, M.、Chen, B.、Kalenichenko, D.、Wang, W.、Weyand, T.、Andreetto, M.、Adam, H.: Mobilenets: モバイル ビジョン アプリケーション向けの効率的な畳み込みニューラル ネットワーク。arXiv:1704.04861 (2017)
- Zhang, X.、Zhou, X.、Lin, M.、Sun, J.: Shufflenet: モバイル デバイス用の非常に効率的な畳み込みニューラル ネットワーク。で: CVPR。(2018)
- Qi, H.、Zhang, Z.、Xiao, B.、Hu, H.、Cheng, B.、Wei, Y.、Dai, J.: 変形可能な畳み込みネットワーク – ココ検出とセグメンテーション チャレンジ 2017 エントリー。ICCV COCOチャレンジワークショップ(2017年)
- Mostajabi, M.、Yadollahpour, P.、Shakhnarovich, G.: ズームアウト機能を備えたフィードフォワード セマンティック セグメンテーション。で: CVPR。(2015)
- Dai, J.、He, K.、Sun, J.: ジョイント オブジェクトとスタッフのセグメンテーションのための畳み込み特徴マスキング。で: CVPR。(2015)
- Farabet, C.、Couprie, C.、Najman, L.、LeCun, Y.: シーンのラベル付けのための階層的特徴の学習。パミ (2013)
- Eigen, D.、Fergus, R.: 一般的なマルチスケール畳み込みアーキテクチャによる深さ、表面法線、およびセマンティック ラベルの予測。で:ICCV。(2015)
- Pinheiro, P.、Collobert, R.: シーンのラベル付けのためのリカレント畳み込みニューラル ネットワーク。内: ICML。(2014)
- Lin, G.、Shen, C.、van den Hengel, A.、Reid, I.: セマンティック セグメンテーションのための深層構造モデルの効率的な区分トレーニング。で: CVPR。(2016)
- Chen, LC、Yang, Y.、Wang, J.、Xu, W.、Yuille, AL: スケールへの注意: スケールを意識したセマンティック画像セグメンテーション。で: CVPR。(2016)
- Chen, LC、Papandreou, G.、Kokkinos, I.、Murphy, K.、Yuille, AL: Deeplab: 深い畳み込みネット、atrous 畳み込み、および完全に接続された crf を使用したセマンティック画像セグメンテーション。TPAMI (2017)
- Krâhenbrèuhl, P.、Koltun, V.: ガウス エッジ ポテンシャルを持つ完全接続 crf での効率的な推論。で: NIPS。(2011)
- Adams, A.、Baek, J.、Davis, MA: 多面体単位の格子を使用した高速高次元フィルタリング。掲載:ユーログラフィックス。(2010)
- Chen, LC、Papandreou, G.、Kokkinos, I.、Murphy, K.、Yuille, AL: 深い畳み込みネットと完全に接続された CRF を使用したセマンティック画像セグメンテーション。で:ICLR。(2015)
- Bell, S.、Upchurch, P.、Snavely, N.、Bala, K.: コンテキスト データベース内のマテリアルを使用した、実際のマテリアル認識。で: CVPR。(2015)
- Zheng, S.、Jayasumana, S.、Romera-Paredes, B.、Vineet, V.、Su, Z.、Du, D.、Huang, C.、Torr, P.: リカレント ニューラル ネットワークとしての条件付きランダム フィールド。で:ICCV。(2015)
- Liu, Z.、Li, X.、Luo, P.、Loy, CC、Tang, X.: 深層解析ネットワークによるセマンティック画像セグメンテーション。で:ICCV。(2015)
- Papandreou, G.、Chen, LC、Murphy, K.、Yuille, AL: セマンティック画像セグメンテーションのための dcnn の弱教師あり学習および半教師あり学習。で:ICCV。(2015)
- Schwing, AG、Urtasun, R.: 完全に接続された深層構造ネットワーク。arXiv:1503.02351 (2015)
- Janpani, V.、Kiefel, M.、Gehler, PV: スパース高次元フィルターの学習: 画像フィルター、密な CRF、および双方向ニューラル ネットワーク。で: CVPR。(2016)
- Vemulapalli, R.、Tuzel, O.、Liu, MY、Chellappa, R.: セマンティック セグメンテーションのためのガウス条件付きランダム フィールド ネットワーク。で: CVPR。(2016)
- Chandra, S.、Kokkinos, I.: 深いガウス CRF を使用したセマンティック画像セグメンテーションのための高速で正確なマルチスケール推論。で: ECCV。(2016)
- Chandra, S.、Usunier, N.、Kokkinos, I.: 深い埋め込みを使用した高密度で低ランクのガウス crf。で:ICCV。(2017)
- Liu, W.、Rabinovich, A.、Berg, AC: パーセネット: よりよく見るために、より広く見てください。arXiv:1506.04579 (2015)
- Newell, A.、Yang, K.、Deng, J.: 人間の姿勢推定のための積み重ねられた砂時計ネットワーク。で: ECCV。(2016)
- Lin、TY、Doll´ar、P.、Girshick、R.、He、K.、Hariharan、B.、Belongie、S.: 物体検出のためのピラミッド ネットワークを特徴とします。で: CVPR。(2017)
- Shrivastava, A.、Suktankar, R.、Malik, J.、Gupta, A.: スキップ接続を超えて: 物体検出のためのトップダウン変調。arXiv:1612.06851 (2016)
- Fu、CY、Liu、W.、Ranga、A.、Tyagi、A.、Berg、AC: Dssd: 逆畳み込みシングルショット検出器。arXiv:1701.06659 (2017)
- Noh, H.、Hong, S.、Han, B.: セマンティック セグメンテーションのための学習デコンボリューション ネットワーク。で:ICCV。(2015)
- Lin, G.、Milan, A.、Shen, C.、Reid, I.: Refinenet: 高解像度のセマンティック セグメンテーションのための ID マッピングを備えたマルチパス洗練ネットワーク。で: CVPR。(2017)
- Pohlen, T.、Hermans, A.、Mathias, M.、Leibe, B.: ストリートシーンにおけるセマンティックセグメンテーションのためのフル解像度残差ネットワーク。で: CVPR。(2017)
- Peng, C.、Zhang, X.、Yu, G.、Luo, G.、Sun, J.: 大きなカーネル問題 - グローバル畳み込みネットワークによるセマンティック セグメンテーションの改善。で: CVPR。(2017)
- Islam, MA、Rochan, M.、Bruce, ND、Wang, Y.: 高密度画像ラベル付けのためのゲート型フィードバック改良ネットワーク。で: CVPR。(2017)
- Wojna, Z.、Ferrari, V.、Guadarrama, S.、Silberman, N.、Chen, LC、Fathi, A.、Uijlings, J.: 悪魔はデコーダーの中にいます。場所:BMVC。(2017)
- Fu, J.、Liu, J.、Wang, Y.、Lu, H.: セマンティック セグメンテーションのためのスタック型デコンボリューション ネットワーク。arXiv:1708.04943 (2017)
- Zhang, Z.、Zhang, X.、Peng, C.、Cheng, D.、Sun, J.: Exfuse: セマンティック セグメンテーションのための機能融合の強化。arXiv:1804.03821 (2018)
- Xie, S.、Girshick, R.、Dollr, P.、Tu, Z.、He, K.: ディープ ニューラル ネットワークの集約残差変換。で: CVPR。(2017)
- Jin, J.、Dundar, A.、Culurciello, E.: フィードフォワード加速のための平坦化畳み込みニューラル ネットワーク。arXiv:1412.5474 (2014)
- Wang, M.、Liu, B.、Foroosh, H.: 単一のチャネル内畳み込み、トポロジカルな細分化、および空間「ボトルネック」構造を使用した効率的な畳み込み層の設計。arXiv:1608.04337 (2016)
- Zoph, B.、Vasudevan, V.、Shlens, J.、Le, QV: スケーラブルな画像認識のための転送可能なアーキテクチャの学習。で: CVPR。(2018)
- Holschneider, M.、Kronland-Martinet, R.、Morlet, J.、Tchamitchian, P.: ウェーブレット変換を利用した信号解析のためのリアルタイム アルゴリズム。ウェーブレット: 時間周波数法と位相空間。(1989) 289–297
- Giusti, A.、Ciresan, D.、Masci, J.、Gambardella, L.、Schmidhuber, J.: ディープマックスプーリング畳み込みニューラルネットワークによる高速画像スキャン。内:ICIP。(2013)
- Papandreou, G.、Kokkinos, I.、ペンシルベニア州サヴァッレ: 深層学習におけるローカルおよびグローバル変形のモデリング: エピトミック畳み込み、複数インスタンス学習、およびスライディング ウィンドウ検出。で: CVPR。(2015)
- Abadi, M.、Agarwal, A. 他: Tensorflow: 異種分散システムにおける大規模機械学習。arXiv:1603.04467 (2016)
- Hariharan, B.、Arbel´aez, P.、Girshick, R.、Malik, J.: オブジェクトのセグメンテーションと詳細な位置特定のためのハイパーカラム。で: CVPR。(2015)
- Russakovsky、O.、Deng、J.、Su、H.、Krause、J.、Satheesh、S.、Ma、S.、Huang、Z.、Karpathy、A.、Khosla、A.、Bernstein、M.、 . Berg, AC、Fei-Fei, L.: ImageNet 大規模視覚認識チャレンジ。IJCV (2015)
- Ioffe, S.、Szegedy, C.: バッチ正規化: 内部共変量シフトを削減することでディープ ネットワーク トレーニングを加速します。内: ICML。(2015)
- Hariharan, B.、Arbel´aez, P.、Bourdev, L.、Maji, S.、Malik, J.: 逆検出器からのセマンティック輪郭。で:ICCV。(2011)
- Wang, P.、Chen, P.、Yuan, Y.、Liu, D.、Huang, Z.、Hou, X.、Cottrell, G.: セマンティック セグメンテーションのための畳み込みを理解する。arXiv:1702.08502 (2017)
- Dai, J.、Qi, H.、Xiong, Y.、Li, Y.、Zhang, G.、Hu, H.、Wei, Y.: 変形可能な畳み込みネットワーク. In: ICCV. (2017)
- Lin、TY、他: Microsoft COCO: コンテキスト内の共通オブジェクト。で: ECCV。(2014)
- Hinton, G.、Vinyals, O.、Dean, J.: ニューラル ネットワーク内の知識の抽出。で: NIPS。(2014)
- Sun, C.、Shrivastava, A.、Singh, S.、Gupta, A.: 深層学習時代におけるデータの不合理な有効性を再考します。で:ICCV。(2017)
- Li, X.、Liu, Z.、Luo, P.、Loy, CC、Tang, X.: すべてのピクセルが等しいわけではありません: 深層カスケードによる難易度を意識したセマンティック セグメンテーション。で: CVPR。(2017)
- Wu, Z.、Shen, C.、van den Hengel, A.: より広く、より深く: 視覚認識のための resnet モデルの再考。arXiv:1611.10080 (2016)
- Wang, G.、Luo, P.、Lin, L.、Wang, X.: セマンティック画像セグメンテーションのための学習オブジェクトの相互作用と説明。で: CVPR。(2017)
- Luo, P.、Wang, G.、Lin, L.、Wang, X.: セマンティック画像セグメンテーションのための深層二重学習。で:ICCV。(2017)
- Bul`o、SR、Porzi、L.、Kontschieder、P.: dnn のメモリ最適化トレーニングのためのインプレースでアクティブ化されたバッチノルム。で: CVPR。(2018)