ディープラボ v1

深い畳み込みネットと完全に接続された CRFS によるセマンティック画像セグメンテーション

Chen LC、Papandreou G、Kokkinos I、他。深い畳み込みネットと完全に接続された crfs[J] によるセマンティック画像セグメンテーション。arXiv プレプリント arXiv:1412.7062、2014。

深い畳み込みネットワークと完全に接続された CRFS に基づくセマンティック画像セグメンテーション

抽象的な

ディープ畳み込みニューラル ネットワーク (DCNN) は最近、画像分類や物体検出などの高レベルの視覚タスクにおいて最先端のパフォーマンスを実証しました。この研究では、DCNN の手法と確率的グラフィカル モデルを組み合わせて、ピクセル レベルの分類 (「セマンティック画像セグメンテーション」とも呼ばれます) のタスクを解決します。DCNN の最終層の応答が、オブジェクトを正確にセグメンテーションできるほど局所化されていないことを示します。これは、DCNN が高度なタスクに役立つ非常に不変の特性によるものです。私たちは、最終 DCNN 層の応答を完全に接続された条件付きランダム フィールド (CRF) と組み合わせることで、ディープ ネットワークのこの劣った位置特定特性を克服します。定性的には、当社の「DeepLab」システムは、以前の方法の精度レベルを超えるセグメント境界を特定することができます。定量的には、私たちの方法は PASCAL VOC-2012 セマンティック画像セグメンテーション タスクの最先端を確立し、テスト セットで 71.6% の IOU 精度を達成しました。これらの結果を効率的に取得する方法を示します。慎重に設計されたネットワークの再利用と、ウェーブレット コミュニティの「ホール」アルゴリズムの新しいアプリケーションにより、最新の GPU で毎秒 8 フレームでのニューラル ネットワーク応答の高密度計算が可能になります。

導入

LeCun et al. (1998) 以来、ディープ畳み込みニューラル ネットワーク (DCNN) が文書認識に選ばれてきた方法ですが、高度な視覚研究で主流になったのはつい最近のことです。過去 2 年間にわたって、DCNN は、画像分類を含む幅広い高レベルの問題に対するコンピューター ビジョン システムのパフォーマンスの飛躍的な向上を推進してきました (Krizhevsky et al., 2013; Sermanet et al., 2013; Simonyan & Zisserman, 2014; Szegedy et al., 2014; Papandreou et al., 2014 )、物体検出(Girshick et al., 2014)、細粒分類(Zhang et al., 2014)など。これらの研究に共通するテーマは、エンドツーエンドの方法でトレーニングされた DCNN が、SIFT や HOG 特徴などの慎重に設計された表現に依存するシステムよりも優れた結果を提供するということです。この成功の一部は、学習データの階層的抽象化をサポートする、ローカル画像変換に対する DCNN の組み込みの不変性によるものと考えられます (Zeiler & Fergus、2014)。この不変性は高レベルの視覚タスクには明らかに望ましいですが、姿勢推定 (Chen and Yuille, 2014; Tompson et al., 2014) やセマンティック セグメンテーション (抽象化ではなく正確なローカリゼーションが必要な場合) などの低レベルのタスクを妨げる可能性があります。空間の詳細。

DCNN を画像ラベル付けタスクに適用するには、信号のダウンサンプリングと空間の「非感受性」(不変性) という 2 つの技術的な障害があります。1 つ目は、標準 DCNN の各層によって実行される最大プーリングとダウンサンプリング (「ストライディング」) の繰り返しによって引き起こされる信号解像度の低下に関するものです (Krizhevsky et al., 2013; Simonyan & Zisserman, 2014; Szegedy et al., 2014)。代わりに、Papandreou et al. (2014) と同様に、元々はダウンサンプリングされていない離散ウェーブレット変換の効率的な計算のために開発された「穴あり」(穴を使用した) アルゴリズムを使用します。これにより、この問題に対する以前の解決策 (Giusti et al., 2013; Sermanet et al., 2013) よりもはるかに単純なスキームで DCNN 応答の効率的かつ高密度の計算が可能になります。

2 番目の問題は、分類器からオブジェクト指向の決定を取得するには空間変換に対する不変性が必要であり、本質的に DCNN モデルの空間精度が制限されるという事実に直接関係しています。完全に接続された条件付きランダム フィールド (CRF) を採用することで、詳細をキャプチャするモデルの機能が向上します。条件付きランダム フィールドは、セマンティック セグメンテーションで広く使用されており、多方向分類器によって計算されたクラス スコアがローカル ピクセルおよびエッジ (Rother et al.、2004; Shotton et al.、2009) またはスーパーピクセル (Lucchi et al.、2009) と相互作用します。 2011 )の情報をまとめました。階層的な依存関係 (He et al., 2004; Ladicky et al., 2009; Lempitsky et al., 2011) および/またはセグメントの高次の依存関係 (Delong et al., 2012; Gonfaus et al., 2010; Kohli et al., 2009; Chen et al., 2013; Wang et al., 2015) を使用しますが、Krahenb\¨uhl & Koltun (2011) によって提案された完全接続ペアワイズ CRF をその効果的な計算とエッジの取り込みに精通した能力で知られる。長距離依存関係も満たします。Krahenb\¨uhl & Koltun (2011) では、このモデルはブースティングベースのピクセルレベル分類器のパフォーマンスが大幅に向上することを示し、私たちの研究では DCNN と組み合わせた場合に最先端のパフォーマンスを達成することを実証しました。 -ベースのピクセルレベル分類器の結果。

当社の「DeepLab」システムの 3 つの主な利点は次のとおりです。 (i) 速度: 「atrous」アルゴリズムの特性により、高密度 DCNN は 8 fps で動作しますが、完全に接続された条件付きランダム場の平均場推論には 0.5 秒かかります。 (ii) 精度: PASCAL セマンティック セグメンテーション チャレンジで最先端の結果を達成し、Mostajabi et al. (2014) によって提案された 2 番目に優れた方法より 7.2% 向上しました; (iii) スケーラビリティ: 私たちはシステムをは、DCNN と CRF という 2 つのかなり成熟したモジュールのカスケードで構成されています。

2 関連作品

私たちのシステムは、Long et al. (2014) の方法と同様に、ピクセル表現に直接作用します。これは、現在最も一般的な DCNN ベースのセマンティック セグメンテーションに対する 2 段階のアプローチとは異なります。これらの技術は通常、ボトムアップの画像セグメンテーションと DCNN ベースの領域分類のカスケードを使用するため、システムが潜在的なエラーの影響を受けやすくなります。フロントエンドセグメンテーションシステム内。たとえば、(Arbelaez et al.、2014; Uijlings et al.、2013) によって提供された境界ボックスの提案とマスク領域は、Girshick et al. (2014) および (Hariharan et al.、2014b) によって入力として使用され、次のようになります。形状情報を分類中です。同様に、Mostajabi et al. (2014) の著者らはスーパーピクセル表現に依存していました。これらの研究の非 DCNN 先行手法の中で最も有名なものは、(Carreira et al.、2012) の 2 次プーリング手法です。これは、(Carreira & Sminchisescu、2012) によって提案された領域提案にもラベルを割り当てます。単一の分割にコミットするリスクを考慮して、Cogswell et al. (2014) は、(Yadollahpour et al., 2013) に基づいて、また (Carreira & Sminchisescu, 2012) によって計算された CRF ベースの分割提案の多様性セットを構築しました。これらのセグメンテーション提案は、この再ランキング タスクに特化した DCNN に従って再配置されます。このアプローチは、フロントエンド セグメンテーション アルゴリズムの捉えどころのない性質に明示的に対処しようとしていますが、CRF ベースのセグメンテーション アルゴリズムに対する DCNN の部分的な利点を明示的に活用することはできません。DCNN は後の段階でのみ適用されますが、セグメンテーションプロセスで意味のある結果が得られます。

私たちのアプローチに近づく研究 他の何人かの研究者は、高密度画像ラベリングに畳み込み計算された DCNN 特徴を活用することを検討しています。これらのうち最も古いものは、Farabet et al. (2013) で、複数の画像解像度に DCNN を適用し、次にセグメンテーション ツリーを使用して予測結果を平滑化します; より最近では、Hariharan et al. (2014a) は、次のように計算された中間特徴マップを連結することを提案しています。 DCNN ピクセル分類については、Dai et al. (2014) が領域提案を介して中間特徴マップをプールすることを提案しました。これらの研究では依然として DCNN 分類器とは別のセグメンテーション アルゴリズムが使用されていますが、私たちは、後の段階でのみセグメンテーションを使用し、時期尚早な決定へのコミットメントを避けることに利点があると考えています。

最近、Long et al. (2014) および Eigen & Fergus (2014) のセグメンテーションフリー技術は、スライディング ウィンドウ方式で DCNN を画像全体に直接適用し、DCNN の最後の完全接続層を畳み込み層に置き換えます。導入部の空間的位置特定の問題に対処するために、Long et al. (2014) は中間特徴マップのスコアをアップサンプリングして連結し、一方、Eigen & Fergus (2014) は、粗い結果を別の DCNN に伝播することで、粗い予測結果を細かい予測結果に絞り込みます。 。

私たちのモデルと他の最先端のモデルの主な違いは、ピクセル単位の CRF と DCNN ベースの「単項項」の組み合わせです。この方向に焦点を当てた最も近い研究は、DCNN ベースの再ランキング システムの提案メカニズムとして CRF を使用した Cogswell et al. (2014) ですが、Farabet et al. (2013) はスーパーピクセルをローカル ペアワイズ CRF のノードとして扱い、グラフ カットのパフォーマンスを使用しました。離散推論であるため、長距離のスーパーピクセルの依存関係を無視すると、スーパーピクセルの計算エラーによって結果が制限される可能性があります。私たちの方法では、各ピクセルを CRF ノードとして扱い、長距離の依存関係を利用し、CRF 推論を使用して DCNN によって駆動されるコスト関数を直接最適化します。平均フィールドは、従来の画像セグメンテーション/エッジ検出タスク (Geiger & Girosi, 1991; Geiger & Yuille, 1991; Kokkinos et al., 2008) などで広く研究されてきたが、最近、Krahenbühl & Koltun (2011) が示したことに注意してください。この推論は完全に接続された CRF に非常に役立ち、特にセマンティック セグメンテーションのコンテキストで効果的です。

私たちの原稿の最初のバージョンが公開された後、他の 2 つのグループが、DCNN と密に接続された CRF を組み合わせて、非常によく似た方向を独立して同時に追求していることに気づきました (Bell et al., 2014; Zheng et al., 2015)。各モデル間にはいくつかの技術的な違いがあります。Bell et al. (2014) は材料分類問題に焦点を当て、Zheng et al. (2015) は CRF 平均場推論ステップを拡張して、システム全体をエンドツーエンドの訓練可能なフィードフォワード ネットワークに変換しました。

私たちは提案した「DeepLab」システムを改善された方法と結果で更新し、最新の研究は Chen et al. (2016) で発表されました。私たちは喜ぶでしょう

3 高密度画像ラベル付けのための畳み込みニューラル ネットワーク

ここでは、公開されている Imagenet の事前トレーニング済み 16 層分類ネットワーク (Simonyan & Zisserman、2014) (VGG-16) を再調整および微調整して、高密度セマンティックのための効率的かつ効果的な高密度特徴抽出に変える方法について説明します。画像セグメンテーション システム デバイス。

3.1 ホールアルゴリズムによる効率的な高密度スライディングウィンドウ特徴抽出

密な空間スコアの計算は、密な畳み込みニューラル ネットワーク特徴抽出器を成功させるために重要です。これを達成するために、VGG-16 の完全に接続された層を畳み込み層に変換し、ネイティブ解像度で畳み込み方式でネットワークを実行します。ただし、非常にまばらな検出スコア (32 ピクセル ストライド) が生成されるため、これでは十分ではありません。ターゲット ストライドが 8 ピクセルの場合にスコアをより高密度に計算するために、Giusti et al. (2013) および Sermanet et al. (2013) で以前に使用された方法の変形である方法を開発しました。Simonyan & Zisserman (2014) ネットワークの最後の 2 つの最大プーリング層の後のダウンサンプリング操作をスキップし、後続の畳み込み層の畳み込みフィルターを変更して、ゼロを導入してその長さを増やします (最後の 3 つの畳み込みでは、累積層の 2 倍)最初の完全に接続された層では 4x)。フィルターを変更せずに、それぞれ 2 ピクセルまたは 4 ピクセルの入力ストライドを持つスパース特徴マップを使用することで、このメソッドをより効率的に実装できます。図 1 に示すように、この方法は「atrous アルゴリズム」 (「atrous アルゴリズム」) として知られており、以前はダウンサンプリングなしでウェーブレット変換を効率的に計算するために使用されていました (Mallat、1999)。以下の特徴マップをまばらにサンプリングするオプションを im2col 関数に追加することで、このアプローチを Caffe フレームワーク (Jia et al.、2014) に実装しました。このアプローチは一般的に適用可能であり、近似を導入することなく、目標のダウンサンプリング レートで高密度の畳み込みニューラル ネットワークの特徴マップを効率的に計算できます。

Long et al. (2014) の方法に基づいて、Imagenet の事前トレーニング済み VGG-16 ネットワーク モデルを画像分類タスクに適応するように直接微調整しました。VGG-16 の最後の層にある 1000 方向の Imagenet 分類器を 21 方向の分類器に置き換えます。損失関数は、CNN 出力マップ (元の画像に対して 8 倍ダウンサンプリング) 内の各空間位置におけるクロス エントロピー項の合計です。損失関数全体では、各位置とラベルの重みは等しくなります。私たちの目標は、正しいラベル (元の画像に対して 8 倍ダウンサンプリング) に注釈を付けることです。Krizhevsky et al. (2013) の標準 SGD 手順を使用して、すべてのネットワーク層の重みの目的関数を最適化します。

テストのために、元の画像解像度でクラス スコア マップを生成する必要があります。図 2 に示され、セクション 4.1 でさらに説明されているように、クラス スコア マップ (対数確率に対応) は非常に滑らかなので、単純な双線形補間を使用して 1 缶の計算コストで解像度を 8 倍に高めることができます。無視される。Long et al. (2014) の方法ではホール アルゴリズムが使用されず、CNN 出力で非常に粗いスコア (32 倍のダウンサンプリング) が生成されることに注意してください。これにより、学習されたアップサンプリング レイヤーの使用が強制され、システムの複雑さとトレーニング時間が大幅に増加しました。PASCAL VOC 2012 データセットでネットワークを微調整するのに約 10 時間かかりましたが、トレーニング時間は数日かかると報告されています (どちらも、最新の GPU)。


図 1: カーネル サイズが 3、入力ストライドが 2、出力ストライドが 1 の場合の 1 次元のケースで atrous 畳み込みを使用するアルゴリズムを示す概略図。

3.2 畳み込みネットワークにおける受容野サイズの制御と集中計算の高速化

高密度スコア計算にネットワークを再利用するために、もう 1 つの重要な要素は、ネットワークの受容野サイズを明示的に制御することです。最新の DCNN ベースの画像認識手法は、Imagenet 大規模分類タスクで事前トレーニングされたネットワークに依存しています。これらのネットワークは通常、受容野サイズが大きくなります。私たちが検討する VGG-16 ネットワークの場合、受容野サイズは 224 × 224 (ゼロ パディングを使用)、または畳み込み適用された場合は 404 × 404 ピクセルになります。ネットワークを完全畳み込みネットワークに変換した後、最初の完全接続層にはサイズ 7 × 7 の 4,096 個の大きなフィルターがあり、高密度スコア マップの計算において計算のボトルネックになります。

この実際的な問題は、最初の全結合層を 4×4 (または 3×3) の空間サイズに空間的にサブサンプリングする (単純なサ​​ンプリングによって) ことで解決します。これにより、ネットワークの受容野が 128×128 (ゼロ パディングあり) または 308×308 (畳み込みモード) に縮小され、最初の完全接続層の計算時間が 2 ~ 3 分の 1 に短縮されます。Caffe ベースの実装と Titan GPU を使用すると、結果として得られる VGG 派生ネットワークは非常に効率的になります。306x306 の入力画像が与えられると、スコアのテスト中にネットワーク上に 39x39 の高密度の生の特徴が約 8 フレーム/秒で生成されます。トレーニング中の速度は 3 フレーム/秒です。また、完全接続層のチャネル数を 4,096 から 1,024 に削減することにも成功し、パフォーマンスを損なうことなく計算時間とメモリ使用量を大幅に削減しました。詳細についてはセクション 5 を参照してください。Krizhevsky et al. (2013) などの小規模なネットワークを使用すると、軽量 GPU で 1 秒に 1 回のビデオ レートでテスト時間のかかる特徴計算を実現することも可能です。

4 詳細な境界回復: 完全に接続された条件付きランダム フィールドとマルチスケール予測

4.1 深層畳み込みネットワークと位置決めの課題

図 2 に示すように、DCNN スコア マップは画像内のオブジェクトの存在とおおよその位置を確実に予測しますが、その輪郭を正確に特定するにはあまり適していません。畳み込みネットワークを使用した分類精度と位置特定精度の間には、自然なトレードオフがあります。複数の最大プーリング層を備えた深いモデルは、分類タスクで最も成功していることが証明されていますが、不変性が増大し、受容野が大きいため、出力は上部から出力されます。水平位置の部分推論より困難な問題になります。

最近の研究では、この位置決めの課題に対処するために 2 つの方向が追求されています。最初のアプローチは、畳み込みネットワーク内の複数の層の情報を活用して、オブジェクトの境界をより適切に推定することです (Long et al., 2014; Eigen & Fergus, 2014)。2 番目のアプローチは、スーパーピクセル表現を使用することで、基本的に位置特定タスクを低レベルのセグメンテーション手法に委任します。これは、Mostajabi et al. (2014) による最近の非常に成功したアプローチがたどったルートです。

セクション 4.2 では、DCNN の識別力と完全に接続された CRF のきめ細かい位置特定精度の組み合わせに基づいた新しい代替方向を追求し、位置特定の課題を解決し、正確なセマンティック セグメンテーションの結果をもたらし、オブジェクトを復元する際にこのアプローチが驚くべき成功を収めたことを実証します。既存の方法では到達できない詳細レベルでの境界。

4.2 完全に接続された条件付きランダムフィールドによる正確な位置決め

ここに画像の説明を挿入します
図 2: 航空機カテゴリのスコア プロット (softmax 関数への以前の入力) と信頼度プロット (softmax 関数の出力)。各平均フィールド反復後のスコア (最初の行) と信頼度 (2 行目) のプロットを示します。最後の DCNN 層の出力は、平均場推論の入力として使用されます。カラーで見るのがベスト。

図 3: モデルの図。完全畳み込み層を備えたディープ畳み込みニューラル ネットワークから取得された粗いスコア マップは、双線形補間によってアップサンプリングされます。完全に接続された CRF が適用されてセグメンテーション結果が調整されます。カラーで表示するのが最適です。

従来、ノイズの多いセグメンテーション マップを平滑化するために、条件付きランダム フィールド (CRF) が使用されてきました (Rother et al., 2004; Kohli et al., 2009)。通常、これらのモデルには隣接するノードを結合するエネルギー項が含まれており、空間的に隣接するピクセルに同じラベルを割り当てる傾向があります。定性的には、これらの短距離 CRF の主な機能は、ローカルに手動で設計された特徴に基づいて構築された弱分類器の誤った予測をクリーンアップすることです。

これらの弱い分類器と比較すると、この論文で使用されている最新の DCNN アーキテクチャは、質的に異なるスコア マップとセマンティック ラベル予測を生成します。図 2 に示すように、スコア プロットは通常非常に滑らかで、均一な分類結果が得られます。この場合、目標は局所構造をさらに平滑化するのではなく、詳細な局所構造を回復することであるため、短距離 CRF の使用は有害になる可能性があります。コントラストに敏感な電位 (Rother et al., 2004) を局所スケールの CRF と組み合わせて使用​​すると、局在化を改善できる可能性がありますが、依然として微細構造が無視され、多くの場合、高価な離散最適化問題を解決する必要があります。

これらの短距離 CRF の制限を克服するために、Krahenbrüuhl & Koltun (2011) の完全に接続された CRF モデルをシステムに統合します。

このモデルは、 x がピクセルのラベル割り当てであるエネルギー関数を使用します。単位ポテンシャルとしてθ i ( xi ) = − log P ( xi ) θ_i(x_i) = − log P(x_i) を使用します。私は( ×私は=l o g P ( x私は)、ここで P(xi) は、DCNN によって計算されたピクセル i でのラベル割り当て確率です。ペアワイズ ポテンシャルの形式は、θ ij ( xi , xj ) = µ ( xi , xj ) ∑ m = 1 K wm ⋅ km ( fi , fj ) θ_{ij} (x_i, x_j) = µ(x_i, x_j) です。 \ sum ^K _{m = 1} w_m・k^m(f_i,f_j)イジ( ×私は×j=μ ( x私は×jm = 1Kwメートルkm (f私はfj),其中 µ ( x i , x j ) = 1 µ(x_i,x_j) = 1 μ ( x私は×j=1 xi ≠xj x_i ≠ x_jバツ私は=バツj、それ以外の場合はゼロ (つまり、ポッツ モデル)。画像内のピクセル i と j の各ペアには、それらがどれほど離れているかに関係なく、ペアごとの項があります。つまり、モデルのファクター グラフは完全に接続されています。kmk^mkm は、抽出されたピクセル i および j に依存する特徴 (f として示されます) であり、パラメーターwm w_mwメートル重み付けされたガウス カーネル。両側の位置と色の項を採用します。特にカーネルは次のとおりです。

最初のカーネルはピクセル位置 (p で示される) とピクセルの色の強度 (I で示される) に依存しますが、2 番目のカーネルはピクセル位置にのみ依存します。ハイパーパラメータ σα、σβ、および σγ は、ガウス カーネルの「スケール」を制御します。

重要なことに、このモデルは効率的な近似確率論的推論に役立ちます (Krahenbrüuhl & Koltun、2011)。完全に分解可能な平均場近似では、b ( x ) = ∏ ibi ( xi ) b(x)=\prod_ib_i(xi)b ( × )=私はb私は( xi )
では、通過するメッセージの更新は、特徴空間でのガウス カーネルとの畳み込みによって表現できます高次元フィルタリング アルゴリズム (Adams et al., 2010) はこの計算を大幅に高速化するため、実際のアルゴリズムは非常に高速になり、公開実装 (Krahenbrèuhl & Koltun, 2011)。

4.3 マルチスケール予測

(Hariharan et al., 2014a; Long et al., 2014) によって最近得られた有望な結果を考慮して、境界位置特定の精度を向上させるためのマルチスケール予測方法も探索します。具体的には、2 つの MLP 層 (第 1 層: 128 個の 3x3 畳み込みフィルター、第 2 層: 128 個の 1x1 畳み込みフィルター) を入力画像と最初の 4 つの最大プーリング層のそれぞれの出力に追加します。その特徴マップは、メインネットワークの最後の層の機能マップ。したがって、ソフトマックス層に供給される集約された特徴マップは、5 * 128 = 640 チャネルによって拡張されます。新しく追加された重みのみを調整し、他のネットワーク パラメーターはセクション 3 のこの方法で学習した値に保ちます。実験セクションで説明したように、サブディビジョンの下位層からこれらの追加の直接接続を導入すると、位置特定のパフォーマンスが向上しますが、その効果は完全に接続された CRF によって得られるほど劇的ではありません。

表 1: (a) PASCAL VOC 2012 の「val」セット (拡張された「train」 セットを使用してトレーニングされた) での提案モデルのパフォーマンス。マルチスケール機能と広い視野を活用することで、最高のパフォーマンスが実現されます。(b) PASCAL VOC 2012「テスト」セットでの提案モデル (拡張「trainval」セットでトレーニング) のパフォーマンスと、他の最先端の方法との比較。

5 実験評価

データセットPASCAL VOC 2012 セグメンテーション ベンチマーク (Everingham et al., 2014) で DeepLab モデルをテストします。このベンチマークは、20 の前景オブジェクト クラスと 1 つの背景クラスで構成されます。元のデータセットには、トレーニング用、検証用、テスト用のそれぞれ 1,464 枚、1,449 枚、および 1,456 枚の画像が含まれています。データセットは、Hariharan et al. (2011) によって提供された追加の注釈で拡張され、10,582 枚のトレーニング画像が作成されました。パフォーマンスは、21 カテゴリにわたるピクセル オーバー ユニオン (IOU) の平均交差として測定されます。

トレーニングDCNN と CRF のトレーニング段階を分離し、DCNN によって提供される単項項が CRF トレーニング中に固定されると仮定して、最も単純な形式のセグメント化トレーニングを採用します。DCNN トレーニングには、ImageNet で事前トレーニングされた VGG-16 ネットワークを使用します。セクション 3.1 で説明したように、クロスエントロピー損失関数の確率的勾配降下法を介して VOC 21 方向ピクセル分類タスクを微調整します。20 枚の画像のミニバッチと 0.001 の初期学習率 (0.01 は最終分類器層に使用されます) を使用し、2000 回の反復ごとに学習率に 0.1 を掛けます。モーメンタム 0.9 とウェイト減衰 0.0005 を使用します。DCNN の微調整後、Krahenbrüuhl & Koltun (2011) の方法に従って、式 (2) の完全接続 CRF モデルのパラメーターに対して相互検証を実行します。デフォルト値の w2 = 3 および σγ = 3 を使用し、検証セットの小さなサブセット (100 枚の画像を使用) で w1、σα、および σβ の最適値を相互検証します。coarse-to-fine 探索方式を採用しており、具体的には、パラメータの初期探索範囲は w1 ∈ [5,10]、σα ∈ [50:10:100]、σβ ∈ [3:1:10] です (MATLAB 表現) )、次に、最初のラウンドで最適な値を中心に検索ステップ サイズを調整します。報告されたすべての実験設定について、平均フィールド反復数 10 を維持します。

検証セットでの評価ほとんどの評価は PASCAL「val」データセットで実行し、拡張された PASCAL「train」データセットでモデルをトレーニングします。表 1(a) に示すように、完全に接続された CRF をモデル (DeepLab-CRF と呼ばれる) に組み込むと、パフォーマンスが大幅に向上し、DeepLab と比較して約 4% 向上します。Krahenbrèuhl & Koltun® (2011) の研究により、TextonBoost (Shotton et al., 2009) の結果 27.6% が 29.1% に改善され、報告した改善 (59.8% から 63.7%) がさらに大きくなったことに注目します。印象的な。

定性的な結果に関して、DeepLab と DeepLab-CRF の視覚的な比較を図 7 に示します。完全に接続された CRF を採用すると結果が大幅に向上し、モデルが複雑なオブジェクトの境界を正確にキャプチャできるようになります。

表 2: 受容野の影響。最初の完全接続層のカーネル サイズと atrous アルゴリズムで使用される入力ストライド値の関数として設定された PASCAL VOC 2012 の「val」セットでのパフォーマンス (CRF 後) とトレーニング速度を示します。

マルチスケール特徴Hariharan et al. (2014a) および Long et al. (2014) と同様の中間レベルの特徴も利用します。表 1(a) に示すように、DeepLab モデル (DeepLab-MSc と表記) にマルチスケール機能を追加すると、パフォーマンスが約 1.5% 向上し、さらに完全に接続された CRF (DeepLab-MSc-CRF と表記) が組み込まれています。パフォーマンスが約 4% 向上する可能性があります。
DeepLab と DeepLab-MSc の定性的な比較を図 4 に示します。オブジェクトの境界は、マルチスケール フィーチャを使用してわずかに調整できます。

視野制御私たちが使用する「atrous アルゴリズム」を使用すると、図 1 に示すように、入力ストライドを調整することでモデルの視野を任意に制御できます。表 2 では、最初の完全に接続された層でいくつかのカーネル サイズと入力ストライドを使用して実験を試みます。DeepLab-CRF-7x7 メソッドは VGG-16 ネットから直接変更されており、カーネル サイズは 7×7、入力ストライドは 4 です。モデルは「val」セットで 67.64% のパフォーマンスを発揮しましたが、比較的遅かったです (トレーニング中は 1 秒あたり 1.44 画像)。カーネル サイズを 4×4 に縮小した後、モデル速度を 1 秒あたり 2.9 イメージに増加しました。視野サイズの異なる 2 つのネットワーク バリアント、つまり DeepLab-CRF と DeepLab-CRF-4x4 を試しました。後者は FOV (つまり、入力ストライドが大きい) が大きく、より優れたパフォーマンスを実現します。最後に、カーネル サイズ 3 × 3 および入力ストライド = 12 を使用し、さらに最後の 2 層のフィルター サイズを 4096 から 1024 に変更します。興味深いことに、結果として得られるモデル DeepLab-CRF-LargeFOV は、高価な DeepLabCRF-7x7 と同じパフォーマンスを備えています。同時に、実行速度が 3.36 倍になり、パラメータの数が大幅に減りました (134.3M ではなく 20.5M)。

表 1 は、いくつかのモデル バリアントのパフォーマンスをまとめたもので、マルチスケール機能と大きな FOV を活用する利点を示しています。


図 4: マルチスケール フィーチャの融合により、境界セグメンテーション効果が向上します。1 行目と 2 行目はそれぞれ DeepLab と DeepLab-MSc の結果を示しています。カラー表示で最もよく表示されます。

オブジェクト境界に沿った平均ピクセル IOU の計算オブジェクト境界付近で提案されたモデルの精度を定量化するために、Kohli et al. (2009); Krahenbrèuhl & Koltun (2011) の実験と同様の実験を使用してセグメンテーションの精度を評価します。具体的には、val セットに注釈が付けられた「void」ラベルを使用します。これは通常、オブジェクトの境界の周囲に表示されます。「void」ラベルの狭いバンド (トライマップと呼ばれる) 内にあるピクセルの平均 IOU を計算します。図 5 に示すように、中間層でマルチスケール フィーチャを利用し、完全に接続された CRF を通じてセグメンテーション結果を調整すると、オブジェクト境界付近の結果が大幅に改善されます。

最先端の技術との比較図 6 では、私たちが提案したモデル DeepLabCRF を、FCN-8s (Long et al., 2014) および TTI-Zoomout-16 ( Mostajabi et al.、2014)「val」セット内 (論文から抽出された結果)。私たちのモデルは、複雑なオブジェクトの境界を捉えることができます。

図 5: (a) いくつかのトライマップの例 (左上: 画像。右上: グラウンド トゥルース。左下: 2 ピクセルのトライマップ。右下: 10 ピクセルのトライマップ)。提案された方法のオブジェクト境界付近の帯域内セグメンテーション結果の品質。(b) ピクセルごとの精度。(c) ピクセル平均 IOU。

図 6: val セットの最先端モデルとの比較。最初の行: 画像。2 行目: グラウンド トゥルース。3 段目: その他の最近のモデル (左: FCN-8、右: TTI-Zoomout-16)。4 行目: DeepLab-CRF。カラーで見るのがベスト。

再現性優れた Caffe フレームワーク (Jia et al., 2014) を拡張することで、提案された手法を実装します。この記事の結果を再現するためのソース コード、構成ファイル、トレーニングされたモデルを関連 Web サイト https://bitbucket.org/deeplab/deeplab-public で共有しました。

テスト セットの結果検証セットでモデル選択を設定した後、PASCAL VOC 2012 の公式「テスト」セットでモデル バリアントを評価します。表 3 に示すように、DeepLab-CRF モデルと DeepLabMSc-CRF モデルは、それぞれ 66.4% と 67.1% の平均 IOU1 パフォーマンスを達成しました。私たちのモデルは、他のすべての最先端モデル (具体的には、TTI-Zoomout-16 (Mostajabi et al., 2014)、FCN-8s (Long et al., 2014)、および MSRA-CFM (Dai et al., 2014) よりも優れています。 、2014))。モデルの FOV を増加すると、DeepLab-CRF-LargeFOV のパフォーマンスは 70.3% に達し、DeepLab-CRF7x7 と同じですが、トレーニング速度は速くなります。さらに、当社の最高モデル DeepLab-MSc-CRF-LargeFOV は、マルチスケール機能と大きな FOV の両方を使用することで、71.6% の最高のパフォーマンスを達成します。

図 7: VOC 2012 検証セットの視覚化結果。各行について、入力画像、DCNN (DeepLab) によって提供されたセグメンテーション結果、および完全に接続された CRF (DeepLab-CRF) の洗練されたセグメンテーション結果を示します。最後の 3 行に失敗パターンを示します。カラー表示で最もよく表示されます。

表 3: トレーニングに trainval セットを使用した PASCAL VOC 2012 テスト セットのラベル IOU (%)。

6 ディスカッション

この研究では、深層畳み込みニューラル ネットワークと完全に接続された条件付きランダム フィールドのアイデアを組み合わせて、計算効率を高めながら意味的に正確な予測と詳細なセグメンテーション マップを生成できる新しい方法を提案します。私たちの実験結果は、提案された方法が、困難な PASCAL VOC 2012 セマンティック画像セグメンテーション タスクにおける最先端技術を大幅に改善することを示しています。

私たちは、モデルの 2 つの主要コンポーネント (CNN と CRF) を完全に統合し、Krahenbühl & Koltun (2013); Chen et al. (2014) のようにエンドツーエンドの方法でトレーニングするなど、モデルの複数の側面をさらに改善する予定です。 ; Zheng et al. (2015) システム全体。また、より多くのデータセットを試し、深度マップやビデオなどの他のデータ ソースにこの方法を適用する予定です。最近では、モデルのトレーニングにバウンディング ボックスや画像レベルのラベルなどの弱教師付きアノテーションを採用しています (Papandreou et al., 2015)。

大まかに言えば、私たちの仕事は畳み込みニューラル ネットワークと確率的グラフィカル モデルの交差点にあります。私たちは、これら 2 つの強力なメソッド クラス間の相互作用をさらに調査し、困難なコンピューター ビジョン タスクを解決する際のそれらの相乗効果の可能性を探る予定です。

謝辞

この研究は、ARO 62250-CS、NIH Grant 5R01EY022247-03、EU プロジェクト RECONFIG FP7-ICT-600825、および EU プロジェクト MOBOT FP7-ICT-2011-600796 によって部分的に支援されました。また、この研究に使用した GPU を寄贈していただいた NVIDIA Corporation にも感謝いたします。

詳細なコメントと建設的なフィードバックをくださった匿名の査読者に感謝いたします。

論文改訂

読者の便宜のために、ここにこの論文の主な改訂のリストを示します。

v1 は ICLR 2015 に提出されました。DeepLab-CRF モデルを導入し、PASCAL VOC 2012 テスト セットで 66.4% のパフォーマンスを達成しました。

v2 は ICLR 2015 に対する反論です。中間層のマルチスケール機能を組み合わせる DeepLab-MSc-CRF モデルが追加されました。DeepLab-MSc-CRF は、PASCAL VOC 2012 テスト セットで 67.1% のパフォーマンスを達成しました。

v3 カメラは ICLR 2015 に対応。広い視野を試してみました。PASCAL VOC 2012 テスト セットでは、DeepLab-CRF-LargeFOV は 70.3% のパフォーマンスを達成しました。更新された「DeepLab」システム (Chen et al.、2016) を使用してマルチスケール機能
v4 の活用が導入されたとき、このシステムの結果は大幅に改善されました。

参考文献

Adams, A.、Baek, J.、および Davis, MA 順六面体格子を使用した高速高次元フィルタリング
コンピューター グラフィックス フォーラム、2010 年
。Arbelaez, P.、Pont-Tuset, J.、Barron, JT、Marques, F.、および Malik, J. マルチスケールの組み合わせによる
グループ化。CVPR、2014 年。Bell
, S.、Upchurch, P.、Snavely, N.、および Bala, K. コンテキスト データベース内のマテリアルを使用した、野生環境でのマテリアル認識
arXiv:1412.0623、2014。Carreira
, J. および Sminchisescu, C. Cpmc: 制約付きパラメトリック最小カットを使用した自動オブジェクト セグメンテーション。PAMI、2012。Carreira
, J.、Caseiro, R.、Batista, J.、および Sminchisescu, C. 2 次
プーリングによるセマンティック セグメンテーション。ECCV、2012 年。
Chen, L.-C.、Papandreou, G.、および Yuille, A. 画像ラベル付けへの応用による形状エピトムの辞書の学習。ICCV、2013 年。Chen
, L.-C.、Schwing, A.、Yuille, A.、Urtasun, R. 深層構造モデルの学習。
arXiv:1407.2538、2014。Chen
, L.-C.、Papandreou, G.、Kokkinos, I.、Murphy, K.、および Yuille, AL Deeplab:
深い畳み込みネット、激しい畳み込み、および完全に接続された crf を使用したセマンティック画像セグメンテーション。
arXiv:1606.00915、2016。Chen
, X. および Yuille, AL 画像依存のペア関係を持つグラフィカル モデルによる多関節姿勢推定
NIPS にて、2014 年
。Cogswell, M.、Lin, X.、Purushwalkam, S.、および Batra, D. グラフィカル モデルの最良の組み合わせ
セマンティック セグメンテーション用の convnet です。arXiv:1412.4313、2014。Dai
, J.、He, K.、および Sun, J. ジョイント オブジェクトおよびスタッフ セグメンテーションのための畳み込み特徴マスキング。
arXiv:1412.1283、2014。Delong
, A.、Osokin, A.、Isack, HN、および Boykov, Y.
ラベル コストを使用した高速な近似エネルギー最小化。IJCV、2012。Eigen
, D. および Fergus, R. 共通の
マルチスケール畳み込みアーキテクチャによる深さ、表面法線、およびセマンティック ラベルの予測。arXiv:1411.4734、2014。Everingham
, M.、Eslami, SMA、Gool, LV、Williams, CKI、Winn, J.、および Zisserma, A. パスカルの
ビジュアル オブジェクト クラスが回顧展に挑戦します。IJCV、2014年。
Farabet, C.、Couprie, C.、Najman, L.、および LeCun, Y. シーンのラベル付けのための階層的特徴の学習。PAMI、2013。Geiger
, D. および Girosi, F. mrfs の並列および決定論的アルゴリズム: 表面再構成。
PAMI、13(5):401–412、1991。Geiger
, D. および Yuille, A. 画像セグメンテーションの共通フレームワーク。
IJCV、6( 3 ):227–243、1991。Girshick
, R.、Donahue, J.、Darrell, T.、および Malik, J. は、正​​確なオブジェクト
検出とセマンティック セグメンテーションのためのリッチ機能階層を使用しています。CVPR、2014 年。Giusti , A.、Ciresan, D.、Masci, J.、Gambardella, L.、および Schmidhuber, J.ディープ マックス プーリング畳み込みニューラル ネットワーク
による高速画像スキャン。
ICIPにて、2013年。
Gonfaus, JM、Boix, X.、Van de Weijer, J.、Bagdanov, AD、Serrat, J.、および Gonzalez, J. 共同分類とセグメンテーションの可能性の調和
CVPR、2010 年。Hariharan
, B.、Arbelaez, P.、Bourdev, L.、Maji, S.、および Malik, J. 逆 '
検出器からのセマンティック コンター。ICCV、2011 年
。Hariharan, B.、Arbelaez, P.、Girshick, R.、および Malik, J. オブジェクトのセグメンテーションと「
きめ細かいローカリゼーション」のためのハイパーコラム。arXiv:1411.5752、2014a。
Hariharan, B.、Arbelaez, P.、Girshick, R.、Malik, J. 同時検出とセグメンテーション。'
ECCV、2014b。
He, X.、Zemel, RS、および Carreira-Perpindn, M. 画像ラベル付けのためのマルチスケール条件付きランダム フィールド
CVPR、2004 年。
Jia, Y.、Shelhamer, E.、Donahue, J.、Karayev, S.、Long, J.、Girshick, R.、Guadarrama, S.、および Darrell, T. Caffe: 高速な機能埋め込みのための畳み込みアーキテクチャ
arXiv:1408.5093、2014。Kohli
, P.、Ladicky, L.、Torr, PH ラベルの一貫性を強制するための堅牢な高次の可能性。
IJCV、2009。Kokkinos
, I.、Deriche, R.、Faugeras, O.、および Maragos, P.
生物学的に動機付けられた境界検出モデルの計算分析と学習。Neurocomputing、71(10):1798–1812、2008。Krahenb
、uhl、P. および Koltun、V。ガウス エッジ
ポテンシャルを持つ完全接続 CRF での効率的な推論。NIPS、2011 年
。Krahenb ® uhl、P. および Koltun、V。高密度ランダム場のパラメーター学習と収束推論。
ICML、2013 年。Krizhevsky 、A.、Sutskever、I.、および Hinton、ディープ畳み込みニューラル ネットワーク
による GE Imagenet 分類。
NIPS にて、2013 年
。Ladicky, L.、Russell, C.、Kohli, P.、および Torr, PH オブジェクトクラス画像セグメンテーションのための連想階層 CRF
ICCV、2009 年
。LeCun, Y.、Bottou, L.、Bengio, Y.、Haffner, P. 文書認識に適用された勾配ベースの学習
プロセスで。IEEE、1998。Lempitsky
, V.、Vedaldi, A.、および Zisserman, A. のセマンティック セグメンテーションのパイロン モデル。NIPS にて、
2011 年
。Long, J.、Shelhamer, E.、Darrell, T. セマンティック セグメンテーションのための完全畳み込みネットワーク。
arXiv:1411.4038、2014。
Lucchi, A.、Li, Y.、Boix, X.、Smith, K.、および Fua, P. 空間的制約とグローバル制約は
セグメンテーションに本当に必要ですか? ICCV にて、2011 年。
サウスカロライナ州マラット。信号処理のウェーブレット ツアー。アカド。Press、第 2 版、1999 年。Mostajabi, M.、Yadollahpour, P.、および Shakhnarovich, G.ズームアウト機能
を備えたフィードフォワード セマンティック セグメンテーション。
arXiv:1412.0774、2014。Papandreou
, G.、Kokkinos, I.、および Savalle, P.-A.
画像分類とスライディング ウィンドウ検出のために、深い畳み込みネットワークにおけるローカルおよびグローバルな変形を解きほぐします。arXiv:1412.0296、2014。Papandreou , G.、Chen,
L.-C. 、Murphy, K.、および Yuille, ALセマンティック画像セグメンテーションのための DCNN の
弱教師あり学習および半教師あり学習。
arXiv:1502.02734、2015。
Rother, C.、Kolmogorov, V.、および Blake, A. Grabcut: 反復
グラフ カットを使用したインタラクティブな前景抽出。SIGGRAPH、2004 年。
Sermanet, P.、Eigen, D.、Zhang, X.、Mathieu, M.、Fergus, R.、および LeCun, Y. Overfeat:
畳み込みネットワークを使用した統合された認識、位置特定、および検出。arXiv:1312.6229、2013。Shotton
, J.、Winn, J.、Rother, C.、および Criminisi, A. 画像理解のための Textonboost: テクスチャ、レイアウト、コンテキストを共同モデリングすることによるマルチクラス オブジェクトの認識とセグメンテーション。IJCV、
2009。Simonyan
, K. および Zisserman, A. 大規模な画像認識のための非常に深い畳み込みネットワーク。arXiv:1409.1556、2014。Szegedy
, C.、Liu, W.、Jia, Y.、Sermanet, P.、Reed, S.、Anguelov, D.、Erhan, D.、Vanhoucke, V.、および
Rabinovich, A. 畳み込みをさらに深くします。arXiv:1409.4842、2014。Tompson
, J.、Jain, A.、LeCun, Y.、Bregler, C. 人間の姿勢推定のための畳み込みネットワークと
グラフィカル モデルの共同トレーニング。NIPS、2014 年
。Uijlings, J.、van de Sande, K.、Gevers, T.、および Smeulders, A. 物体認識の選択的検索。
IJCV、2013。Wang
, P.、Shen, X.、Lin, Z.、Cohen, S.、Price, B.、および Yuille, A.
単一の画像からの統合された深度およびセマンティック予測に向けて。CVPR、2015 年
。Yadollahpour, P.、Batra, D.、Shakhnarovich, G. 多様なセグメンテーションの差別的な再ランキング。CVPR にて、2013 年
。Zeiler, MD および Fergus, R. 畳み込みネットワークの視覚化と理解。ECCV、2014 年。
Zhang, N.、Donahue, J.、Girshick, R.、Darrell, T. 詳細なカテゴリ
検出のための部品ベースの R-CNN。ECCV、2014 年。Zheng
, S.、Jayasumana, S.、Romera-Paredes, B.、Vineet, V.、Su, Z.、Du, D.、Huang, C.、Torr, P. 条件付きランダム
フィールドリカレントニューラルネットワークとして。arXiv:1502.03240、2015

おすすめ

転載: blog.csdn.net/wagnbo/article/details/130629495