深い畳み込みネットと完全に接続された CRFS によるセマンティック イメージ セグメンテーション

深い畳み込みネットワークと完全に接続された CRFS を使用したセマンティック イメージ セグメンテーション

個人的なまとめ

1. この記事には 2 つの主要なモジュールがあります. 1 つはホール畳み込みを使用して元の畳み込みカーネルを置き換え、計算量を増やすことなく受容野を増やすことです. 2 つ目はセマンティック セグメンテーションに CRF を使用することです.

2. 論文全体の文脈については、図 3 を参照してください。

3. 条件付きランダム フィールド CRF、このアルゴリズムは統計的学習方法の章です。推奨ブログ 条件付きフィールド CRF 詳細な説明 - Zhihu 、このアルゴリズムはかなり前に注意深く読まれており、多くの数学的なことは後で忘れられていたので、推奨されません 詳細な調査

まとめ

深層畳み込みニューラル ネットワーク (DCNN) は、最近、画像分類やオブ​​ジェクト検出などの高レベルのビジョン タスクで最先端のパフォーマンスを発揮しました。この作業は、ピクセル レベルの分類タスク (「セマンティック イメージ セグメンテーション」とも呼ばれます) を解決するために、DCNN の方法と確率的グラフィカル モデルを組み合わせたものです。DCNN の最後の層の応答が、正確なオブジェクト セグメンテーションのために十分にローカライズされていないことを示します。これは、DCNN を高度なタスクに適したものにする非常に不変な特性によるものです。最終的な DCNN レイヤーの応答を完全に接続された条件付きランダム フィールド (CRF) と組み合わせることで、ディープ ネットワークのこの貧弱なローカリゼーション プロパティを克服します。定性的には、当社の「DeepLab」システムは、以前の方法を超える精度でセグメンテーション境界をローカライズできます。定量的には、私たちの方法は PASCAL VOC-2012 セマンティック イメージ セグメンテーション タスクに新しい最先端技術を設定し、テスト セットで 71.6% の IOU 精度を達成しました。これらの結果を効率的に達成する方法を示します。注意深いネットワークの再利用と、ウェーブレット コミュニティの「穴」アルゴリズムの新しいアプリケーションにより、最新の GPU で毎秒 8 フレームでニューラル ネットワーク応答の集中的な計算が可能になります。

1 はじめに

深層畳み込みニューラル ネットワーク (DCNN) は、LeCun ら (1998 年) 以来、ドキュメント認識の方法として選ばれてきましたが、高度な視覚研究の主流になったのはごく最近のことです。過去 2 年間で、DCNN はコンピューター ビジョン システムを画像分類を含むさまざまな高レベルの問題に対応させることにおいて飛躍的な進歩を遂げました (Krizhevsky et al., 2013; Sermanet et al., 2013; Simonyan and Zisserman , 2014)。 ; Szegedy et al., 2014; Papandreou et al., 2014)、オブジェクト検出 (Girshick et al., 2014)、きめの細かい分類 (Zhang et al., 2014) など。これらの作品に共通するテーマは、エンドツーエンドでトレーニングされた DCNN が、SIFT や HOG 機能などの慎重に作成された表現に依存するシステムよりもはるかに優れた結果を提供することです。この成功は、データから階層的な抽象化を学習する DCNN の能力を支えている、局所的な画像変換に対する DCNN の固有の不変性に部分的に起因する可能性があります (Zeiler & Fergus、2014 年)。この不変性は高レベルの視覚タスクには明らかに望ましいものですが、姿勢推定 (Chen & Yuille, 2014; Tompson et al., 2014) やセマンティック セグメンテーションなどの低レベル タスクを妨げる可能性があります。空間の細部の抽象化。

DCNN を画像のラベル付けタスクに適用するには、信号のダウンサンプリングと空間的な「不変性」(不変性) という 2 つの技術的障壁があります。最初の問題は、標準 DCNN の各レイヤーで実行される最大プーリングとダウンサンプリング (「ストライド」) の繰り返しの組み合わせによって引き起こされる信号解像度の低下に関連しています。 「アトラス」(穴あり)アルゴリズム。これにより、この問題に対する以前のソリューションよりもはるかに単純なスキームで、DCNN 応答の効率的な集中計算が可能になります。

2 つ目の問題は、空間変換に対して不変である必要がある分類子からオブジェクト中心の決定を取得することであり、DCNN モデルの空間精度を本質的に制限します。完全に接続された条件付きランダム フィールド (CRF) を採用することで、モデルの詳細をキャプチャする能力を向上させます。条件付きランダム フィールドはセマンティック セグメンテーションで広く使用されており、マルチウェイ分類子によって計算されたクラス スコアを、ピクセルとエッジ (Rother et al., 2004; Shotton et al., 2009) またはスーパーピクセル (Lucchi) の局所的な相互作用によって取得された低レベルの情報と組み合わせます。ら、2011)。

階層的な依存関係をモデル化する (He et al., 2004; Ladicky et al., 2009; Lempitsky et al., 2011) および/または高次の依存関係をセグメント化する (Delong et al., 2011), 2012 ; Gonfaus et al., 2010; Kohli et al., 2009; Chen et al., 2013; Wang et al., 2015)、Krähenbühl & Koltun (2011) によって提案された完全に接続されたペアワイズ CRF 計算を使用し、Capability長距離の依存性も満たしながら、細かいエッジのディテールを実現します。このモデルは、Krähenbühl & Koltun (2011) で、ブースティング ベースのピクセル レベル分類器のパフォーマンスを大幅に改善することが示されました。 -レベルの分類子。

「DeepLab」システムの 3 つの主な利点は、(i) 速度です。「atrous」アルゴリズムを使用すると、高密度 DCNN は 8 fps で実行されますが、完全に接続された CRF の平均場推定には 0.5 秒かかります。(ii) 精度。 : 私たちは PASCAL セマンティック セグメンテーション チャレンジで最先端の結果を達成し、Mostajabi らの次善のアプローチを上回りました。(2014) 7.2% のマージンと (iii) シンプルさ: 私たちのシステムは、DCNN と CRF という 2 つのかなり確立されたモジュールのカスケードで構成されています。

2. 関連作品

私たちのシステムは、Long et al. (2014) と同様に、ピクセル表現を直接扱います。これは、DCNN セマンティック セグメンテーションで現在最も一般的な 2 段階のアプローチとはまったく対照的です。この手法は通常、ボトムアップの画像セグメンテーションと DCNN ベースの領域分類のカスケードを使用するため、システムは潜在的にエラーが発生しやすいフロントを約束します。エンド セグメンテーション システム。たとえば、(Arbeláez et al., 2014; Uijlings et al., 2013) によって提供される境界ボックスの提案とマスクされた領域は、DCNN への入力として Girshick et al. (2014) および (Hariharan et al., 2014b) で使用されます。 、分類プロセスに形状情報を導入します。同様に、Mosajabi et al. (2014) の著者は、スーパーピクセル表現に依存しています。これらの研究のよく知られた非 DCNN の前身は (Carreira et al., 2012) の二次プーリング法であり、これは (Carreira & Sminchisescu, 2012) によって提供された領域提案にもラベルを割り当てます。Cogswell et al. Understanding the risks of committing to a single segmentation (2014) の著者は、(Carreira および Sminchisescu、2012年)が計算されます。これらのセグメンテーション提案は、この再ランキング タスク用に特別にトレーニングされた DCNN に従って再ランク付けされます。このアプローチは明示的にフロントエンド セグメンテーション アルゴリズムの気まぐれな性質に対処しようとしますが、CRF ベースのセグメンテーション アルゴリズムで DCNN スコアを明示的に利用することはまだありません。セグメンテーション中の結果は意味があります。

私たちのアプローチに近づくと、他の何人かの研究者は、畳み込みによって計算された DCNN 機能を使用して高密度の画像ラベル付けを検討しています。これらの最初のものはFarabet等です。(2013) は複数の画像解像度で DCNN を適用し、セグメンテーション ツリーを使用して予測結果を平滑化しました; 最近では、Hariharan et al. (2014a) は、ピクセル分類のために計算された中間特徴マップを DCNN に連結することを提案しました。 . ) 領域提案を介して中間特徴マップをプールすることを提案します。これらの研究では、DCNN 分類子の結果とは別にセグメンテーション アルゴリズムを引き続き使用していますが、時期尚早の決定を避けるために、後の段階でのみセグメンテーションを使用することが有利であると主張します。

最近では、(Long et al., 2014; Eigen & Fergus, 2014) のセグメンテーションを使用しない手法が、スライディング ウィンドウ方式で画像全体に DCNN を直接適用し、DCNN の最後の全結合層を畳み込み層に置き換えます。 . 導入の冒頭で概説した空間定位の問題に対処するために、Long et al。(2014) 中間特徴マップからスコアをアップサンプリングして連結し、Eigen & Fergus (2014) は、粗い結果を別の DCNN に伝播することにより、粗い結果から細かい結果へと予測を改良します。

私たちのモデルと他の最先端のモデルとの主な違いは、ピクセルレベルの CRF と DCNN ベースの「単項」の組み合わせです。Cogswell らは、この方向に最も近い研究に焦点を当てています。(2014) DCNN ベースの再ランキング システムの提案されたメカニズムとして CRF を使用しましたが、Farabet et al. (2013) スーパーピクセルをローカル ペアワイズ CRF のノードとして扱い、離散推論にグラフ カットを使用する; したがって、それらの結果は、長距離スーパーピクセルの依存関係を無視しながら、スーパーピクセル計算のエラーによって制限される可能性があります。対照的に、私たちの方法は、各ピクセルを CRF ノードとして扱い、長距離の依存関係を活用し、CRF 推論を使用して DCNN 駆動のコスト関数を直接最適化します。平均場は、従来の画像セグメンテーション/エッジ検出タスク (Geiger & Girosi, 1991; Geiger & Yuille, 1991; Kokkinos et al., 2008) などで広く研究されてきましたが、最近では Krähenbühl & Koltun (2011)推論は、完全に接続された CRF に対して非常にうまく機能し、セマンティック セグメンテーションのコンテキストで特に効果的であることが示されています。

私たちの原稿の最初のバージョンが公開された後、他の 2 つのグループが、DCNN と密に接続された CRF を組み合わせて、非常に類似した方向性を独立して同時に追求していることに気付きました (Bell et al., 2014; Zheng et al., 2015)。モデル間にはいくつかの技術的な違いがあります。ベル等。(2014) は物質分類問題に焦点を当てていますが、Zheng et al. (2015) CRF 平均場推論ステップを展開して、システム全体をエンドツーエンドのトレーニング可能なフィードフォワード ネットワークに変換します。

私たちは、提案した「DeepLab」システムを更新し、最新の研究で多くの改善された方法と結果を提供しました (Chen et al., 2016)。関心のある読者は、詳細について論文を読むことをお勧めします。

3. 高密度画像ラベル付けのための畳み込みニューラル ネットワーク

ここでは、公開されている Imagenet の事前トレーニング済み 16 層分類ネットワーク (VGG-16) を、高密度セマンティック イメージ セグメンテーション システムの効率的な高密度特徴抽出器として再設計および最適化した方法について説明します。

3.1. ホールアルゴリズムを用いた効率的で緻密なスライディングウィンドウ特徴抽出

高密度空間スコア評価は、高密度 CNN 特徴抽出手順の成功に貢献します。これに向けた最初のステップとして、VGG-16 の全結合層を畳み込み層に変換し、元の解像度で画像に対してネットワークを畳み込み実行します。ただし、これでは検出スコアが非常にまばらに計算されるため (ストライド 32 ピクセル)、これでは不十分です。8 ピクセルのターゲット ストライドでより高密度にスコアを計算するために、Giusti ら (2013) によって以前に使用された方法の変形を開発します; Sermanet らによる Simonyan & Zisserman (2014) のネットワークで。層をプーリングし、その長さを増やします (最後の 3 つの畳み込み層で 2 倍、最初の完全に接続された層で 4 倍)。それぞれ 2 または 4 ピクセルの入力ストライドを使用して、フィルターが適用される特徴マップをまばらにサンプリングするのではなく、フィルターをそのままにしておくことで、これをより効率的に達成できます。図 1 に示すこの方法は、「ホール アルゴリズム」(「アトラス アルゴリズム」) と呼ばれ、デシメートされていないウェーブレット変換を効率的に計算するために以前に開発されました。基本的な機能マップをまばらにサンプリングするオプションを im2col 関数 (マルチチャネル機能マップをベクトル化されたパッチに変換する) に追加することで、Caffe フレームワーク内でこれを実現しました。このアプローチは一般的に適用可能であり、近似を導入することなく、任意のターゲット サブサンプリング レートで高密度の CNN 特徴マップを効率的に計算できます。

図 1: カーネル サイズ = 3、入力ストライド = 2、出力ストライド = 1 の場合の 1 次元メソポーラス アルゴリズムの図

Long らの手順に従って、Imagenet の事前トレーニング済み VGG-16 ネットワークのモデルの重みを微調整し、画像分類タスクに直接適応させます。VGG-16 の最後の層にある 1000 通りの Imagenet 分類器を 21 通りの分類器に置き換えます。損失関数は、CNN 出力マップの各空間位置でのクロスエントロピー項の合計です (元の画像と比較して 8 でサブサンプリングされています)。すべての場所とラベルは、全体的な損失関数で均等に重み付けされます。グラウンド トゥルース ラベル (8 つのサブサンプル) をターゲットにします。Krizhevsky et al. (2013) の標準 SGD 手順に従って、すべてのネットワーク層の重み目的関数を最適化しました。

図 2: スコア マップ (softmax 関数の前の入力) と信頼度マップ (softmax 関数の出力)。各平均フィールド反復後のスコア (1 行目) と信頼度 (2 行目) プロットを示します。最後の DCNN 層の出力は、平均場推定の入力として使用されます。できればカラーで。

テスト中は、元の画像解像度で成績スコア マップが必要です。図 2 に示され、セクション 4.1 でさらに詳しく説明されているように、クラス スコア マップ (対数確率に対応) は非常に滑らかであり、単純な双一次補間を使用して、ごくわずかな計算コストで解像度を 8 倍に高めることができます。Long et al. (2014) の方法は拡張を使用せず、CNN 出力で非常に粗いスコア (32 倍にサブサンプリング) を生成することに注意してください。これにより、学習したアップサンプリング レイヤーを使用する必要があり、システムの複雑さとトレーニング時間が大幅に増加します。PASCAL VOC 2012 でのネットワークの微調整には約 10 時間かかりますが、報告されたトレーニング時間は数日です (両方とも最新の GPU で)。

3.2. 畳み込みネットワークを使用して受容野のサイズを制御し、集中的な計算を高速化する

高密度スコア計算のためにネットワークを転用する際のもう 1 つの重要な要素は、ネットワークの受容野サイズを明示的に制御することです。最先端の DCNN ベースの画像認識方法は、Imagenet 大規模分類タスクで事前にトレーニングされたネットワークに依存しています。これらのネットワークは通常、大きな入力画像サイズを持っています。VGG-16 ネットワークの場合、その入力画像サイズは 224×224 (ゼロ パディング) と見なされ、畳み込みネットワークに受け入れられる場合は 404×404 ピクセルと見なされます。ネットワークを完全な畳み込みネットワークに変換した後、最初の全結合層には、7×7 の大きな空間サイズを持つ 4096 個のフィルターがあり、密な分数グラフの計算における計算上のボトルネックになります。

最初の FC レイヤーを (単純なデシメーションによって) 空間的にサブサンプリングして、4×4 (または 3×3) の空間サイズを実現することにより、この実際的な問題に対処します。これにより、ネットワークの受容野が 128×128 (ゼロ パディング) または 308×308 (非進化モード) に減少し、最初の FC レイヤーの計算時間が 2 ~ 3 分の 1 に減少します。Caffe ベースの Titan GPU 実装を使用して生成された VGG 派生ネットワークは非常に効率的です。306×306 の入力画像が与えられると、Fraction のテスト中に約 8 フレーム/秒でネットワーク上に 39×39 の密な生の特徴を生成します。トレーニング中の速度は 3 フレーム/秒です。また、セクション 5 で説明したように、完全に接続されたレイヤーのチャネル数を 4096 から 1024 に減らすことに成功し、パフォーマンスを犠牲にすることなく、計算時間とメモリ フットプリントを大幅に削減しました。Krizhevsky et al. (2013) のように、より小さなネットワークを使用すると、軽量 GPU でも、ビデオ レート テストのための時間のかかる機能計算が可能になります。

4. 詳細な境界復元: 完全に接続された条件付きランダム フィールドとマルチスケール予測

4.1. 深い畳み込みネットワークとローカリゼーションの課題

図 2 に示すように、DCNN スコア マップは、画像内のオブジェクトの存在と大まかな位置を確実に予測できますが、オブジェクトの輪郭を特定するにはあまり適していません。分類精度と畳み込みネットワーク ローカリゼーション精度の間には自然なトレードオフがあります。複数の最大プーリング レイヤーを持つより深いモデルは、分類タスクで最も成功することが示されていますが、それらの不変性の増加と大きな知覚は、位置を推測する問題を引き起こします。最高出力レベルのスコアからより挑戦的です。

最近の研究では、このローカリゼーションの課題に 2 つの方向で取り組んできました。最初のアプローチは、畳み込みネットワークの複数のレイヤーからの情報を利用して、オブジェクトの境界をより適切に推定します (Long et al., 2014; Eigen & Fergus, 2014)。2 番目のアプローチはスーパーピクセル表現を採用し、基本的にローカリゼーション タスクを低レベルのセグメンテーション メソッドに委譲します。この方針に従うのは、Mostajabi et al. (2014) のごく最近の非常に成功したアプローチです。

セクション 4.2 では、DCNN の認識機能と完全に接続された CRF のきめの細かいローカリゼーション精度の結合に基づいて、新しい代替方向を追求し、それがローカリゼーションの課題を解決する際に目覚ましい成功を収め、正確なセマンティック セグメンテーションを生成することを示します。その結果、オブジェクトの境界は、既存の方法では達成できない詳細レベルで復元されます。

4.2. 完全に接続された条件付き確率場を正確に配置

従来、条件付きランダム フィールド (CRF) は、ノイズの多いセグメンテーション マップを平滑化するために使用されてきました (Rother et al., 2004; Kohli et al., 2009)。通常、これらのモデルには、隣接するノードを結合するエネルギー項が含まれており、空間的に近いピクセルに同じラベルを割り当てることが優先されます。定性的には、これらの短期 CRF の主な機能は、ローカルの手作りの特徴に基づいて弱い分類子の誤った予測をクリーンアップすることです。

図 3: モデルの説明。深い畳み込みニューラル ネットワーク (完全な畳み込み層を使用) の粗い分数マップは、双一次補間によってアップサンプリングされます。完全に接続された CRF を使用して、セグメンテーション結果を絞り込みます。できればカラーで。

この研究で使用するものなど、最新の DCNN アーキテクチャによって生成されるスコア マップとセマンティック ラベル予測は、これらの弱い分類子と比較して質的に異なります。図 2 に示すように、Core Map の分類結果は D の分類結果とほぼ一致しています。この場合、短距離 CRF を使用すると、問題が発生する可能性があります。これは、詳細なローカル構造をさらに平滑化するのではなく、詳細なローカル構造を回復することが目標であるためです。コントラストに敏感な電位 (Rother et al., 2004) をローカル スケールの CRF と組み合わせることで、ローカリゼーションを改善できる可能性がありますが、依然として薄い構造を見逃しており、多くの場合、高価な離散最適化問題を解決する必要があります。

短距離 CRF のこれらの制限を克服するために、Krähenbühl & Koltun (2011) の完全に接続された CRF モデルをシステムに組み込みました。モデルはエネルギー関数を使用します

、ここで、x はピクセルのラベル割り当てです。単項ポテンシャル θi(xi)=−logP(xi) を使用します。ここで、P(xi) は DCNN によって計算されたピクセル i でのラベル割り当て確率です。ペアワイズ ポテンシャルは θij(xi, xj)=µ(xi, xj)pkm=1wm km(fi, fj) で、xi6=xj の場合、µ(xi, xj)=1、それ以外の場合はゼロです (つまり、 Potts モデル )。イメージ内のピクセル i と j のすべてのペアには、それらが互いにどれほど離れていても、ペアごとの項があります。つまり、モデルの因子グラフは完全に接続されています。各 km はガウス カーネルであり、ピクセル i および j に対して抽出され、パラメーター wm によって重み付けされた特徴 (f で表される) に依存します。二国間の位置と色の用語、具体的にはカーネルを使用します

それらの中で、最初のカーネルはピクセル位置 (p として示される) とピクセルの色強度 (I として示される) に依存し、2 番目のカーネルはピクセル位置のみに依存します。ハイパーパラメータ σα、σβ、および σγ は、ガウス カーネルの「スケール」を制御します。

重要なのは、このモデルが効率的な近似確率推論に適していることです (Krähenbühl & Koltun, 2011)。完全に分解可能な平均場近似 b(x) = Qibi(xi) の下でのメッセージ パッシング更新は、特徴空間でガウス カーネルを使用した畳み込みとして表現できます。高次元フィルタリング アルゴリズム (Adams et al., 2010) は、この計算を大幅に高速化し、実際に非常に高速なアルゴリズムを実現し、Pascal VOC 画像の平均は 0.5 秒未満です。

4.3. マルチスケール予測

Hariharan et al. 2014a; Long et al. 2014 の最近の研究に続いて、境界ローカリゼーションの精度を向上させるためのマルチスケール予測方法も検討しています。具体的には、MLP の 2 つのレイヤー (最初のレイヤー: 128 個の 3x3 畳み込みフィルター、2 番目のレイヤー: 128 個の 1x1 畳み込みフィルター) を入力画像と最初の 4 つの最大プーリング レイヤーのそれぞれに連結し、その特徴マップが最後のレイヤーに接続されます。メインネットワークの機能マップ。したがって、softmax 層に供給される集約された特徴マップは、5*128=640 チャネルを増やします。新しく追加された重みのみを調整し、他のネットワーク パラメータをセクション 3 の方法で学習した値に保ちます。実験セクションで説明したように、高解像度レイヤーからこれらの追加の直接接続を導入すると、ローカリゼーションのパフォーマンスが向上しますが、効果は完全に接続された CRF を使用して得られるほど劇的ではありません。

おすすめ

転載: blog.csdn.net/XDH19910113/article/details/123190373