画像セグメンテーション - U-Net: 生物医学画像セグメンテーションのための畳み込みネットワーク (MICCAI 2016)

U-Net: 生物医学画像セグメンテーションのための畳み込みネットワーク - 生物医学画像セグメンテーションのための畳み込みネットワーク (MICCAI 2016)

免責事項: この翻訳は単なる個人的な研究記録です。

記事情報

まとめ

  深層ネットワークのトレーニングを成功させるには、何千もの注釈付きトレーニング サンプルが必要であることが一般に認められています。この論文では、利用可能な注釈付きサンプルをより効率的に使用するために、データ拡張の堅牢な使用に依存するネットワークとトレーニング戦略を提案します。このアーキテクチャは、コンテキストをキャプチャする縮小パスと、正確な位置特定を可能にする対称拡張パスで構成されます。我々は、このようなネットワークが非常に少数の画像からエンドツーエンドでトレーニングでき、電子顕微鏡スタック内の神経構造のセグメンテーションに関するISBIの課題において、これまでの最良の方法(スライディングウィンドウ畳み込みネットワーク)を上回るパフォーマンスを発揮することを実証します。透過光顕微鏡画像 (位相コントラストと DIC) でトレーニングされた同じネットワークを使用して、当社は 2015 年にこれらのカテゴリーで ISBI Cell Tracking Challenge で大差で優勝しました。また、インターネットも速いです。最近の GPU では、512x512 画像のセグメンテーションにかかる時間は 1 秒もかかりません。完全な実装 (Caffe に基づく) とトレーニングされたネットワークは、http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net で入手できます。

1 はじめに

  過去 2 年間で、深層畳み込みネットワークは、[7、3] などの多くの視覚認識タスクにおいて最先端のネットワークを上回りました。畳み込みネットワークは古くから存在しています [8] が、利用可能なトレーニング セットのサイズと検討中のネットワークのサイズにより、その成功は限られてきました。Krizhevsky et al. [7] の画期的な成果は、100 万枚のトレーニング画像を含む ImageNet データセット上の 8 層と数百万のパラメーターを備えた大規模ネットワークの教師ありトレーニングによるものでした。それ以来、さらに大きくて深いネットワークが訓練されています [12]。

  畳み込みネットワークの一般的な使用法は、画像の出力が単一のクラス ラベルである分類タスクです。ただし、多くの視覚タスク、特に生物医学画像処理では、目的の出力には位置特定が含まれている必要があります。つまり、各ピクセルにクラス ラベルが割り当てられている必要があります。さらに、生物医学的タスクでは、通常、何千ものトレーニング画像が手の届かないところにあります。したがって、Ciresan et al. [1] は、各ピクセルの周囲のローカル領域 (ブロック) を入力として提供することにより、各ピクセルのクラス ラベルを予測するために、スライディング ウィンドウ設定でネットワークをトレーニングします。まず、このネットワークを特定できます。第二に、ブロック単位のトレーニング データはトレーニング画像の数よりもはるかに多くなります。結果として得られたネットワークは、ISBI 2012 の EM セグメンテーション チャレンジで大差で優勝しました。

ここに画像の説明を挿入

図 1. U-net アーキテクチャ (例: 最小解像度 32x32 ピクセル)。各青いボックスはマルチチャネル特徴マップに対応します。チャンネル数はボックスの上部に表示されます。xy 寸法はボックスの左下端に表示されます。白いボックスは複製された特徴マップを示します。矢印はさまざまなアクションを示します。

  明らかに、Ciresan らの戦略 [1] には 2 つの欠点があります。まず、各ブロックがネットワークを個別に実行する必要があるため、非常に遅くなり、ブロックが重複するため冗長性が高くなります。第 2 に、ローカリゼーションの精度とコンテキストの使用の間にはトレードオフがあります。ブロックが大きくなると、より多くの最大プーリング層が必要になるため、位置特定の精度が低下しますが、ブロックが小さくなると、ネットワークはごくわずかなコンテキストしか認識できなくなります。最近の方法 [11、4] は、複数の特徴層を考慮した分類器出力を提案しています。適切な配置と状況に応じた使用が可能です。

  この論文では、よりエレガントなアーキテクチャ、いわゆる「完全畳み込みネットワーク」[9] に基づいて構築します。このアーキテクチャを変更および拡張して、少数のトレーニング画像を処理し、より正確なセグメンテーションを生成できるようにします (図 1 を参照)。[9] の主なアイデアは、通常のコントラクト ネットワークを連続層で補完することであり、プーリング オペレーターがアップサンプリング オペレーターに置き換えられます。したがって、これらのレイヤーにより出力の解像度が向上します。位置特定のために、縮小パスからの高解像度特徴がアップサンプリングされた出力と結合されます。後続の畳み込み層は、この情報に基づいてより正確な出力を組み立てることを学習できます。

ここに画像の説明を挿入

図 2. 任意の大きな画像をシームレスにセグメンテーションするためのオーバーラップ タイル戦略 (ここでは、EM スタック内のニューロン構造のセグメンテーション)。黄色の領域のセグメンテーションを予測するには、入力として青色の領域の画像データが必要です。欠落している入力データはミラーリングによって推論されます

  私たちのアーキテクチャにおける重要な変更点は、アップサンプリング部分に、ネットワークがコンテキスト情報をより高解像度のレイヤーに伝播できるようにする多数の機能チャネルも備えていることです。したがって、拡張経路は収縮経路とほぼ対称であり、U 字型のアーキテクチャを生成します。ネットワークには完全に接続された層がなく、各畳み込みの有効部分のみを使用します。つまり、セグメンテーション マップには、入力画像内で完全なコンテキストが利用可能なピクセルのみが含まれます。この戦略により、オーバーラップタイル戦略を介して任意の大きな画像をシームレスにセグメンテーションできます (図 2 を参照)。画像の境界領域のピクセルを予測するには、入力画像をミラーリングすることで欠落しているコンテキストを推測します。このタイリング戦略は、ネットワークを大きな画像に適用する場合に重要です。そうしないと、解像度が GPU メモリによって制限されるからです。

  私たちのタスクでは、利用できるトレーニング データがほとんどないため、利用可能なトレーニング画像に弾性変形を適用することで過剰なデータ拡張を使用します。これにより、ネットワークは、注釈付き画像のコーパス内でこれらの変形を見ることなく、そのような変形に対する不変性を学習することができます。変形は組織の最も一般的な変化であり、現実的な変形を効果的にシミュレートできるため、これは生物医学セグメンテーションにおいて特に重要です。Dosovitskiy et al. [2] は、教師なし特徴学習のコンテキストにおける学習不変性に対するデータ拡張の価値を示しました。

  多くのセル セグメンテーション タスクにおけるもう 1 つの課題は、同じクラスの接触しているオブジェクトを分離することです (図 3 を参照)。この目的を達成するために、我々は重み付き損失を使用することを提案します。この場合、接触する細胞間のバックグラウンドラベルの分離が損失関数でより大きな重みを取得します。

  結果として得られるネットワークは、さまざまな生物医学セグメンテーション問題に適用できます。この論文では、EM スタック (2012 年に ISBI で開始された進行中の競争) におけるニューロン構造のセグメンテーションに関する結果を示し、そこでは Ciresan らのネットワークを上回りました。[1]。さらに、2015 ISBI Cell Tracking Challenge の光学顕微鏡画像からの細胞セグメンテーションの結果を示します。ここでは、最も困難な 2 つの 2D 透過光データセットで大差で勝利しました。

2. ネットワークアーキテクチャ

  ネットワーク アーキテクチャを図 1 に示します。収縮パス (左) と拡張パス (右) で構成されます。縮小パスは、畳み込みネットワークの典型的なアーキテクチャに従います。これは、2 つの 3x3 畳み込み (パディングされていない畳み込み) を繰り返し適用することで構成され、それぞれの後に修正線形単位 (ReLU) と、ダウンサンプリング用のストライド 2 の 2x2 最大プーリング操作が続きます。ダウンサンプリングの各ステップで、特徴チャネルの数を 2 倍にします。拡張パスの各ステップは、特徴マップのアップサンプリング、その後の特徴チャネルの数を半分にする 2x2 コンボリューション (「アップコンボリューション」)、縮小パス内の対応してトリミングされた特徴マップとの連結、および 2 つの 3x3 コンボリューションで構成されます。各畳み込みの背後に ReLU を使用します。境界ピクセルは各畳み込みで失われるため、クリッピングが必要です。最後の層では、1x1 畳み込みを使用して、64 成分の各特徴ベクトルが必要な数のクラスにマッピングされます。ネットワークには合計 23 の畳み込み層があります。

  出力セグメンテーション マップのシームレスなステッチング (図 2 を参照) を実現するには、すべての 2x2 最大プーリング操作が均等な x および y サイズのレイヤーに適用されるように入力パッチ サイズを選択することが重要です。

3. トレーニング

  入力画像とそれに対応するセグメンテーション マップは、Caffe [6] の確率的勾配降下実装を介してネットワークをトレーニングするために使用されます。パディングされていない畳み込みにより、出力イメージは入力イメージよりも一定の境界幅だけ小さくなります。オーバーヘッドを最小限に抑え、GPU メモリの使用率を最大化するために、大きなバッチよりも大きな入力タイルを優先し、バッチを 1 つの画像に減らします。したがって、以前に確認された多数のトレーニング サンプルによって現在の最適化ステップの更新が決定されるように、高い運動量 (0.99) を使用します。

  エネルギー関数は、最終的な特徴マップ上のピクセル単位のソフトマックスとクロスエントロピー損失関数を組み合わせることによって計算されます。ソフト最大値は、pk ( x ) = exp ( ak ( x ) ) / ∑ k ' = 1 K exp ( ak ' ( x ) ) p_k(x)=exp(a_k(x))/\sum_{k として定義されます。 ' =1}^{K}{exp(a_{k'}(x))}p( × )=e x p ( a( x )) /k' =1Ke x p ( ak(x)),其中 a k ( x ) a_k(x) ある( x )はピクセル位置x ∈ Ω x ∈ ΩバツΩ(使用Ω ⊂ Z 2 Ω ⊂ Z^2おおZ2 ) 特集チャンネルkkkでのアクティベーション株式会社Kはクラスの数、pk ( x ) p_k(x)p( x )は近似最大関数です。つまり、最大活性化 a_k(x) の場合、ak ( x )ある( × )kk__kpk ( x ) ≈ 1 p_k(x) ≈ 1p( × )1、他のすべての場合はkkkの場合、pk ( x ) ≈ 0 p_k(x) ≈ 0p( × )0次に、クロスエントロピーにより、各位置でp ℓ ( x ) ( x ) p_{\ell(x)}(x) にp( x )( x )を使用した 1 からの偏差

ここに画像の説明を挿入

ここで、ℓ : Ω → { 1 , … , K } \ell:Ω→\{1,...,K\}:おお{ 1 K }は各ピクセルのグラウンド トゥルース ラベルであり、w : Ω → R w: Ω → Rw:おおRはウェイト マップであり、トレーニング中に一部のピクセルをより重要視するために導入されます。

ここに画像の説明を挿入

図 3. DIC (微分干渉コントラスト) 顕微鏡で記録されたガラス上の HeLa 細胞。(a) 元の画像。(b) スタックされたグラウンドトゥルースセグメンテーション。異なる色は、HeLa セルの異なるインスタンスを示します。(c) 結果のセグメンテーション マスク (白​​: 前景、黒: 背景)。(d) ネットワークに境界ピクセルを強制的に学習させるためのマッピング。

  各グラウンドトゥルース分割の重みマップを事前計算して、トレーニング データセット内の特定のクラスのピクセルの異なる周波数を補償し、接触ユニット間に導入した小さな分離境界をネットワークに強制的に学習させます (図 3c および d を参照)。

  形態学的演算を使用して分離境界を計算します。次に、ウェイト マップは次のように計算されます。

ここに画像の説明を挿入

其中 w c : Ω → R w_c:Ω→R wc:おおRは平衡クラス周波数の重みマップ、d 1 : Ω → R d_1:Ω→Rd1:おおR は最も近いセル境界までの距離を表します。d 2 : Ω → R d_2:Ω → Rd2:おおR は、 2 番目に近いセルの境界までの距離です。実験では、w 0 = 10 w_0=10w0=10σ ≈ 5 σ ≈ 5p5ピクセル。

  多くの畳み込み層とネットワーク内のさまざまなパスを備えた深いネットワークでは、重みを適切に初期化することが非常に重要です。そうしないと、ネットワークの一部が過剰にアクティブになり、他の部分はまったく寄与しない可能性があります。理想的には、ネットワーク内の各特徴マップがほぼ単位分散を持つように初期重みを適応させる必要があります。私たちのアーキテクチャ (畳み込み層と ReLU 層が交互) のネットワークの場合、これは標準偏差2/N \sqrt{2/N}から始めることで達成できます。2/ N これは、ガウス分布で初期重みを描画することによって実現されます。ここで、N はニューロンの入力ノードの数を表します [5]。たとえば、前の層の 3x3 畳み込みと 64 の特徴チャネルの場合、N = 9 ⋅ 64 = 576 N=9 64=576N=9 64=576

3.1 データの拡張

  利用可能なトレーニング サンプルがほとんどない場合、必要な不変で堅牢な特性をネットワークに教えるためにデータ拡張が重要です。顕微鏡画像の場合、主にシフトと回転の不変性、および変形とグレー値の変化に対する堅牢性が必要です。特に、トレーニング サンプルのランダムな弾性変形は、注釈付きの画像がほとんどないセグメンテーション ネットワークをトレーニングする場合の重要な概念であると思われます。粗い 3 × 3 グリッド上のランダムな変位ベクトルを使用して、滑らかな変形を生成します。変位は、標準偏差 10 ピクセルのガウス分布からサンプリングされました。次に、バイキュービック補間を使用して各ピクセルの変位を計算します。縮小パスの終端にあるドロップアウト層は、さらに暗黙的なデータ拡張を実行します。

4. 実験

  3 つの異なるセグメンテーション タスクへの u-net の適用を示します。最初のタスクは、電子顕微鏡記録内の神経構造をセグメント化することでした。データセットと取得した分割の例を図 2 に示します。完全な結果を補足資料として提供します。このデータセットは、2012 年に ISBI によって開始された EM Segmentation Challenge [14] によって提供されており、現在も新たな寄稿を受け付けています。トレーニング データは、ショウジョウバエの 1 齢幼虫の腹側神経索 (VNC) の連続切片の透過型電子顕微鏡法による 30 枚の画像 (512 x 512 ピクセル) のセットです。各画像には、対応する、完全に注釈が付けられた細胞 (白) と膜 (黒) のグラウンド トゥルース セグメンテーション マップが含まれています。テスト セットはパブリックですが、その分割グラフはプライベートに保たれます。予測膜確率マップを主催者に送信することで評価が得られます。評価は、マップを 10 の異なるレベルでしきい値処理し、「ワーピング エラー」、「ランダム エラー」、「ピクセル エラー」を計算することによって行われます [14]。

  u-net (入力データの 7 つの回転バージョンの平均) は、それ以上の前処理または後処理エラーなしで、0.0003529 のワープ エラー (新しい最高スコア、表 1 を参照) と 0.0382 のランダム性を達成しました。

  これは、Ciresan ら [1] のスライディング ウィンドウ畳み込みネットワークの結果よりも大幅に優れており、その最良の提出ではワープ誤差が 0.000420、ランダム誤差が 0.0504 でした。ランダム誤差の点でこのデータセットでより良いパフォーマンスを示した唯一のアルゴリズムは、Ciresan らの確率マップに適用されたデータセット固有の後処理方法を使用していました [1] (このアルゴリズムの作成者は、達成するために 78 の異なるソリューションを提出しました)この結果です。)

表 1. EM セグメンテーション チャレンジ [14] (2015 年 3 月 6 日) のランキング (ワーピング エラー順)。

ここに画像の説明を挿入

ここに画像の説明を挿入

図 4. ISBI セル追跡チャレンジの結果。(a) 「PhC-U373」データセットの入力画像の一部。(b) セグメンテーションの結果 (シアンのマスク) と手動のグランド トゥルース (黄色の境界線)。 (c) 「DIC HeLa」データセットの入力画像。(d) セグメンテーションの結果 (ランダムな色のマスク) と手動のグラウンド トゥルース (黄色の境界線) の比較。

表 2. 2015 ISBI Cell Tracking Challenge の内訳結果 (IOU)。

ここに画像の説明を挿入

  また、光学顕微鏡画像における細胞セグメンテーションのタスクにも u-net を適用します。このセグメンテーション タスクは、2014 年と 2015 年の ISBI Cell Tracking Challenge の一部でした [10、13]。最初のデータセット「PhC-U373」(データセットは Sanjay Kumar 博士によって提供されました。カリフォルニア大学バークレー校生物工学部、カリフォルニア州バークレー (米国)) には、位相差顕微鏡で記録されたポリアクリルアミド マトリックス上のゲルが含まれています。 (図 4a、b および補足資料を参照)。これには、部分的に注釈が付けられた 35 個のトレーニング画像が含まれています。ここでは、平均 IOU (「交差対和合比」) 92% を達成しました。これは、2 番目に優れたアルゴリズムの 83% よりも大幅に優れています (表 2 を参照)。2 番目のデータセット「DIC HeLa」(オランダ、ロッテルダムのゲルト ファン カペレン エラスムス医療センター博士によって提供されたデータセット) は、微分干渉コントラスト (DIC) 顕微鏡法によって記録された平らなガラス上の HeLa 細胞です (図 3、図 4c、d を参照)および補足資料)。これには、部分的に注釈が付けられた 20 個のトレーニング画像が含まれています。ここでは、平均 IOU 77.5% を達成しました。これは、次に優れたアルゴリズムの 46% よりも大幅に優れています。

5。結論

  u-net アーキテクチャは、非常に異なる生物医学セグメンテーション アプリケーションで非常に優れたパフォーマンスを実現します。弾性変形データ拡張のおかげで、必要な注釈付き画像はほとんどなく、トレーニング時間は NVidia Titan GPU (6 GB) でわずか 10 時間と非常にリーズナブルです。私たちは、完全な Caffe [6] ベースの実装と訓練されたネットワーク (U-net 実装、訓練されたネットワーク、および補足資料は http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net net で入手可能) を提供します。 )。u-net アーキテクチャは、さらに多くのタスクに簡単に適用できると確信しています。

謝辞

この研究は、ドイツ連邦および州政府の Excellence Initiative (EXC 294) および BMBF (Fkz 0316185B) の支援を受けました。

参考文献

  1. Ciresan, DC、Gambardella, LM、Giusti, A.、Schmidhuber, J.: ディープ ニューラル ネットワークは、電子顕微鏡画像内の神経膜をセグメント化します。で: NIPS。pp.2852–2860 (2012)
  2. Dosovitskiy, A.、Springenberg, JT、Riedmiller, M.、Brox, T.: 畳み込みニューラル ネットワークによる教師なし特徴量の識別学習。場所: 生理学研究所 (2014)
  3. Girshick, R.、Donahue, J.、Darrell, T.、Malik, J.: 正確なオブジェクト検出とセマンティック セグメンテーションのための豊富な機能階層。掲載: コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録 (2014)
  4. Hariharan, B.、Arbelez, P.、Girshick, R.、Malik, J.: オブジェクトのセグメンテーションと詳細な位置特定のためのハイパーカラム (2014)、arXiv:1411.5752 [cs.CV]
  5. He、K.、Zhang、X.、Ren、S.、Sun、J.: 整流器の詳細: 画像ネット分類における人間レベルのパフォーマンスを超える (2015)、arXiv:1502.01852 [cs.CV]
  6. Jia, Y.、Shelhamer, E.、Donahue, J.、Karayev, S.、Long, J.、Girshick, R.、Guadar rama, S.、Darrell, T.: Caffe: 高速な機能埋め込みのための畳み込みアーキテクチャ ( 2014)、arXiv:1408.5093 [cs.CV]
  7. Krizhevsky, A.、Sutskever, I.、Hinton, GE: 深層畳み込みニューラル ネットワークによる Imagenet 分類。で: NIPS。pp.1106–1114 (2012)
  8. LeCun, Y.、Boser, B.、Denker, JS、Henderson, D.、Howard, RE、Hubbard, W.、Jackel, LD: バックプロパゲーションを手書き郵便番号認識に適用しました。神経計算 1(4)、541–551 (1989)
  9. Long, J.、Shelhamer, E.、Darrell, T.: セマンティック セグメンテーションのための完全畳み込みネットワーク (2014)、arXiv:1411.4038 [cs.CV]
  10. Maska, M., (…), de Solorzano, CO: 細胞追跡アルゴリズムを比較するためのベンチマーク。バイオインフォマティクス 30、1609–1617 (2014)
  11. Seyedhosseini, M.、Sajjadi, M.、Tasdizen, T.: カスケード階層モデルとロジスティック選言正規ネットワークによる画像セグメンテーション。出典: コンピューター ビジョン (ICCV)、2013 IEEE 国際会議。pp.2168–2175 (2013)
  12. Simonyan, K.、Zisserman, A.: 大規模画像認識のための非常に深い畳み込みネットワーク (2014)、arXiv:1409.1556 [cs.CV]
  13. WWW: 細胞追跡チャレンジの Web ページ、http://www.codesolorzano.com/celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html
  14. WWW: em セグメンテーション チャレンジの Web ページ、http://brainiac2.mit.edu/isbi_challenge/

おすすめ

転載: blog.csdn.net/i6101206007/article/details/131984240