RV-GAN: 新しいマルチスケールの敵対的生成ネットワークを使用した眼底写真の網膜血管構造のセグメント化

目次

1. ネットワーク アーキテクチャ

2. 損失関数

3. データセット

3.1 データセットの紹介

3.2 データの前処理

3.3 パラメータの初期化

4. 実験結果

5。結論


カンファレンス:MICCAI 公開時期:2021/1

作说:Sharif Amit Kamran1 , Khondker Fariha Hossain1 , Alireza Tavakkoli1 , Stewart LeeZuckerbrod2 , Kenton M. Sanders3 , and Salah A. Baker3

MICCAIの紹介:

MICCAI は、医用画像解析の分野における最先端の風見鶏であり、国際的な影響力が非常に強く、学術的権威が高く、ミドル エンドおよびハイエンド ジャーナルに属しています。MICCAI は、医用画像処理コンピューティングおよびコンピュータ支援介入の分野で国際的に認められたトップクラスの総合学術会議です。

1. ネットワーク アーキテクチャ

概要: ピクセルごとのセグメンテーションをより適切に実行するために、このホワイト ペーパーでは、画像からグローバルフィーチャとローカル フィーチャの両方を抽出できるアーキテクチャを設計します。具体的には、2 つのジェネレーターと 2 つのディスクリミネーターが使用されます。ジェネレーター Gf は、小さな枝などの局所的な情報を抽出することによって画像をセグメント化します。対照的に、ジェネレーター Gc は、黄斑枝の構造などのグローバルな情報を学習して保存しようとします。あまり詳細でない微小血管のセグメンテーション。次に、全体的な敵対的トレーニングを容易にするために、ジェネレーターとディスクリミネーターをそれぞれペアにしました。

 

詳細に:

Gc の入力は、元の画像 (256, 256, 3) とマスク (256, 256, 1) の 2 つの部分であることがわかります。この2つの部分を入力した後、最初にこの2つの部分に接合作業を行い、次に接合に基づいて画像を3×3の鏡像で埋め、次に畳み込みを行い、正規化とLeakReluの活性化を行います。次に、ダウンサンプリング モジュールが下の図に示されているダウンサンプリングがあります。次に、下の図に示すように、2 層のダウンサンプリング モジュールがあり、画像がダウンサンプリングされるたびに画像のチャネル数が 2 倍になり、残りのブロックが 9 つあることがわかります。次に、2つのアップサンプリング操作があります. 具体的には、最初に残差ブロックの後の出力をデコーダーデコード操作にかけ、次にデコードされた結果を次のアップサンプリング入力として左側の部分に単純に追加します.前のステップの入力がアップサンプリングされた後、単純に左側の部分に追加されます. 追加後、それを指す 2 つの矢印があり、1 つが Gf 残差ブロックの入力として使用されます. 次に、もう 1 つは 3×3 のミラー フィリングと畳み込みで、畳み込みの後に tanh アクティベーションがあります。アクティブ化後の結果は、ジェネレーター機能マップの出力として使用され、ディスクリミネーター Dc の入力としても使用されます。

Gf の場合、入力の 3 つの部分、つまり元のイメージ (512, 512, 3)、マスク (512, 512, 1)、および x_coarse (256, 256, 64) があることがわかります。その後の操作はGcとほぼ同じです。次に、違いについて話します。最初の違いは入力画像のサイズで、Gc からの入力があります。2 つ目の違いは、アップサンプリングとダウンサンプリングのレイヤーが 1 つしかないこと、SFA モジュールのレイヤーが 1 つだけ、残りのブロックが 3 つのレイヤーしかないことです。全体として、画像の操作手順は Gc よりも少なくなります。

Df の場合、入力には眼底画像 (512, 512, 3) とラベル (512, 512, 1) の 2 つの部分があります。最初に、これら 2 つの部分の入力の単純なスプライシングが実行され、次に 3 つのダウンサンプリングと残差ブロック、および 3 つのアップサンプリング モジュールがあります。操作には全部で 6 つの部分があることがわかります.特徴マップのリストはコードで設計されています.つまり,特徴マップの各部分がリストに保存されます. 実際、実装後に Conv2D 畳み込みと tanh 活性化があります。

Dc の場合、操作は Df と同様です。

2. 損失関数

特徴マッチング損失: 特徴マッチング損失は、弁別子から特徴を抽出することによってセマンティック セグメンテーションを実行します。

 連続するダウンサンプリングとアップサンプリングにより、基本的な空間情報と特徴が失われます。これが、アーキテクチャ全体のさまざまなコンポーネントに重みを割り当てる必要がある理由です。式 1 に示すように、新しい重み付き特徴マッチング損失を提案します。式 2 エンコーダとデコーダの要素を組み合わせ、特定の機能に優先順位を付けてこれを克服します。私たちの場合、実験を行い、デコーダーの特徴マップに大きな重みを与えると、血管のセグメンテーションが改善されることがわかります

(1) の場合、k はピクセル数を表し、N は特徴マップの数です。弁別器の符号化器は、入力を原画像、ラベル、原画像に分割し、生成器が画像を生成すると、2 つの特徴マップの対応する各位置のピクセル点が に対応することがわかります。引き、次に絶対値を別々に足し、それを二乗し、合計し、最後にルート記号を 2 回開きます。最後に N で割って平均を求めます。

(2) の場合、(1) に基づいて異なる入力に対してデコーダーで同じ操作を実行し、2 つの部分を一緒に追加して、2 つのハイパーパラメーターを追加することと同じです。

ディスクリミネーターのエンコーダーとデコーダーの各ダウンサンプリング ブロックとアップサンプリング ブロックから特徴を抽出することによって計算されます。実際のセグメンテーション マップと合成セグメンテーション マップを順次補間します。N は特徴の数を表します。ここで、λenc と λdec は、抽出された各特徴マップの内部重み乗数です。重み値は [0, 1] の間で、重みの合計は 1 であり、エンコーダの特徴マップよりもデコーダの特徴マップに高い重み値を使用します。

(3) については、弁別器によって生成された特徴マップ内の各ピクセルの部分が 1 より大きいか、-1 より小さい場合、損失は 0 に等しい、つまり、この部分は決定された結果です。-1 から 1 の間のピクセルについては、損失が 0 ではない、つまり不確実な結果です. このとき、ネットワークをトレーニングするために、損失が最小値になるように継続的に修正する必要があります。

(4) については、ディスクリミネーターの入力ジェネレーターによって生成された画像とラベルを見ることができ、その結果の 1 つが特徴マップです。(4) 特徴マップの各値を平均化することを意味します。

(5)については、(3)と(4)の2つの部分を足すことです。

最初に、実際の眼底 x と実際のセグメンテーション マップ y で弁別器をトレーニングします。その後、実際の眼底 x と合成セグメンテーション マップ G(x) を使用してトレーニングします。訓練データを数回反復するために、弁別器 Df と Dc の訓練をバッチで開始します。次に、弁別器の重みを一定に保ちながら Gc をトレーニングします。同様の方法で、Gf をトレーニングして、すべての識別器の重みを一定に保ちながらトレーニング イメージをバッチ処理します。

発生器には、式 (6) に示すように、再構成損失 (平均二乗誤差) も組み込まれています。損失を利用することで、合成画像に微小血管、動脈、血管のより現実的な構造が含まれるようにします。

 

式 2、5、および 6 を追加することにより、最終的な目的関数を式 (7) として定式化できます。

 

3. データセット

DRIVE、CHASE-DB1、STARE の 3 つの公開 Retina データセットを、 tif (565 × 584)、.jpg (999 × 960)、および.ppm (700 × 605)の形式で使用します。

3.1 データセットの紹介

DRIVE データセット、網膜画像における血管セグメンテーションの比較研究、データ ソースおよび糖尿病性網膜症スクリーニング プロジェクト、網膜画像 40 枚、トレーニング用サンプル 20 個、テスト用サンプル 20 個、画像の元のサイズは 565x584

CHASE-DB1 トレーニング 20、テスト 8、画像の元のサイズは 999×960 です

STARE データセットは、1975 年に Michael Goldbaum によって開始されたプロジェクトです.最初に引用され、2000 年に Hoover らによって論文で公開されました.これは、20 の眼底画像を含む、網膜血管セグメンテーション用のカラー眼底マップ データベースです。病変ありと病変なしの10枚の画像.画像解像度は605×700.各画像は2人の専門家による手動セグメンテーションの結果に対応しています.最も一般的に使用される眼底画像標準ライブラリの1つです. ただし、独自のデータベースにはマスクがないため、手動でマスクを設定する必要があります。現在、血管セグメンテーションでは 40 のハンド アノテーション結果、視神経検出では 80 のハンド アノテーション結果に拡張されています。トレーニング用に 16 個、テスト用に 4 個。

3.2 データの前処理

各データセットに対して 5 分割交差検証を使用して、3 つの異なる RV-GAN ネットワークをトレーニングします。トレーニングと検証には、ストライド 32、画像サイズ 128×128 のオーバーラップ画像パッチを使用します。したがって、STARE の場合は 4320、CHASE-DB1 の場合は 15120、DRIVE の場合は 4200 になります。重複するパッチはデータを増強します。

DRIVE データセットには、テスト画像用の公式の FoV マスクが付属しています。CHASE および STARE データセットについては、Li ら [16] と同様の FoV マスクも生成します。

DRIVE、CHASE-DB1、およびSTAREから20枚、8枚、および4枚の画像を取得することにより、ストライド3の重複する画像パッチが抽出され、平均化されました。

3.3 パラメータの初期化

敵対的トレーニングでは、ヒンジ損失を使用します. λenc = 0.4 (Eq. 1), λdec = 0.6 (Eq. 2), λadv = 10 (Eq. 5), λrec = 10 (Eq. 6 ) , λwfm = 10 (式 7) 学習率 α = 0.0002、β1 = 0.5、β2 = 0.999 の Adam を使用しました。Tensorflow を使用して、3 段階でバッチ サイズ b = 24 のミニバッチで 100 エポックのトレーニングを行います。Nvidia P100 GPU でのモデルのトレーニングには、データセットにもよりますが 24 ~ 48 時間かかりました。DRIVE と STARE は CHASE-DB1 よりもパッチが少ないため、トレーニングの負荷が少なくなります。推論時間は、画像あたり 0.025 秒です。

4. 実験結果

 私たちのモデルは、AUC-ROC、Mean-IOU、および SSIM (このタスクの 3 つの主要なメトリック) に関して、UNet から派生したアーキテクチャおよび最近の GAN ベースのモデルよりも優れています。M-GAN は、CHASE-DB1 と STARE でより優れた特異性と精度を達成します

5。結論

この論文では、新しいマルチスケール生成アーキテクチャ、RV-GAN を提案します。マッチング損失を特徴とする新しいアプローチを組み合わせることにより、アーキテクチャは正確な細静脈構造のセグメンテーションと 2 つの相関メトリックの高い信頼スコアを合成します。したがって、このアーキテクチャを眼科のさまざまなアプリケーションに効果的に採用できます。このモデルは、網膜変性疾患の分析と将来の予後のモニタリングに最適です。この作業を他のデータモダリティに拡張したいと考えています。

おすすめ

転載: blog.csdn.net/weixin_51781852/article/details/126203826