[スタイル転送] -MedGAN:GANを使用した医用画像の翻訳

MedGAN:GANを使用した医療画像の翻訳
著者:
Karim Armanious、Chenming Yang、Marc Fischer、ThomasK¨ustner、Konstantin Nikolaou、Sergios Gatidis、Bin Yang

概要

画像変換は、医療画像分析の次の研究ホットスポットと見なされていますが、特定のアプリケーションに基づいて、または限られたトレーニングデータに限定して、特定のネットワークフレームワークを設計するように設計されることがよくあります。このペーパーで提案するMedGANは、画像レベルでエンドツーエンドの画像変換タスクを実装できます。 、MedGANは、現在のホットGANに基づいて対立ネットワークを生成し、さらに、さまざまなレベルの必要な機能をキャプチャできるように、非対立トレーニング用のパトロール機能を追加します。弁別ネットワークの主な機能は、ログとターゲットドメイン間のギャップにペナルティを課すことです。スタイル転送部分の損失関数を使用して、テクスチャと微細構造のマッチングを完了します。この論文では、生成ネットワークをCasNetと名付け、画像の移行はコーデックペアリングの形で徐々に実行されます。最後に、この記事では、PET-CT、MRブレ除去、PET画像のノイズ除去などのタスクにおけるMedGANの有効性をテストしました。

セクションIはじめに

医療画像の分野では、CT、MEI、PET、CT画像などのマルチモーダル画像を使用して、体内の組織や臓器の空間情報を取得することがよくあります。物理的な画像の原理は多様であり、目的はさまざまな次元を生成することです。または、コントラストの異なる画像情報。これにより、異なるモード間の画像変換や、同じモードでの異なる画像の変換が非常に困難になります。


ただし、比較的完全な診断を完了するには、多くの場合、異なるモダリティでの画像情報、または同じモダリティでの異なるコントラスト画像によって提供される情報(PET / CTハイブリッドイメージングなど)を組み合わせる必要があります。CT画像情報を使用してPET画像を修正できます。これに加えてさらに、画質の最適化も、有用な診断情報を抽出する上で不可欠で非常に重要なステップです。特に、一部の自動分析ツールの入力として高品質の画像を取得することは、正しい診断結果を取得するための前提条件です。したがって、異なるモダリティの医療画像間の相互変換を完了することができれば、診断時間を効果的に短縮することができ、いくつかの不要なスキャン/撮影は不要になります。


パートA関連作業



CRF:



MR-> CT-> PET / CT




kNN:CT-> MRpatch





生成モデル:






VAE:要素ごとの損失->ぼやけた






GAN:G:確率密度を最大化して弁別器をだます; D:最小






スプレッドの損失関数- >フォトリアリスティック画像DG-GAN:G&D-> CNN、勾配消失/不安定性







損失関数:W-GAN、MMD-GAN正規化:スペクトル正規化GAN、BE-GAN








GANの優れた性能は、画像の分類、セグメンテーション、超解像度などで広く使用されており、GANは医療画像分析の分野で画像変換のための最長のツールです。2016年、Isola et al。は、Pix2Pixが画像変換用の監視対象GANのフレームワークになることを提案しました。グレースケール画像を入力すると、損失関数にはピクセル損失と敵対的損失が含まれます。







2018年、Wang et al。は、ピクセル損失を次のように置き換えるPANフレームワークを提案しました。 Dによって計算された機能マッチング損失。2017年に提案されたFila-sGANは、1対多の変換を実現できますが、最初に、事前トレーニングネットワークを介してスタイル損失を計算します。








さらに、CycleGAN、Disco-GAN Part B Contributionsなどの監視されていないGANが多数あります。医療画像分析に使用される既存のGANベースのフレームワークは、トレーニングデータが限られているため、特定のタスクまたは不十分な生成機能に制限されることがよくあります。








したがって、この記事では、さまざまな医療画像分析タスクに適した包括的なフレームワークを提案します。Quan et al。によって提案されたフレームワークは、この記事に最も近いものであり、CSMRI画像の再構築のための生成ネットワークとして2つのカスケードされた残差ネットワークを使用しました。








この論文で提案されたMedGANフレームワーク、非対立損失関数(知覚損失+スタイル転送損失)を介して画像の高周波情報と低周波情報を同時にキャプチャできます。この論文では、一連のCasNetを組み合わせたCasNetと呼ばれる新世代のネットワーク構造フレームワークも提案します。コーデック構造はスキップ接続を介してチェーンに接続され、段階的な改良の効果を実現します。








ジェネレーターGは、ソースドメインからターゲットドメイン(PETからCTなど)への画像変換を完了します。CasNetの各ブロックはエンコードおよびデコード構造を採用しており、精度は粗いものから細かいものまであります。識別子Dは、真と偽を区別するために使用されるだけでなく、次のように見なすこともできます。特徴抽出器は知覚損失を計算するために使用され、事前にトレーニングされた特徴抽出器はスタイル損失を計算するためのより豊富な特徴を抽出するために使用されます。








MedGANの有効性を検証するために、PET-> CT、MR画像補正、PET画像ノイズ除去の3つのタスクでテストが実行されました。

セクションIIメソッド

ここに写真の説明を挿入

FIG1示し主として3つの部分から構成MedGANの構造:








CasNet世代ネットワークなど、








判別ネットワークが知覚喪失、及びの計算のための特徴抽出列車pretrained 。様式の損失を計算するための特徴抽出を









予選









GAN









GANは、主に含まれていますジェネレーターとディスクリミネーターは2つの部分で構成され、Gはランダムノイズを入力し、特定のデータ分布に従ってサンプルを生成します。Dは、入力サンプルがジェネレーターからのものか、実際のトレーニングデータからのものかを識別するために使用されるバイナリ分類ネットワークです。2つのネットワークは学習と戦います。 、同時に最適化しますが、勾配の消失、不安定なトレーニング、モードの崩壊などの問題に直面することがよくあります。










Image-to-Image Translation










が画像変換にGANを使用する主な方法の1つは、cGANを使用することです。追加情報の入力を通じて、ジェネレーターは特定のドメイン分布を持つサンプルを生成し、次にディスクリミネーターを使用して、生成されたサンプルと実際のサンプルの違いを測定します。類似度;しかし、敵対的損失関数のみに基づいて生成されたこの種のサンプルは、非常に深刻な不安定性を持ち、最終画像は元の画像とは構造が大きく異なる可能性があるため、一部の学者は、ピクセルからのピクセル再構成損失を使用することを提案しています。画像変換プロセスでの変形の程度を制限するレベル。











パートA知覚損失











敵対的損失->ピクセル損失->知覚損失











ここに写真の説明を挿入
ここに写真の説明を挿入

ただし、ピクセル損失の制限は、生成された画像が一般にぼやけていることです。これにより、最終的に変換された画像は全体的な構造をより適切に保持しますが、細部の特性は失われます。詳細の喪失は、医療画像の診断に深刻な影響を与える可能性がある一方で、人間の観察の視覚的効果にも影響を及ぼします。詳細の損失を最小限に抑えるための全体的な構造を確保しながら、可能な限り高周波情報を確保するために、知覚損失が提案されています。

ここに写真の説明を挿入

ここで、Diはi番目の隠れ層の特徴表現を表し、lambdaは各層の重みを表します。知覚的損失はピクセルに基づく類似性の計算を破棄しませんが、それでも含まれていることに注意してください。
パートBスタイル転送の損失スタイル転送

のプロセスでは、画像全体の忠実度を高くし、詳細情報が失われないようにする必要があります。たとえば、PET / CT移行では、生成されたCT画像にPETに使用する前に、詳細な骨情報が含まれている必要があります。すべての修正。MRモーションアーティファクトを削除する場合、後続のセグメンテーションおよび検出タスクに使用する前に、軟組織情報を保持する必要があります。


したがって、MedGANは非対立損失部分を追加し、スタイル転送損失関数を使用して、転送プロセス中にテクスチャと組織情報を確実に保持します。



スタイル転送損失の計算も隠れ層によって抽出された特徴に基づいていますが、GANのディスクリミネーターネットワークを使用する代わりに、特徴抽出機能としてより深い構造の事前トレーニング済みネットワークを使用するため、特徴抽出機能がより強力になります。より大きな受容フィールドでより豊かな画像の特徴を抽出できるため、移行プロセス中にグローバル構造とローカルの詳細をより適切に保持できます。




スタイル転送の損失は、コンテンツの損失とスタイルの損失の2つの部分で構成されます。





スタイルロススタイルロス関数は、スタイルマップと生成されたマップのスタイルの違いを測定するために使用されます。スタイルフィーチャは、グラムマトリックスに基づいて計算されます。





ここに写真の説明を挿入

コンテンツ損失計算は、生成されたマップと画素損失と概念的に類似している隠された層によって抽出された特徴マップとの間のコンテンツの類似度です。






ここに写真の説明を挿入
パートCMedGANアーキテクチャ
Uブロック
画像変換タスクは、入力テンソルを別のベクトルに変換するものと見なすことができますが、2つの構造は類似しており、グラフからグラフへの変換マッピングタスクであるため、MedGANの基本モジュールはコーデック構造のUブロック。

各U-Blockは、UNetと同様に、エンコードおよびデコード構造を備えた完全な畳み込みネットワークです。エンコードパスの入力イメージは256 * 256であり、8層の畳み込み-BN-ReLUなどの畳み込みモジュールをスタックしてエンコードされた特徴式を取得します。入力には実際の画像のみが含まれ、ノイズ画像は含まれません。デコードパスは画像の復元を完了するためのミラーリングプロセスです。同様に、同じレイヤーのコーデック間にスキップ接続があり、チャネルに直接カスケードされます。このクロスレイヤー接続は、基礎となる情報用です。配達は非常に重要です。


** CasNet:**



弁別器の主な構造は、この記事で新しく提案されたCasNet構造です。これは、医療画像の変換は、小さな領域に豊富な情報が含まれることが多く、変換プロセス中に自然な画像変換よりも難しいためです。必然的にディテールの喪失や歪みが発生します。したがって、現在の研究の一部は、主に特定のタスクに基づいているか、一連のフレームワークによって処理されます。この記事では、より一般的なエンドツーエンドネットワークであるCasNetを提案します。基本構造を図2に示します。
ここに写真の説明を挿入

CasNetはResNetに触発されています。ResNetでは、深いネットワークは残差ブロックを継続的にカスケードすることによって構築され、残差接続は勾配消失の問題を効果的に解決します。したがって、この記事では上記の4つの項目を利用し、Uブロックもカスケードします。各ブロックのスキップ接続により、勾配の消失の発生を減らすこともできます。

しかし、ResNetでCasNetにカスケード接続Uブロックとの間の一定の差と残差ブロックが依然として存在する。U-ブロックは16層を有しているCasNetより良い汎化を有するように、残差ブロックは、一般に、2~4層を有する。


弁別

この記事の弁別部PatchGANに基づいていくつかの変更が行われます。PatchGANは入力を分類しませんが、分類前に入力イメージを一連の小さなパッチにカットし、すべてのパッチの平均結果を出力します。

このように、Dは各パッチの高周波情報の比較に重点を置きます。従来のパッチサイズは70 * 70です。細部がより明確に変化する場合は、パッチサイズをさらに小さくすることができます。
パートDMedGANの
全体的なフレームワークとトレーニング戦略したがって、全体的なMedGANフレームワークには、CasNetのジェネレーター部分、事前トレーニングされたVGG19ネットワークの特徴抽出器と弁別器部分が含まれます。これらは、知覚損失とスタイル転送損失の計算に使用されます。したがって、Uブロックの全体的な損失関数には次のものが含まれます。
ここに写真の説明を挿入トレーニングの詳細:オプティマイザー:ADAMlr = 0.0002運動量:0.5トレーニングの安定性のために一連の二次戦略が採用されます。たとえば、CasNetトレーニングの3回の繰り返しごとに、パッチディスクリミネーターと一連のハイパーパラメータの最適化。

1つのTitanXGPUでの平均トレーニング時間は36時間で、推定時間は115ミリ秒です。全体的なアルゴリズムの疑似コード:
ここに写真の説明を挿入

セクションIII実験的評価

MedGANの有効性を検証するために、PTE / CT変換、モーションアーティファクトのMR除去、PET画像のノイズ除去の3つのタスクでテストが実施されました。
PET / CT:PETに

基づいてCT画像を合成するには、骨の構造や軟組織など、より詳細な情報を含める必要があります。この記事で使用されているデータセットの入力画像解像度は256256で、38人の患者からの1935セットのトレーニング画像ペアと検証用の414画像が含まれています。
MRモーションアーティファクト


がMRアーティファクトを除去することの難しさは、ピクセルレベルの位置合わせを実現することが難しいことです。データセットは、11人のボランティアによって収集された脳のMR画像から取得され、2つのモーション状態とモーションフリーの動画です。トレーニングセットには1445シート、テストセットは556シート、解像度は256
256です



。PETデノージング
 トレーニング:テスト= 11420:4411


パートB実験のセットアップ



MedGANで使用される損失関数には、敵対的損失と非敵対的学習部分(知覚、スタイル、コンテンツ)、グローバル構造を保持すると同時に、高頻度および低頻度の情報をよりよく学習します。上記のネットワークの組み合わせによってもたらされるゲインではないことを確認するために、この記事では最初にさまざまな損失関数の効果をテストしました。たとえば、基本ネットワークでは、Gは単一のUブロックを使用し、Dは16 * 16パッチディスクリミネーターを使用し、MedGANと同じパラメーターを使用します。比較のために、200エポックのセットアップとトレーニングを行います。







ここに写真の説明を挿入
ここに写真の説明を挿入
比較結果については、表Iを参照してください。図4はいくつかの結果を視覚化したものであり、cGANのみを使用した場合の損失防止効果が最も悪いことがわかります。弁別器の知覚損失を追加した後、効果はある程度改善されますが、詳細はまだ失われています。スタイルロスを追加した後、ディテールのロスを補うため、上記のロスはUブロックを1つだけ使用するMedGANに含まれ、より良い画像変換効果が得られます。CasNetレイヤーの数をさらに増やすと、効果がさらに向上します。

さらに、MedGANは他のSOTAフレームワークとも比較されます。たとえば、ピクセル損失とcGANlossを組み合わせたpix2pixは、画像変換の古典的なフレームワークであり、知覚損失を伴うPANネットワーク、スタイル移行を伴うFila-sGANです。
比較結果については、表IIを参照してください。その中で、pix2pixの効果が最も低く、MedGANのパフォーマンスは上記のフレームワークよりも優れています。





ここに写真の説明を挿入ここに写真の説明を挿入

画像変換の効果を評価するために、この記事では5人の放射線専門家を招待して、生成された画像をスコアリングおよび評価しました。0〜4のスコアは、まったく現実的ではないことを意味します。表IIIは、専門家の平均結果を示しています。
ここに写真の説明を挿入

セクションIVディスカッション

この論文では、エンドツーエンドの医療画像変換フレームワークであるMedGANを提案します。これは、CasNetやパッチディスクリミネーターなどを介して、敵対的損失、知覚的損失、スタイル損失を有機的に組み合わせ、画像変換の効果を向上させます。 、低頻度の情報はより良い学習をします。


最後に、MedGANは、PET / CT画像変換、MRデアーティファクト、およびPET画像ノイズ除去タスクで良好な結果を達成しました。これは、優れた一般化パフォーマンスを備えた包括的な画像変換フレームワークです。


今後の作業では、この記事で他の特定のアプリケーションでのMedGANのパフォーマンスをさらにテストします。たとえば、キャリブレーションなしでPET-CT画像に対するMedGANの変換効果をテストし、PETに依存しないAU減衰補正のための合成CTの可用性を研究します。さらに、このペーパーでは、MR画像のセグメンテーションや臓器容積の計算などのタスクにおけるMedGANの適用性をテストする予定です。

おすすめ

転載: blog.csdn.net/qq_37151108/article/details/108387929