コンボリューション (1)

標準畳み込み

コンボリューションの背景

完全に接続されたネットワークでは、画像上のすべてのピクセルが 1 次元ベクトル入力ネットワークに拡張されます。次の図に示すように、28 x 28 の入力データは入力として 784 x 1 データに拡張されます。

ここに画像の説明を挿入します

これにより、多くの場合、次の 2 つの問題が発生します。

1. 入力データの空間情報が失われます空間的に隣接するピクセルは同様の RGB 値を持つことが多く、さまざまな RGB チャネル間のデータは通常密接に関連していますが、1 次元ベクトルに変換されるとこの情報は失われます。下図に示すように、空間的に隣接する 2 つの点 A と B は、1 次元ベクトルに変換された後、それらの間の空間相関を反映しません。

ここに画像の説明を挿入します
2. モデルパラメータが多すぎるため、過学習が発生しやすくなります各ピクセルがすべての出力ニューロンに接続されている必要があるためです。画像サイズが大きくなると、入力ニューロンの数が画像サイズの二乗に応じて増加するため、モデルパラメータが多くなり過学習になりやすくなります。例: 1000×1000 の入力画像の場合、次の隠れ層のニューロンの数が 106 個である場合、重みパラメータは 1000×1000×106=1012 個になります。パラメーターが多いため、ネットワークのトレーニングが困難になります。

上記の問題を解決するために、入力画像から特徴を抽出するコンボリューション(Convolution)が導入されています。コンボリューションの計算範囲はピクセルの空間近傍内で行われるため、入力画像の空間情報を利用することができ、また、コンボリューションには局所的な結合や重み共有などの特性があるため、コンボリューションカーネルパラメータの数は増加します。また、完全な接続レイヤーよりもはるかに小さいです。

コンボリューションカーネル/特徴マップ/コンボリューション計算

コンボリューション カーネル (kernel) : コンボリューション カーネルの高さと幅がそれぞれkh k_hであると仮定して、フィルター (フィルター) とも呼ばれます。kそして、kw k_wkとすると、 kh × kw k_h×k_wとなります。k×k3×5 畳み込みなどの畳み込みは、畳み込みカーネルの高さが 3、幅が 5 であることを意味します。コンボリューション カーネルの値は、画像内のコンボリューション カーネルと同じサイズのサブブロック ピクセルのコンボリューション計算に使用される重みです。

畳み込み演算(コンボリューション):画像内の画素は空間依存性が強い コンボリューション(畳み込み)とは、画素の空間依存性に基づいて画像を処理する技術です。

特徴マップ: 畳み込みニューラル ネットワークでは、畳み込みフィルタリングの結果を特徴マップと呼びます。

畳み込みニューラル ネットワークでは、畳み込み層の実装は実際には数学で定義された相互相関演算です。具体的な計算プロセスは下図に示されています。各図の左図は入力データが 1 次元であることを示しています。 3 x 3 の 2 次元配列。中央の図は、コンボリューション カーネルが 2 x 2 の次元の 2 次元配列であることを示しています。

ここに画像の説明を挿入します
コンボリューションカーネルの計算プロセスは次の数式で表すことができます。a は入力画像を表し、bbb は出力特徴マップを表します。wwwは畳み込みカーネル パラメータで、すべて 2 次元配列∑ u , v \sum{u,v}{\ }あなたv は 、畳み込みカーネル パラメーターを走査して合計することを意味します。b [ i , j ] = ∑ u , va [ i + u , j + v ] ⋅ w [ u , v ] b[i, j] = \sum_{u,v}{a[i+u, j+ v ]\cdot w[u, v]}b [j ]=あなたv[+あなたj+v ]w [ u v ]たとえば、上図のコンボリューション カーネル サイズが2 × 2 2\times 22×2,则 u u 0 と 1 を取ることができますvvv 也可以取0和1,也就是说: b [ i , j ] = a [ i + 0 , j + 0 ] ⋅ w [ 0 , 0 ] + a [ i + 0 , j + 1 ] ⋅ w [ 0 , 1 ] + a [ i + 1 , j + 0 ] ⋅ w [ 1 , 0 ] + a [ i + 1 , j + 1 ] ⋅ w [ 1 , 1 ] b[i, j] = a[i+0, j+0]\cdot w[0, 0] + a[i+0, j+1]\cdot w[0, 1] + a[i+1, j+0]\cdot w[1, 0] + a[i+1, j+1]\cdot w[1, 1] b [j ]=[+0 j+0 ]w [ 0 ,0 ]+[+0 j+1 ]w [ 0 ,1 ]+[+1 j+0 ]w [ 1 0 ]+[+1 j+1 ]w [ 1 1 ]

パディング

入力画像の端の画素は畳み込みフィルタリングができないため、端の画素も畳み込みフィルタリングに参加させるために、塗りつぶし技術が登場しました。塗りつぶしとは、入力画像のエッジ ピクセルも畳み込み計算に参加できるように、エッジ ピクセルの周囲を「0」で埋めること (つまり、0 パディング) を指します。この充填メカニズムでは、畳み込み後の画像解像度は畳み込み前の画像解像度と同じになり、ダウンサンプリングがないことに注意してください。

上の例では、入力画像サイズは3 × 3 3\times3です。3×3、出力画像サイズは2 × 2 2\times22×2. 1 回の畳み込みの後、画像サイズは小さくなります。畳み込み出力特徴マップのサイズは次のように計算されます (畳み込みカーネルの高さと幅はkh k_hkそして、kw k_wk):H out = H − kh + 1 W out = W − kw + 1 H_{out}=H - k_h +1 \\ W_{out} = W - k_w + 1Hあなた_=Hk+1Wあなた_=Wk+1入力サイズが 4、コンボリューション カーネル サイズが 3 の場合、出力サイズは 4−3+1=2 となります。コンボリューション カーネル サイズが 1 より大きい場合、出力特徴マップのサイズは入力画像のサイズより小さくなります。複数の畳み込みを行うと、出力イメージのサイズは減少し続けます。畳み込み後の画像サイズが小さくなるのを防ぐために、通常は画像の周囲にパディングが実行されます。

ここに画像の説明を挿入します

  • 上の (a) に示すように、パディング サイズは 1、パディング値は 0 です。塗りつぶし後、画像サイズを4 × 4 4\times4から入力します4×4 は6 × 6 6\times6になります6×63 × 3 3\times33×3コンボリューション カーネル、出力画像サイズは4 × 4 4\times44×4

  • 上の (b) に示すように、パディング サイズは 2、パディング値は 0 です。塗りつぶし後、画像サイズを4 × 4 4\times4から入力します4×4 は8 × 8 8\times8になります8×83 × 3 3\times33×3コンボリューション カーネル、出力画像サイズは6 × 6 6\times66×6

ph 1 p_{h1} が入力画像の最初の行の前に入力されている場合ph1 _行、最後の行の後にph 2 p_{h2}をパディングph2 _行;画像の列 1 の前にpw 1 p_{w1}を入力しますpw1 _列、最後の 1 列の後にpw 2 p_{w2}を入力しますpw2 _列; 塗りつぶした後の画像サイズは( H + ph 1 + ph 2 ) × ( W + pw 1 + pw 2 ) (H + p_{h1} + p_{h2})\times(W + p_{w1} + p_{w2})( H+ph1 _+ph2 _)×( W+pw1 _+pw2 _サイズがkh × kw k_h\times k_wk×kコンボリューション カーネル演算後の出力イメージのサイズは次のとおりです。H out = H + ph 1 + ph 2 − kh + 1 W out = W + pw 1 + pw 2 − kw + 1 H_{out} = H + p_ { h1} + p_{h2} - k_h + 1 \\ W_{out} = W + p_{w1} + p_{w2} - k_w + 1Hあなた_=H+ph1 _+ph2 _k+1Wあなた_=W+pw1 _+pw2 _k+1畳み込み計算プロセスでは、通常、高さまたは幅の両側で等しいパディングが使用されます。つまり、ph 1 = ph 2 = ph、pw 1 = pw 2 = pw p_{h1} = p_{h2} = p_h , \ \ p_{w1} = p_{w2} = p_wph1 _=ph2 _=p  pw1 _=pw2 _=pとすると、上記の計算式は次のようになります。H out = H + 2 ph − kh + 1 W out = W + 2 pw − kw + 1 H_{out} = H + 2p_h - k_h + 1 \\ W_{out} = W + 2p_w - k_w + 1Hあなた_=H+2P _k+1Wあなた_=W+2P _k+1パディングを容易にするために、コンボリューション カーネル サイズには通常、1、3、5、7 などの奇数が使用されます。このように、使用されるパディング サイズがph = (kh − 1) / 2 の場合、pw = (kw − 1) / 2 p_h= (k_h-1)/2、p_w=(k_w-1)/2p=( k1 ) /2 p=( k1 ) /2、畳み込み後も画像サイズを変更せずに維持できます。たとえば、コンボリューション カーネル サイズが 3、パディング サイズが 1 の場合、コンボリューション後の画像サイズは変更されません。同様に、コンボリューション カーネル サイズが 5、パディング サイズが 2 の場合、画像サイズは変更されません。 。

ストライド

畳み込み演算中は、通常、出力画像の解像度が入力画像の解像度に比べて徐々に低下する、つまり画像が縮小されることが予想されます。したがって、畳み込みフィルタリングは、畳み込みカーネルのステップ サイズを変更して入力画像内を移動し、いくつかのピクセルをスキップすることによって実行できます。Stride=1 の場合、コンボリューション カーネルはスライドして 1 ピクセルをスキップします。これは最も基本的なシングル ステップ スライドであり、標準のコンボリューション モードでもあります。Stride=k は、コンボリューション カーネルの動作のステップ サイズが k であることを意味します。

次の図は、ステップ サイズ 2 のコンボリューション プロセスを示しています。コンボリューション カーネルが画像上で移動するとき、各移動のサイズは 2 ピクセルです。
ここに画像の説明を挿入します

高さ方向、幅方向の歩幅がそれぞれsh s_hの場合sそして、sw s_wsの場合、出力特徴マップ サイズの計算式は次のとおりです。H out = H + 2 ph − khsh + 1 W out = W + 2 pw − kwsw + 1 H_{out} = \frac{H + 2p_h - k_h}{ s_h} + 1 \\ W_{out} = \frac{W + 2p_w - k_w}{s_w} + 1Hあなた_=sH+2P _k+1Wあなた_=sW+2P _k+1

受容野

畳み込みによって得られた結果では、各特徴画像ピクセルの値は、受容野と呼ばれる入力画像内の特定の領域に依存しますでは、この領域はどこにあるのでしょうか? 畳み込みニューラル ネットワークでは、受容野は、特徴マップ上の点に対応する入力画像上の領域です。フィールド内の各要素の値の変化を感じてください。これは、出力ポイントの値の変化に影響します。

たとえば、3×3 畳み込みに対応する受容野サイズは 3×3 です。

ここに画像の説明を挿入します

3×3 畳み込みの 2 つの層を通過した後、受容野のサイズは 5×5 に増加します。

ここに画像の説明を挿入します

したがって、畳み込みネットワークの深さを増やすと、受容野が増加し、出力特徴マップ内のピクセルにはより多くの画像意味情報が含まれるようになります。

複数の入力チャンネル、複数の出力チャンネル、およびバッチ操作

先ほど紹介した畳み込み計算のプロセスは比較的単純ですが、実際のアプリケーションで扱われる問題はさらに複雑です。たとえば、カラー イメージに 3 つの RGB チャネルがあり、複数の入力チャネルを処理する必要がある場合、多くの場合、対応する出力特徴マップには複数のチャネルが含まれます。また、ニューラルネットワークの計算では、複数のサンプルをまとめて計算することが多いため、畳み込み演算器には多入力多出力のチャネルデータを一括処理する機能が必要です。

複数の入力チャンネルのシナリオ

入力に複数のチャネルが含まれる場合、対応するコンボリューション カーネルも同じ数のチャネルを持つ必要があります。入力画像のチャンネル数をC_{in}とするC、入力データの形状はC in × H in × W in C_{in}\times{H_{in}}\times{W_{in}} です。C×H×W

  • 各チャネルのコンボリューション カーネルとして 2 次元配列を設計します。コンボリューション カーネル配列の形状はC in × kh × kw C_{in}\times{k_h}\times{k_w} となりますC×k×k
  • 任意のチャネルC in ∈ [ 0 , C in ) C_{in} \in [0, C_{in})C[ 0 ,C)、それぞれサイズkh × kw k_h\times{k_w}k×k畳み込みカーネルのサイズはH in × W in H_{in}\times{W_{in}} です。H×W畳み込みは 2 次元配列に対して行われます。
  • これをC_{in} に移動しますC各チャネルの計算結果を加算すると、 H out × W out H_{out}\times{W_{out}}の形になります。Hあなた_×Wあなた_二次元配列。

ここに画像の説明を挿入します

マルチ出力チャンネルのシナリオ

複数のタイプの特徴を検出したい場合は、実際には計算に複数のコンボリューション カーネルを使用できます。したがって、一般的に言えば、畳み込み演算の出力特徴マップにも複数のチャネルC out C_{out}が含まれます。Cあなた_次に、C out C_{out}を設計する必要があります。Cあなた_寸法はC in × kh × kw C_{in}\times{k_h}\times{k_w}です。C×k×kコンボリューション カーネル、コンボリューション カーネル配列の次元はC out × C in × kh × kw C_{out}\times C_{in}\times{k_h}\times{k_w}Cあなた_×C×k×k

  • 任意の出力チャネルの場合、cout ∈ [ 0 , C out ) c_{out} \in [0, C_{out})cあなた_[ 0 ,Cあなた_)、それぞれ、上記の形状をC in × kh × kw C_{in}\times{k_h}\times{k_w}C×k×kコンボリューション カーネルは、入力画像に対してコンボリューションを実行します。
  • このC を C_{out} から出してくださいCあなた_形状はH out × W out H_{out}\times{W_{out}}です。Hあなた_×Wあなた_2 次元配列は結合されて、C out × H out × W out C_{out}\times{H_{out}}\times{W_{out}} の次元を形成します。Cあなた_×Hあなた_×Wあなた_三次元配列。

入力画像のチャンネル数が 3 で、2 種類の特徴を検出したいとすると、このとき2 2 の設計が必要になります。2 つの次元は3 × kh × kw 3\times{k_h}\times{k_w}です3×k×kコンボリューション カーネル、コンボリューション カーネル配列の次元は2 × 3 × kh × kw 2\times 3\times{k_h}\times{k_w}です。2×3×k×k,以下に示すように。

  • 任意の出力チャネルの場合cout ∈ [0, 2) c_{out} \in [0, 2)cあなた_[ 0 ,2 )、それぞれ上記の形状を3 × kh × kw 3\times{k_h}\times{k_w}3×k×kコンボリューション カーネルは、入力画像に対してコンボリューションを実行します。

  • これら2 2を入れてください2 つの形状は、H out × W out H_{out}\times{W_{out}}Hあなた_×Wあなた_2 次元配列は結合されて、2 × H out × W out 2\times{H_{out}}\times{W_{out}} の次元を形成します。2×Hあなた_×Wあなた_三次元配列。

ここに画像の説明を挿入します

バッチ操作

畳み込みニューラル ネットワークの計算では、通常、複数のサンプルがまとめられてバッチ操作用のミニバッチを形成します。つまり、入力データの次元は N × C in × H in × W in N\times{C_{で} }\time{H_{in}}\times{W_{in}}N×C×H×W畳み込み演算では各画像に同じ畳み込みカーネルが使用されるため、畳み込みカーネルの次元はC out × C in × kh × kw C_{out}\times C_{in}\times{k_h}\times{ k_w }Cあなた_×C×k×kの場合、出力特徴マップの次元はN × C out × H out × W out N\times{C_{out}}\times{H_{out}}\times{W_{out}} となります。N×Cあなた_×Hあなた_×Wあなた_

入力データの次元が2 × 3 × H in × W in 2\times{3}\times{H_{in}}\times{W_{in}} であると仮定します。2×3×H×W、コンボリューション カーネルの次元は、上記の複数の出力チャネルの場合と同じですが、依然として2 × 3 × kh × kw 2\times 3\times{k_h}\times{k_w} です。2×3×k×k、出力特徴マップの次元は2 × 2 × H out × W out 2\times{2}\times{H_{out}}\times{W_{out}} です。2×2×Hあなた_×Wあなた_以下に示すように。

ここに画像の説明を挿入します

畳み込みの利点

空間情報を保持する

畳み込み演算では、計算範囲は画素点の空間的近傍内で実行され、空間的近傍における特定の特徴パターンの抽出を表します。入力を 1 次元に拡張する全結合層の計算方法と比較して、畳み込み演算は入力データの空間情報を効果的に学習できます。

ローカル接続

上で受容野の概念を紹介しましたが、畳み込み演算では各ニューロンが局所的な領域にのみ接続されていることが想像できます。2 次元画像の場合、局所的なピクセル相関が強いため、この局所的な接続により、トレーニング済みフィルターが局所的な特徴に対して最も強力な応答を得ることができ、ニューラル ネットワークがデータの局所的な特徴を抽出できるようになります。完全接続と部分接続の比較を下図に示します。

ここに画像の説明を挿入します
同時に、ローカル接続の使用により、隠れ層の各ニューロンは画像の一部にのみ接続されます。この記事の冒頭で述べた例を考えてみましょう。1000 × 1000 1000\times 10001000×入力画像が1000の場合、次の隠れ層のニューロンの数も1 0 6 10^61 06、各ニューロンのサイズが10 × 10 10\times 1010×10 個の局所領域が接続されている場合、このときの重みパラメータ量は10 × 10 × 1 0 6 = 1 0 8 10\times 10\times 10^6=10^{8} だけです。10×10×1 06=1 0図8に示されるように、交差する密なリンクの完全に接続された層は、4桁小さい。

重量分担

コンボリューション計算では、実際には一連のコンボリューション カーネルを使用して画像上をスライドし、乗算と合計を計算します。したがって、同じコンボリューションカーネルの計算処理については、その重みが画像計算処理中に共有されます。これにより、ネットワーク トレーニングの困難さが実際に大幅に軽減されます。次の図は、重み共有の概略図です。上の例は、 1000 × 1000 1000\times 1000の画像の場合にも使用されます。1000×入力画像1000の場合、次の隠れ層のニューロンの数は1 0 6 10^61 06、隠れ層の各ニューロンのサイズは10 × 10 10\times 1010×10 個のローカル エリアが接続されているため、 10 × 10 10\times 10となります10×10 個の重みパラメータ。これを10 × 10 10\times 1010×10 個の重みパラメータは、他の位置 ( 1 0 6 10^6)に対応するニューロンと共有されます。1 06 つのニューロンの重みパラメータは一貫しているため、トレーニングする必要がある最終パラメータは10 × 10 10\times 1010×重みパラメータは10 個あります。

ここに画像の説明を挿入します

さまざまなレベルの畳み込みによりさまざまな特徴が抽出されます

CNN ネットワークでは、通常、多層畳み込みを積み重ねて、さまざまなタイプの特徴を抽出します。たとえば、浅い畳み込みは画像内のエッジやその他の情報を抽出します。中レベルの畳み込みは画像内の局所的な情報を抽出します。深い畳み込みは画像内のグローバルな情報を抽出します。このように、ネットワーク層の数を深くすることで、CNN は詳細から全体的な特徴に至るまで、画像のすべての特徴を効果的に学習できます。単純な 5 層 CNN の特徴マップ視覚化の結果を次の図に示します。

ここに画像の説明を挿入します

上の図からわかるように、レイヤー 1 とレイヤー 2 では、ネットワークは基本的にエッジや色などの基本的な特徴を学習します。レイヤー 3 は少し複雑になり始め、テクスチャの特徴を学習します。レイヤー 4 では、より高次元のことを学習します。特徴: 犬の頭、鶏の足など; Layer5 は、より識別可能なグローバル特徴を学習しました。

1×1 コンボリューション (1×1 コンボリューション)

コンボリューションの概要

1×1コンボリューションは標準的なコンボリューションとまったく同じで、唯一の特別な点は、コンボリューションカーネルのサイズが1×1であることです。つまり、入力データの局所的な情報間の関係は考慮されませんが、焦点は異なるチャンネル間で。入力行列のサイズが 3×3、チャネル数が 3 の場合、畳み込み計算に 4 つの 1×1 コンボリューション カーネルを使用すると、最終的には入力行列と同じサイズで、 4チャンネル。

ここに画像の説明を挿入します

コンボリューションの役割

  • クロスチャネルのインタラクションと情報の統合を実現します。畳み込み演算の入力と出力がすべて 3 次元 (幅、高さ、マルチチャネル) であることを考慮すると、1×1 畳み込みは実際にはピクセルごとに異なるチャネルで線形結合を実行し、それによって異なるチャネルの情報を統合します。

  • コンボリューション カーネル チャネルの数を次元的に増減して、パラメータの数を減らします。1×1畳み込み後の出力は入力データの元の平面構造を保持しており、チャネル数を調整することで次元の増減機能が完成します。

  • 1×1 畳み込み後の非線形活性化関数を使用すると、特徴マップのサイズを変更せずに、非線形性が大幅に増加します。

3Dコンボリューション

コンボリューションの概要

標準コンボリューションは2次元コンボリューションであり、計算方法は下図に示されています。2D コンボリューションでは、コンボリューション カーネルが幅と高さの 2 次元に沿って画像上をスライドします。各スライド プロセス中に、対応する位置にある画像要素がコンボリューション カーネル内のパラメータで乗算および計算され、出力特徴マップが取得されます。の値。

ここに画像の説明を挿入します
2D 畳み込みは 2D 画像の空間情報のみを考慮するため、単一の 2D 画像を視覚的に理解するタスクにのみ適しています。3D 画像またはビデオを処理する場合、ネットワークの入力にはもう 1 つの次元があり、入力は(c, 高さ, 幅) (c,高さ,幅)で構成されます。( c _ _ _ _w i d th )变了( c , 奥行き , 高さ , 幅 ) (c,奥行き,高さ,幅)( c _ __ _ _ _w i d th ) ここでcccはチャネル数、深さd e pt hは入力データの幅です。したがって、このデータを処理するときは、それに応じて畳み込みを 2D 畳み込みから 3D 畳み込みに変換する必要があります。

2D コンボリューションに基づいて、3D コンボリューション [1] が提案されました。3D コンボリューションの構造は 2D コンボリューションよりも 1 次元多く、2D コンボリューションのサイズはkh × kw k_h\times{k_w}で表すことができます。k×k、3D 畳み込みのサイズはkh × kw × kd k_h\times{k_w}\times{k_d}として表すことができます。k×k×kd3D コンボリューションの具体的な計算方法は 2D コンボリューションと同様で、スライドするたびにccで計算されます。cチャネル、サイズは(奥行き、高さ、幅) (奥行き、高さ、幅)(_ __ _ _ _以下の図に示すように、 w i d th )の画像が乗算および加算されて、出力特徴マップの値が取得されます。

ここに画像の説明を挿入します

応用分野

3D コンボリューションの主な用途は、ビデオ理解と医療画像の分野です。

ビデオ理解タスクでは、kd k_dkdこれは時間次元、つまり各 3D コンボリューション カーネルによって処理される連続フレームの数を表します。ビデオ理解の分野における 3D 畳み込み計算では、kd k_d が最初に使用されます。kd連続するフレームは 3D 画像シーケンスを形成し、その画像シーケンス内で畳み込み計算が実行されます。3D コンボリューション カーネルはkd k_dにあります。kd連続したフレーム上でスライドし、各スライドkd k_dkd連続する各フレーム内の対応する位置にある要素が、コンボリューション カーネル内のパラメーターと乗算および計算され、最終的に出力特徴マップ内の値が取得されます。

3D CNN では 3D コンボリューションを利用して人間の行動を識別しており、そのネットワーク構造は下図のようになります。ネットワークには、畳み込み層が 3 つだけ、完全接続層が 1 つ、プーリング層が 2 つだけあります。このうち、最初の 2 つの畳み込み層は 3D 畳み込み層であり、畳み込みカーネルのサイズは7 × 7 × 3 7\times{7}\times{3}です。7×7×37 × 6 × 3 7\回{6}\回{3}7×6×3 、つまり、各コンボリューション カーネルは、連続する 3 フレームで7 × 7 7\times{7}7×77 × 6 7\times{6}7×6サイズのエリア。

ここに画像の説明を挿入します
このモデルは 3D 畳み込みを使用するため、空間的および時間的次元から特徴を抽出して、複数の連続したフレームから得られる動き情報をキャプチャできます。

医療画像の分野では、医療データは通常 3D であり、たとえばセグメント化したい腫瘍は 3D です。2D 画像処理モデルを使用して 3D オブジェクトを処理することも可能ですが、生物医学画像の各スライスをトレーニングのためにグループ (トレーニング データとラベル付きデータを含む) でモデルにフィードする必要があります。効率の問題があるため、使用するモデルは、下の図に示すように、U-Net の 2D 畳み込みを 3D 形式、つまり 3D U-Net に変更することです。

ここに画像の説明を挿入します
このモデルのネットワーク構造は、基本的に 2D 構造の U-Net と同じです。唯一の違いは、2D 畳み込み演算が 3D 畳み込み演算に置き換えられていることです。したがって、トレーニングのために各スライスを個別に入力する必要はありませんが、全体画像をモデルに入力できます。

おすすめ

転載: blog.csdn.net/weixin_49346755/article/details/127484541