深層学習 - 3D 畳み込みニューラル ネットワーク (3DCNN)

1. 3DCNN は、
2D 畳み込みが 2D 画像の空間情報のみを考慮することを理解しているため、単一の 2D 画像を視覚的に理解するタスクにのみ適しています。3D 画像またはビデオを処理する場合、ネットワークの入力にはもう 1 つの次元があり、入力は( c , height , width ) (c,height,width)で構成されます。( c _ _ _ _w i d th )变了( c , 奥行き , 高さ , 幅 ) (c,奥行き,高さ,幅)( c _ __ _ _ _w i d th ) ここでcccはチャネル数、深さd e pt hは入力データの幅です。したがって、データを処理するときは、それに応じて畳み込みを 2D 畳み込みから 3D 畳み込みに変換する必要があります。
2D コンボリューションに基づいて、3D コンボリューションが提案されます。3D 畳み込みの構造は 2D 畳み込みよりも 1 次元多く、2D 畳み込みのサイズはkh × kw k_h \times k_wk×k、3D 畳み込みのサイズはkh × kw × kd k_h \times k_w \times k_dとして表すことができます。k×k×kd3D コンボリューションの具体的な計算式は 2D コンボリューションの計算式と似ています。つまり、スライドするたびにccと同じになります。cチャネル、サイズは(深さ、高さ、幅) (深さ、高さ、幅)(_ __ _ _ _w i d th )画像が乗算および加算されて、図に示すように出力特徴マップの値が得られます。
ここに画像の説明を挿入
ここに画像の説明を挿入

ビデオ入力の度合い:input C × input T × input W × input H input_C \times input_T \times input_W \times input_H入れ_ _C×入れ_ _T×入れ_ _W×入れ_ _H;
3D コンボリューション カーネルの次元: input C input_C入れ_ _C並列次元は、カーネル T × カーネル W × カーネル H kernel_T \times kernel_W \times kernel_Hです。カーネル_ _ _ _T×カーネル_ _ _ _W×カーネル_ _ _ _Hコンボリューション カーネル; T 、 W 、 HT、 W、 H
の 3D コンボリューション カーネルH は3 方向に移動します。

参考:
3D CNN

おすすめ

転載: blog.csdn.net/weixin_40826634/article/details/128269149