1. 3DCNN は、
2D 畳み込みが 2D 画像の空間情報のみを考慮することを理解しているため、単一の 2D 画像を視覚的に理解するタスクにのみ適しています。3D 画像またはビデオを処理する場合、ネットワークの入力にはもう 1 つの次元があり、入力は( c , height , width ) (c,height,width)で構成されます。( c 、高さ、_ _ _ _w i d th )变了( c , 奥行き , 高さ , 幅 ) (c,奥行き,高さ,幅)( c 、深さ、_ _高さ、_ _ _ _w i d th ) 、ここでcccはチャネル数、深さd e pt hは入力データの幅です。したがって、データを処理するときは、それに応じて畳み込みを 2D 畳み込みから 3D 畳み込みに変換する必要があります。
2D コンボリューションに基づいて、3D コンボリューションが提案されます。3D 畳み込みの構造は 2D 畳み込みよりも 1 次元多く、2D 畳み込みのサイズはkh × kw k_h \times k_wkふ×kw、3D 畳み込みのサイズはkh × kw × kd k_h \times k_w \times k_dとして表すことができます。kふ×kw×kd。3D コンボリューションの具体的な計算式は 2D コンボリューションの計算式と似ています。つまり、スライドするたびにccと同じになります。cチャネル、サイズは(深さ、高さ、幅) (深さ、高さ、幅)(深さ、_ _高さ、_ _ _ _w i d th )の画像が乗算および加算されて、図に示すように出力特徴マップの値が得られます。
ビデオ入力の度合い:input C × input T × input W × input H input_C \times input_T \times input_W \times input_H入れた_ _C×入れた_ _T×入れた_ _W×入れた_ _H;
3D コンボリューション カーネルの次元: input C input_C入れた_ _C並列次元は、カーネル T × カーネル W × カーネル H kernel_T \times kernel_W \times kernel_Hです。カーネル_ _ _ _T×カーネル_ _ _ _W×カーネル_ _ _ _Hコンボリューション カーネル; T 、 W 、 HT、 W、 H
の 3D コンボリューション カーネルて、わ、H は3 方向に移動します。
参考:
3D CNN