Aprendizaje profundo - Red neuronal convolucional 3D (3DCNN)

1. 3DCNN entiende que
la convolución 2D solo considera la información espacial de las imágenes 2D, por lo que solo es adecuado para tareas de comprensión visual de una sola imagen 2D. Al procesar imágenes o videos 3D, la entrada de la red tiene una dimensión más, y la entrada consta de ( c , alto , ancho ) (c,alto,ancho)( c ,altura , _ _ _ _ _w i d t h )变为了( c , profundidad , alto , ancho ) (c,profundidad,alto,ancho)( c ,profundidad , _ _ _altura , _ _ _ _ _ancho ) , dondecc _ _ _c es el número de canales,profundidad profundidadd e pt h es el ancho de los datos de entrada. Por lo tanto, al procesar los datos, la convolución debe transformarse en consecuencia, de convolución 2D a convolución 3D.
Sobre la base de la convolución 2D, se propone la convolución 3D. La convolución 3D tiene una dimensión más que la convolución 2D en estructura, y el tamaño de la convolución 2D se puede expresar comokh × kw k_h \times k_wkh×kw, y el tamaño de la convolución 3D se puede expresar como kh × kw × kd k_h \times k_w \times k_dkh×kw×kre. La fórmula de cálculo específica de la convolución 3D es similar a la de la convolución 2D, es decir, cada vez que deslizas, es lo mismo que ccc canales, el tamaño es(profundidad, altura, anchura) (profundidad, altura, anchura)( profundidad , _ _ _altura , _ _ _ _ _ancho ) las imágenes se multiplican y se suman para obtener un valor en el mapa de características de salida, como se muestra en la figura.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

视频输入的维度:entrada C × entrada T × entrada W × entrada H entrada_C \times entrada_T \times entrada_W \times entrada_Hen su lugar _c×en su lugar _T×en su lugar _W×en su lugar _H;
Dimensiones del núcleo de convolución 3D: entrada C entrada_Cen su lugar _cUna dimensión paralela es kernel T × kernel W × kernel H kernel_T \times kernel_W \times kernel_HKernel _ _ _ _T×Kernel _ _ _ _W×Kernel _ _ _ _HEl núcleo de convolución;
núcleo de convolución 3D en T , W , HT, W, HT ,W ,H se mueve en tres direcciones.

Referencia:
CNN 3D

Supongo que te gusta

Origin blog.csdn.net/weixin_40826634/article/details/128269149
Recomendado
Clasificación