introducir

El mayor problema con las redes neuronales totalmente conectadas que procesan imágenes es queHay demasiados parámetros en la capa completamente conectada. Además de ralentizar la velocidad de cálculo, el aumento de los parámetros puede conducir fácilmente a problemas de sobreajuste. Por lo tanto, se necesita una estructura de red neuronal más razonable para reducir efectivamente el número de parámetros en la red neuronal: red neuronal convolucional .

1. Descripción general de las redes neuronales convolucionales

Un tipo de red neuronal feed-forward con cálculo convolucional y estructura profunda es uno de los algoritmos representativos del aprendizaje profundo.Utiliza entrenamiento supervisado para entrenar un perceptrón multicapa específico para el reconocimiento bidimensional invariante de forma ( invariante de traducción ).
La entrada predeterminada es una imagen, que nos permite codificar propiedades específicas en la estructura de la red, lo que hace que nuestra función de avance sea más eficiente y reduzca una gran cantidad de parámetros; y suIntercambio de parámetros del kernel de convolución y escasez de conexiones entre capasPermite que la red neuronal convolucional aprenda características reticulares, como píxeles y audio, con una pequeña cantidad de cálculo, tiene un efecto estable y no tiene requisitos adicionales de ingeniería de características para los datos.
Tres operaciones clave : una es la conexión local, la otra es el uso compartido de parámetros y la tercera es la capa de agrupación, que reduce efectivamente la cantidad de parámetros en la red y alivia el problema del ajuste excesivo del modelo.
Aplicaciones dimensionales : las redes neuronales convolucionales unidimensionales se utilizan principalmente para el procesamiento de datos de secuencia, las redes neuronales convolucionales bidimensionales se utilizan a menudo para el reconocimiento de texto de imagen y las redes neuronales convolucionales tridimensionales se utilizan principalmente para el reconocimiento de imágenes médicas y datos de video.

2. Descripción general de la estructura de la red neuronal convolucional

La arquitectura general de la red neuronal convolucional: la red neuronal convolucional es una red neuronal de aprendizaje supervisado de múltiples capas, generalmente dividida en capa de entrada, capa convolucional, capa de agrupación y capa totalmente conectada, donde se implementan la capa convolucional y la capa de agrupación. El módulo central de la función de extracción de características de la red neuronal convolucional.

inserte la descripción de la imagen aquí

2.1 Capa de entrada

Generalmente representa una matriz de píxeles de una imagen. El lado más a la izquierda de la figura es la imagen de matriz 3D de entrada. La longitud y el ancho de la matriz 3D representan el tamaño de la imagen, y la profundidad de la matriz 3D representa el canal de color de la imagen.Las imágenes en blanco y negro tienen una profundidad de 1 y las imágenes en modo de color RGB tienen una profundidad de 3。

2.2 Capa de convolución

A diferencia de la capa totalmente conectada, la capa convolucionalLa entrada de cada nodo es solo una pequeña parte de la capa anterior de la red neuronal, el tamaño comúnmente utilizado de este pequeño bloque es 3×3 o 5×5. En general, la matriz de nodos procesada por la capa convolucional será más profunda.

2.3 Capa de agrupación

La capa de agrupación no cambia la profundidad de la matriz tridimensional, pero puede reducir el tamaño de la matriz. La operación de agrupación se puede considerar como la conversión de una imagen de alta resolución en una imagen de menor resolución. A través de la capa de agrupación, la cantidad de nodos en la última capa completamente conectada se puede reducir aún más, para lograr el propósito de reducir los parámetros de toda la red neuronal.La capa de agrupación en sí no tiene parámetros entrenables.。

2.4 Capa totalmente conectada

Después de múltiples rondas de capas convolucionales y capas de agrupación, al final de la CNN, generalmente se usan de 1 a 2 capas completamente conectadas para dar los resultados finales de la clasificación. Después de varias rondas de operaciones de convolución y agrupación, se puede considerar que la información de la imagen se ha abstraído en características con mayor contenido de información. Es decir, la convolución y la agrupación se pueden considerar como el proceso de extracción automática de imágenes.Después de que se completa la extracción de características, la capa completamente conectada se usa para completar la tarea de clasificación.

2.5 Conversión mutua entre capa totalmente conectada y capa convolucional

※Para cualquier capa convolucional, solo necesita aplanarse cuando se convierte en una conexión completa;
※Cualquier conexión completa se convierte en una convolución, como: a K=4096 FC, el tamaño de la capa de entrada es 7×7×512 , puede ser equivalente Es una capa de convolución con F (núcleo de convolución)=7, P (píxel)=0, S (tamaño de paso)=1, K=4096, y el tamaño del mapa de características después de la convolución es 1× 4096.

3. Características de las redes neuronales convolucionales

Conexión local : una cierta posición en la matriz de salida de la capa convolucional solo está relacionada con una parte de la matriz de entrada, en lugar de la matriz de entrada completa. Una función de salida de la capa convolucional puede estar relacionada solo con una parte determinada de la imagen de entrada y no tiene relación con la información en otras posiciones. Las conexiones locales pueden hacer que la función se enfoque solo en la parte en la que debe enfocarse. También reduce los parámetros de la red neuronal.
Uso compartido de parámetros : se comparten los parámetros del filtro en la misma capa de convolución. No importa dónde un filtro realice la operación de convolución, el valor en la matriz del filtro es el mismo. (Los parámetros de diferentes filtros en la misma capa son diferentes, y los parámetros de filtros entre diferentes capas también son diferentes). Compartir los parámetros de los filtros puede hacer que el contenido de la imagen no se vea afectado por la posición.

4. Resumen de la red neuronal convolucional

Las redes neuronales convolucionales se utilizan principalmente para reconocer gráficos bidimensionales que no varían con el desplazamiento, la escala y otras formas de distorsión.

La esencia es un mapeo de entrada a salida. Puede aprender una gran cantidad de relaciones de mapeo entre entrada y salida. No requiere expresiones matemáticas precisas entre entrada y salida. Solo necesita usar patrones conocidos para aplicar redes convolucionales. Después entrenamiento, la red tiene la capacidad de mapear entre pares de entrada y salida.

El número de canales del kernel de convolución es el mismo que el número de canales de la matriz de características de entrada, es decir, la entrada es tridimensional, por lo que el kernel de convolución también es tridimensional; después de la convolución, el número de canales de la matriz de características de salida es la misma que el número de núcleos de convolución, es decir, 2 núcleos de convolución, entonces la profundidad de la matriz de salida es 2。

Los pesos de las neuronas en el mismo mapa de características son los mismos y la red puede aprender en paralelo. El diseño está más cerca de la red neuronal biológica real, y el intercambio de parámetros reduce la complejidad de la red. En particular, la imagen del vector de entrada multidimensional se puede ingresar directamente en la red, lo que evita la complejidad de la reconstrucción de datos durante extracción y clasificación de características.

Lo anterior es una introducción preliminar a la teoría de la red neuronal convolucional.La capa convolucional y la capa de agrupación del núcleo de convolución se detallan en la explicación detallada de la red neuronal convolucional en esta columna.

¿Qué es una red neuronal convolucional?

Tabla de contenido