prefacio

El aprendizaje profundo consiste en aprender las leyes internas y los niveles de representación de datos de muestra.La información obtenida durante el proceso de aprendizaje es de gran ayuda para la interpretación de datos como texto, imágenes y sonidos. La red neuronal completamente conectada (MLP) es uno de los tipos de red básicos, que encarna completamente las características de los métodos de aprendizaje profundo en comparación con los algoritmos de aprendizaje automático tradicionales, a saber, la unidad de big data, la derivación de fórmulas, la actualización autoiterativa, el entrenamiento de caja negra, etc. Este artículo analizará y explicará MLP desde dos capas y más.

1. MLP de dos capas

La diferencia entre una red neuronal de dos capas (superficiales) y una red de una sola capa es que la capa oculta tiene múltiples nodos neuronales, lo que le permite lidiar con el complejo problema de " entrada múltiple y salida múltiple ".

1.1 Propagación hacia adelante

${\rm{y}}(x, ancho) = ancho x + segundo$
donde $x$ representa la imagen de entrada, su dimensión es $re$ ; $y$ es un vector de puntuación cuya dimensión es igual al número de categorías $c$ ； $[w_1 \cdot \cdot \cdot w_c ]^T$ 为权值矩阵， $w_i = [w_i \cdot \cdot \cdot w_{id} ]^T$ es elEl vector de pesos de $i$ $[b_i \cdot \cdot \cdot b_c ]^T$ es el vector de sesgo, $b_i$ por $El sesgo de i$ categorías, entonces el MLP de dos capas es
$W_2 \sigma (0,W_1 x + b_1 ) + b_2$ , donde $\sigma$ es la función de activación

1.2 Retropropagación

Lo que hace la retropropagación es dejar que cada neurona tenga un $Los valores de W y b$ , es decir, el gradiente. De esta manera, cuando pasamos nuevos datos, podemos predecirlos con precisión y, por supuesto, también es una retroalimentación sobre los datos propagados desde cada capa. Cuando se retroalimentan los datos, la función de pérdida es el método de evaluación. A continuación se tomarácomo ejemplofunción de pérdida del error cuadrático medio

损失函数： $L(\hat y,y) = \frac{1}{2}(\hat y_i - y_i )^2$

梢度名生: $\begin{array}{l}w_1 = w_0 - \eta \frac{ {dL( w ) }}{ {dw}} \\ \\ b_1 = b_0 - \eta \frac{ {dL(b)}}{ {db}}\\ \end{matriz}$

Entre ellos $w_0$ y $b_0$ es nuestro valor real actual, $\eta$ esel tamaño del paso(cierto valor), cuando $L$ toma valor extremo $w$ tiempo, $w_1$ Es el valor obtenido por descenso de gradiente

Cuando se reduce el gradiente de la función de pérdida, se debe resolver la regla de la cadena

$\frac{ { dL(a,y) }}{ {dw}} = \frac{ {dL(a,y)}}{ {da}} \cdot \frac{ {da}}{ {dz}} \cdot \frac{ {dz}}{ {dw}}$
Deducción :
Descenso del gradiente en el resultado final
inserte la descripción de la imagen aquí
de la regla de la cadena de la función de pérdida

2. MLP de N niveles

Red neuronal completamente conectada de N capas: una red con N número de capas distintas de la capa de entrada.
En una red neuronal, a medida que aumenta el número de capas en la red, cada capa abstrae la capa anterior más profundamente. Cada capa de neuronas aprende una representación más abstracta de los valores de las neuronas en la capa anterior.La red neuronal de tres capas también se denomina red neuronal de dos capas ocultas，MLP de tres capas es: $W_3 \sigma (0,W_2 \sigma (0,W_1 x + b_1 ) + b_2 )$ , donde $\sigma$ es la función de activación.
tres pisos

2.1 Parámetros de red

Parámetro: se refiere al algoritmo que ejecuta iteraciones y corrige el valor estable final.

Hiperparámetros: estructura de la red: la cantidad de neuronas en la capa oculta, la cantidad de capas de la red, selección de unidades no lineales, etc.
Relacionado con la optimización: tasa de aprendizaje, tasa de abandono, fuerza del término de regularización, etc.

2.2 Optimización de hiperparámetros

Método de búsqueda de cuadrícula :

① Tome varios valores para cada hiperparámetro y combine estos valores de hiperparámetros para formar varios conjuntos de hiperparámetros; ② Evaluar el
rendimiento del modelo de cada grupo de hiperparámetros en el conjunto de validación;
③ Seleccionar el conjunto de valores utilizados por el modelo con el mejor rendimiento como valor final del hiperparámetro.

Método de búsqueda aleatoria :

① Seleccionar aleatoriamente puntos en el espacio de parámetros, y cada punto corresponde a un conjunto de hiperparámetros;
② Evaluar el desempeño del modelo de cada conjunto de hiperparámetros en el conjunto de verificación;
③ Seleccionar el conjunto de valores utilizados por el modelo con el mejor rendimiento como el valor final de los hiperparámetros.
inserte la descripción de la imagen aquí
Estrategia de búsqueda de hiperparámetros :

①Búsqueda gruesa: use el método aleatorio para muestrear hiperparámetros en un amplio rango, entrene para un ciclo y reduzca el rango de hiperparámetros según la precisión del conjunto de verificación.
②Búsqueda fina: use el método aleatorio para muestrear hiperparámetros dentro del rango reducido mencionado anteriormente, ejecute el modelo durante cinco a diez ciclos y seleccione el conjunto de hiperparámetros con la mayor precisión en el conjunto de verificación.
inserte la descripción de la imagen aquí

3. Optimización de MLP

Factores no lineales: alrededor de la función de activación, para aumentar la tasa de cálculo, la función de activación debe ser desintegrada, desdiferenciada y fácil de obtener derivadas parciales, para resolver los problemas de desaparición de gradiente y explosión de gradiente;

Actualización iterativa: actualice los pesos y los sesgos en torno a la retropropagación, la selección de la función de pérdida, la selección del optimizador, la estrategia de disminución de la tasa de aprendizaje, etc.;

Red troncal: cuántas capas se deben configurar en la red y cuántos nodos debe tener cada capa.

Lo anterior es el principio del modelo MLP de dos capas y N capas (tomando tres capas como ejemplo).Para la optimización de MLP, puede consultar la optimización y mejora de la red neuronal completamente conectada en esta columna.

Principio de modelo de red neuronal completamente conectado de dos capas y N capas