Principio de modelo de red neuronal completamente conectado de dos capas y N capas

prefacio

  El aprendizaje profundo consiste en aprender las leyes internas y los niveles de representación de datos de muestra.La información obtenida durante el proceso de aprendizaje es de gran ayuda para la interpretación de datos como texto, imágenes y sonidos. La red neuronal completamente conectada (MLP) es uno de los tipos de red básicos, que encarna completamente las características de los métodos de aprendizaje profundo en comparación con los algoritmos de aprendizaje automático tradicionales, a saber, la unidad de big data, la derivación de fórmulas, la actualización autoiterativa, el entrenamiento de caja negra, etc. Este artículo analizará y explicará MLP desde dos capas y más.

1. MLP de dos capas

  La diferencia entre una red neuronal de dos capas (superficiales) y una red de una sola capa es que la capa oculta tiene múltiples nodos neuronales, lo que le permite lidiar con el complejo problema de " entrada múltiple y salida múltiple ".

1.1 Propagación hacia adelante

y ( x , ancho ) = ancho x + segundo {\rm{y}}(x, ancho) = ancho x + segundoy (x,W )=ancho x+b
  dondexxx representa la imagen de entrada, su dimensión esddre ; yyy es un vector de puntuación cuya dimensión es igual al número de categoríascccW = [ w 1 ⋅ ⋅ ⋅ wc ] TW = [w_1 \cdot \cdot \cdot w_c ]^TW=[ w1wdo]T为权值矩阵,wi = [wi ⋅ ⋅ ⋅ ancho] T w_i = [w_i \cdot \cdot \cdot w_{id} ]^Twyo=[ wyowYo _]T es eliiEl vector de pesos de i categorías; b = [ bi ⋅ ⋅ ⋅ bc ] T b = [b_i \cdot \cdot \cdot b_c ]^Tb=[ segundoyobdo]T es el vector de sesgo,bi b_ibyopor segundoEl sesgo de i categorías, entonces el MLP de dos capas es
y = W 2 σ ( 0 , W 1 x + b 1 ) + b 2 y = W_2 \sigma (0,W_1 x + b_1 ) + b_2y=W2σ ( 0 ,W1X+b1)+b2, donde σ \sigmaσ es la función de activación

1.2 Retropropagación

  Lo que hace la retropropagación es dejar que cada neurona tenga un W y un b W y un bLos valores de W y b , es decir, el gradiente. De esta manera, cuando pasamos nuevos datos, podemos predecirlos con precisión y, por supuesto, también es una retroalimentación sobre los datos propagados desde cada capa. Cuando se retroalimentan los datos, la función de pérdida es el método de evaluación. A continuación se tomarácomo ejemplofunción de pérdida del error cuadrático medio

  损失函数: L ( y ^ , y ) = 1 2 ( y ^ i − y i ) 2 L(\hat y,y) = \frac{1}{2}(\hat y_i - y_i )^2 L (y^,y )=21(y^yoyyo)2

  梢度 名生: w 1 = w 0 − η re L ( w ) dwb 1 = segundo 0 − η re L ( segundo ) db \begin{array}{l}w_1 = w_0 - \eta \frac{ {dL( w ) }}{ {dw}} \\ \\ b_1 = b_0 - \eta \frac{ {dL(b)}}{ {db}}\\ \end{matriz}w1=w0eld wd L ( w )b1=b0elre bd L ( b )

  Entre ellos w 0 w_0w0y b 0 b_0b0es nuestro valor real actual, − η - \etaη esel tamaño del paso(cierto valor), cuandoLLL toma valor extremowww tiempo,w 1 w_1w1Es el valor obtenido por descenso de gradiente

  Cuando se reduce el gradiente de la función de pérdida, se debe resolver la regla de la cadena

d L ( a , y ) dw = d L ( a , y ) da ⋅ dadz ⋅ dzdw \frac{ { dL(a,y) }}{ {dw}} = \frac{ {dL(a,y)}}{ {da}} \cdot \frac{ {da}}{ {dz}} \cdot \frac{ {dz}}{ {dw}}d wd L ( un ,y )=d und L ( un ,y )dz _d und wdz _
  Deducción :
  Descenso del gradiente en   el resultado final
inserte la descripción de la imagen aquí
  de la regla de la cadena de la función de pérdida
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

2. MLP de N niveles

  Red neuronal completamente conectada de N capas: una red con N número de capas distintas de la capa de entrada.
  En una red neuronal, a medida que aumenta el número de capas en la red, cada capa abstrae la capa anterior más profundamente. Cada capa de neuronas aprende una representación más abstracta de los valores de las neuronas en la capa anterior.La red neuronal de tres capas también se denomina red neuronal de dos capas ocultas,MLP de tres capas es: y = W 3 σ ( 0 , W 2 σ ( 0 , W 1 x + b 1 ) + b 2 ) y = W_3 \sigma (0,W_2 \sigma (0,W_1 x + b_1 ) + b_2 )y=W3σ ( 0 ,W2σ ( 0 ,W1X+b1)+b2) , dondeσ \sigmaσ es la función de activación.
tres pisos

2.1 Parámetros de red

  Parámetro: se refiere al algoritmo que ejecuta iteraciones y corrige el valor estable final.

  Hiperparámetros: estructura de la red: la cantidad de neuronas en la capa oculta, la cantidad de capas de la red, selección de unidades no lineales, etc.
     Relacionado con la optimización: tasa de aprendizaje, tasa de abandono, fuerza del término de regularización, etc.

2.2 Optimización de hiperparámetros

  Método de búsqueda de cuadrícula :

    ① Tome varios valores para cada hiperparámetro y combine estos valores de hiperparámetros para formar varios conjuntos de hiperparámetros; ② Evaluar el
    rendimiento del modelo de cada grupo de hiperparámetros en el conjunto de validación;
    ③ Seleccionar el conjunto de valores utilizados por el modelo con el mejor rendimiento como valor final del hiperparámetro.

  Método de búsqueda aleatoria :

    ① Seleccionar aleatoriamente puntos en el espacio de parámetros, y cada punto corresponde a un conjunto de hiperparámetros;
    ② Evaluar el desempeño del modelo de cada conjunto de hiperparámetros en el conjunto de verificación;
    ③ Seleccionar el conjunto de valores utilizados por el modelo con el mejor rendimiento como el valor final de los hiperparámetros.
inserte la descripción de la imagen aquí
  Estrategia de búsqueda de hiperparámetros :

    ①Búsqueda gruesa: use el método aleatorio para muestrear hiperparámetros en un amplio rango, entrene para un ciclo y reduzca el rango de hiperparámetros según la precisión del conjunto de verificación.
    ②Búsqueda fina: use el método aleatorio para muestrear hiperparámetros dentro del rango reducido mencionado anteriormente, ejecute el modelo durante cinco a diez ciclos y seleccione el conjunto de hiperparámetros con la mayor precisión en el conjunto de verificación.
inserte la descripción de la imagen aquí

3. Optimización de MLP

  Factores no lineales: alrededor de la función de activación, para aumentar la tasa de cálculo, la función de activación debe ser desintegrada, desdiferenciada y fácil de obtener derivadas parciales, para resolver los problemas de desaparición de gradiente y explosión de gradiente;

  Actualización iterativa: actualice los pesos y los sesgos en torno a la retropropagación, la selección de la función de pérdida, la selección del optimizador, la estrategia de disminución de la tasa de aprendizaje, etc.;

  Red troncal: cuántas capas se deben configurar en la red y cuántos nodos debe tener cada capa.

  Lo anterior es el principio del modelo MLP de dos capas y N capas (tomando tres capas como ejemplo).Para la optimización de MLP, puede consultar la optimización y mejora de la red neuronal completamente conectada en esta columna.

Supongo que te gusta

Origin blog.csdn.net/m0_58807719/article/details/128156231
Recomendado
Clasificación