Optimización de Redes Neuronales Totalmente Conectadas

prefacio
1. Desaparición de gradiente
2. Explosión de gradiente
- 2.1 Recorte de umbral fijo
- 2.2 Medido según la norma del parámetro
3. Función de pérdida
4. Optimización de descenso de gradiente
5. Normalización de lotes
6. Overfitting y underfitting
7. Lidiando con el sobreajuste

prefacio

Después de comprender la red completamente conectada desde el concepto hasta los diferentes niveles, finalmente es necesario realizar varios entrenamientos en los datos que ingresamos a través de la red neuronal para obtener resultados ideales. Factores no lineales en el proceso de entrenamiento: desintegración de funciones de activación, desdiferenciación, desaparición de gradientes y explosión de gradientes, problemas como la normalización de lotes, la selección de funciones de pérdida, el sobreajuste y la deserción, la regularización del modelo, etc., deben optimizarse continuamente. detección continua, este artículo resumirá estos puntos.
inserte la descripción de la imagen aquí

1. Desaparición de gradiente

Desaparición del gradiente: dado que el gradiente se multiplica durante la retropropagación, si el gradiente local es demasiado pequeño, se producirá el problema de la desaparición del gradiente durante la retropropagación, lo que eventualmente conducirá a la actualización de $W$ , es decir, después de cada actualización del gradiente, el peso inicial básicamente no cambia.
Cómo elegir la función de activación para el problema de desaparición de gradiente?
①El valor máximo de la derivada de la función de activación de Sigmoid es 0,25 , que es muy pequeño. Suponiendo que la capa oculta tiene 100 capas, y los resultados de la derivación de Sigmoid son todos 0,1, el gradiente será de 0,1 elevado a la centésima potencia cuando el gradiente se propaga hacia atrás, lo que hace que el gradiente sea más pequeño y cercano a 0. De manera similar, la función de activación de tanh tiene el mismo problema, pero la función de activación de tanh converge más rápido que sigmoide.
②La pendiente de la función ReLu es 1 cuando es mayor que 0, lo que resuelve el problema de la eliminación del gradiente, porque la k-ésima potencia de 1 sigue siendo 1, pero cuando es menor que 0, la pendiente se convierte en 0. En este tiempo, cuando se actualiza el peso, la actualización se detiene.
Menos de 0 para dejar de actualizar
Ventajas : proporciona inhibición unilateral porque la red neuronal está completamente conectada y tiene un problema de sobreajuste, y la conexión que deja de actualizarse puede aliviar el problema de sobreajuste.
Desventaja : la información de esta neurona ya no se puede transmitir, porque W se ha convertido en un valor fijo en este momento, lo que provoca que la neurona muera y pierda algunos enlaces.
③Leaky ReLu: cuando es menor que 0, continuará actualizando el peso, pero no es continuo en 0 porque no hay un valor derivado en 0.

2. Explosión de gradiente

Los gradientes explosivos se deben a la naturaleza multiplicativa de la regla de la cadena.
Explosión de gradiente: después de que el gradiente en el acantilado se multiplique por la tasa de aprendizaje, será un valor muy grande, por lo que "volará" fuera del área razonable y, finalmente, el algoritmo no convergerá.
inserte la descripción de la imagen aquí
Solución :
1. Establezca el valor de la tasa de aprendizaje en un valor menor.
2. Recorte de degradado.

2.1 Recorte de umbral fijo

Establezca el umbral, cuando el gradiente es menor o mayor que el umbral, el gradiente actualizado es el umbral. como muestra la imagen:
inserte la descripción de la imagen aquí
Pero es difícil encontrar un umbral adecuado

2.2 Medido según la norma del parámetro

Recorte la norma L2 del gradiente, es decir, la suma cuadrada de las derivadas parciales de todos los parámetros y luego la raíz cuadrada.
inserte la descripción de la imagen aquí

3. Función de pérdida

3.1 Softmax

en la puntuación de cada categoría $La función exponencial e$ se transforma y luego se normaliza (la puntuación de cada categoría se divide por la suma de las puntuaciones de todas las categorías), y finalmente se genera el valor de probabilidad de cada categoría.
inserte la descripción de la imagen aquí

3.2 Pérdida de entropía cruzada

El concepto de entropía: Un entendimiento simple es reflejar la cantidad de información. Cuando un evento es muy cierto, significa que no hay cantidad de información. Cuando los valores de probabilidad de cada posibilidad del evento son iguales, la entropía es el más grande en este momento.
inserte la descripción de la imagen aquí
Cómo medir la diferencia de dos distribuciones aleatorias?
Solo cuando la distribución real está en forma one-hot, la entropía cruzada y la entropía relativa son iguales, pero cuando la distribución real no está en forma one-hot, se debe seleccionar la entropía relativa para comparar la diferencia entre las dos.

3.3 Pérdida de entropía cruzada y pérdida de máquina de vector de soporte multiclase

①La lógica de cálculo es diferente, la pérdida de máquina de vector de soporte multiclase se enfoca en si el puntaje de la categoría correcta es más alto que el puntaje de cada categoría, y la pérdida de entropía cruzada es la diferencia entre el valor de probabilidad de cada categoría medida y el valor real.
②La pérdida de entropía cruzada requiere que el puntaje de la categoría real no solo sea mayor que otras categorías, sino que también requiere que la probabilidad de la categoría real sea mayor que otras categorías.

4. Optimización de descenso de gradiente

4.1 Método de la cantidad de movimiento

inserte la descripción de la imagen aquí
El método de cantidad de movimiento reduce la vibración al acumular velocidad y también tiene la capacidad de encontrar una mejor solución:
Fenómeno : la función de pérdida a menudo tiene un mínimo local incorrecto o un problema
con el algoritmo de descenso del gradiente del punto de silla : el gradiente entre el mínimo local y el el punto de silla es 0, el algoritmo no puede pasar. Ventajas del método de impulso : debido a la existencia de impulso, el algoritmo puede romper el punto mínimo local y el punto de silla para encontrar una mejor solución.

inserte la descripción de la imagen aquí

4.2 Método de gradiente adaptativo

El método de gradiente adaptativo reduce el impacto al reducir el tamaño del paso en la dirección de oscilación y aumentar el tamaño del paso en la dirección plana, y acelera la dirección hacia el fondo del valle.
Cómo distinguir la dirección oscilante de la dirección planaRespuesta
: La dirección con el cuadrado mayor de la magnitud del gradiente es la dirección de oscilación, la dirección con el cuadrado menor de la magnitud del gradiente es la dirección plana.
inserte la descripción de la imagen aquí
Pero AdaGrad tiene una desventaja, $El$ valor r conducirá a un tamaño de paso pequeño a medida que aumenta el número de iteraciones, por lo que no puede moverse y pierde el significado de ajuste. El método RMSProp, mejorado en AdaGrad, multiplica uncoeficientemenor a 1
inserte la descripción de la imagen aquí

4.3 Adán

Usando ideas de impulso y gradiente adaptativo al mismo tiempo, el paso de corrección puede aliviar en gran medida el problema de arranque en frío al comienzo del algoritmo..
Cuando comienza a actualizar los pesos por primera vez, si usa $v$ , el tamaño del paso es 0.1 $g$ , el tamaño del paso es demasiado pequeño y la actualización del peso es lenta. Si usa la $\tilde v$ , el tamaño del paso es 1 $g$ . Al iterar más de 10 veces, $tu$ de $La potencia de t$ será muy pequeña y perderá su efecto.En este momento, la $\tilde v$ aproximadamente igual a $v$ .
inserte la descripción de la imagen aquí

5. Normalización de lotes

inserte la descripción de la imagen aquí

6. Overfitting y underfitting

Overfitting : Se refiere al fenómeno de que el modelo seleccionado durante el aprendizaje contiene demasiados parámetros, por lo que el modelo predice bien los datos conocidos, pero predice mal los datos desconocidos. En este caso, el modelo puede simplemente memorizar los datos del conjunto de entrenamiento en lugar de aprender las características de los datos.
Underfitting : el modelo es demasiado descriptivo para aprender bien los patrones en los datos. El desajuste generalmente es causado por un modelo que es demasiado simple.

7. Lidiando con el sobreajuste

La solución óptima: obtenga más datos de entrenamiento.
Solución subóptima: ajustar la cantidad de información que el modelo permite almacenar o imponer restricciones a la información que el modelo permite almacenar.Este tipo de método se denomina regularización.

7.1 Regularización L2

La regularización L2 suaviza la interfaz del modelo y no genera interfaces más complejas.
inserte la descripción de la imagen aquí

7.2 Decadencia de peso

El propósito de reducir la capacidad del modelo se logra limitando el rango de valores de los parámetros.
inserte la descripción de la imagen aquí
$\ theta$ , menor
es el término regular para usar el método del multiplicador de Lagrange para resolverlo, luego la construcción:

y para $\lambda$ 和 $\theta$ Conociendo uno - puede resolver el otro, por lo que puede ser equivalente a:
inserte la descripción de la imagen aquí
λ $\lambda \to \infty$ , $w^* \to 0$ usa $\lambda$ para controlar $\theta$

Luego, el cálculo del gradiente y la actualización de los parámetros se convierten en :
inserte la descripción de la imagen aquí

cuando $\lambda \eta < 1$ , se logra la caída del peso

7.3 Desactivación aleatoria (método dropout)

Desactivación aleatoria : Dejar que las neuronas de la capa oculta no se activen con cierta probabilidad.
Método de implementación : durante el proceso de entrenamiento, el uso de Dropout para una determinada capa consiste en descartar aleatoriamente algunas salidas de la capa (el valor de salida se establece en 0), y estas neuronas descartadas parecen ser eliminadas por la red.
Tasa de abandono : es la proporción de características que se establecen en 0, generalmente en el rango de 0.2~0.5.
El abandono solo está habilitado durante el entrenamiento para ajustar los parámetros y no se usa durante la inferencia。
¿Por qué la desactivación aleatoria puede evitar el sobreajuste?①
La desactivación aleatoria reduce los parámetros de red involucrados en el cálculo cada vez que se actualiza el gradiente, lo que reduce la capacidad del modelo, por lo que puede evitar el sobreajuste.
② La desactivación aleatoria favorece la dispersión del peso, es decir, juega un papel de regularización, evitando así el sobreajuste.
③La desactivación aleatoria también es equivalente a la integración del modelo.La integración del modelo generalmente mejora la precisión y evita el sobreajuste.

Lo anterior es el intercambio de puntos que deben optimizarse en la red neuronal totalmente conectada. Los datos de la foto provienen de la visión artificial y el aprendizaje profundo del profesor Lu Peng de la Universidad de Correos y Telecomunicaciones de Beijing.

Optimización de Redes Neuronales Totalmente Conectadas

Optimización de Redes Neuronales Totalmente Conectadas

prefacio

1. Desaparición de gradiente

2. Explosión de gradiente

2.1 Recorte de umbral fijo

2.2 Medido según la norma del parámetro

3. Función de pérdida

3.1 Softmax

3.2 Pérdida de entropía cruzada

3.3 Pérdida de entropía cruzada y pérdida de máquina de vector de soporte multiclase

4. Optimización de descenso de gradiente

4.1 Método de la cantidad de movimiento

4.2 Método de gradiente adaptativo

4.3 Adán

5. Normalización de lotes

6. Overfitting y underfitting

7. Lidiando con el sobreajuste

7.1 Regularización L2

7.2 Decadencia de peso

7.3 Desactivación aleatoria (método dropout)

Supongo que te gusta