Regularización - penalización de norma de parámetro

1. Regularización de parámetros L2
2. Regularización de parámetros L1
3. Penalización de norma de parámetro

regularizaciónLa definición de: "Una modificación del algoritmo de aprendizaje, dirigida a reducir el error de generalización en lugar del error de entrenamiento."
Comprensión intuitiva: la regularización es una estrategia utilizada para reducir el sobreajuste del modelo.

Lo que sigue es uno de los métodos más comunes de regularización - $L^1 sobre el peso del modelo$ y $L ^ 2$ regularización.
Así llamado $L ^ 1$ y $L ^ 2$ regularización, en realidad usa $L^1$ y $L ^ 2$ norma, para normalizar los parámetros del modelo (peso $w$ ) de un método.

Norma, podemos entenderlo como una extensión del concepto de distancia entre dos puntos en el espacio. Por ejemplo peso $w$ , es un vector de alta dimensión, y también puede entenderse como un punto en el espacio.La distancia de este al origen, si es la distancia de Manhattan, es L 1 L^ $L^{1}$ norma, si es distancia euclidiana, es $L^2$ norma.

$L ^ 0$ norma: el número de elementos distintos de cero en el vector.

$L ^ 1$ 范数： $W||_1 = |w_1| + |w_2| + ... + |w_i|$ (distancia Manhattan)

$L ^ 2$ 范数： $||W||_2 = \sqrt{|w_1|^2 + |w_2|^2 + ... + |w_i|^2}$ (Distancia euclidiana)

lo que realmente provoca el problema de sobreajuste $w$ , por simplicidad, en la siguiente discusión, solo nos enfocamos en $w$ _

1. Regularización de parámetros L2

$L ^ 2$ parámetros a menudo se denominacaída de pesoy funciona agregando un término de regularización $\Omega(\theta) = \frac{1}{2}||\pmb{w}||^2_2 a la función objetivo$ , acercando los pesos al origen.

Así que aquí viene la pregunta: $L^2$ parámetros se llama decaimiento de peso? ¿Cómo atenuó el peso?

Función de pérdida: $J(\pmb{w}, b)$
Actualización del peso: $\pmb{w} = \pmb{w} -\epsilon\cdot\bigtriangledown_w{J(\pmb{w})}$
Para la función de pérdida $J (W, b)$ , queremos encontrar un conjunto de parámetros $(\pmb{w}^*, b^*)$ 来 minimizar $J(\pmb{w}, b)$ _

Por simplicidad, solo consideramos el peso $w$ , entonces la función objetivo del modelo es:
$\widetilde{J}(\pmb{w}; \pmb{X}, \pmb{y}) = \frac{\alpha}{2}w^Tw + J(\pmb{w}; \pmb{X}, \pmb{y })$ donde, $\alpha \in [0, \infty)$ se llamatasa de descomposición, es el término de penalización de la norma de compensación $\Omega$ y función objetivo estándarHiperparámetros para la contribución relativa de $J.$ será $\alpha$ se establece en 0 para indicar que no hay regularización; $\alpha$ , mayor será la sanción de regularización correspondiente. Durante el proceso de solución, escalamos el término de penalización $\Omega$ Hiperparámetro $\alpha$ $de Ω$ $α$ para controlar $L^2$ La fuerza de la caída del peso.

El gradiente correspondiente a la función objetivo es: $\bigtriangledown_w\widetilde{J}(\pmb{w}; \pmb{X}, \pmb{y}) =\alpha w + \bigtriangledown_wJ(\pmb{w}; \pmb{X} , \pmb{y})$

Use el descenso de gradiente de un paso para actualizar los pesos: $\leftarrow w - \epsilon(\alpha w + \bigtriangledown_wJ(\pmb{w}; \pmb{X}, \pmb{y}))$
可种写法是： $\leftarrow (1 - \epsilon\alpha)w - \epsilon\bigtriangledown_wJ(\pmb{w}; \pmb{X}, \pmb{y})$

Podemos ver que la adición de la disminución de peso provocará la modificación de las reglas de aprendizaje, y el vector de peso se reducirá antes de que se realice cada actualización de gradiente.

De esta forma, para la atenuación del peso, podemos entenderlo intuitivamente como: la atenuación del peso consiste en agregar algunos elementos de penalización para castigar el peso y castigar un poco por cada aprendizaje, para que el peso no sea demasiado grande.

La introducción anterior es $L^2$ La influencia de la regularización en los pesos en el descenso de gradiente de un solo paso, entonces, ¿qué tipo de influencia tendrá en el proceso general de entrenamiento?
En primer lugar, debemos aclarar nuestro objetivo.Nuestro objetivo es controlar los parámetros para que el valor del parámetro no sea demasiado grande. Siguiendo esta línea de pensamiento, podemos dar $w$ define un dominio factible, sea $W$ toma valores en esta zona.

Región factible: $||\pmb{w}||_2 - C \leq 0$ (es decir, $\pmb{w}$ en el espacio al origen es $\leq C$ 's. )

A continuación, entendemos $L^2$ desde la perspectiva del método del multiplicador de Lagrange $L^{2}$ El efecto de la regularización en el proceso formativo global.
Podemos escribir la función objetivo como: $\widetilde{J}(\pmb{w},\lambda) = J(\pmb{w}) + \lambda(||\pmb{w}||_2 - C)$

En esta figura, la línea roja es la línea de contorno de la función de pérdida, y la línea verde es lo que le damos a El rango de dominio factible definido por $w .$

en la función objetivo $C$ determina el peso que le damos aEl tamaño del rango de dominio factible definido por $w ;$
$\lambda$ es el multiplicador de Lagrange, y su función es ajustar el gradiente correspondiente a la condición de restricción para que sea igual al gradiente de la función de pérdida.

De esta imagen podemos ver claramente que a través de $L^2$ norma para limitar los pesosEl rango de valores de $w$ $El valor de w$ es demasiado grande para reducir el fenómeno de sobreajuste del modelo.

Porque $L ^ 2$ es un conjunto convexo, y el método de descenso de gradiente también es un método de optimización convexo, por lo que usamos $L^2$ norma par $w$ está restringido, el problema que queremos resolver sigue siendo un problema de optimización convexo.

Podemos pensar en la penalización de la norma del parámetro como una restricción impuesta a los pesos.
Supongamos que encontramos el valor óptimo de la tasa de decaimiento $\alpha ^*$ , por lo general no conocemos el coeficiente de decaimiento del peso (es decir, la tasa de decaimiento $\alpha ^*$ ) tamaño de región restringido, porque $\alpha ^*$ no puede decirnos directamentevalor de $c$ En principio podemos resolver $C$ , pero $C$ y $\alpha ^*$ La relación entre depende deforma de $j$
Aunque no conocemos el tamaño exacto de la región restringida, se puede determinar aumentando o disminuyendo $\alpha$ para expandir o contraer aproximadamente la región restringida. $\alpha$ más grande $α$ , obtendrá una región restringida más pequeña, $\alpha$ , se obtendrá una región restringida más grande.
A veces queremos usar límites explícitos en lugar de penalizaciones. Por ejemplo, podemos modificar el algoritmo de descenso (como el algoritmo de descenso de gradiente estocástico) para que primero calcule $J(\theta)$ , entonces $\theta$ se proyecta para satisfacer $\Omega(\theta) < C$ El punto más cercano de $C.$ Si sabemos qué tipo de $C$ es adecuado, y no quiero perder el tiempo buscando $\ alfa$ de $C$ $valor alfa$ , esto puede ser muy útil.

Extracto de la Sección 7.2 de "Aprendizaje profundo"

2. Regularización de parámetros L1

con $L ^ 2$ La regularización es similar, usando $L^1$ Cuando la regularización decae el peso, también escalamos el término de penalización $\Omega$ Hiperparámetro $\alpha$ $de Ω$ $α$ para controlar $L^1$ La fuerza de la caída del peso.
Término de penalización $\Omega$ se puede expresar como: $\Omega = ||w||_1 = \sum|w_i|$

La función objetivo del modelo se puede expresar como:
$\widetilde{J}(\pmb{w}; \pmb{X}, \pmb{y}) = \alpha ||\pmb{w}||_1 + J(\pmb{w}; \pmb{X}, \ pmb{ y})$

Gradiente correspondiente: (en realidad subgradiente)
$\bigtriangledown_w\widetilde{J}(\pmb{w}; \pmb{X}, \pmb{y}) =\alpha sign(\pmb{w}) + \bigtriangledown _wJ(\pmb{w}; \p mb{X}, \pmb{y})$ donde $signo(\pmb{w})$ simplemente tomaEl signo de cada elemento de $w .$

Use el descenso de gradiente de un paso para actualizar los pesos: $\leftarrow w - \epsilon(\alpha sign(\pmb{w}) + \bigtriangledown_wJ(\pmb{w}; \pmb{X}, \pmb{y})$
可种写法是： $\leftarrow w - \epsilon\alpha sign(\pmb{w}) - \epsilon\bigtriangledown_wJ(\pmb{w}; \pmb{X}, \pmb{y})$

Podemos ver que $L^1$ El efecto de la regularización y $L^2$ no es lo mismo, $L^2$ La regularización es $w$ escala linealmente, y $L^1$ regularización es agregar un $sign(\pmb{w})$ constantes del mismo signo.

Los modelos lineales simples tienen una función de costo cuadrática, que podemos representar mediante la serie de Taylor.
Suponemos que el gradiente correspondiente a la función objetivo es la etapa de la serie de Taylor que se aproxima a la función de costo de un modelo más complejo, entonces el gradiente se puede escribir como: ▽ w J ~ ( w ) = H ( w − w ∗ ) \bigtriangledown_w\widetilde{J}(\pmb{w}) = H(w - w^* $▽ j (w w) = alto (ancho - w^{*})$
Entre ellos, $H$ es la función de pérdida $J$ en $w ^ *$ La matriz hessianaen $^{*}$ .

Suponemos que la arpillera es diagonal y que los datos de entrada del modelo se han procesado previamente para eliminar la correlación entre las características de entrada. Entonces podemos simplemente poner $L^1$ La aproximación cuadrática de la función objetivo regularizada se descompone en una suma sobre los parámetros:
$\widetilde{J}(\pmb{w}; \pmb{X}, \p mb{y}) =J(\ pmb{w}^*; \pmb{X}, \pmb{y}) + \sum[\frac{1}{2}H_{i,i}(w_i + w^*_i)^2 + \alpha|w_i|]$
La solución analítica de la función (para cada dimensión $i$ ）可以表示为：
$w_i = signo(w^*_i)max(|w^*_i| - \frac{\alpha}{H_{i,i}}, 0)$
Hay dos resultados posibles:

$|w^*_i| - \frac{\alpha}{H_{i,i}} \leq 0$ $w_i$ en la función objetivo después de la regularización $w$ El valor óptimo de es $w_i = 0$ , $L^1$ plazo de regularización will $w_i$ empujado a 0, de modo que el $Las contribuciones de las funciones i$ se cancelarán.
$|w^*_i| - \frac{\alpha}{H_{i,i}} \geq 0$ , $L ^ 1$ El plazo de regularización no cambiará $w_i$ empujado a 0, pero solo en $w_i$ Muévete en la dirección de $\frac{\alpha}{H_{i,i}}$ distancia.

De esta manera, después de $L^1$ Después de la regularización obtendremos una solución másescasa(escasa), por lo que $L^1$ La regularización también se usa ampliamente ende características.

A continuación, analizamos $L^1$ La influencia de la regularización en el proceso global de formación:
con $L^2$ La regularización es similar, damos $w$ define un dominio factible, sea $W$ toma valores en esta zona.

Región factible: $||\pmb{w}||_1 - C \leq 0$ (es decir, $\pmb{w}$ en el espacio al origen es $\leq C$ 's. )

En esta figura, la línea roja es la línea de contorno de la función de pérdida, y la línea verde es lo que le damos aEl rango de dominio factible definido por $w .$

De esta figura también podemos ver que $L^1$ Regularización El punto donde el rango definido por el parámetro es tangente a la línea de contorno de la función de pérdida es más probable que esté en el eje de coordenadas, lo que hará que el peso sea $Algunos elementos de w$ tienen valores, y algunos elementos son 0, lo que hará que solo funcione una parte de las funciones de entrada, no todas las funciones.

3. Penalización de norma de parámetro

Para resumir la discusión anterior: la estrategia de regularización basada en la norma de parámetro penalización se pasa a la función objetivo $JAgregar$ un término de penalización $\Omega(\theta)$ para limitar la capacidad de aprendizaje del modelo, reduciendo así la aparición del fenómeno de sobreajuste.
Denotamos la función objetivo regularizada como $\widetilde{J}$ :
$\widetilde{J}(\pmb{w}; \pmb{X}, \pmb{y}) = J(\pmb{w}; \pmb{X}, \pmb{y}) + \alpha\Omega(\theta)$ entre ellos, $\alpha \in [0, \infty)$ se denomina tasa de atenuación, que es el término de penalización de la norma de compensación $\Omega$ y función objetivo estándarHiperparámetros para la contribución relativa de $J.$ será $\alpha$ se establece en 0 para indicar que no hay regularización; $\alpha$ , mayor será la sanción de regularización correspondiente. Durante el proceso de solución, escalamos el término de penalización $\Omega$ Hiperparámetro $\alpha$ $de Ω$ $α$ para controlar $L^2$ La fuerza de la caída del peso.

En el caso de las redes neuronales, a veces es deseable usar una penalización separada para cada capa y asignar un $\alpha diferente$ . Dado que encontrar los hiperparámetros múltiples correctos es costoso, para reducir el espacio de búsqueda usamos el mismo decaimiento de peso en todas las capas.

Regularización - penalización de norma de parámetro

Regularización - penalización de norma de parámetro

1. Regularización de parámetros L2

2. Regularización de parámetros L1

3. Penalización de norma de parámetro

Supongo que te gusta