1.5 ¿Por qué ayuda regularización evitar un exceso de ajuste - profundidad de enseñanzas "Mejora de DNN" -Stanford profesor Andrew Ng

¿Por qué ayuda a prevenir la regularización sobreajuste que (¿Por qué regularización reduce sobreajuste?)

¿Por qué ayuda a prevenir la regularización exceso de ajuste que? Por lo que puede reducir la varianza del problema? Nos fijamos en dos ejemplos para comprender intuitivamente.

Aquí Insertar imagen Descripción

desviación izquierda es alta, la derecha es alta varianza, el medio es el justo derecho , que un par de fotos que hemos visto en lecciones anteriores.

Aquí Insertar imagen Descripción

Ahora nos centraremos en esta gran profundidad de colocación de redes neuronales. Sé que esta imagen no es lo suficientemente grande, no es suficiente profundidad, pero se puede imaginar esto es un exceso de ajuste de la red neuronal. Esta es nuestra función de coste J J , con parámetros w w , b si . Añadimos término de regularización, que evita matriz de ponderación excesiva de datos, esto es la norma de Frobenius, compresión por qué L 2 L2 norma o la norma o parámetros de Frobenius pueden reducir el exceso de montaje?

entender intuitivamente que si regularización λ \ lambda establece lo suficientemente grande, matriz de pesos w w se fija a un valor cercano a cero, es de entenderse que múltiples unidades de peso intuitivas ocultos se ponen a cero, eliminando así sustancialmente muchos de los efectos de estas unidades ocultas. Si este es el caso, esta red neural es muy simplificada se convierte en una red pequeña, tan pequeño como una unidad de regresión logística, pero la profundidad es grande, que hace que la red sea más accesible desde el estado exceso de ajuste izquierdo estado de alta sesgo.

pero λ \ lambda habrá un valor intermedio, a continuación, habrá una estrecha "el Justo derecho" estado intermedio.

comprensión intuitiva es λ \ lambda aumenta suficientemente grande, w w será cercano a cero, de hecho, esto no sucede, tratamos de eliminar o al menos reducir el impacto de un número de unidades ocultas, y en última instancia, la red será más simple, la red neuronal de regresión logística más cerca de nuestra intuición teniendo en cuenta que el gran número de unidades ocultas se elimina por completo, no es cierto, de hecho, todavía existen todas las unidades ocultas de la red neuronal, pero su influencia se ha vuelto aún más pequeño. red neuronal se vuelve más sencilla, aparentemente tan menos propenso a exceso de ajuste, así que no estoy seguro de si esta intuición es una experiencia útil, pero la implementación de regularización, que en realidad ver algunos resultados de reducción de la varianza en la programación.

Aquí Insertar imagen Descripción

sensación intuitiva de let, regularización qué puede evitar que un exceso de ajuste, suponemos que usamos es la activación de esta función hiperbólica.

Aquí Insertar imagen Descripción

uso g ( z ) g (z) denota t a n h ( z ) tanh (z) , que descubrió que si z de es muy pequeño, si z de implica sólo unos pocos parámetros, aquí usamos la función tangente hiperbólica de un estado lineal, siempre y cuando z de se puede extender a un valor tal más grande o un valor menor, se convirtió en función de activación no lineal.

Aquí Insertar imagen Descripción

Ahora usted debe abandonar esta intuición, si el parámetro de regularización λ l es grande, los parámetros de la función de activación será relativamente pequeño debido a que los parámetros de la función de costos en el más grande, si w w es pequeño,

Aquí Insertar imagen Descripción

si w w es pequeño, relativamente hablando, z de será pequeño.

Aquí Insertar imagen Descripción

En particular, si z de valores dentro de este rango, por último, es un valor relativamente pequeño, g ( z ) g (z) es sustancialmente lineal, cada uno son casi lineal, como función de regresión lineal.

Aquí Insertar imagen Descripción

Hablamos de la primera lección, si cada uno es lineal, entonces toda la red es una red lineal, incluso una red muy profunda subyacente, debido a las características de una función de activación lineal, y en última instancia sólo podemos calcular una función lineal, por lo no se aplica a una muy compleja la toma de decisiones, así como la frontera de decisión no lineal sobreajuste del conjunto de datos, como hemos visto en la diapositiva sobreajuste alta varianza.

Aquí Insertar imagen Descripción

En resumen, si el parámetro de regularización se hace grande, los parámetros w w es pequeño, z de será relativamente pequeño, esta vez haciendo caso omiso b si impacto, z de será relativamente pequeño, de hecho, z de varía de la función pequeña, la activación, es decir, una función de la curva de t a n h sospechoso puede ser relativamente lineal, casi la totalidad de la red neuronal calcula el valor de la función fuera de línea, la función lineal es muy simple, no es una función no lineal muy complejo de la altura del accesorio no sucede.

Nos damos cuenta de regularización de la programación de las tareas en el tiempo, será testigo de estos resultados, resumidos regularización antes, te voy a dar una pequeña sugerencia de aplicación, al tiempo que aumenta término de regularización, antes de la aplicación de la definición de la función de coste J J , que modificó, añadir un objeto prevenir el exceso de peso.

Aquí Insertar imagen Descripción

Si está utilizando al deterioro de la función de descenso de gradiente en la depuración de gradiente, un paso es función de coste J J está diseñado para tal función a, al depurar descenso de gradiente, AM representa el número de descenso de gradiente. Puede ser visto, la función de coste para cada amplitud están disminuyendo monotónicamente descenso de gradiente. Si implementa una función de regularización, tener en cuenta, J J ya tiene una nueva definición. Si utiliza la función original J J , que es el primer término elemento de regularización, que no puede ver monótonamente decreciente fenómeno, con el fin de descenso de gradiente de depuración, asegúrese de usar el recién definido J J función, que contiene el segundo término de regularización, de lo contrario la función de J J puede no todas tienen un monótonamente decreciente en rango de amplitud.

es L 2 L2 regularización, es mi modelo de formación aprendizaje profundo método más comúnmente utilizado. En un estudio a fondo, hay un método también utilizado en la regularización esla deserciónde regularización, se reitera que la siguiente lección.

Por supuesto PPT

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

Publicados 186 artículos originales · ganado elogios 7 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/weixin_36815313/article/details/105389842
Recomendado
Clasificación