Notas de aprendizaje automático (4) Generalización del modelo, sobreajuste y ajuste insuficiente, regularización L1, regularización L2

1. Overfitting y underfitting


  • El modelo entrenado por el algoritmo de ajuste insuficiente no puede expresar completamente la relación de datos
    inserte la descripción de la imagen aquí

  • El modelo entrenado por el algoritmo de sobreajuste de sobreajuste
    expresa demasiada relación de ruido entre los datos
    inserte la descripción de la imagen aquí

2. Curva de aprendizaje

Curva de aprendizaje: tome el número de muestras de entrenamiento como la abscisa, y tome el puntaje promedio y el intervalo de puntaje del modelo en las muestras de entrenamiento y las muestras de validación cruzada como la ordenada, y la curva dibujada es la curva de aprendizaje.
inserte la descripción de la imagen aquí


  • El entrenamiento y la prueba de la curva de aprendizaje insuficiente finalmente se estabilizaron en una posición más grande
    inserte la descripción de la imagen aquí
  • La mejor curva de aprendizaje
    entrena y prueba finalmente estabilizada en una posición pequeña
    inserte la descripción de la imagen aquí

  • Entrenamiento y prueba de la curva de aprendizaje de sobreajuste La desviación final de la posición estable es grande
    inserte la descripción de la imagen aquí

3. División de datos

  • Conjunto de entrenamiento
    El conjunto de datos utilizado para entrenar los parámetros internos del modelo Classfier se ajusta directamente de acuerdo con el conjunto de entrenamiento para obtener mejores resultados de clasificación.

  • El conjunto de verificación
    se utiliza para probar el estado y la convergencia del modelo durante el proceso de entrenamiento. El conjunto de validación generalmente se usa para ajustar hiperparámetros, y se determina qué conjunto de hiperparámetros tiene el mejor rendimiento en función del rendimiento de varios conjuntos de modelos en el conjunto de validación.
    Al mismo tiempo, el conjunto de verificación también se puede usar para monitorear si el modelo se está sobreajustando durante el proceso de entrenamiento. En términos generales, después de que el rendimiento del conjunto de verificación sea estable, si continúa entrenando, el rendimiento del conjunto de entrenamiento seguirá aumentando, pero el conjunto de verificación no aumentará sino que disminuirá, por lo que generalmente se produce un sobreajuste.

  • Conjunto de prueba
    El conjunto de prueba se usa para evaluar la capacidad de generalización del modelo, es decir, el modelo anterior usa el conjunto de verificación para determinar los hiperparámetros, usa el conjunto de entrenamiento para ajustar los parámetros y finalmente usa un conjunto de datos que nunca ha sido visto para juzgar si el modelo está funcionando.

  • La diferencia entre las tres
    imágenes es que el conjunto de entrenamiento es como el libro de texto de un estudiante. Los estudiantes dominan el conocimiento basado en el contenido del libro de texto. El conjunto de verificación es como la tarea. A través de la tarea, puede conocer la situación de aprendizaje de diferentes estudiantes y el velocidad de progreso La prueba final El conjunto es como un examen. Las preguntas en el examen nunca se han visto antes, y se prueba la capacidad de los estudiantes para sacar inferencias de una instancia.

  • ¿Por qué necesitamos un conjunto de prueba?
    El conjunto de entrenamiento participa directamente en el proceso de ajuste del modelo, y obviamente no puede usarse para reflejar la verdadera capacidad del modelo. De esta manera, algunos estudiantes que memorizan libros de texto de memoria (sobreajuste) tendrán las mejores notas, lo que obviamente está mal. De la misma manera, dado que el conjunto de verificación participa en el proceso de ajuste manual (hiperparámetros), no puede usarse para juzgar un modelo al final, al igual que los estudiantes que rozan el banco de preguntas no pueden ser considerados buenos estudiantes, ¿verdad? Por lo tanto, es necesario aprobar el examen final (conjunto de pruebas) para examinar la capacidad real de un estudiante (modelo) estudiante (tipo).

Sin embargo, obviamente no es razonable juzgar la calidad del modelo por una sola prueba, por lo que el método de validación cruzada se presentará a continuación.

inserte la descripción de la imagen aquí

4. Validación cruzada

La llamada validación cruzada es seleccionar una cierta proporción de datos como muestras de entrenamiento y otras muestras como muestras reservadas. Ahora obtenga la ecuación de regresión en las muestras de entrenamiento y luego haga predicciones sobre las muestras reservadas. Dado que la muestra reservada no implica la elección de los parámetros del modelo, puede obtener estimaciones más precisas que los nuevos datos.
inserte la descripción de la imagen aquí

  1. Validación cruzada de k-pliegues
    Divida el conjunto de datos de entrenamiento en k partes, lo que se denomina validación cruzada de k-pliegues.La desventaja es que se entrenan cada k modelos, lo que equivale a un rendimiento general k veces más lento.
  2. El método Leave-One LOO-CV
    divide el conjunto de datos de entrenamiento en m puntos, lo que se denomina Validación cruzada Leave-One- Out
    .
    : La mayor cantidad de cálculo

5. Compensación de la varianza del sesgo

  • El sesgo
    describe la diferencia entre el valor esperado del valor predicho y el valor real. Cuanto mayor sea la desviación, más se desvía de los datos reales, como se muestra en la segunda fila de la figura a continuación.
    Causa principal del sesgo: suposiciones incorrectas sobre el problema en sí. Tome una castaña: la regresión lineal se usa para datos no lineales, que generalmente se comportan como subajustes.
  • La varianza
    describe el rango de variación del valor predicho, el grado de dispersión, es decir, la distancia desde el valor esperado. Cuanto mayor sea la varianza, más dispersa será la distribución de datos, como se muestra en la columna derecha de la siguiente figura. Una pequeña perturbación de los datos puede afectar en gran medida al modelo. Por lo general, el modelo utilizado es demasiado complejo. Como la regresión polinomial de alto orden, generalmente manifestada como sobreajuste.
    inserte la descripción de la imagen aquí

Hay algunos algoritmos que son inherentemente algoritmos de alta varianza. Como kNN. El aprendizaje no paramétrico suele ser un algoritmo de alta varianza. Porque no se hacen suposiciones sobre los datos. Hay algunos algoritmos que son inherentemente algoritmos de alto sesgo. Como la regresión lineal. El aprendizaje de parámetros suele ser un algoritmo de alto sesgo. Debido a suposiciones extremadamente fuertes sobre los datos. La mayoría de los algoritmos tienen parámetros correspondientes que pueden ajustar el sesgo y la varianza, como k en kNN. El sesgo y la varianza son a menudo contradictorios. La disminución del sesgo aumenta la varianza. Disminuir la varianza aumenta el sesgo. ¡El principal desafío del aprendizaje automático proviene de la variación! Medios comunes para lidiar con una alta varianza:

  1. Reducir la complejidad del modelo
  2. Reduzca la dimensionalidad de los datos; elimine el ruido
  3. Aumentar el número de muestras
  4. Usar el conjunto de validación
  5. Regularización de modelos

6. Modelo de regularización Regularización

En términos simples, la regularización es un comportamiento para reducir el error de prueba. Cuando construimos un modelo de aprendizaje automático, el objetivo final es hacer que el modelo funcione bien cuando se enfrenta a nuevos datos. Cuando utiliza un modelo más complejo, como una red neuronal para ajustar los datos, es fácil sobreajustarlo (el conjunto de entrenamiento funciona bien y el conjunto de prueba funciona mal), lo que conducirá a una disminución en la capacidad de generalización del modelo. En este momento, necesitamos usar la regularización para reducir la complejidad del modelo. En regresión lineal si el parámetro θ \thetaSi θ es demasiado grande y hay demasiadas características, fácilmente se producirá un sobreajuste, como se muestra en la siguiente figura:
inserte la descripción de la imagen aquí

6.1 Regularización

La aparición de la regresión de cresta y la regresión de Lasso es para resolver el problema del ajuste excesivo y lograr el objetivo mediante la introducción de elementos de regularización en la función de pérdida. En las tareas diarias de aprendizaje automático, la regresión de cresta se usó por primera vez para tratar el caso de una gran cantidad de características y muestras, y ahora también se usa para agregar sesgo a la estimación para obtener una mejor estimación. Aquí al introducir λ \lambdaλ limita todoθ 2 \theta^2i2 , mediante la introducción de este término de penalización, puede reducir parámetros sin importancia.Esta técnica se denomina reducción en estadística. Similar a la regresión de cresta, otro LASSO reducido también agrega un término regular para limitar los coeficientes.
Para evitar el sobreajuste (θ \thetaθ es demasiado grande), en la función objetivoJ ( θ ) J(\theta)J ( θ ) va seguido de un factor de penalización por complejidad, es decir, un término regular para evitar el sobreajuste. El término regular puede usarL 1 − norma (egresión LASSOR) L_{1-norma}(regresión LASSO)L1 n o r m( L A S S O R e g r e s i o n ) L 2 − norm ( R idge R egression ) L_{2-norm}(Ridge Regression)L2 n o r m( R i d g e R e g r e s s i o n ) , o combinado conL 1 − norma L_{1-norma}L1 n o r mL 2 − norma ( E lastic N et ) L_{2-norm}(Elastic\quad Net)L2 n o r m( Elástico _ _ _ _ _ _Neto ) _ _

6.2 Regresión de cresta

J ( θ , segundo ) = J ( θ , segundo ) + λ 1 2 ∑ yo = 1 metro θ yo 2 J(\theta,b)=J(\theta,b)+\lambda\frac{1}{2 }\sum\limits_{i=1}\limits^m\theta_i^2J ( θ ,segundo )=J ( θ ,segundo )+yo21yo = 1mii2

6.3, Regresión LASSO

J ( θ , segundo ) = J ( θ , segundo ) + λ ∑ yo = 1 min ∣ θ yo ∣ J(\theta,b)=J(\theta,b)+\lambda\sum\limits_{i=1 }\limites^mn|\theta_i|J ( θ ,segundo )=J ( θ ,segundo )+yoyo = 1mnorte θyo

6.4, Regularización L1, regularización L2 y red elástica Red Elástica

  • norma L1 y L2

Primero introduzca la definición de la norma, asumiendo xxx es un vector cuyoL p L^pLDefinición de norma p
: ∣ ∣ x ∣ ∣ p = (∑ i ) ∣ xi ∣ p ) 1 p ||x||_p=(\sum\limits_i)|x_i|^p)^\frac{1}{p }x pag=(i) xyopag )pag1
Agregar un " elemento de penalización " de un coeficiente después de la función objetivo es una forma común de regularización, para evitar que el coeficiente sea demasiado grande y complique el modelo. La función objetivo después de agregar el término de regularización es:
J ( θ , b ) = J ( θ , b ) + λ 2 m Ω ( θ ) J(\theta,b)=J(\theta,b)+\frac { \lambda}{2m} \Omega(\theta)J ( θ ,segundo )=J ( θ ,segundo )+2 metrosyoΩ ( θ )
式中,λ 2 m \frac{\lambda}{2m}2 metrosyoes una constante, mmm es el número de muestras,λ \lambdaλ es un hiperparámetro utilizado para controlar el grado de regularización.

  • Regularización L1 (LASSO)

L 1 L ^ 1L1 regularización, la sanción correspondiente esL 1 L1L 1范数:
Ω ( θ ) = ∣ ∣ θ ∣ ∣ 1 = ∑ yo ∣ θ yo ∣ \Omega(\theta)=||\theta||_1=\sum\limits_i|\theta_i|Ω ( θ )=θ 1=iθyo

  • Regularización L2 (Ridge)

L 2 L ^ 2L2 Al regularizar, el término de penalización correspondiente esL 2 L2L 2范数:
Ω ( θ ) = ∣ ∣ θ ∣ ∣ 2 2 = ∑ yo θ yo 2 \Omega(\theta)=||\theta||_2^2=\sum\limits_i\theta_i^2Ω ( θ )=θ 22=iii2

  • Red Elástica Red Elástica

El término de penalización correspondiente es L 1 L1L 1 norma yL 2 L2L 2Especifique la ecuación:
J ( θ , b ) = J ( θ , b ) + λ ( ρ ∑ jm ∣ θ j ∣ + ( 1 − ρ ) ∑ jm θ j 2 ) J(\theta, b)=J( \theta,b)+\lambda(\rho\sum\limits_j\limits^m|\theta_j|+(1-\rho)\sum\limits_j\limits^m\theta_j^2);J ( θ ,segundo )=J ( θ ,segundo )+yo ( rjmθj+( 1r )jmij2)

  • La diferencia entre la regularización L1 y la regularización L2

De la fórmula anterior se puede ver que L 1 L^1L1 La regularizaciónlogra la regularización sumando la función objetivo original ala suma de los valores absolutos de todos los coeficientes característicosL 2 L^2L2 La regularización realizala regularizaciónla suma de los cuadrados de todos los coeficientes característicos
Ambos limitan el tamaño del parámetro al agregar un término de suma, pero tienen efectos diferentes:L 1 L^1L1 regularización es más adecuada parala selección de características, yL 2 L^2L2 La regularización es más adecuada paraevitar el sobreajuste del modelo.
Comencemos desde la perspectiva del descenso de gradiente y exploremos la diferencia entre los dos.
Para facilitar la descripción, se supone que los datos tienen solo dos características, a saber,θ 1 \theta_1i1 θ 2 \theta_2i2, considerando L 1 L^1L1 La función objetivo de regularización es:
J = J + λ 2 m ( ∣ θ 1 ∣ + ∣ θ 2 ∣ ) J=J+\frac{\lambda}{2m}(|\theta_1|+|\theta_2|)j=j+2 metrosyo( θ1+θ2)
En cada actualizaciónθ 1 \theta_1i1Sea:
θ 1 : = θ 1 − α re θ 1 = θ 1 − α λ 2 msign ( θ 1 ) − ∂ J ∂ θ 1 sign ( x ) = { 1 , x > 0 0 , x = 0 − 1 , x < 0 \theta_1 :=\theta_1-\alpha d\theta_1=\theta_1-\frac{\alpha\lambda}{2m}sign(\theta_1)-\frac{\parcial J}{\parcial\theta_1}\ signo qquad(x)=\left\{ \begin{alineado} &&1,x>0\\ &&0,x=0\\ &&-1,x<0 \end{alineado} \right.i1:=i1un día yo1=i12 metrosun lsigno yo gramo norte ( θ1)θ1 Jfirmar ( x ) _ _ _=1 ,X>00 ,X=0- 1 ,X<0
Joven θ 1 \theta_1i1es un número positivo, cada actualización restará una constante; si θ 1 \theta_1i1Si es un número negativo, se agregará una constante a cada actualización. Todos los casos en los que el coeficiente de la característica es 0 son fáciles de ocurrir. Un coeficiente especial de 0 significa que el especial no tendrá ningún impacto en el resultado. entonces L 1 L ^ 1L1 La regularización hará que las características sean escasas y desempeñará un papel en la selección de características.
Ahora considereL 2 L^2L2 Función objetivo regularizada:
J = J + λ 2 m ( θ 1 2 + θ 2 2 ) J=J+\frac{\lambda}{2m}(\theta_1^2+\theta_2^2)j=j+2 metrosyo( yo12+i22)
en cada actualizaciónθ 1 \theta_1i1Dimensiones:
θ 1 : = θ 1 − α re θ 1 = ( 1 − α λ metro ) θ 1 − ∂ J ∂ θ 1 \theta_1 :=\theta_1-\alpha d\theta_1=(1-\frac{\alpha \lambda}{m})\theta_1-\frac{\parcial J}{\parcial\theta_1}i1:=i1un día yo1=( 1metroun l) yo1θ1 J
De la fórmula anterior, se puede ver que cada vez que se realiza una actualización, el coeficiente de características se escalará proporcionalmente en lugar de como L 1 L^1L1 regularización menos un valor fijo, lo que hará que un coeficiente tienda a ser más pequeño y no a 0, por lo queL 2 L^2L2 La regularización simplificará el modelo, evitará el sobreajuste y no jugará un papel en la selección de características. Lo anterior esL 1 L^1L1 ,L 2 L ^ 2L2 El papel y la diferencia de la regularización.

Comprensión simple de la regularización :
1. El propósito de la regularización: evitar el sobreajuste
2. La esencia de la regularización: restringir (restringir) los parámetros que se optimizarán

Con respecto al primer punto, el valor del sobreajuste se da con un conjunto de datos, este conjunto El los datos son ruidosos. Usar el modelo para ajustar esta pila de datos también puede ajustarse a los datos ruidosos. Esto es fatal. Por un lado, hará que el modelo sea más complicado. Por otro lado, el rendimiento de generalización del modelo es demasiado pobre Cuando encuentra nuevos datos para probar, el modelo de sobreajuste que obtiene tiene una tasa de precisión baja.
Con respecto al segundo punto, el espacio de solución original es el área completa, pero se agregan algunas restricciones a través de la regularización, lo que hace que el espacio de solución sea más pequeño, e incluso la solución se vuelve escasa bajo los métodos de regularización individuales.
Por favor agregue una descripción de la imagen
El lado izquierdo de la figura anterior es la regresión de Lasso y el lado derecho es la regresión de Ridge. El punto de tangencia entre la elipse roja y el área azul es la solución óptima de la función objetivo, si es un círculo, es fácil de cortar a cualquier punto de la circunferencia, pero es difícil de cortar al eje de coordenadas, por lo que no hay escasez, pero si es un rombo o polígonos, es fácil de cortar al eje de coordenadas, por lo que es fácil dar como resultado parámetros dispersos. Esto también explica por qué L 1 L_1L1Los paradigmas serán escasos. Esto explica por qué lasso puede realizar una selección de características. Aunque la regresión de cresta no puede realizar la selección de características, cuando es para θ \thetaEl módulo de θ está restringido para que su valor sea relativamente pequeño, lo que reduce en gran medida el problema del sobreajuste.
Aquíβ 1 , β 2 \beta_1, \beta_2b1, segundo2Todos son parámetros del modelo. Los parámetros objetivo que se van a optimizar, el área azul, es en realidad el espacio de la solución. Como se mencionó anteriormente, en este momento, el espacio de la solución está "reducido". El β 1 más pequeño de la función objetivo , β 2 \beta_1, \beta_2b1, segundo2. Mire el círculo rojo nuevamente, este eje de coordenadas no tiene nada que ver con las características (datos), es completamente un sistema de coordenadas de parámetros, en cada círculo, puede tomar innumerables β 1 , β 2 \beta_1, \ beta_2b1, segundo2, este β 1 , β 2 \beta_1,\beta_2b1, segundo2Tiene como característica común que las funciones objetivo calculadas con ellas valen lo mismo. El centro del círculo es el parámetro óptimo real, pero debido a que nuestro equipo ha limitado el espacio de solución, la solución óptima solo se puede generar en el espacio de solución "reducido".
Tome dos variables como ejemplo para explicar el significado geométrico de la regresión de cresta:

  1. Cuando no hay restricciones. Parámetros del modelo β 1 , β 2 \beta_1, \beta_2b1, segundo2, se ha normalizado. La suma residual de cuadrados RSS se puede expresar como β 1 , β 2 \beta_1, \beta_2b1, segundo2, una función cuadrática que se puede expresar matemáticamente como un paraboloide.
    Por favor agregue una descripción de la imagen
  2. Cresta regresa. El término de restricción es β 1 2 + β 2 2 ≤ t \beta_1^2+\beta_2^2\leq tb12+b22t , corresponde a un círculo en el plano de proyección β1, β2, que es el cilindro de la figura siguiente.
    Por favor agregue una descripción de la imagen
    Se puede ver que hay una cierta distancia entre la solución de regresión de cresta y la solución original de mínimos cuadrados.

Referencia:
https://zhuanlan.zhihu.com/p/35394638
https://www.zhihu.com/question/20448464
https://www.jianshu.com/p/569efedf6985
https://www.jianshu.com /p/569efedf6985
https://www.biaodianfu.com/ridge-lasso-elasticnet.html

Supongo que te gusta

Origin blog.csdn.net/qq_45723275/article/details/123789042
Recomendado
Clasificación