¿Tu modelo se está sobreajustando de nuevo? ¿Por qué no probar la regularización L1 y L2?

guía

Debido a que la regularización L1 y la regularización L2 se proponen para aliviar el sobreajuste del modelo, entonces, antes de eso, hablemos de lo que es sobreajuste y desajuste.

  • Sobreajuste
    En el campo del aprendizaje automático, el proceso de entrenamiento de datos basado en modelos en realidad está aprendiendo el patrón de distribución de los datos de entrenamiento Bajo las restricciones de la función de penalización, intentará recordar cada punto de muestra en el conjunto de datos de entrenamiento (es decir, aprende completamente la distribución de los datos de entrenamiento). Tomemos como ejemplo la regresión lineal.La regresión lineal consiste en ajustar una función que debe pasar por cada punto de muestra tanto como sea posible, como se muestra en la figura. Pero como todos sabemos, el conjunto de datos recopilados artificialmente no es perfecto y contendrá ruido, como valores faltantes y valores atípicos. Si la función también se ajusta a estos ruidos, la pérdida del modelo en los datos de entrenamiento es muy baja en esta vez, que se ve muy bien Preciso, puede identificar la mayoría de los datos de entrenamiento. Sin embargo, debido a la interferencia del ruido, el modelo en realidad evolucionó en la dirección equivocada, por lo que la generalización del modelo no es muy fuerte en este momento, es decir, si al modelo se le da un nuevo conjunto de datos que no se ha visto antes, su efecto puede ser muy pobre. . Este es el llamado sobreajuste, es decir, el modelo sobreaprende los datos de entrenamiento durante el proceso de entrenamiento. Sin embargo, los datos de entrenamiento a veces no pueden representar la distribución general de los datos, por lo que el efecto del modelo en otros datos se vuelve pobre. , y el rendimiento de generalización no es bueno.
    inserte la descripción de la imagen aquí

  • Underfitting
    Underfitting, como sugiere el nombre, es lo opuesto a overfitting. El sobreajuste es el sobreajuste del modelo al conjunto de datos de entrenamiento, lo que da como resultado que no se aprenda la distribución de datos real y un rendimiento de generalización deficiente. Entonces, el ajuste insuficiente significa que incluso los datos de entrenamiento no pueden ajustarse bien, y mucho menos el rendimiento de generalización. En este momento, la razón es principalmente que hay un problema con los datos o que el modelo es demasiado simple. Miremos la imagen y hablemos, de un vistazo.
    inserte la descripción de la imagen aquí
    Después de hablar sobre overfitting y underfitting, y conocer su impacto en el rendimiento del modelo, ¿hay alguna forma de resolverlos? Echemos un vistazo al método de regularización.

regularización

La regularización es un término general para una clase de métodos de aprendizaje automático que introducen información adicional basada en la función de pérdida original para evitar el sobreajuste y mejorar el rendimiento de la generalización del modelo. Aquí, la información adicional comúnmente utilizada es generalmente la regularización L1 y la regularización L2, también denominada norma L1 y norma L2.

La regularización L1 y la regularización L2 son elementos de penalización adicionales en la función de pérdida, es decir, para hacer algunas restricciones en algunos parámetros de la función de pérdida, para no complicar demasiado el aprendizaje del modelo. Para la regresión lineal que ejemplificamos anteriormente, regresión lineal + regularización L1 = regresión de Lasso, regresión lineal + regularización L2 = regresión de cresta (regresión de cresta). Las funciones de pérdida son las siguientes:

  • Regresión lineal + Regularización L1 = Regresión de lazo

inserte la descripción de la imagen aquí

  • Regresión lineal + regularización L2 = regresión de cresta (regresión de cresta)

inserte la descripción de la imagen aquí

En la fórmula, ω es el parámetro del modelo.Se puede ver que estas dos regularizaciones en realidad limitan los parámetros del modelo:

  • La regularización L1 se refiere a la suma de los valores absolutos de los elementos en el vector de peso ω, que generalmente representa ||ω||1;
  • La regularización L2 se refiere a la suma de los cuadrados de cada elemento en el vector de peso ω y luego la raíz cuadrada (podemos ver que el elemento de regularización L2 de la regresión Ridge tiene un símbolo cuadrado), generalmente expresado como ||ω||2;
  • El λ en la fórmula es el grado de restricción de regularización sobre el modelo, que se considera regulado, es decir, lo que solemos llamar hiperparámetros, que necesitan ser ajustados para determinar valores específicos.

Se puede ver de las fórmulas (1) (2) que el objetivo de entrenamiento del modelo es minimizar la función de pérdida.Si agregamos la regularización L1 y la regularización L2 a la función de pérdida, significa que los parámetros del modelo también son It debe ser lo más pequeño posible (cerca de 0), es decir, disperso . Hablemos brevemente de la escasez, para decirlo sin rodeos, la escasez significa que muchos parámetros del modelo son cero, lo que no funciona. Por lo general, en el aprendizaje automático, cuando realizamos tareas de clasificación, la dimensión de la característica de los datos es muy alta, puede tener un nivel de más de 10K, tantas características, no todas son útiles para clasificar, por lo que esperamos que el modelo esté en el proceso de entrenamiento puede encontrar automáticamente aquellas características que son útiles para su clasificación e ignorar las características sin importancia (es decir, el peso correspondiente a la característica es cercano a cero o incluso igual a cero).Después de tal combinación de golpes, el modelo solo presta atención a las características con parámetros correspondientes relativamente grandes. Ignorar características con parámetros pequeños es equivalente a realizar una selección automática de características , mejorando la capacidad de generalización del modelo y reduciendo el riesgo de sobreajuste. Este es especialmente el caso cuando el tamaño de la muestra es pequeño .

regularización L1

Como se mencionó anteriormente, la regularización es agregar restricciones a la función de pérdida Desde un punto de vista matemático, es agregar restricciones a la función de pérdida , como se muestra en la fórmula (3). En este caso, el problema se transforma en un problema de optimización con restricciones, lo que se puede deducir inmediatamente ------>>>>>Use la función Lagrangiana para resolverlo, como se muestra en la fórmula (4).
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Supongamos que ω ∗ ω_*Vayaλ ∗ λ_*yoes la solución óptima del problema de optimización anterior, de acuerdo con la condición KKT, se puede obtener la fórmula (5).
inserte la descripción de la imagen aquí
Sabemos que la regularización L1 es la suma de los valores absolutos de los parámetros. A continuación, discutiremos el caso bidimensional más simple, es decir, solo hay dos parámetros. Entonces, el término de regularización L1 L1_norm es igual a | ω 1 ω_1Vaya1| + | ω 2 ω_2Vaya2|, dibuje L1_norm en el sistema de coordenadas como se muestra en la figura, y la línea de contorno de la función de pérdida original (sin el término de restricción de regularización) también se dibuja en la figura.
inserte la descripción de la imagen aquí
De acuerdo con la teoría de la optimización, sabemos que cuando L1_norm es igual a la función de pérdida original (es decir, las dos curvas de la función se cruzan), se obtiene el valor máximo. De acuerdo con la forma de la función de L1_norm, tiene 4 esquinas, y las dos curvas de la función deben intersecarse en una de las esquinas para obtener el valor máximo, y cada esquina tendrá un parámetro ( ω 1 ω_1Vaya1ω 2 ω_2Vaya2) es cero, y luego se extiende a situaciones multidimensionales. En el caso de características multidimensionales, L1_norm tendrá muchas esquinas. El sentido común sabe que las esquinas sobresalientes tienen más probabilidades de contactar objetos externos, y muchos parámetros en esas esquinas son cero. , por lo que después de agregar la regularización L1, muchos parámetros serán cero ( escasos ). Lo anterior es por qué la regularización L1 produce un modelo disperso y se usa más para la selección de características.

regularización L2

Terminé de hablar sobre la regularización L1 antes. De manera similar, la regularización L2 solo cambia la forma de las restricciones. Dado que la regularización L2 es la suma de cuadrados, su imagen de función se dibuja como un círculo, como se muestra en la figura. Dado que borra los bordes y las esquinas y se vuelve más suave que la regularización L1, la probabilidad de que su intersección con la función de pérdida original haga que el parámetro sea cero es mucho menor, por lo que la regularización L2 no tiene la capacidad de ser escasa.
inserte la descripción de la imagen aquí
La razón por la que la regularización de L2 evita el sobreajuste

En el proceso de ajuste, generalmente se prefiere hacer que el peso sea lo más pequeño posible y, finalmente, construir un modelo con todos los parámetros relativamente pequeños. Porque generalmente se cree que un modelo con un valor de parámetro pequeño es relativamente simple, puede adaptarse a diferentes conjuntos de datos y evita el sobreajuste hasta cierto punto. Se puede imaginar que para una ecuación de regresión lineal, si el parámetro es grande, mientras los datos se desplacen un poco, tendrá un gran impacto en el resultado; pero si el parámetro es lo suficientemente pequeño, los datos no serán cambiado mucho.¿Cuál es el impacto?Una declaración más profesional es que tiene una fuerte capacidad anti-perturbación.

Resumir

Este artículo explica principalmente qué es el sobreajuste y el desajuste, así como la regularización, e introduce la regularización L1 y L2 en detalle, y los revela vívidamente para dispersar el modelo y evitarlo a través de la derivación y el dibujo de fórmulas. Causas internas del sobreajuste. Espero ayudar a todos, gracias por navegar. Si tiene alguna idea o pregunta, no dude en compartirla en el área de comentarios. Si cree que la escritura del blogger está bien y es útil para usted, puede darle un pulgar hacia arriba. Dale a alguien una rosa, deja una fragancia en tu mano~~

Supongo que te gusta

Origin blog.csdn.net/Just_do_myself/article/details/118614575
Recomendado
Clasificación