NTU Li Hongyi Aprendizaje automático 2020 Notas de estudio (2): Regresión y sobreajuste

Prólogo


        El valor de salida del modelo de regresión es un número. El pronóstico de existencias, el pronóstico de PM2.5 , el pronóstico del ángulo del volante en la conducción autónoma y el pronóstico del valor de CP después de la evolución de Pokémon son ejemplos de su aplicación. El profesor en el curso todavía está usando su Pokémon habitual como demostración. Dentro de un cierto rango, aumentar la complejidad del modelo puede mejorar el rendimiento del modelo, pero en este rango habrá un sobreajuste. La regularización puede reducir la posibilidad de sobreajuste.


Regresión lineal


        El objetivo de esta regresión es encontrar una función. Ingresamos algunos valores de atributo de Pokémon antes de la evolución, incluidos el tipo, el peso, el valor de CP, etc., y luego podemos predecir mejor su valor de CP evolucionado (imagen citada del profesor PPT)

                                                      

  • Modelo lineal

        Modelo lineal, es decir, la función es lineal, la expresión unificada es la siguiente. Donde x es la entrada, es decir, sus características, w es el peso y b es el sesgo

                                                                                          

        Si todas las entradas x se apilan en la matriz X, todos los w e Y se apilan en los vectores de columna W e Y. Luego agregue un elemento con un valor de 1 al comienzo de cada línea de X, y extienda W por un elemento, entonces la fórmula anterior se convertirá en:

                                                                                                  

        Reemplazar el bucle con la multiplicación de matrices puede mejorar la eficiencia. Cuando solo hay una entrada, el modelo lineal es la fórmula general de la función lineal unaria con la que estamos familiarizados. Es decir, y = b + w   x cp. Ahora hay diez datos de entrenamiento, la imagen viene de aquí

                                                            

  • Función de pérdida

        La función de pérdida es una función de la función y se usa para medir la calidad de los parámetros. Aquí usamos una función L (w, b) similar al error cuadrático medio para optimizar nuestra función de regresión lineal, que representa la suma del cuadrado de la diferencia entre todas las salidas pronosticadas y la respuesta correcta. Multiplicado por 0.5 es para compensar el 2 después de la derivada .

                                                                     

        Expresión de la matriz: 

                                                                                        

  •  Entrenamiento modelo: encuentre la mejor función

        Objetivo: minimizar la función de pérdida

        Método: descenso en gradiente

        Condición: pérdida diferenciable

        La imagen de la función de pérdida en la situación unidimensional se muestra en la figura siguiente (citada del PPT del profesor). La sensación intuitiva es que tiene que bajar en una posición (w0). Si el gradiente en w0 (la pendiente tangente también está en una dimensión) es negativo, significa que aumentar w puede reducir la pérdida, si el gradiente es positivo, significa que reducir w puede reducir la pérdida, se puede ver que la dirección de cambio de w es el valor del gradiente Invertir, entonces la fórmula de descenso de gradiente resta el gradiente.

                                          

        Fórmula de descenso de gradiente: el tamaño del paso para actualizar los parámetros está determinado por la velocidad de aprendizaje y el gradiente actual, n representa la enésima iteración.

                                                                              

                                                                          

        Después de introducir la expresión L (w, b), obtenemos:

                                                           

                                                           

        Expresión matricial: dado que el número de filas en x es igual al número de diferencias, solo se puede multiplicar después de la transposición.

                                                                      

  • Mínimo local

            Basado en el conocimiento matemático, funciones diferenciables, el punto donde la derivada es cero es un punto extremo, y el valor extremo es un concepto local. Cuando se usa el descenso de gradiente para minimizar la función de pérdida, puede caer en el punto mínimo local. Debido a que el gradiente es cero, los parámetros quedarán atrapados allí, y se necesitan algunos métodos especiales para saltar. Sin embargo, no existe un mínimo local para la función de pérdida de regresión lineal, por lo que lo que se encuentra por el descenso de gradiente es el mínimo global. (La imagen se cita del curso PPT)

       

  •  Resultados y predicciones

            Después del entrenamiento, el error en el conjunto de entrenamiento es 31.9, y el error en el conjunto de prueba es 35.0. (La imagen se cita del curso PPT)

                 


Sobre ajuste


        El rendimiento en el conjunto de entrenamiento es bueno, pero el bajo rendimiento en el conjunto de prueba o aplicación es el rendimiento del sobreajuste, que puede ser causado por demasiados parámetros o muy pocos datos. La sensación intuitiva es que si el modelo es demasiado complicado y el conjunto de entrenamiento es demasiado pequeño, hará que el modelo "recuerde" el conjunto de entrenamiento y luego solo "establezca el tipo de pregunta". Para el caso anterior, si los parámetros del modelo se incrementan adecuadamente, se pueden obtener mejores resultados, pero si hay demasiados parámetros, se producirá un sobreajuste. Como se muestra en la siguiente figura (citado del curso PPT), se basa en el caso anterior, utilizando modelos 1, 2, 3, 4, 5. respectivamente. Después del entrenamiento, el rendimiento en el conjunto de pruebas. Se puede encontrar que a medida que los parámetros aumentan al principio, el rendimiento del modelo en el conjunto de prueba mejora, pero a medida que el modelo se vuelve más complejo, el rendimiento empeora cada vez más. El modelo no es tan complicado como sea posible. El modelo apropiado debe seleccionarse de acuerdo con el tamaño del conjunto de entrenamiento. Por supuesto, la regularización y el abandono pueden reducir la posibilidad de sobreajustar el modelo.

                      

                   


L2-regularización (regularización L2)


        La regularización de L2 es castigar w, agregar un término regular a la función de pérdida, al minimizar L, considerar tanto el error como w, y reducir w a una pequeña cantidad mientras se reduce el error. La función con una w más pequeña es más suave y menos sensible a los cambios de entrada. Elegir el λ apropiado puede mejorar la capacidad de generalización del modelo.

        Nota: el sesgo no participa en la regularización porque no afecta la suavidad de la función.

                                                        


 Referencia 


         https://www.bilibili.com/video/BV1JE411g7XF?p=3

28 artículos originales publicados · Me gustaron 34 · Visitantes más de 20,000

Supongo que te gusta

Origin blog.csdn.net/sinat_35907936/article/details/105075712
Recomendado
Clasificación