Aprendizaje de ML de regresión lineal de dos univariantes

2-1 Descripción del modelo

Queremos usar un conjunto de datos que contenga los precios de la vivienda en Portland, Oregon. Aquí, quiero dibujar mi conjunto de datos en función de los precios vendidos para diferentes tamaños de casas. Por ejemplo, si la casa de su amigo es de 1,250 pies cuadrados, debe decirles cuánto puede vender la casa.

Una cosa que puede hacer es construir un modelo, tal vez una línea recta. A partir de este modelo de datos, tal vez pueda decirle a su amigo que puede vender la casa por unos 220,000 (USD). Este es un ejemplo de un algoritmo de aprendizaje supervisado.

Usaré m minúscula para largo del curso

Tomando el problema de la transacción de vivienda anterior como ejemplo, si volvemos al conjunto de capacitación (Conjunto de capacitación) del problema como se muestra en la tabla a continuación

Las etiquetas que usaremos para describir este problema de regresión son las siguientes:

Podemos ver que existe el precio de la vivienda en nuestro conjunto de entrenamiento, se lo damos a nuestro algoritmo de aprendizaje, el trabajo del algoritmo de aprendizaje y luego emitimos una función, generalmente expresada en minúscula

En regresión lineal tenemos un conjunto de entrenamiento como este, m

Introduciremos alguna terminología. Lo que tenemos que hacer ahora es elegir los parámetros apropiados para nuestro modelo

Nuestro objetivo es seleccionar los parámetros del modelo que pueden minimizar la suma de los errores de modelado al cuadrado.

Dibujamos un mapa de contorno, las tres coordenadas son θ ₀

Se puede ver que hay un en el espacio tridimensional

La función de costo también se conoce como la función de error al cuadrado, y a veces se conoce como la función de costo al error al cuadrado. La razón por la cual requerimos la suma de los errores al cuadrado es porque la función de costo al cuadrado del error es una opción razonable para la mayoría de los problemas, especialmente los problemas de regresión.

2-3 Comprensión de la función de costo (1)

Veamos algunos sentimientos intuitivos a través de algunos ejemplos y veamos qué está haciendo la función de costo.

A continuación, nuestro ejemplo es el análisis cuando θ ₀ es 0

2-4 Comprensión de la función de costo (2)

La apariencia de la función de costo, el diagrama de contorno, muestra que hay un en el espacio tridimensional que minimiza J (θ _0, θ1)

A través de estos gráficos, espero que puedan entender mejor las funciones J costo

Imagina que estás parado en este punto de la montaña, parado en la montaña roja del parque que imaginas. En el algoritmo de descenso de gradiente, todo lo que tenemos que hacer es rotar 360 grados, mirar a nuestro alrededor y pedirnos que estemos en un lugar determinado. En esta dirección, baja la montaña con pequeños escalones. Piensa en cada paso que das hasta que estés cerca del punto más bajo local

La fórmula del algoritmo de descenso de gradiente por lotes es

Donde α

En el algoritmo de descenso de gradiente, esta es la forma correcta de lograr actualizaciones simultáneas.

2-6 Resumen de puntos de conocimiento de descenso de gradiente

Ahora, esta línea tiene una pendiente positiva, que significa que tiene una derivada positiva, por lo que obtener la nueva [theta] ₁

Veamos qué sucede si α es

Si α es

En el método de descenso de gradiente, cuando estamos cerca del mínimo local, el método de descenso de gradiente tomará automáticamente una amplitud menor, porque cuando estamos cerca del mínimo local, está claro que la derivada es igual a cero en el mínimo local, por lo tanto, cuando estamos cerca del local En el punto más bajo, el valor derivado se hará cada vez más pequeño, por lo que el descenso del gradiente tomará automáticamente una amplitud menor, este es el método de descenso del gradiente.

2-7 Descenso de gradiente de regresión lineal

La comparación entre el algoritmo de descenso de gradiente y el algoritmo de regresión lineal es la siguiente:

La clave para aplicar el método de descenso de gradiente a nuestro problema de regresión lineal anterior es encontrar la derivada de la función de costo, a saber:

El algoritmo que acabamos de usar a veces se denomina descenso de gradiente por lotes. Significa que en cada paso del descenso del gradiente, utilizamos todas las muestras de entrenamiento m. En el descenso del gradiente, al calcular el término derivado diferencial, necesitamos realizar una operación de suma, por lo tanto, en cada descenso del gradiente individual Al final, tenemos que calcular tal cosa, este elemento necesita todas las m