Descenso del gradiente vernáculo

El descenso de gradientes es uno de los algoritmos de optimización más comunes en el aprendizaje automático. Comprender su implementación básica es la base para comprender todos los algoritmos de optimización avanzados que se basan en ella.

Insertar descripción de la imagen aquí

Directorio de artículos

mejoramiento

Insertar descripción de la imagen aquí

En el aprendizaje automático, la optimización es el proceso de encontrar parámetros o pesos ideales para maximizar o minimizar una función de costo o pérdida. El máximo global es el valor máximo sobre el dominio de la función, mientras que el mínimo global es el valor mínimo de la función. Si bien sólo hay un máximo y/o mínimo global, puede haber muchos máximos y mínimos locales. Un valor mínimo o máximo global de la función de costo indica que los parámetros del modelo generan predicciones cercanas al objetivo real. Los máximos y mínimos locales pueden causar problemas al entrenar un modelo, por lo que siempre debes estar consciente de su presencia. La imagen de arriba muestra un ejemplo de cada tipo de máximo/mínimo.

Existen varias categorías diferentes de algoritmos de optimización: algoritmos de bracketing, algoritmos de descenso local, algoritmos de primer orden y algoritmos de segundo orden. Este artículo se centra en algoritmos de primer orden para la optimización utilizando derivadas de primer orden. En esta categoría, el algoritmo de descenso de gradiente es el más popular.

Descenso de gradiente 1D

El descenso de gradiente es un algoritmo de optimización iterativo de primer orden que se utiliza para minimizar una función de costo. Al utilizar derivadas parciales, direcciones y tasas de aprendizaje, el descenso de gradiente reduce el error o la diferencia entre los valores previstos y reales.

La idea detrás del descenso de gradiente es que la derivada de cada peso revelará su dirección y su impacto en la función de costos. En la siguiente figura, la función de costo es $f(w) = w^2$ , que es una parábola. El valor mínimo se ubica en (0,0) y el peso actual es $- 5.6$ . La pérdida actual es $31.36$ , la línea naranja representa la derivada, o la tasa de cambio actual del peso, que es $- 11.2$ . Esto muestra que los pesos deben moverse "cuesta abajo" - o volverse correctos - para alcanzar una pérdida de $0$ . Aquí es donde entra en juego el descenso de gradientes.

Insertar descripción de la imagen aquí

El resultado se minimiza escalando el gradiente con un valor llamado tasa de aprendizaje y restando el gradiente escalado del valor actual de sus pesos. Esto se puede ver en la imagen de abajo. En diez iteraciones ( $w_0 \to w_9$ ), se utiliza una tasa de aprendizaje de 0,1 para minimizar la función de costos.

Insertar descripción de la imagen aquí

En los siguientes pasos del algoritmo, los pesos vienen dados por $w$ significa, $j$ representa su valor actual, $j + 1$ por su nuevo valor. La función de costo que mide el error es $f$ significa que la derivada parcial es el gradiente de la función de costos con respecto a los parámetros. La tasa de aprendizaje utiliza $\alpha$ .

Elija la tasa de aprendizaje y el número de iteraciones.
Seleccionar valores aleatorios para los parámetros.
Actualice los parámetros con la siguiente fórmula.

$w_{j+1} = w_j-\alpha\frac{\partial}{\partial_{w_j}}f(w_j)$

Repita el paso tres hasta alcanzar el número máximo de iteraciones.

Al tomar derivadas parciales o gradientes de una función, solo se evalúa un parámetro a la vez y los demás parámetros se tratan como constantes. Para el ejemplo anterior, $f(w) = w^2$ , solo hay un parámetro, por lo que la derivada es $F^{'} (w) = 2w.__$ _ La fórmula para actualizar los parámetros es la siguiente:
$w_{j+1} = w_j-\alpha(2w_j)$
suponiendo que la tasa de aprendizaje es $0,1$ , el peso inicial es $- 5.6$ , las primeras diez iteraciones son las siguientes:

Insertar descripción de la imagen aquí

La tabla anterior muestra cómo cada componente de la fórmula ayuda a minimizar las pérdidas. Al escalar negativamente la pendiente, los nuevos pesos se acercan a 0 y la pendiente se vuelve menos pronunciada. A medida que la pendiente se hace progresivamente más pequeña, cada iteración produce actualizaciones más pequeñas.

Esta implementación básica del descenso de gradiente se puede aplicar a casi cualquier función de pérdida, incluidas aquellas con una gran cantidad de pesos.

descenso del gradiente de error cuadrático medio

¿Qué es el error cuadrático medio?

Una función de pérdida popular en el aprendizaje automático es el error cuadrático medio (MSE).
$\frac{1}{n}\sum_{i=1}^n(\hat Y_i-Y_i)^2$

Esta función se utiliza para calcular la predicción del modelo ( $\hat Y$ ) y resultado esperado ( $Y$ ) diferencia. Luego, la diferencia se eleva al cuadrado para garantizar que la salida sea siempre positiva. Esto significa que primero puedes considerar $\hat Y$ 或 $Y.$ _ Esto se hace en un conjunto de tamañoRepita para $n puntos.$ Sumando las diferencias al cuadrado de todos estos puntos y dividiendo por $n$ , para obtener el error cuadrático medio (error). Esta es una forma sencilla de evaluar el rendimiento del modelo en todos los puntos simultáneamente. Aquí hay un ejemplo simple:

Insertar descripción de la imagen aquí

En esta fórmula, $\hat Y$ representa la predicción del modelo. En la regresión, la ecuación del modelo puede contener uno o más pesos, según los requisitos de los datos de entrenamiento. La siguiente tabla refleja estas situaciones.

Número de pesas	$\hat Y$	MSE
1	$wX$	$\frac{1}{n}\sum_{i=1}^n(wX_i-Y_i)^2$
2	$w_1X+w_0$	$\frac{1}{n}\sum_{i=1}^n(w_1X_i+w_0-Y_i)^2$
3	$w_2X_2+w_1X_1+w_0$	$\frac{1}{n}\sum_{i=1}^n(w_2X_{2i}+ w_1X_{1i}+w_0-Y_i)^2$
$k$	$w_kX_k+\dots+w_2X_2+w_1X_1+w_0$	$\frac{1}{n}\sum_{i=1}^n (w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2$

Ahora, para realizar el descenso de gradiente utilizando cualquiera de estas ecuaciones, se deben calcular sus gradientes. El gradiente contiene la derivada parcial de la función:
$\nabla \text{MSE} = \begin{bmatrix} \frac{\partial \text{MSE}}{ \partial w_0 } \\ \dots\\ \frac{\partial \text{MSE}}{\partial w_k} \end{bmatrix}$
Se deben calcular las derivadas parciales para cada peso. Las derivadas parciales se calculan de la misma manera que las derivadas ordinarias, pero cada variable no considerada debe tratarse como una constante.

peso único

$\nabla \frac{1}{n}\sum_{i=1}^n(wX_i-Y_i)^2 = \Bigg[\frac{\partial}{\partial w} \Grande[\frac{1}{n}\sum_{i=1}^n(wX_i-Y_i)^2\Grande]\Bigg] = \frac{2}{n}\sum_{i=1}^ nX_i(wX_i-Y_i)$

Cuando se utiliza solo un peso para encontrar el gradiente de MSE, se puede calcular La derivada de $w .$ $X$ 、 $Y$ y $n$ debe tratarse como una constante. Teniendo esto en cuenta, las fracciones y sumas se pueden mover fuera de las derivadas:
$\frac{1}{n}\sum_{i= 1}^n\frac{\partial}{\parcial w}\Big[(wX_i-Y_i)^2\Big]$
A partir de ahora, puedes usar la regla de la cadena para calcular $w$ 的导数：
$\frac{1}{n}\sum_{i=1}^n\Big[2(wX_i-Y_i)\frac{\partial}{\partial w}(wX_i-Y_i)\Big]\\ \frac{1}{n}\sum_{i=1}^n\Big[2(wX_i-Y_i)X_i\Big]$
Esto se puede simplificar a:
$\frac{2}{n}\sum_{i=1}^nX_i(wX_i-Y_i)$

doble peso

$\begin{aligned} \nabla \frac{1}{n}\sum_{i=1}^n(w_1X_i+w_0-Y_i) ^2 &= \begin{bmatrix} \frac{\partial}{\partial w_0}\Big[\frac{1}{n}\sum_{i=1}^n(w_1X_i+w_0-Y_i)^2\ Grande] \\ \frac{\partial}{\partial w_1}\Big[\frac{1}{n}\sum_{i=1}^n(w_1X_i+w_0-Y_i)^2\Big] \end{ bmatrix}\\ &=\begin{bmatrix} \frac{2}{n}\sum_{i=1}^n(w_1X_i+w_0-Y_i) \\ \frac{2}{n}\sum_{i= 1}^nX_i(w_1X_i+w_0-Y_i) \end{bmatrix} \end{alineado}$

Cuando se utilizan dos pesos para encontrar el gradiente de MSE, los dos parámetros $w_0 deben ser$ suma $w_1$ Encuentra derivadas parciales. par $w_0$ Al encontrar derivadas parciales, $X$ 、 $Y$ 、 $n$ suma $w_1$ se trata como una constante. par $w_1$ Al encontrar derivadas parciales, $X$ 、 $Y$ 、 $n$ suma $w_0$ se trata como una constante. Puedes repetir los mismos pasos que en el ejemplo anterior. En primer lugar, las fracciones y sumas se pueden trasladar fuera de las derivadas.
$\begin{bmatrix} \frac{1}{n}\sum_{i=1}^n\frac{\partial}{\partial w_0}(w_1X_i+w_0-Y_i)^2 \\ \frac{1}{ n}\sum_{i=1}^n\frac{\partial}{\partial w_1}(w_1X_i+w_0-Y_i)^2 \end{bmatrix}$
然后用链式法则计算每个权重的导数：
$\begin{bmatrix} \frac{1 }{n}\sum_{i=1}^n\Big[2(w_1X_i+w_0-Y_i)\frac{\partial}{\partial w_0}(w_1X_i+w_0-Y_i)\Big] \\ \frac{ 1}{n}\sum_{i=1}^n\Big[2(w_1X_i+w_0-Y_i)\frac{\partial}{\partial w_1}(w_1X_i+w_0-Y_i)\Big] \end{bmatrix }$

$\ comenzar{bmatrix} \frac{1}{n}\sum_{i=1}^n\Big[2(w_1X_i+w_0-Y_i)1\Big] \\ \frac{1}{n}\sum_{i =1}^n\Grande[2(w_1X_i+w_0-Y_i)X_i\Grande] \end{bmatrix}$

Conciliación:
$\begin{ bmatrix} \ frac{2}{n}\sum_{i=1}^n(w_1X_i+w_0-Y_i) \\ \frac{2}{n}\sum_{i=1}^nX_i(w_1X_i+w_0- Y_i) \ fin {bmatriz}$
Tenga en cuenta que la única diferencia entre las ecuaciones es $X.$ _

triple peso

$\begin{aligned} \nabla \frac{1}{n}\sum_{i=1}^n&(w_2X_{2i}+w_1X_{1i }+w_0-Y_i)^2 \\ &= \begin{bmatrix} \frac{\partial}{\partial w_0}\Big[\frac{1}{n}\sum_{i=1}^n(w_2X_ {2i}+w_1X_{1i}+w_0-Y_i)^2\Big] \\ \frac{\partial}{\partial w_1}\Big[\frac{1}{n}\sum_{i=1}^ n(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2\Big] \\ \frac{\partial}{\partial w_2}\Big[\frac{1}{n}\sum_{i= 1}^n(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2\Grande] \end{bmatrix}\\&=\begin{bmatrix} \frac{2}{n}\sum_{i=1}^n(w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \frac{2}{n}\ sum_{i=1}^nX_{1i}(w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \frac{2}{n}\sum_{i=1}^nX_{2i}(w_2X_ {2i}+w_1X_{1i}+w_0-Y_i) \end{bmatrix} \end{aligned}$

Cuando se utilizan tres pesos para encontrar el gradiente MSE, se debe tomar la derivada parcial para cada parámetro. Al tomar derivadas parciales de un peso, $X$ 、 $Y$ 、 $n$ y los otros dos pesos se tratarán como constantes. Se pueden repetir los mismos pasos que en el ejemplo anterior. En primer lugar, las fracciones y sumas se pueden trasladar fuera de las derivadas.
$\frac{1}{n}\sum_{i=1}^n \frac{\partial}{\partial w_0}(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2 \\ \frac{ 1}{n}\sum_{i=1}^n\frac{ \partial}{\partial w_1}(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2 \\ \frac{1}{ n}\sum_{i=1}^n\frac{\partial} {\parcial w_2}(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2 \end{bmatrix}$
然后用链式法则计算每个权重的导数：
$\begin{bmatrix} \frac{1}{n}\sum_{i=1}^n\Big[2(w_2X_{2i) }+w_1X_{1i}+w_0-Y_i)\frac{\partial}{\partial w_0}(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)\Big] \\ \frac{1}{n} \sum_{i=1}^n\Big[2(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)\frac{\partial}{\partial w_1}(w_2X_{2i}+w_1X_{1i}+ w_0-Y_i)\Big] \\ \frac{1}{n}\sum_{i=1}^n\Big[2(w_2X_{2i}+w_1X_{1i}+w_0-Y_i)\frac{\partial }{\parcial w_1}(w_3X_{2i}+w_1X_{1i}+w_0-Y_i)\Big] \end{bmatrix}$
最后化简为：
$\begin{bmatrix} \frac{2 }{n}\sum_{i=1}^n(w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \frac{2}{n}\sum_{i=1}^nX_{1i} (w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \frac{2}{n}\sum_{i=1}^nX_{2i}(w_2X_{2i}+w_1X_{1i}+w_0- Y_i) \end{bmatrix}$
Como se mencionó anteriormente, la única diferencia entre cada derivada parcial es la característica de entrada $X._$ _ en el siguiente ejemplo. $k$ pesos.

Más de tres pesos

$\begin{aligned} \nabla \frac{1}{n}\sum_ {i=1}^n&(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2 \\ &= \begin{bmatrix} \frac{\partial}{\partialw_0}\Big[\frac{1}{n}\sum_{i=1}^n(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2\Big] \\ \frac{\partial}{\partial w_1}\Big[\frac{1}{n}\sum_{i=1}^n(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i }+w_0-Y_i)^2\Big] \\ \frac{\partial}{\partial w_2}\Big[\frac{1}{n}\sum_{i=1}^n(w_kX_{ki}+ \dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2\Big] \\ \vdots \\ \frac{\partial}{\partial w_k}\Big[\frac{1}{n} \sum_{i=1}^n(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i)^2\Big] \end{bmatrix}\\ &=\begin{bmatrix } \frac{2}{n}\sum_{i=1}^n(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \frac{2}{n }\sum_{i=1}^nX_{1i}(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \frac{2}{n}\sum_{i =1}^nX_{2i}(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \\ \vdots \\ \frac{2}{n}\sum_{i= 1}^nX_{ki}(w_kX_{ki}+\dots+w_2X_{2i}+w_1X_{1i}+w_0-Y_i) \end{bmatrix} \end{aligned}$

Cuando se usa $Al calcular el gradiente de MSE para k$ pesos, se debe calcular la derivada parcial para cada parámetro. Al tomar una derivada parcial con respecto a un peso, $X$ 、 $Y$ 、 $n$ y otros $k - 1$ peso se tratará como una constante. Como se muestra en el ejemplo anterior, cuando los pesos exceden dos, solo cambian las características de entrada de cada derivada parcial.

derivación de matrices

La fórmula anterior muestra cómo realizar un descenso de gradiente sin aprovechar vectores y matrices. Sin embargo, la mayor parte del aprendizaje automático se realiza mejor mediante operaciones matriciales o tensoriales. El resto de este artículo se dedicará al uso del cálculo matricial para derivar las derivadas del MSE; para obtener más información, lea Vernacular Tensors y Vernacular Vector Dot Products . Primero, $\hat Y$ 和 Se debe entender que $Y$ $n\times1$ ) matriz. Ambos son 1 columna $Matrices de n$ filas, o pueden tratarse como vectores de columna, lo que cambia su notación a minúsculas:
$\frac{1}{n }\sum_ {i=1}^n(y_i - \hat y_i)^2$
MSE 是 $\hat y$ 和 Resta vectorial por elementos entre $y , seguida del producto escalar de la diferencia consigo mismo.$ Recuerde que los productos escalares solo se pueden calcular si las dimensiones son compatibles. Dado que el objetivo es obtener una salida escalar, se debe transponer el primer vector.
$\frac{1}{n}(y - \hat y)^T(y - \hat y)$
entonces, $\hat y$ Puede ser reemplazado por $Xw$ para regresión. $X$ es un tamaño de ( $n$ muestras, $matriz de n u m$ características), $w$ es el tamaño ( $n u m$ características, $1$ ) vector de columna.
$\frac{1}{n}(y - Xw)^T(y - Xw)$
El siguiente paso es simplificar la ecuación antes de tomar la derivada. Por favor tenga en cuenta que $w$ y $Las X$ intercambian lugares para garantizar que su multiplicación siga siendo válida: ( $1$ , $n u m$ características) x ( $n u m$ características, $n$ muestras) = ( $1$ , $n$ 个样本)。
$\begin{aligned} MSE &= \frac{1}{n}(y^T - w^TX^T)(y - Xw) \\ &= \frac{1}{n}(y^Ty - y^TXw - w^TX^Ty + w^TX^TXw) \end{alineado}$
Tenga en cuenta que el tercer término se puede transponer para reescribirlo y luego fusionarlo con el segundo término.
$\begin{aligned} MSE &= \frac{1}{n}(y^Ty - y^TXw - (w^TX^Ty)T + w^TX^TXw ) \\ &= \frac{1}{n}(y^Ty - y^TXw - y^TXw + w^TX^TXw) \\ &= \frac{1}{n}(y^Ty - 2y ^TXw + w^TX^TXw) \end{alineado}$
A continuación, encuentre la derivada parcial de MSE con respecto a los pesos.
$\frac{\partial MSE}{\partial w} = \frac{1}{n}\frac{\partial }{\w parcial}(y^Ty - 2y^TXw + w^TX^TXw)$
这相当于对每一项求导：
$\ frac{\partial MSE}{\partial w} = \frac{1}{n}\Big[\frac{\partial}{\partial w}(y^Ty) - 2\frac{\partial}{\partial w}(y^TXw) + \frac{\partial}{\partial w}(w^TX^TXw)\Grande]$
exceptoCada término excepto $w puede tratarse como una constante.$ La derivada de cada componente se puede calcular usando la siguiente regla:
$\frac{dAx}{x} = A, \ quad \ frac{dx^TA}{x} = A^T, \quad \frac{dx^TAx}{x} = 2x^TA, \quad \frac{dA}{x} = 0$
se convierte en 0 siguiendo la cuarta regla. El segundo ítem sigue la primera regla y el tercer ítem sigue la tercera regla.
$\begin{aligned} MSE &= \frac{1}{n}(-2y^TX+2w^TX ^TX) \\ &= \frac{2}{n}(-y^TX+w^TX^TX) \end{aligned}$
Esta ecuación se puede utilizar para el descenso de gradiente mientras se calculan todas las derivadas parciales:
$w_{j+1} = w_j-\alpha\frac{2}{n} (-y^TX+w_j^TX^TX)$

en conclusión

Los detalles anteriores han deducido la fórmula de descenso de gradiente cuando se utiliza MSE como función de pérdida. Le mostraré en detalle cómo utilizar el descenso de gradiente en "Regresión lineal simple".

[Serie de aprendizaje automático vernáculo] Descenso de gradiente vernáculo

Descenso del gradiente vernáculo

Directorio de artículos

mejoramiento

Descenso de gradiente 1D

descenso del gradiente de error cuadrático medio

¿Qué es el error cuadrático medio?

peso único

doble peso

triple peso

Más de tres pesos

derivación de matrices

en conclusión

Supongo que te gusta