¿Cómo empezar con las redes neuronales?

Se recomienda el libro introductorio " Programación de redes neuronales Python ". Puntaje Douban 9.2.

Si puede sumar, restar, multiplicar y dividir, entonces puede crear su propia red neuronal. La operación más difícil que usamos es el cálculo de gradiente, sin embargo, ilustraremos este concepto para que tantos lectores como sea posible puedan entender el concepto.

En este libro, navegaremos , construiremos una red neuronal y reconoceremos dígitos escritos a mano.

Comenzaremos con neuronas predictivas muy simples y las mejoraremos gradualmente hasta llegar a sus límites. En el camino, haremos algunas paradas breves y aprenderemos algunos conceptos matemáticos. Necesitamos estos conceptos matemáticos para comprender cómo las redes neuronales aprenden y predicen soluciones a los problemas.

Veremos ideas matemáticas como funciones, clasificadores lineales simples , refinamiento iterativo, multiplicación de matrices , cálculo de gradientes, optimización a través del descenso de gradientes e incluso rotación geométrica. Sin embargo, todos estos conceptos matemáticos se explican de una manera muy elegante y clara, y el lector no requiere ningún conocimiento previo o experiencia técnica más allá de las matemáticas simples de la escuela secundaria.

Una vez que hayamos creado con éxito nuestra primera red neuronal, llevaremos esta idea con nosotros y la usaremos de varias maneras. Por ejemplo, podemos usar el procesamiento de imágenes para mejorar el aprendizaje automático sin recurrir a datos de entrenamiento adicionales. Echaremos un vistazo a la mente de una red neuronal y veremos si revela alguna idea profunda: muchos libros no le muestran cómo funciona una red neuronal.

Mientras hacemos redes neuronales paso a paso, también aprenderemos Python, un lenguaje de programación muy simple, útil y popular . Nuevamente, no necesita ninguna experiencia previa en programación.

Este libro descubre los conceptos detrás de las redes neuronales y muestra cómo implementarlas en Python. Todo el libro está dividido en 3 capítulos y dos apéndices. El Capítulo 1 presenta las ideas matemáticas utilizadas en las redes neuronales. El Capítulo 2 presenta el uso de Python para implementar redes neuronales, reconocer dígitos escritos a mano y probar el rendimiento de las redes neuronales. El Capítulo 3 lleva a los lectores a aprender más sobre las redes neuronales simples, observar el interior de las redes neuronales entrenadas, tratar de mejorar aún más el rendimiento de las redes neuronales y profundizar su comprensión del conocimiento relacionado. El apéndice presenta el conocimiento de cálculo requerido y el conocimiento de Raspberry Pi , respectivamente.

Este libro es una referencia de aprendizaje para lectores que desean participar en la investigación y exploración de redes neuronales, y también es adecuado para lectores interesados ​​en campos relacionados como la inteligencia artificial, el aprendizaje automático y el aprendizaje profundo.


"Programación de redes neuronales en Python" Conocimiento matemático: Introducción al cálculo

A.1 Una línea recta

Primero, comencemos con un escenario muy simple.

Imagine un automóvil que viaja a una velocidad constante de 30 mph. No rápido, no lento, solo 30 mph.

La velocidad del automóvil en varios momentos se muestra en la siguiente tabla, medida cada medio minuto.

hora/minuto Velocidad (mph)
0 30
0.5 30
1.0 30
1.5 30
2.0 30
2.5 30
3.0 30

La siguiente figura visualiza la velocidad en estos puntos en el tiempo.

Se puede ver que la velocidad no cambia con el tiempo, por lo que esta es una línea horizontal. La línea no se inclina hacia arriba (aceleración) ni hacia abajo (desaceleración), y el automóvil se mantiene a 30 mph.

La expresión matemática de la velocidad, que llamamos s :

Ahora, si alguien pregunta cómo cambia la velocidad con el tiempo, diremos que la velocidad no cambia con el tiempo. La tasa de cambio es 0. En otras palabras, la velocidad no depende del tiempo, la correlación es 0.

¡Acabamos de terminar cálculo!

El cálculo se trata de establecer relaciones para expresar cómo cambia una cosa a medida que cambian otras cosas. Aquí, estamos pensando en cómo cambia la velocidad con el tiempo.

Tenemos una forma matemática de expresar esta relación.

¿Cuáles son estos símbolos? Piense en esta notación como "cómo cambia la velocidad cuando cambia el tiempo" o "cómo se relaciona s con t".

Entonces, esta expresión dice que la velocidad no cambia con el tiempo, lo cual es una forma clara que usan los matemáticos. O para decirlo de otra manera, la velocidad no se ve afectada con el tiempo. La dependencia de la velocidad con el tiempo es 0. Esto es lo que significa 0 en la expresión. Son completamente ajenos.

De hecho, puedes encontrar esta falta de correlación cuando observas nuevamente la expresión para la velocidad s = 30. En esta expresión, el tiempo no se menciona en absoluto. Es decir, en esta expresión no hay tiempo t oculto . Por lo tanto, no necesitamos hacer ningún cálculo complicado para saber que ∂s / ∂t = 0, simplemente podemos observar la expresión para llegar a esta conclusión. Los matemáticos llaman a esto el "método de observación".

Una expresión como ∂s/∂t, que explica la tasa de cambio, se llama derivada. Para nuestros propósitos, no necesitamos saber esto, sin embargo, puede encontrar este término en otro lugar.

Ahora, si pisamos el acelerador, veamos qué pasa. ¡Esto es muy emocionante!

A.2 Una barra oblicua

Imagínense el mismo auto yendo a 30 mph. Pisamos ligeramente el acelerador y el coche aceleró. Mantuvimos el acelerador presionado y observamos la escala en el panel de instrumentos, registrando la velocidad cada 30 segundos.

Después de 30 segundos, el automóvil viajaba a 35 mph. Después de 1 minuto, el automóvil viajaba a 40 mph. Después de 90 segundos, el automóvil alcanzaba las 45 mph. Después de 2 minutos, el automóvil alcanzó una velocidad de 50 mph. La aceleración del automóvil es de 10 millas por minuto.

La siguiente tabla resume la misma información.

hora/minuto Velocidad (mph)
0.0 30
0.5 35
1.0 40
1.5 45
2.0 50
2.5 55
3.0 60

Visualicémoslo de nuevo.

Puedes ver que la velocidad del automóvil sube de 30 mph a 60 mph a una tasa constante. Dado que el incremento de la velocidad es el mismo cada medio minuto, la gráfica de la velocidad en el tiempo es una línea recta y se puede ver la tasa.

¿Cuál es la expresión de la velocidad? En el tiempo 0, la velocidad es 30. Después de esto, la velocidad aumenta en 10 mph por minuto. Por lo tanto, la expresión de la velocidad es la siguiente.

O use la notación de la siguiente manera:

Aquí se puede ver la constante 30. Y también vea (10 x t), lo que significa un aumento de 10 mph por minuto. Rápidamente te darás cuenta de que 10 es la pendiente de la línea que hemos dibujado . Recuerda que la forma general de una línea recta es y  = a x  + b, donde a es la pendiente o gradiente.

Entonces, ¿cómo es la expresión de velocidad versus tiempo? Bueno, ya hemos discutido esto, la velocidad aumenta en 10 mph por minuto.

Lo que dice esta expresión es que, dado que ∂s / ∂t no es cero, existe una correlación entre la velocidad y el tiempo.

Recuerda,  la pendiente de la línea y  = a x + b es a, y podemos saber que la pendiente de s = 30 + 10t es 10 a través del "método de observación".

¡bien hecho! Hemos cubierto muchos de los conceptos básicos del cálculo, que no son nada difíciles. ¡Ahora, vamos a pisar el acelerador!

A.3 Una curva

Imagina que arranco el coche desde cero, aprieto fuerte el acelerador y no lo suelto. Dado que, para empezar, no nos estamos moviendo, la velocidad inicial es 0.

Imagínese que pisamos muy fuerte el acelerador y el coche no aumenta la velocidad a un ritmo constante. En cambio, el automóvil aumenta la velocidad más rápido. Esto significa que en lugar de aumentar a 10 mph por minuto, la aceleración del automóvil aumenta a medida que se mantiene presionado el acelerador durante más tiempo.

Para este ejemplo, imagine que medimos la velocidad cada minuto, como se indica en la siguiente tabla.

hora/minuto Velocidad (mph)
0 0
1 1
2 4
3 9
4 dieciséis
5 25
6 36
7 49
8 64

Si miras de cerca, puedes ver que elegí hacer que la velocidad sea el cuadrado del tiempo en minutos. Es decir, cuando el tiempo es 2 minutos, la velocidad es 22 = 4; cuando el tiempo es 3 minutos, la velocidad es 32 = 9; cuando el tiempo es 4 minutos, la velocidad es 42 = 16; y así sucesivamente.

Ahora, esta expresión también es fácil de escribir.

Si bien sé que la velocidad del automóvil en el ejemplo es intencional, es una buena ilustración de cómo hacemos el cálculo.

Visualicemos esta expresión para que podamos tener una idea de cómo cambia la velocidad con el tiempo.

Se puede ver que la velocidad cambia cada vez más rápido. Actualmente, el gráfico ya no es una línea recta. Es concebible que la velocidad aumente explosivamente rápidamente a números muy grandes. A los 20 minutos, la velocidad será de 400 mph; a los 100 minutos, ¡la velocidad será de 10 000 mph!

Una pregunta interesante: ¿cómo se ve la tasa de cambio de la velocidad con respecto al tiempo? Es decir, ¿cómo cambia la velocidad con el tiempo?

Esta no es la misma pregunta que cuál es la velocidad real en un momento determinado. Ya tenemos la expresión s = t2, por lo que ya se conoce el valor.

Lo que estamos preguntando es: en cualquier momento, ¿cuál es la tasa de cambio de la velocidad? En este ejemplo, ¿esta oración significa dónde se dobla el gráfico?

Si recuerda los dos ejemplos anteriores, la tasa de cambio es la pendiente de la curva de velocidad versus tiempo. Cuando el automóvil viaja a una velocidad constante de 30 mph, la velocidad no cambia, por lo que la tasa de cambio es 0. Cuando el automóvil acelera constantemente, la tasa de cambio de velocidad es de 10 millas por hora. En cualquier momento, 10 mph es lo correcto. En un tiempo de 2 minutos, la tasa de cambio es de 10 millas por minuto. A los 4 minutos, esto es cierto a los 100 minutos.

En gráficas, ¿podemos aplicar la misma idea? Por supuesto que puedes, pero, aquí, démoslo por sentado.

A.4 Cálculo dibujado a mano

Echemos un vistazo más de cerca a lo que sucede cuando el tiempo es igual a 3 minutos.

A los 3 minutos, la velocidad es de 9 mph. Sabemos que después de 3 minutos la velocidad será más rápida. Comparemos esto con lo que sucede a los 6 minutos. A los 6 minutos, la velocidad era de 36 mph. Después de 6 minutos, la velocidad será más rápida.

Sin embargo, también sabemos que la tasa de aumento de la velocidad es mayor en el momento después de 6 minutos que en el momento después de 3 minutos. Esta es la verdadera diferencia entre lo que sucede a los 3 minutos ya los 6 minutos.

Visualicemos este contraste como se muestra en la imagen de abajo.

Se puede ver que la pendiente a los 6 minutos es mayor que la pendiente a los 3 minutos. La pendiente es la tasa de cambio que queremos. Esta es una realización importante, digámoslo de nuevo. La tasa de cambio en cualquier punto de la curva es la pendiente de la curva en ese punto.

Pero, ¿cómo se mide la pendiente de una curva? Para una línea recta, es fácil medir la pendiente. Para una curva, se puede dibujar una línea recta llamada tangente. La tangente debe estar lo más cerca posible de la pendiente de la curva en un punto, para que la pendiente de la curva en ese punto pueda estimarse a partir de la pendiente de la tangente. De hecho, así es como la gente medía la pendiente de una curva antes de que aparecieran otras medidas.

Para darle al lector una idea de este enfoque, probemos este método crudo. La siguiente figura muestra el gráfico de la curva de velocidad, a los 6 minutos obtenemos la recta tangente con un solo punto de intersección con la curva de velocidad.

Sabemos por las matemáticas de la escuela secundaria que para calcular la pendiente, o pendiente, se divide la altura de la pendiente por el ancho. En el diagrama de arriba, la altura (velocidad) es Δs y el ancho (tiempo) es Δt. El símbolo Δ se llama "incremento", es decir, un pequeño cambio. Δt es por lo tanto un pequeño cambio en t.

La pendiente es Δs/Δt. Para el bisel, elija un triángulo de cualquier tamaño y use una regla para medir la altura y el ancho. Según los resultados de mi medición, obtuve exactamente un triángulo con Δs de 9,6 y Δt de 0,8. Por lo tanto, la pendiente resultante es la siguiente:

¡Obtuvimos un resultado importante! A los 6 minutos, la tasa de cambio de velocidad fue de 12,0 millas por minuto.

Debe comprender que confiar en una regla, hacerlo lo mejor que pueda o incluso tratar de dibujar tangentes a mano, no será particularmente preciso. Así que vamos a hacer las cosas un poco más complicadas.

A.5 Cálculo no dibujado a mano

Eche un vistazo más de cerca a la imagen de abajo, hay una nueva línea marcada en esta imagen. La línea corta la curva en dos puntos, por lo que no es una tangente. Sin embargo, la línea parece centrarse de alguna manera alrededor del punto de tiempo de 3 minutos.

De hecho, esta línea está relacionada con el punto de tiempo de 3 minutos. El punto de tiempo que elegimos es el punto de tiempo t = 3 minutos por encima y por debajo del punto de tiempo que nos interesa. Aquí, elegimos 2 minutos por encima y por debajo del punto de tiempo de t = 3 minutos, es decir, t = 1 minuto y t = 5 minutos.

Usando notación matemática , podemos decir que Δx es 2 minutos. Los puntos de tiempo que elegimos son x-Δx y x+Δx. Recuerda, el símbolo Δ solo significa un "pequeño cambio", por lo que Δx es un pequeño cambio en la coordenada x.

¿Por qué haces esto? Los lectores pronto entenderán, abramos primero el apetito del lector.

Si observa las velocidades en los puntos de tiempo x-Δx y x+Δx, y dibuja una línea recta entre estos dos puntos, obtiene una línea cuya pendiente es aproximadamente la misma que la pendiente de la tangente en el punto medio x. Mire el gráfico de arriba nuevamente y mire esa línea recta. Por supuesto, esta recta no tiene exactamente la misma pendiente que la verdadera pendiente de la tangente en x, pero la corregiremos.

Calculemos el gradiente (pendiente) de esta línea. Al igual que con el método utilizado anteriormente, dividimos la altura del bisel por el ancho para obtener el degradado. La imagen a continuación muestra la altura y el ancho del bisel más claramente.

La altitud es la diferencia entre las velocidades en los dos puntos x-Δx y x + Δx, es decir, la diferencia entre las dos velocidades en 1 minuto y 5 minutos. Sabemos que en estos dos puntos, las velocidades son 12 = 1 y 52 = 25 mph, por lo que la diferencia de velocidad es 24. El ancho es muy fácil de calcular, es la distancia entre x-Δx y x+Δx, que es la distancia entre 1 y 5, que es 4. Por lo tanto, obtenemos:

La pendiente de la línea se aproxima a la pendiente de la tangente en t = 3 minutos a 6 millas por minuto.

Hagamos una pausa por un momento y revisemos lo que se ha hecho. Primero, tratamos de calcular la pendiente de la curva usando la tangente a mano alzada. Este método nunca será preciso y no se puede usar una y otra vez ya que somos humanos y nos aburrimos, nos aburrimos y cometemos errores. El siguiente método no requiere tangentes a mano alzada, sino que crea una línea diferente de una manera que tiene aproximadamente la misma pendiente que la correcta. El segundo método se puede hacer automáticamente por computadora y, dado que no requiere trabajo humano, se puede hacer muchas veces y la velocidad es muy rápida.

¡Eso es bastante bueno, pero todavía no es lo suficientemente bueno!

El segundo método solo obtiene una aproximación . ¿Cómo se puede mejorar este valor para que sea exacto? Nuestro objetivo es descubrir cómo cambian las cosas de una manera matemática precisa, para obtener el valor del gradiente.

¡Aquí es donde ocurre la magia! Los matemáticos han desarrollado una herramienta muy ligera y afilada y se divierten mucho con ella.

¿Qué pasa si haces el ancho más pequeño? Dicho de otro modo, es decir, ¿qué pasa si haces Δx más pequeño? La siguiente figura detalla las varias líneas de aproximación o líneas de pendiente que se obtienen a medida que Δx se vuelve progresivamente más pequeño.

 

Hemos dibujado líneas para Δx = 2,0, Δx = 1,0, Δx = 0,5 y Δx = 0,1. Puedes ver que la línea se acerca cada vez más a nuestro punto de interés, el punto a los 3 minutos. Puedes imaginar que a medida que disminuimos el valor de Δx, la línea recta se acercará cada vez más a la tangente verdadera a los 3 minutos.

Cuando Δx se vuelve infinitamente pequeño, la línea recta está infinitamente cerca de la tangente verdadera. ¡Esto es genial!

La idea de mejorar la aproximación, acercándose a la solución haciendo que el sesgo sea cada vez más pequeño, es simplemente demasiado poderosa. Los matemáticos usan caminos tortuosos para resolver problemas que son difíciles de resolver directamente. Es un poco como escabullirse desde un lado, en lugar de atacar desde el frente.

A.6 Cálculo sin diagramas

Dijimos anteriormente que el cálculo se trata de comprender cómo cambian las cosas de una manera matemática precisa. Veamos si podemos aplicar esta idea de reducir progresivamente Δx a las expresiones matemáticas que definen estas cosas, como la curva de velocidad de un automóvil.

Sabemos que la velocidad es una función del tiempo, es decir, s = t2. Queremos saber cómo cambia la velocidad en función del tiempo. Hemos visto que esta es la pendiente de s al trazar la curva con respecto a t.

Sin embargo, la tasa de cambio ∂s / ∂t es igual a la altura dividida por el ancho de nuestra línea construida, donde Δx es infinitesimalmente pequeño.

¿Cuál es la altura? Como vimos anteriormente, esto es (t + Δx)2 - (t - Δx)2. Es decir, según la fórmula s = t2, donde t es el desplazamiento vertical Δx del punto de interés, se calcula y resta el s correspondiente.

¿Cuál es el ancho? Como vimos anteriormente, en términos simples, esta es solo la distancia entre (t + Δx) y (t - Δx), que es 2Δx.

Casi estámos allí,

Expandamos y simplifiquemos la expresión

De hecho, tenemos suerte de que el álgebra en sí se haya simplificado bastante bien.

¡Hemos alcanzado nuestro objetivo! Matemáticamente, la tasa de cambio exacta es ∂s / ∂t = 2t. Esto significa que, para cualquier tiempo t, sabemos que la tasa de cambio de velocidad es ∂s / ∂t = 2t.

En t = 3 minutos tenemos ∂s / ∂t = 2t = 6. De hecho, confirmamos este valor antes de usar el método de aproximación. En t = 6 minutos, ∂s / ∂t = 2t = 12, que se ajusta muy bien al valor que encontramos anteriormente.

¿Cuál es este valor en t = 100 minutos? ∂s / ∂t = 2t = 200 millas por minuto. Eso significa que, después de 100 minutos, el automóvil acelera a 200 mph.

¡Tomemos un momento y pensemos en lo importante y genial que acabamos de hacer! Tenemos una expresión matemática que nos permite conocer exactamente la tasa de cambio de la velocidad del automóvil en cualquier momento. De la discusión anterior, podemos ver que la tasa de cambio varía con el tiempo.

Tenemos suerte de que la simplificación algebraica sea ordenada, pero el simple s = t2 no nos da la oportunidad de intentar reducir Δx a propósito. Así que prueba con otro ejemplo, donde la velocidad del auto es un poco más complicada.

Ahora, ¿cuál es la altura? Esta es la diferencia en s calculada en t+Δx y t-Δx.

Es decir, la altura es (t + Δx)2 + 2(t + Δx) - (t - Δx)2 - 2(t - Δx).

¿Cuál es el ancho? Esta es la distancia entre (t + Δx) y (t - Δx), nuevamente 2Δx.

expandir y simplificar expresiones

¡Este es un resultado importante! Lamentablemente, el álgebra nuevamente simplifica esto con demasiada facilidad. Aquí hay un patrón del que hablaremos más adelante, por lo que obtenemos el resultado sin sudar.

Probemos con otro ejemplo, no demasiado complicado. Fijamos la velocidad del coche para que sea el cubo del tiempo.

expandir y simplificar expresiones

¡Ahora, las cosas se ponen más interesantes! Obtenemos un resultado que incluye Δx, y antes, los Δx en la expresión se anulan entre sí.

Bueno, tenga en cuenta que el gradiente solo es correcto si Δx se vuelve más pequeño e infinitamente más pequeño.

¡Este es el lugar más genial! ¿Qué le sucede a Δx en la expresión ∂s / ∂t = 3t2 + Δx2 cuando Δx se hace cada vez más pequeño? ¡se fue! Si esto te sorprende, imagina Δx como un valor muy, muy pequeño. Puedes intentar pensar en un valor más pequeño, y luego en un valor más pequeño... puedes seguir y seguir, de modo que Δx se acerque cada vez más a cero. Entonces, tratémoslo como 0 y evitemos todos estos problemas.

Esto da la respuesta matemáticamente precisa que estaba buscando:

Este es un resultado maravilloso, esta vez, usamos poderosas herramientas matemáticas para hacer cálculos, y no es nada difícil.

A.7 Modo

Tomamos los deltas como Δx, hacemos los deltas cada vez más pequeños, observamos lo que sucede, calculamos las derivadas y la alegría es que podemos calcular directamente las derivadas sin hacer todo este trabajo.

Eche un vistazo a las derivadas calculadas para ver si se puede observar algún patrón:

Se puede ver que la derivada de la función de t es la misma excepto que la potencia de t se reduce en 1. Entonces t4 se convierte en t3, t7 se convierte en t6 y así sucesivamente. ¡Es bastante fácil! t es t1, por lo tanto, la derivada de t es t0 que es 1.

Dado que las constantes, como 3, 4, 5 (variables constantes, podríamos llamarlas a, b, c), no tienen tasa de cambio, las constantes simplemente desaparecen. Por eso se llaman constantes.

Pero espere, observe que t2 se convierte en 2t en lugar de t, y t3 se convierte en 3t2, no en t2. Aquí hay un paso más, el exponente se usa como multiplicador antes de que se reduzca el exponente. Por lo tanto, antes de restar 1 al exponente de 2t5, se debe usar el exponente de 5 como multiplicador, por lo tanto, 5 × 2t4 = 10t4.

A continuación se resume esta regla de potencia que se utiliza al realizar operaciones de cálculo.

Probemos esta nueva técnica en más ejemplos.

Entonces, esta regla permite mucha diferenciación y, para la mayoría de los propósitos, eso es todo lo que necesitamos. Esta regla solo se aplica a polinomios , es decir, expresiones formadas por potencias de varias variables, como y  = a x 3 + b x 2 + c x  + d, pero no a expresiones como sen x o cos x . Dado que el cálculo con la regla de la potencia tiene muchos usos, este no es un gran defecto.

Sin embargo, para las redes neuronales, necesitamos una herramienta adicional, que trataremos en la siguiente sección.

A.8 Funciones de funciones

Imagina una función

donde y también es una función

También podríamos escribir f  = ( x3  +  x )2 si quisiéramos.

¿ Cómo cambia f cuando cambia y ? Es decir, ¿cuál es ∂ f  / ∂ y ? Simplemente aplique la regla de la potencia que acaba de obtener, multiplique el exponente de la potencia y reste 1 del exponente de la potencia, luego este cálculo es muy fácil y puede obtener ∂ f /  y = 2 y .

Otra pregunta interesante: ¿ cómo cambia f cuando cambia x ? La expresión f  = ( x3x )2 se puede expandir y aplicar las mismas reglas. No puedes manipular las reglas para que ( x 3 +  x )2 se convierta en 2( x 3 +  x ) sin pensar.

Si, como antes, resolvemos esta expresión de la manera más larga y difícil con deltas gradualmente decrecientes, nos sorprenderemos al encontrar que aquí hay otro conjunto de patrones. Saltemos directamente a la respuesta.

El patrón se ve así:

Este es un resultado muy importante, que llamamos la regla de la cadena .

Como puedes ver, este modo nos permite calcular la derivada capa por capa, igual que pelar una cebolla, deshaciendo las capas compuestas capa por capa. Para calcular ∂ f  / ∂ x , puede que nos resulte más fácil calcular ∂ f  / ∂ y primero y luego ∂ y  / ∂ x . Si fueran más fáciles, entonces podríamos hacer cálculos en expresiones aparentemente imposibles. La regla de la cadena nos permite descomponer el problema, dividiéndolo en problemas más pequeños y fáciles.

Mirando este ejemplo de nuevo, aplicando la regla de la cadena:

Ahora, el cálculo produce términos más simples. El primer término es (∂ f  / ∂ y ) = 2 y y el segundo término es (∂ y  / ∂ x ) = 3 x 2 + 1. Entonces, usando la regla de la cadena, combinando estos términos, obtenemos:

Sabemos que y  =  x 3 +  x , por lo que obtenemos la expresión solo para x :

¡Qué momento tan mágico para presenciar!

Puede preguntarse por qué se hace esto, ¿por qué no primero expandir f en términos de x , luego aplicar la regla de la potencia simple y realizar cálculos en el polinomio resultante? Por supuesto que podría hacerse, pero si lo hiciera, no especificaría la regla de la cadena, que resuelve muchos de los problemas más difíciles.

Veamos un último ejemplo, este demuestra cómo tratar con múltiples variables independientes.

Si obtiene una función

donde x , y y z son variables que son independientes entre sí. ¿Qué entendemos por irrelevante? Lo que queremos decir es que x, y y z pueden tomar cualquier valor y no les importan los valores de las otras variables, no se afectan entre sí. Esto es diferente del ejemplo anterior y = x 3 +  x donde y está relacionado con x .

¿Cuánto es ∂f /  ∂x ? Veamos cada término de esta expresión larga. El primer término es 2 xy , por lo que la derivada es 2 y . ¿Por qué es tan simple? Dado que y no tiene nada que ver con x , es bastante sencillo. Cuando decimos ∂ f  / ∂ x , estamos hablando de cómo cambia f cuando cambia x . Si y es independiente de x , entonces puede tratarse como una constante. Es decir, y también puede ser otro número como 2, 3 o 10.

Sigamos adelante, el siguiente término es 3 x 2 z . Se puede aplicar la regla de la potencia, lo que da como resultado 2×3 xz o 6 xz . Como x no tiene nada que ver con z , tratamos a z como una constante aburrida como 2, 4 o 100. Un cambio en z no afecta a x .

El último término es 4 z , x no existe en este término . Esto desaparece por completo ya que lo tratamos como una constante ordinaria como 2 o 4.

La respuesta final es

En el último ejemplo, es importante que tenga la confianza para ignorar las variables que se sabe que son irrelevantes . Esto hace que sea muy sencillo realizar cálculos en expresiones bastante complejas. Este tipo de conocimiento es muy necesario cuando se analizan redes neuronales.

¡Puedes hacer cálculos!

Si has llegado hasta aquí, ¡eres increíble!

Realmente entiendes el verdadero significado del cálculo, entiendes cómo usar la aproximación, mejoras paso a paso, hasta que finalmente introduces el cálculo. En otros problemas difíciles, si es difícil de resolver usando métodos normales, puede intentar resolverlos usando estos métodos.

Aprendimos dos técnicas, la regla de la potencia y la regla de la cadena, que nos permitieron hacer muchos cálculos, incluida la comprensión de cómo y por qué funcionan las redes neuronales.

¡Disfruta de tus nuevos poderes!

Otras lecturas

Algoritmos de Inteligencia Artificial (Volumen 3): Deep Learning y Redes Neuronales

Este libro demostrará las redes neuronales en una variedad de tareas del mundo real, como el reconocimiento de imágenes y la ciencia de datos. Examinamos las técnicas actuales de redes neuronales, incluidas las activaciones de ReLU, el descenso de gradiente estocástico, la entropía cruzada , la regularización, el abandono y la visualización.

Este libro es adecuado como referencia para lectores introductorios de inteligencia artificial y lectores interesados ​​en algoritmos de inteligencia artificial.

Supongo que te gusta

Origin blog.csdn.net/epubit17/article/details/131421277
Recomendado
Clasificación