Números altos en aprendizaje automático

Descenso derivado y gradiente

En pocas palabras, la derivada es la pendiente de la curva, que refleja la velocidad de la curva. La segunda derivada es un reflejo de qué tan rápido cambia la pendiente de la curva.
Sabemos que si existe la derivada de la función z = f (x, y) en el punto P (x, y), entonces existe la derivada parcial de la función en cualquier dirección L en este punto, y hay:

∂(f)∂(l)=∂(f)∂(x)cosφ+∂(f)∂(l)sinφ
∂(f)∂(l)=∂(f)∂(x)cosφ+∂(f)∂(l)sinφ

Donde φφ es el ángulo de rotación desde el eje X a la dirección L.
La fórmula anterior se puede expresar como una matriz:

∂(f)∂(l)=(∂(f)∂(x),∂(f)∂(l))⋅(cosφ,sinφ)T
∂(f)∂(l)=(∂(f)∂(x),∂(f)∂(l))⋅(cosφ,sinφ)T

¿Cuándo es el producto puntual máximo de los dos vectores? Porque: cuando la a⋅b=|a||b|cosφa⋅b=|a||b|cosφ
respuesta es la misma dirección, el producto escalar es el más grande, por lo que un algoritmo de aprendizaje automático clásico-descenso de gradiente, es como caminar desde la cima de la montaña hasta el pie de la montaña, descendiendo a la velocidad más rápida, usando la derivada parcial de la posición actual, a lo largo de Disminuir en la dirección de la derivada parcial, y llegar al destino lo más rápido posible.
(∂(f)∂(x),∂(f)∂(l))(∂(f)∂(x),∂(f)∂(l))Es z=f(x,y)el gradiente de la función en el punto P, denotado como gradf(x,y).
La dirección del gradiente es la dirección en la que la función cambia más rápido en el punto actual.

El secreto detrás de la cantidad de combinaciones.

Veamos primero un problema de probabilidad clásico típico: Empaque 12 productos genuinos y 3 productos defectuosos en 3 cajas al azar, con 5 piezas en cada caja. ¿Cuál es la probabilidad de que haya exactamente un producto defectuoso en cada caja?
Primero coloque 15 productos en 3 cajas, un total de 15! / (5! 5! 5!)
3 productos defectuosos en 3 cajas, un total de: 3! Tipos de empaque. Luego coloque 12 productos genuinos en 3 cajas, cada una con 4 piezas, el método de instalación total: 12! / (4! 4! 4!)
Entonces, la probabilidad P (A) = (3! * 12! / (4! 4! ) 4!)) / (15! / (5! 5! 5!))

Un problema general: N elementos se dividen en k grupos, por lo que el número de elementos en cada grupo es n1, n2, ..., nk (N = n1 + n2 + ... + nk), los diferentes métodos de agrupación son: N! N1! N2! ... nk! N! N1! N2! ... nk!
Cuando N tiende a infinito, llegamos a encontrar un valor especial:
H = 1NlnN! N1! N2! ... nk!
H = 1NlnN! N1! N2!… Nk!

Como N tiende a infinito, el
cálculo anterior de lnN! -> N (LnN-1) es equivalente a:
lnN − 1−1N∑i = 1kni (lnni − 1) = - 1N (∑i = 1kni (lnni) - NlnN) = - 1N∑i = 1k (ni (lnni) −nilnN) = - 1N∑i = 1k (nilnniN) = - ∑i = 1k (niNlnniN)
lnN − 1−1N∑i = 1kni (lnni − 1) = −1N (∑i = 1kni (lnni) −NlnN) = - 1N∑i = 1k (ni (lnni) −nilnN) = - 1N∑i = 1k (nilnniN) = - ∑i = 1k (niNlnniN)

Hay un total de N cajas, niNniN es equivalente a la frecuencia de la i-ésima caja, es decir p, la H anterior finalmente se convierte en:
H = −∑i = 1k (pi) ln (pi)
H = - ∑i = 1k (pi) ln (pi)

Sabemos que no hay nada en esta fórmula y la entropía se deriva de ella.

Supongo que te gusta

Origin blog.csdn.net/qq_38851184/article/details/106506182
Recomendado
Clasificación