Función de pérdida de red neuronal---notas de estudio

					损失函数

1. ¿Qué es una función de pérdida?
El primer paso en el entrenamiento de cualquier modelo es definir la función de pérdida. El proceso de entrenamiento del modelo no es más que optimizar la función de pérdida, para encontrar los parámetros del modelo que minimicen la función de pérdida. La función de pérdida
es medir la diferencia entre la salida de la red y el valor real.
La función de pérdida no usar datos de prueba para medir el rendimiento de la red.
La función de pérdida se usa para guiar el proceso de entrenamiento. , de modo que los parámetros de la red cambien en la dirección de reducción de pérdida
. Suponiendo que nuestra red neuronal se use para la clasificación, la pérdida La función se define como una función de pérdida de entropía cruzada. Cuando la capa de salida de la red neuronal se maximiza, se emite la entrada actual, correspondiente a la probabilidad de cada categoría. Seleccione la categoría con la probabilidad más alta y, finalmente, use la función cruzada. Función de pérdida de entropía para detectar si la salida de categoría de la red neuronal actual es consistente con la categoría de la etiqueta real, para ajustar la red a la inversa.

2. Función de error absoluto (valor absoluto, norma L1)
inserte la descripción de la imagen aquí

Esta función es derivada, y el gradiente obtenido es constante, es decir,
cuando nuestro error es grande, el gradiente obtenido también es constante, por lo que no es sensible a valores atípicos.
3. Función de varianza (Error cuadrático, Pérdida euclidiana, L2-norma )
inserte la descripción de la imagen aquí

当我们的误差很大时,求出来的梯度也会变大的,所以对outliers敏感

Cuatro, entropía cruzada Corss-entropía-pérdida
inserte la descripción de la imagen aquí

S es la función softmax
K es el número de categorías
L es la etiqueta etiqueta de codificación one-hot
Multiplique todas las probabilidades generadas por softmax con la correspondiente etiqueta de codificación one-hot, y finalmente calcule el valor de la función de pérdida (solo la etiqueta y se calculan las probabilidades correspondientes de la etiqueta de codificación one-hot)
inserte la descripción de la imagen aquí

Cálculo de derivadas:

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Cinco, clasificación multietiqueta
inserte la descripción de la imagen aquí

Las categorías no son mutuamente excluyentes y pueden pertenecer a múltiples categorías.
La capa de salida final no usa softmax, sino que usa Sigmoid solo, y la última es la probabilidad de salida.
Suponga que los tres valores de salida final son x1 = 9, x2=8, x3=6, usando Sigmoid para x1, x2 y x3 respectivamente, las probabilidades resultantes son 0.6, 0.7 y 0.8, lo que significa que la probabilidad de que la entrada pertenezca a las tres categorías es diferente de softmax. de las probabilidades no es igual a 1.
inserte la descripción de la imagen aquí

K等于标签类别的合集
累加属于真实值标签的输出值,加上不属于该标签的输出值。

Supongo que te gusta

Origin blog.csdn.net/weixin_43391596/article/details/128157608
Recomendado
Clasificación