Inicialización retrasada de los parámetros del modelo

Parte de las notas de estudio de "Practica Pytorch de aprendizaje profundo" es solo para tu propia revisión.

Porque cuando usa la capa completamente conectada creada por Gluon, necesita especificar el número de entradas. Por lo tanto, cuando se llama a la función de inicialización, dado que aún se desconoce el número de entradas de capa ocultas, el sistema no puede conocer la forma de los parámetros de peso de la capa. Solo cuando la entrada X con una forma conocida se pasa a la red para el cálculo directo net (X), el sistema puede inferir la forma del parámetro de peso de la capa y luego proceder a la operación de inicialización real. Pero cuando usa PyTorch para definir el modelo, debe especificar la forma de la entrada, por lo que este problema no existe .

Supongo que te gusta

Origin blog.csdn.net/dujuancao11/article/details/108461007
Recomendado
Clasificación