Parámetros de ML y la diferencia entre preactivación y postactivación en ResNet

batch_size: la cantidad de datos que se utilizan para la actualización del gradiente en un lote.

lote: en tamaño_lote, en cuántos lotes se divide el conjunto de datos. lote=tamaño total/tamaño_lote

época: cuántas veces entrenar todo el conjunto de datos. Generalmente, se selecciona >1, porque las características no se pueden aprender bien ingresando la red una sola vez.

Shuffle: si cada época está desordenada;

max_seq_len: parámetro del tokenizador, si los datos son mayores que max_seq_len, se truncarán directamente; si son menores que max_seq_len, se rellenará con 0 al ingresar la red para alinear los datos

Biblioteca tqdm: muestre el progreso en la terminal de la computadora, visualice el progreso del código y utilícelo en el ciclo for.

Los marcadores auxiliares [CLS] y [SEP] se utilizan para indicar el comienzo y la separación de oraciones.

pytorch: cargador de datos de lectura de datos

(6 mensajes) pytorch - Dataloader y Dataset en el mecanismo de lectura de datos_Poesía y Distancia-CSDN Blog

La diferencia entre preactivación y postactivación en ResNet

Entre ellos, pre y post son para operaciones de convolución, y para 1, 2 y 3, la convolución se realiza primero, por lo que es post-activación.

4,5 son modo de preactivación;

El acceso directo se puede entender como una conexión entre capas, para aliviar el problema de la degradación del rendimiento del modelo a medida que aumenta la profundidad de la red.

La reducción de muestreo se puede utilizar para reducir los parámetros del modelo. Por ejemplo, en DPCNN, seleccionar una reducción de muestreo con un tamaño de paso de 2 y un tamaño de 3 puede reducir la cantidad de datos del mapa de características a la mitad.

Supongo que te gusta

Origin blog.csdn.net/qq_41427834/article/details/116349469
Recomendado
Clasificación