batch_size: la cantidad de datos que se utilizan para la actualización del gradiente en un lote.
lote: en tamaño_lote, en cuántos lotes se divide el conjunto de datos. lote=tamaño total/tamaño_lote
época: cuántas veces entrenar todo el conjunto de datos. Generalmente, se selecciona >1, porque las características no se pueden aprender bien ingresando la red una sola vez.
Shuffle: si cada época está desordenada;
max_seq_len: parámetro del tokenizador, si los datos son mayores que max_seq_len, se truncarán directamente; si son menores que max_seq_len, se rellenará con 0 al ingresar la red para alinear los datos
Biblioteca tqdm: muestre el progreso en la terminal de la computadora, visualice el progreso del código y utilícelo en el ciclo for.
Los marcadores auxiliares [CLS] y [SEP] se utilizan para indicar el comienzo y la separación de oraciones.
pytorch: cargador de datos de lectura de datos
La diferencia entre preactivación y postactivación en ResNet
Entre ellos, pre y post son para operaciones de convolución, y para 1, 2 y 3, la convolución se realiza primero, por lo que es post-activación.
4,5 son modo de preactivación;
El acceso directo se puede entender como una conexión entre capas, para aliviar el problema de la degradación del rendimiento del modelo a medida que aumenta la profundidad de la red.
La reducción de muestreo se puede utilizar para reducir los parámetros del modelo. Por ejemplo, en DPCNN, seleccionar una reducción de muestreo con un tamaño de paso de 2 y un tamaño de 3 puede reducir la cantidad de datos del mapa de características a la mitad.