La comprensión del tamaño del tamaño del lote para el modelo de red.

prefacio

Cada época pasa su conjunto de datos a través de la red neuronal para la propagación hacia adelante y hacia atrás. Dado que el conjunto de datos para el entrenamiento de época puede ser demasiado grande, debe dividirse en bloques, correspondientes a la cantidad de tamaños del tamaño del lote.

Al entrenar datos, el tamaño del lote afectará la precisión y la duración del entrenamiento, etc.

La selección del tamaño del lote está entre 1 y la cantidad total de datos.Si la selección es demasiado grande o demasiado pequeña, habrá extremos. Si es demasiado pequeño, puede ocurrir un ajuste insuficiente, si es demasiado grande, puede ocurrir un ajuste excesivo.El tamaño de lote específico a elegir depende de la red y el conjunto de datos.

1. Definición del tamaño del lote

El tamaño del tamaño del lote determina la dirección y el tamaño del descenso del gradiente

Actualice el peso a través de cada entrenamiento de época, cuando el tamaño de lote se establece en 1, solo se usa 1 muestra para actualizar los parámetros, y cuando el tamaño de lote se establece en 2, solo se usan 2 muestras para actualizar los parámetros. La actualización de los pesos afecta la dirección y magnitud del descenso del gradiente.

2. tamaño del lote

El tamaño del tamaño del lote ventaja defecto
demasiado pequeño (se supone que es 1) Solo aplicable a datos de muestra pequeños -Consume mucho tiempo : cuando la cantidad total de datos es grande, solo se usa 1 dato para cada entrenamiento, y el tiempo será muy largo.

- Difícil de converger : las diferencias individuales harán que los gradientes caigan con fuerza, el modelo difícil de converger y fácil de ajustar
Demasiado grande (se supone que es la cantidad total de datos) - Ahorro de tiempo : el entrenamiento de múltiples datos reduce el lote requerido -Desbordamiento de memoria : una cantidad tan grande de datos cada vez puede causar un desbordamiento de memoria.

-Otros : Es difícil modificar los parámetros, se ha determinado la dirección de descenso del gradiente, y no hay un ligero cambio.

Sobreajuste:

inserte la descripción de la imagen aquí

3. equilibrio del tamaño del lote

Al entrenar datos en una red neuronal, generalmente se selecciona un tamaño de lote adecuado. Un tamaño de lote grande puede mejorar la estabilidad y puede ser más estable cuando cae el gradiente, pero no es extremadamente grande. Debe ser adecuado para su propia red. modelo y volumen de datos.

Es más preciso elegir la dirección de descenso del tamaño de lote apropiado, la fluctuación causada por el entrenamiento es pequeña y la dirección de descenso general se puede ajustar

Ventajas de elegir un tamaño de lote adecuado:

  • Mejore la utilización de la memoria, la gpu se ejecuta al máximo
  • La dirección y el tamaño del descenso del gradiente son más precisos

Supongo que te gusta

Origin blog.csdn.net/weixin_47872288/article/details/128517121
Recomendado
Clasificación