Tabla de contenido
prefacio
Cada época pasa su conjunto de datos a través de la red neuronal para la propagación hacia adelante y hacia atrás. Dado que el conjunto de datos para el entrenamiento de época puede ser demasiado grande, debe dividirse en bloques, correspondientes a la cantidad de tamaños del tamaño del lote.
Al entrenar datos, el tamaño del lote afectará la precisión y la duración del entrenamiento, etc.
La selección del tamaño del lote está entre 1 y la cantidad total de datos.Si la selección es demasiado grande o demasiado pequeña, habrá extremos. Si es demasiado pequeño, puede ocurrir un ajuste insuficiente, si es demasiado grande, puede ocurrir un ajuste excesivo.El tamaño de lote específico a elegir depende de la red y el conjunto de datos.
1. Definición del tamaño del lote
El tamaño del tamaño del lote determina la dirección y el tamaño del descenso del gradiente
Actualice el peso a través de cada entrenamiento de época, cuando el tamaño de lote se establece en 1, solo se usa 1 muestra para actualizar los parámetros, y cuando el tamaño de lote se establece en 2, solo se usan 2 muestras para actualizar los parámetros. La actualización de los pesos afecta la dirección y magnitud del descenso del gradiente.
2. tamaño del lote
El tamaño del tamaño del lote | ventaja | defecto |
---|---|---|
demasiado pequeño (se supone que es 1) | Solo aplicable a datos de muestra pequeños | -Consume mucho tiempo : cuando la cantidad total de datos es grande, solo se usa 1 dato para cada entrenamiento, y el tiempo será muy largo. - Difícil de converger : las diferencias individuales harán que los gradientes caigan con fuerza, el modelo difícil de converger y fácil de ajustar |
Demasiado grande (se supone que es la cantidad total de datos) | - Ahorro de tiempo : el entrenamiento de múltiples datos reduce el lote requerido | -Desbordamiento de memoria : una cantidad tan grande de datos cada vez puede causar un desbordamiento de memoria. -Otros : Es difícil modificar los parámetros, se ha determinado la dirección de descenso del gradiente, y no hay un ligero cambio. |
Sobreajuste:
3. equilibrio del tamaño del lote
Al entrenar datos en una red neuronal, generalmente se selecciona un tamaño de lote adecuado. Un tamaño de lote grande puede mejorar la estabilidad y puede ser más estable cuando cae el gradiente, pero no es extremadamente grande. Debe ser adecuado para su propia red. modelo y volumen de datos.
Es más preciso elegir la dirección de descenso del tamaño de lote apropiado, la fluctuación causada por el entrenamiento es pequeña y la dirección de descenso general se puede ajustar
Ventajas de elegir un tamaño de lote adecuado:
- Mejore la utilización de la memoria, la gpu se ejecuta al máximo
- La dirección y el tamaño del descenso del gradiente son más precisos