¿Por qué no se pueden utilizar Dropout y BN juntos?

1 pregunta:

Tanto Dropout como BN pueden evitar el sobreajuste. Cuando se usan solos, ambos aportan ciertas mejoras de rendimiento. Sin embargo, trabajos recientes no los han utilizado juntos. ¿A qué se debe esto?

2. Razones:

1. La deserción transfiere la varianza de una unidad neuronal específica cuando el estado de la red se transfiere del entrenamiento a la prueba. Sin embargo, durante la fase de prueba, BN mantiene su varianza estadística, que se acumula durante todo el proceso de aprendizaje. La inconsistencia de la varianza en la deserción y la BN (llamada "cambio de varianza") conduce a un comportamiento numérico errático en la inferencia y, en última instancia, conduce a predicciones erróneas.

2. La siguiente figura muestra la diferencia entre entrenamiento y prueba entre BN y Abandono: el abandono se inactiva directamente con probabilidad p durante el entrenamiento, mientras que durante la prueba, cada neurona se escala (multiplicada por p). Otra forma de expresión equivalente es multiplicar 1/p en la fase de entrenamiento, y no se necesitan cambios en la fase de prueba, por lo tanto, entrenamiento: X=a*(1/p)*X, prueba: X=X, hay compensación de variación.

 

3. Hallazgos del autor:

(1) En cualquier caso, una mayor probabilidad de abandono desestabilizará la respuesta neuronal, por lo que establecemos la probabilidad de abandono <0,5. En resumen, el riesgo de transferencia depende tanto del índice de deserción como de la dimensión de la característica. La dimensión de la característica es el número de neuronas en la capa oculta. La deserción inactiva el número de neuronas ocultas con una cierta probabilidad, que se verán afectadas. Y BN también realiza cálculos de BN sobre el número de capas ocultas en cada capa (o cálculos de BN a lo largo de la dimensión C). Para una prueba matemática detallada, consulte el texto original.

(2) Ajustar la media móvil y la varianza a través de los datos de entrenamiento es beneficioso para la mejora, pero no puede compensar la pérdida total de rendimiento en comparación con la línea de base entrenada sin abandono. Además, el conjunto de predicciones de red que aplicaron abandono durante las pruebas para evitar la "deriva de la varianza" permaneció por debajo de estas líneas de base.

(3) Entendemos por qué algunos modelos recientes (como Inception-v4 [30], SENet [14]) adoptan una capa de abandono después de la última capa BN de toda la red, porque según nuestra teoría, no causará una variación esencial. cambio.

(4) También encontramos que la forma de Abandono se puede modificar para reducir su cambio de varianza, mejorando así su rendimiento incluso si se encuentran en bloques de construcción de cuellos de botella.

4. Inspiración para nuestros experimentos:

(1) La tasa de pérdida no debe ser demasiado grande, la dimensión del canal debe ser mayor y la red debe ser más amplia

(2) La deserción se coloca detrás del BN para aliviar la compensación.

(3) Mejorar la forma de abandono y reducir la compensación de la variación (suena problemático).

Texto de referencia: Comprender la falta de armonía entre el abandono y la normalización por lotes mediante el cambio de varianza

Supongo que te gusta

Origin blog.csdn.net/qq_37424778/article/details/126645585
Recomendado
Clasificación