Comment la normalisation résout le gradient de fuite

Réimprimé l'article du Grand Dieu. Je sens que l'écriture est facile à comprendre

https://blog.csdn.net/sinat_33741547/article/details/87158830

Pour des méthodes de calcul spécifiques, veuillez consulter mon blog https://blog.csdn.net/gbz3300255/article/details/107997814

Pendant le processus d'apprentissage, au fur et à mesure que le réseau s'approfondit, la distribution change progressivement, ce qui fait que la distribution globale se déplace progressivement vers l'intervalle de saturation de la fonction d'activation, de sorte que le gradient de la couche inférieure disparaît pendant la propagation en retour, ce qui est la raison convergence plus lente et plus lente.

Pour le dire franchement, la normalisation consiste à résoudre le problème ci-dessus et à empêcher le gradient de se déplacer vers la région de saturation de la fonction d'activation.

La normalisation consiste à forcer la distribution à revenir à une distribution normale standard avec une moyenne de 0 et une variance de 1, de sorte que la valeur d'entrée d'activation tombe dans une zone où la fonction non linéaire est plus sensible à l'entrée, donc de petits changements dans l'entrée conduira à une fonction de perte plus grande Le changement de pour éviter le problème de la disparition du gradient et accélérer la convergence, comme suit:

                                            

Comme ci-dessus, en supposant que la moyenne de la distribution normale est de -2 et que la variance est de 0,5, comme le montre la courbe verte de la figure ci-dessus, elle est convertie en une distribution normale avec une valeur moyenne de 0 et une variance de 1 à l'opération de normalisation, comme indiqué sur la courbe rouge de la figure ci-dessus.
En fait, la distribution normale de la valeur de l'entrée x est décalée vers la droite de 2 (la valeur moyenne est modifiée), et la courbe graphique est plus lisse (la variance est modifiée). Alors, quels sont les avantages de faire cela?

                  

L'image montre le graphique de distribution normale standard. On peut voir que dans une plage d'écart-type, il y a une probabilité de 68% que la valeur de x se situe dans la plage de [-1,1]; dans la plage de deux écarts-types , il y a 95% La valeur de la probabilité x se situe dans la plage de [-2,2]. S'il s'agit de la distribution à activer, la fonction d'activation est sigmoïde, comme suit:

                                       

On peut voir que dans la plage de [-2, 2], c'est-à-dire dans les deux différences d'étiquette de la distribution normale standard, dans la fonction sigmoïde, c'est une zone de transformation linéaire, et un petit changement peut obtenir un grand changement, c'est-à-dire Le gradient est relativement grand.
S'il n'y a pas de transformation, il y a une distribution avec une valeur moyenne de -6 et une variance de 1, qui correspond à la région de [-8, -4] dans la fonction d'activation, qui est déjà une région saturée, qui est la soi-disant disparition du gradient.

Par conséquent, la standardisation signifie en fait que la plupart des valeurs activées tombent dans la région linéaire de la fonction non linéaire et que la dérivée correspondante est éloignée de la région de saturation de la dérivée, de manière à accélérer le processus de convergence d'apprentissage. La zone de saturation est la zone où le dégradé est sur le point de disparaître.

 

 

 

Je suppose que tu aimes

Origine blog.csdn.net/gbz3300255/article/details/111244997
conseillé
Classement