深層学習を学習する際に、Sigmod から RELU までのいくつかの活性化関数を紹介しますが、その特徴について説明する際に、sigmod や RELU などの活性化関数には非ゼロ中心、つまり平均値は0ではありません。このとき、ジグザグダイナミクス(つまりギザギザ)と呼ばれる欠点があります。しかし、なぜこのような収束グラフが生成されるのかを説明する展開はほとんどありません。情報を調べたところ、非常によく書かれた記事がありました。
ニューラル ネットワーク - バックプロパゲーションにおいて非ゼロ中心活性化関数が問題となるのはなぜですか? - 相互検証済み
つまり、関数は Wx+b、活性化関数は SIgmod であり、既知の Sigmod の導関数は次のようになると仮定します。
これは常に 0 より大きく、導関数の符号は x の符号によって完全に決定されます。次に、最適な解決策に到達する必要があるかもしれません。
図のようにギザギザのルートをとると、収束速度が遅くなる、つまりジグザグダイナミクス現象が発生します。
次に、一部の学生は、平均が 0 であるかどうかとなぜ関係があるのかと尋ねるでしょう。平均値が0の場合、なぜそのような現象が起こらないのでしょうか?
平均値は 0 なので、常に 0 でない限り、関数の導関数は常に正になるとは限らず、そのようなジグザグな経路を回避できます。