前に書いてある

コースの大きな宿題に触発されて、私はバックプロパゲーションの具体的な実装プロセスを注意深く研究しました。
関連する側面について記事を書いてくださった各界の偉大な神様に感謝します。
CNN にはトレーニング中にフォワードプロパゲーションとバックプロパゲーションの両方があることは誰もが知っていますが、Pytorch でバックプロパゲーションを実装するために必要なコードは 1 行だけです。手動で実装する必要はありません。したがって、ほとんどの深層学習の書籍でもこれについては取り上げられていません。この記事では、畳み込み層、プーリング層、バッチ正規化の
3 つの部分から分析します。

文章

1. 畳み込み層での逆伝播

Pavithra Solaiのブログを参照してください。

1.1 連鎖の法則

式の導出を始める前に、まず連鎖律の計算を理解する必要があります。
この部分は比較的基本的なものなので、事前に知っていれば直接スキップできます。
2 つの例を挙げて説明しましょう。

事例1

y=g(x)、z=h(y) とします。

x が変更されると、x は y ～ g に影響し、y が変更されると、y は z ～ h に影響します。
したがって、dz/dx を計算したい場合は、この効果により、dz/dy と dy/dx の積を計算できます。

事例2

x=g(s)、y=g(s) とします。

次に、x と y を受け取って z を取得する関数 k があります。したがって、s への変更は x と y の両方に影響し、x と y が同時に z に影響を及ぼします。次に、dz/dsを計算します。計算する必要があるのは、 $\frac{\partial{z}}{\partial{x}}\frac{dx}{ds}+\frac{\partial{z}}{ \ 部分{y}}\frac{dy}{ds}$ 。

これが連鎖の法則です。

ここで、単純な計算グラフを提案します。

CNN はこの単純化された計算グラフとして想像できます。この計算グラフに、入力 x と y を受け取り、z を出力するゲート f があるとします。
局所勾配を簡単に計算できます。x と y に関して z を微分すると、 $\partial{z}/\partial{x} となります。$ 和 $\partial{z}/\partial{y}$ 。

畳み込み層の順伝播の場合、入力 X と F は畳み込み層を通過し、最後に損失関数を使用して損失 L を取得します。層間で逆に損失の計算を開始すると、前の層からの損失の勾配、つまり $\partial{L}/\partial{X} が得られます。$ 和 $\partial{L}/\partial{F}$ 。

1.2 順伝播

を使用して、フォワードパスから始めます。 $X$ および 2×2 コンボリューションカーネル $F$ は 2×2 の結果を得るために畳み込まれます $O$ 、以下の図に示すように、

畳み込みのプロセスは次のように視覚化できます。

順伝播の公式に基づいて、逆伝播計算を実行できます。
上に示したように、出力 $O$ の局所勾配 $\partial O / \partial X$ および $\partial O / \partial F$ 。前の層の損失勾配を使用します - $\partial L / \partial O$ 、連鎖律を使用すると、 $\partial L / \partial X$ および $\partial L / \partial F$ アップ。

を計算する必要があるのですか $\partial L / \partial X$ および $\partial L / \partial F$ ？

(1) 公式によると $F_{updated}=F-\alpha\frac{∂L}{∂F}$ であることがわかります $F$ は更新を計算するために必要なパラメータであり、その更新は $\partial L / \partial F$ パラメータを達成します。
(2) $\partial L / \partial X$ はこの層の入力部分として使用され、バックプロパゲーション中のバックプロパゲーションの出力とみなすことができます。この出力は前の層の入力勾配であり、∂ L / ∂ X ∂L/ $\partial L / \partial X では、$ 前の層のバックプロパゲーション計算を続けることができます。

1.3 ∂O/∂F

最初のステップはローカル勾配 $\partial O / \partial F$ の計算

以 $O_{11}$ たとえば、 $O_{11}だけが必要です。$ 式内の対応する $F$ の偏導関数を求めるだけで十分です。このステップは簡単です。

次に、連鎖規則を使用して、 $\partial L / \partial F$ 、 $\partialL / \partialO$ および $\partialO$ $\partialF$ $\partial O / \partial F$ の畳み込みが得られます。次の式を使用して展開します。

展開により、次の 4 つの式が得られます。

前述の偏導関数によれば、次のことが得られます。

として表現できます。 $X$ と損失勾配 $\partial L / \partial O$ 間の畳み込み演算

がわかります。 $\partial O / \partial F$ 、続いて $\partial O / \partial X$ 。

1.4 ∂O/∂X

を解く前 $\partial O / \partial F$ のプロセスも同様、または $O_{11}$ たとえば、今回は $O_{11}する必要があります。$ 式内の対応する $X は$ 偏導関数を求めます。

このようにして、新しい勾配を取得します。連鎖ルールを使用して、新しい畳み込みを作成できます。

展開して偏微分を計算して取得します。

これらの 9 つの式は一見不規則ですが、畳み込みの計算ルールに準拠しています。。
具体的なルールは何ですか? まずは $F$ は 180 度回転します。これは、最初に垂直方向に反転し、次に水平方向に反転することで実行できます。

次に、それに対してフルモードの畳み込み演算を実行します(畳み込みのいくつかのモードの説明については、このブロガーのブログ投稿を参照してください)。
「フル畳み込み」は、以下に示すように視覚化できます。

上記の畳み込み演算により、 $\partial L / \partial X$ なので、 $\partial L / \partial X$ は次のように表されます。