モデルパラメーターの初期化の遅延

「Practice Deep Learning pytorch」の学習ノートの一部は、ご自身のレビューのみを目的としています。

Gluonによって作成された完全に接続されたレイヤーを使用する場合は、入力数を指定する必要があるためです。したがって、初期化関数が呼び出されたとき、隠れ層の入力の数はまだ不明であるため、システムは層の重みパラメーターの形状を知ることができません。形状が既知の入力Xがネットワークに渡されて前方計算net(X)に渡された場合にのみ、システムはレイヤーの重みパラメーターの形状を推測して、実際の初期化操作に進むことができます。ただし、PyTorchを使用してモデルを定義する場合は、入力の形状を指定する必要があるため、この問題は発生しません

おすすめ

転載: blog.csdn.net/dujuancao11/article/details/108461007