ニューラルネットワークの学習経験

[静的]経験

1. ResNet 3D-50、M +#1 paramは約30、ドロップアウト0.2を用いて動態-400は、重み減衰が使用5E-4、運動量0.9。

2. ResNet-23は、2D、11M約#1 PARAM、あるドロップアウト0.5、1E-4、momentum0.9を用い重量減衰を用いて動態-400。

 

【学習率】

LR調整ステップ、と比較してより安定しつつ、良好な結果に収束することが可能でありながら、より円滑に、このようなトレーニング処理そのアニール方法、。

 

【バッチサイズ】

バッチサイズに敏感BNは、BN場合は、より大きなバッチサイズは、より良いフィット億のサンプル集団の分布を助長しています。

 

【重ディケイ】

現在の経験、WDネットワークパラメータやトレーニングの量のデータの量に基づいています。ほぼ同じデータ量、大きな巨大網状使用量減衰(ResNet-50 3D、場合 #1 PARAM 30Mについて、動態-400、 WDは5E-4を使用)、小さな小さなネットワーク(ResNet-23 2D、#1 WDを使用 PARAM 11M約、動態-400、 1E-4を使用してWD)。

 

【脱落】

現在の経験に基づいて、小規模なネットワークが大である必要があり、大きなネットワークが小さくなければならないでください。例えばResNet-50 3D、30M、約#1 PARAM ;動態-400は、0.2を使用して行うResNet-23は、2D、11M、約#1 PARAMで、動態-400 0.5を行います

 

おすすめ

転載: www.cnblogs.com/hizhaolei/p/10113026.html