ディープ学習勾配降下

最小化問題を解決するための主方向は、基本的な考え方は、勾配の方向のすべてのステップを最適化し、最も有利にアプローチし続けることです

(1)確率的勾配降下法:
ランダムサンプルが更新のサンプルセットから引き出されるたびに

あなたは全体のサンプルセットを通過する場合は、我々は、更新が最適な方向に向けて行われていなかったたびに何度も反復する必要があり、確率的勾配降下学習率αがあまりにも設定することができないことをステップごとに「非常に慎重に」、そう大規模な、しかし、可能性の高い最適なソリューション、「ショック」付近で発生することが、近い最適解にでき現象ではありませんでした。
多くの地元の最小損失関数がある場合でも、別の観点から、この「前後にショックは」モデルが効果的に局所最適ソリューションに陥る避けることができ、ルートを最適化。

(2)標準的な勾配降下法
損失関数の和を算出した後、次いで、パラメータが更新されるサンプルセット

それは方向を下に起こっているので、アップデートパラメータ全体のサンプルセットの魚を横断した後に行うことが自信を持ってすべてのステップとなることができますので、最適な方向です。
したがって、大きな確率的勾配降下法より一般にアルゴリズムの学習率。この最適化方法の欠点は、それは多くの場合、全体のサンプルセット及び計算された勾配のサンプルセットの計算された勾配部は大きな違いはないので効率は、比較的低く、すべてのトラバース全サンプルセット更新が必要なことです。
(3)バッチ勾配降下:
フォーカスM(BATCH_SIZE)反復サンプルから引かれた各ランダムサンプル

最初の2つの項に比べて、両方のモデルの精度を向上させるだけでなく、アルゴリズムの速度を向上させることができます。
(4)運動量勾配降下:
また、運動量として知られているが、勾配降下法であり、基本的な考え方は次のとおり損失関数の最適な溶液が表面からボールを解決するためのプロセスとして見ることができる(平面内に示した損失関数の値は座標系)どこかには、表面に沿ってプロセスの少なくとも表面まで低下、損失関数の勾配は、力は速度と力の作用によって、ボールに適用されるように、ボールの位置は速度によって変化させることができると考えることができます。

運動量係数、サイズ値は、多くの場合、0.9実際に、トライアン・アンド・エラーにより決定されていてもよいです。
すぐに最適化された勾配の方向、及び重み値、すなわち、すべての方向が、この時間の前の計算および最適化のための方向を最適化するために、勾配方向が少し変化し蓄積することにより算出されるが、の蓄積を変化させません大きいです。このアプローチの利点は、異なる訓練サンプルにより得られた最適化された勾配は、常に最適な方向の値を増加させる勾配が、ショックの数を削減することが可能であるということです。
(5)ネステロフ運動量勾配降下法:
勾配降下運動量の改善に

これは、得られている、とあなたがしてますが、勾配を解く時、勾配の現在位置を解決していない、「ステップを前向き」することができます。この位置は正しいが、現在の位置θよりも良いではありませんが。

(6)AdaGrad勾配降下:
AdaGrad異なる学習率を適応することができ

RMSProp AdaGrad最適化アルゴリズムは、アルゴリズムの改善で、核となるアイデアは、指数関数的に遠い過去の歴史をドロップする移動平均減衰を使用することです。
(7)勾配降下アダム
アダム勾配と正方形の勾配を考慮し、そしてRMSpropの利点AdaGradを有します。アダム一次および二次の勾配推定を推定し、学習率が動的に調整されます。

平均勾配、勾配の非中央側に第二時点間の差は、一般的に0.9に設定された第1の時間、一般的に0.9999は、通常10-8を設定します。

この方法は、指数関数的減衰の前AdaDelta平均二乗勾配を記憶するだけでなく、以前の平均値および運動量と同様である指数関数的減衰M(T)の勾配を維持します。

学習率(学習率)、学習進捗の制御モデル

トレーニングの始まり:学習率は0.01から0.001に適切です。
減速:ラウンド特定の数の後。
研修の終わり近く:学習率の崩壊100倍以上でなければなりません。

おすすめ

転載: www.cnblogs.com/hello-bug/p/12524805.html