アダムとても良い、なぜSGDのための強迫観念（2） - 2つのアダムの罪

では前回の記事、私たちは深い学習最適化アルゴリズムの主流を確認するためのフレームワークを使用しています。精製への私たちのために、研究者の世代（シュン）良い（ハオ）金（MO）ダン（XING）は骨の折れるように記述することができます見ることができます。理論的には、世代が前の世代よりも完璧で、アダム/ Nadamは、なぜ我々はまだ早い心臓SGDにそれを忘れていなかったん、限界に達していますか？

栗のために。何年も前に、写真撮影は一般市民から非常に遠いです。10年前、カメラは、ほとんどの人観光客を激怒し始めただまします。スマートフォンの登場後、写真撮影はすべての家族で、そして便利な携帯電話を取る、2百万人の周りに、（ねえ、これはどのような混乱である）あなたの美しさを照らします。しかし、プロのカメラマンは、まだ絞り、シャッタースピード、ISO、ホワイトバランス......バンチ自分撮りパーティーを調整するために精力的に働いていたが、用語を気にしたことがない、一眼レフを使用することを好みます。技術の進歩、操作をだますことができるように、良好な結果が得られますが、特定のシナリオでは、最良の結果を撮影するためには、構造物のさらに光、理解の深い理解が必要で、機器を理解しました。

最適化アルゴリズムは、おそらくもそう。前回の記事では、我々は、様々なアルゴリズムの非難を作るために同じフレームワークを使用します。図から分かるように、それはすべて同じものですが、SGD的に率を学習の様々なタイプのアクティブ制御の増加を表します。あなたが微調整を行うにはしたくない場合は、そのアダムは明らかに直接使用するために使用される最も便利です。

しかし、この愚か者操作は、必ずしもすべての機会に適合していません。我々はデータを理解することができれば、研究者はより自由に、より良い結果を達成するためにパラメータ最適化の反復のすべての種類を制御することができます驚くべきことではありません。結局のところ、パラメータの微調整するだけでなく、フールアダムよりも、錬金術経験の研究者をトップに挑戦です！

最近、多くの紙オープン憎しみアダム、私たちが何を言っているかを簡単に見：

アダムは1カウント：収束しない場合があります

これは、トップ会議の一つはの2018匿名の査読研究ICLRの被写界深度であるアダムと向こうの収束の上、アダムが収束しない場合がありますいくつかのケースではアダムを証明するためにカウンターの例により、アルゴリズムの収束を探ります。

大手学習率の最適化アルゴリズムは、上記のことを思い出してください：

$\eta_t = \alpha / \sqrt{V_t}$

これは、学習率が一定であるので、SGDは、（プロセスの実際の使用は、このように学習率を下げ、学習率の減衰戦略を使用します）、二次勢いを使用していません。AdaGrad二次勢いは単調に増加するので、学習率が単調に減少して、蓄積し続けます。そのため、学習率を行いますアルゴリズムのこれらの2つのタイプが最終的に0に収束、減少を続け、モデルも収束することができます。

しかしAdaDeltaとアダムはそうではありません。二次モメンタムは、データ変更が発生する可能性があり、そのような遭遇する、時間ウィンドウは変化し、一定の時間ウィンドウ内に蓄積される $V_t$ 大きな時間が単調ではない、小さくてもよいです。これは、非収束モデルにつながる、トレーニングの後半に率を学習のショックを引き起こす可能性があります。

この資料では、どのように補正を示しています。アダムの学習が主に二次の運動量によって制御されるので、アルゴリズムの収束を確実にするために、運動量の二次変化は、変動を回避するために制御することができます。

$V_t = max(\beta_2 * V_{t-1} + (1-\beta_2) g_t^2, V_{t-1})$

この変更によって、それは確実に $||V_t|| \geq ||V_{t-1}||$ 学習率が単調に減少するように、。

アダムは2カウント：グローバル最適解を見逃す可能性があります

深ニューラルネットワークは、多くの場合、このような高次元空間で、非凸目的関数は、多くの高地と低地との浮き沈みは、しばしば、多数のパラメータを含んでいます。ピークのいくつかは、簡単に勢いを導入することにより、交差可能性があり;しかし、高原があり、それはすべてが出て多くの時間を探ること、そして彼が訓練を停止しました。

最近arXivの上の2回の記事では、この問題になります。

アダムは、最も冷酷な、前に述べたtucao最初の章では、機械学習の勾配アダプティブ法の限界値で。紙は、同様の最適化問題を述べ、異なる最適化アルゴリズムが異なる答えを見つけるかもしれないが、適応学習アルゴリズムの割合は、多くの場合、非常に貧しい人々に答えを見つけます。彼らは、特定のデータの例を渡す機能適応学習率アルゴリズムはオーバーフィットの早期出現であるかもしれないことを示し、機能は初期のフィッティング結果を修正するために遅く困難になるまで出現しませんでした。

別の紙がされて SGDにアダムからの切り替えにより汎化パフォーマンスの向上、実験的検証。彼らは速くSGDより、CIFAR-10のデータセットにアダムの収束をテストしたが、結果は良く、最終的な収束SGDませんでした。彼らはさらなる実験は、効果的な収束に影響を与え、メイン後半にアダムの学習率が低すぎることがわかりました。彼らは、アダムの制御の学習率の下限しようとした効果がはるかに優れていることがわかりました。

ゆっくり最適解を見つけること、SGD後半スイッチ、アダム、アダムは高速コンバージェンスの利点を享受して早期：だから彼らはアダムを改善するための方法を提案しました。また、このメソッドは、以前の研究で使用されてきたが、主に経験に基づいて遷移時間後のタイミングと学習率を選択します。この記事では、SGDの切り替え方法を選択する機会を与えられ、プロセスを切り替え、この愚か者を入れ、レートや計算方法を学習し、効果がよさそうです。

最後に、このアダムまたはSGDと？

だから、それは最後のアダム良いか良くSGDで、今来ますか？これは明らかに物事を言うのは難しい単語であってもよいです。SGDの多くで、紙の様々な会議に行く、アダムも多く、多くはAdaGradまたはAdaDeltaを好みます。研究者であってもよい各アルゴリズムは、効果がどの使用することが良いものを、もう一度試してみました。

そして、いくつかの怒り憎しみのアダムの論文から、大多数は、アダムの失敗の可能性を実証するために、より極端な例のいくつかを構築しました。これらの例は、現実はそうではないかもしれないが、一般的にあまりにも極端ですが、それはデータを理解するためのアルゴリズムを設計する必要を思い出させてくれる。進化アルゴリズムの最適化の歴史、データに関する一定の仮定に基づいており、最適化を実行している場合、アルゴリズムが有効であり、あなたのデータは、アルゴリズムの食欲に沿ったものであるかどうかを確認する必要があります。

もちろん、より良いアルゴリズム、データが基本です。

一方、アダムは彼の同類は、パラメータ調整を簡素化されましたが、一度、すべての問題を解決するため、デフォルトのパラメータが十分ではなく、普遍的ではありませんしませんでしたが、と述べました。したがって、データの完全な理解に基づいて、まだ自分の錬金術の最適解を見つけるために、参照実験データの特性に応じて適切に調整するアルゴリズムの特性を必要とします。そして、この時間は、それはアダム、またはSGDであるかどうか、あなたにとって重要ではありません。

少年、良い錬金術こと。

選択したアルゴリズムを最適化する上でのトリック、会場を読み続けてください。

SGD（3）決して忘れないことが、なぜ、とても良いアダム