勾配降下最適化アルゴリズムの[论文] overiview

この記事は、最初のセバスチャン・ルーダー2016年1月16日の1に掲載されたブログ

紙の翻訳:
最適化は、勾配降下の概要アルゴリズム
概説勾配降下最適化アルゴリズム
0要約要約:
多くの場合、フィールドはブラックボックスオプティマイザ、彼らの強みと弱みのAS&PHARMACYの説明として使用され、ますます人気の勾配降下最適化アルゴリズム、しばらくしにくいですで来る。
勾配降下最適化アルゴリズムは、非常に人気が、通常はブラックボックスの最適化と、彼らの長所と短所のため、実際の説明をすることは困難です。
この記事では、と読者を提供することを目的とする 。彼女が使用するためにそれらを置くことができます異なるアルゴリズムの動作に関して直感
本論文では、読者はこれらのアルゴリズムをよりよく利用するためには、アルゴリズムの性能の異なるパフォーマンスのための直感の構築を支援することを目的と。
この概要の過程で、我々は勾配降下の異なるバリエーションを見て、課題をまとめ、最も一般的な最適化アルゴリズムを導入し、並列分散環境における審査・アーキテクチャ、および勾配降下を最適化するためのさらなる戦略を調査。
本論文では、いくつかを紹介します異なる勾配降下アルゴリズム、彼らが直面する課題。また戦略最も一般的に使用される最適化アルゴリズム、並列分散アーキテクチャ、ならびに他の勾配降下最適化アルゴリズムを記載しています。

1.はじめにはじめに:
。グラデーション降下ニューラルネットワーク最適化するために、MOST FARで実行すると、一般的な方法によって、最も人気のある最適化アルゴリズムでISの一つ
勾配降下は、これまで最も広く使用されていることである最適化アルゴリズムの中で最も人気のある実装の一つでありますニューラルネットワークの最適化アルゴリズム。
同時に、すべての状態-の最先端ディープラーニングライブラリは、(例えばラザニア年代、カフェ年代、およびkeras'ドキュメント)勾配降下を最適化するために、様々なアルゴリズムの実装が含まれています。
同時に、最新の深さの研究ライブラリ(例:ラザニア、カフェ、keras)は、最適化アルゴリズムの勾配降下の多様性を達成しています。
これらのアルゴリズムは、しかし、頻繁に使用されている彼らの強みとweaknesssの実用的な説明がで来るのは難しいですと、ブラックボックスオプティマイザとして。
しかし、これらのアルゴリズムは一般的にブラックボックスとして最適化され、彼らの長所と短所の実用的な説明をすることは困難です。

この記事では、と読者に提供することを目的に使用するためにそれらを置くために彼女を助ける勾配降下を最適化するための異なるアルゴリズムの動作に関して直感。
本論文では、読者が減少し、パフォーマンスの確立を支援することを目的と異なる勾配アルゴリズムの直感に合わせて最適化することができますこれらのアルゴリズムのより有効に活用するためです。
セクション2では、我々が最初に行っている勾配降下の異なる亜種を見て。私たちは、その後、簡単に3章でトレーニング中の課題を要約します
第二章では、我々は最初の異なる勾配降下アルゴリズムを見て、その後、第三章で簡単にアルゴリズムのトレーニングプロセスが直面する課題をまとめます。
その後、第4節では、我々はなりそこ課題を解決するために意欲を示すことによって、最も一般的な最適化アルゴリズムを導入し、これが彼らの更新ルールの導出につながるか。
その後、第四章では、最も一般的な最適化アルゴリズム、などを説明し彼らはどのような課題への対応、およびルールを更新します。
その後、第5節では、我々はなり並列・分散の設定で勾配降下を最適化するためのアルゴリズムやアーキテクチャに短い見てみましょう。
その後、第五章で並列・分散アーキテクチャの勾配降下における最適化アルゴリズムとフレームワークを紹介します。
最後に、我々は追加の戦略検討する第6節では、勾配降下を最適化するために有用である
。最後に、第六章では、いくつかの他の有用な勾配降下最適化戦略を説明します。

勾配降下は、目的関数最小化する方法である(J(\シータ)\)\モデルAPOSパラメータによってパラメータ化された(R&LT ^ D \で\シータ\)\目的関数の勾配の反対方向にパラメータを更新することによってを\({\ナブラ} _ {\シータ} J({\シータ})\)パラメータにWRT。
勾配降下法は目的関数である\(J(\シータ)\) 勾配計算\({\ナブラを} {_ \ Jシータ}({\シータ})\) および負のパラメータ更新\(\シータ\ R&LT ^ D \)における目的関数が最小化されるように、。
速度を学ぶ(\ \ ETA)\は REACH Aに取るの大きさでステップで決定しWE(ローカル)最低。
学習率の\(\ ETAは\)我々のアプローチ(ローカル)最小ステップサイズを定義します。
言い換えれば、我々は方向従う私たちが谷に到達するまで下り坂目的関数によって作成された表面の傾きのを。
言い換えれば、我々は目的関数の減少の傾きの方向に行く何、底に到達することを知っています。

2.勾配降下は、勾配降下バリアントバリアント
勾配降下の3種類ありますが、私たちは目的関数の勾配を計算するために使用し、どのくらいのデータが異なります。
勾配降下3つの変形を、彼らが使用することを除き、目的関数のデータ下降勾配の異なる量を算出します。
データの量に応じて、我々は、トレードオフパラメータ更新の正確さと、それが更新を実行するのにかかる時間との間を作る。
データの量に応じて、我々は、トレードオフの精度およびパラメータ更新時刻を更新間を作ります。

2.1バッチ勾配降下批量梯度下降
バニラ勾配降下、別名バッチ勾配降下、パラメータにコスト関数WRTの勾配を計算します\(\シータ\)全体のトレーニングデータセットのため:
\(\シータ= \シータ- \エータ・{\ナブラ} _ {\シータ} J({\シータ})\) ----(1)

おすすめ

転載: www.cnblogs.com/yanqiang/p/11301079.html