両手で理論的アルゴリズムは、UIUCの助教授Sunruoゆう温家宝首相は60長い深い学習の最適化を検討しました

 2020年1月23日午前九時26分40秒

arXivのから選択

著者:Ruoyu日

参加:悪魔、Turre

訓練すると、ニューラルネットワークは成功したとみなされ?成功の背後にある理由は、それは何ですか?この記事では、ニューラルネットワークを訓練するために使用される最適化理論とアルゴリズムの概要を説明します。

両手で理論的アルゴリズムは、UIUCの助教授Sunruoゆう温家宝首相は60長い深い学習の最適化を検討しました

 


どのような深い最適化を学んでいますか?理論それは何ですか?最近では、対象にイリノイ大学アーバナ・シャンペーン校(UIUC)の研究者Sunruoゆうは60ページの紙のレビューを書きました。

両手で理論的アルゴリズムは、UIUCの助教授Sunruoゆう温家宝首相は60長い深い学習の最適化を検討しました

 

UIUCの助教授Sunruoゆう(図ソースします。https://ise.illinois.edu/directory/profile/ruoyus)
SunruoゆうUIUCが現在助教授で、数学の部門は、北京大学を卒業したが、ミネソタ大学を卒業しました。データ解析のための主な研究方向。

  • 個人ホームページます。https://ise.illinois.edu/directory/profile/ruoyus
  • ペーパーアドレスします。https://arxiv.org/pdf/1912.08957.pdf


詳細については、元の論文を参照のために起因する紙の長い長さに、ほぼ人間のコンパイルは、導入の部分を選択しました。
一般的な最適化第二に、この論文のレビューでは、ニューラルネットワークトレーニングプロセスを使用し、この記事では、まず、初期化および正規化する方法として、いくつかの実用的なソリューションを、制御の問題だけでなく、より一般的なスペクトルとして消える/勾配の爆発について説明し、議論します、SGD、適応勾配法と分散型アプローチのような、また、これらのアルゴリズムの前理論的結果を示しました。最後に、紙のレビュー貧しい極小値、接続モード(モード接続)、宝くじの仮定および無制限の幅解析の結果を含むニューラルネットワークの訓練の世界的な問題についての研究。
はじめに
この記事のテーマは、成功したトレーニングニューラルネットワークモデルのトレーニングや故障につながる可能性の要因の実用的な要素を理解することです。
あなたは1980年にバックと仮定し、私は、画像分類の問題を解決するためにニューラルネットワークを使用したいと思います。あなたは最初からトレーニングを開始する場合は、あなたの最初のいくつかの試みが成果を合理的に高い確率することはできません。ワークアウトするアルゴリズムの変化の本質とは何ですか?適切なニューラルネットワークアルゴリズム適切な訓練と適切なトレーニングトリック:総合、(強力なハードウェアに加えて)次の3つが必要。
適切な神経回路網
の神経アーキテクチャと活性化機能を含みます。神経のアーキテクチャでは、あなたは、少なくとも5つの層を使用してネットワークに接続し、ネットワーク全体のコンボリューションを交換するのに十分なニューロンを持っている場合があります。より良いパフォーマンスを得るには、ネットワーク20あるいは100の幅を増加させ、そしてジャンプの接続を追加することもできます。活性化関数として、ReLUは開始点良好であるが、また、スウィッシュとTANHができます。
適切なトレーニングアルゴリズム
終わりにSGDとスティックを使用しては良い選択です。微調整した後、一定のステップサイズは十分に良いですが、勢いと適応ステップはまた、追加の利点を提供することができます。
適切なトレーニングトリック
適切な初期化アルゴリズムは、トレーニングを開始することが非常に重要です。ジャンプの接続を追加し、追加の正規化層:10以上の層のネットワークを訓練するには、通常、次の2つのトレーニングトリックを使用する必要があります。
必要なこれらの設計上の選択?現在、図1に示された初期化ポリシー、正規化方法、パラメータ(幅広)上ジャンプ接続とSGD、を含む設計上の選択のいくつか理解しています。
制御Lipuxici定数(リプシッツ定数)、より速い収束、より良好な損失分布(横):この最適化の利点は、大きく3つの部分に分割されます。しかし、多くの設計上の選択肢がNanyilijieがありますが、最も注目すべきは、間違いなく、神経アーキテクチャでした。
今、私たちは、この複雑なシステムの神経回路アーキテクチャの各部分を理解するように見えることはできませんが、いくつかの有用な洞察を提供することができますが理解されています。

両手で理論的アルゴリズムは、UIUCの助教授Sunruoゆう温家宝首相は60長い深い学習の最適化を検討しました

 

図1:成功したニューラルネットワークを訓練されたいくつかの主要な設計上の選択は、(すでに理論的に理解しています)。収束が速く収束、より良い地球解決のために、達成されています。彼らは、収束の三つの側面に影響を与えます。これらの3つが相互に関係しますが、広くここに分類します。注:他の重要な設計上の選択、特に神経のアーキテクチャがあります。現在、我々はそのため、この数字は項目が含まれていない、理論的なレベルでの神経のアーキテクチャを理解していません。これらの設計上の選択など一般化などの他の利点は、(この数字は同じ項目が含まれていません)があります。
この口コミ紙のシンプルさを維持するために、フィードフォワードニューラルネットワークの利用に焦点を当てる紙は、(GANと強化学習の深さなど)は、より複雑な数式を議論するために、またそれが(例えばRNN、注意などのより複雑なアーキテクチャを伴わないではない、という問題が教師あり学習電力網およびカプセル剤)。表現少なくとも理論、最適化、一般化を教師あり学習含む広い文脈では、本論文では、最適化が、より多くの議論表現と一般化に焦点を当てています。
この紙のコア目的は、最適化アルゴリズムは、教師あり学習パラダイムを超えることができ、最適化アルゴリズムの設計及び分析に(構成の可変パラメータの複数の接続)ニューラルネットワークを理解することです。
この記事では、理解に関心のある研究者のニューラルネットワークの最適化の理論のためです。基本的な理論を理解し、最適化の方法は、この記事を読んだ読者に役立ちます。既存の深い学習のレビュー記事は、第8章のグッドフェローら「深い学習」などの一般的な機械学習の実践、最適化されています。これらのレビュー記事は、通常、深さ、理論的レベルの最適化で議論されていません。理論的な知識を理解することはできませんリーダーを作るしようとしているときに、紙は、理論上の結果に、より焦点を当てます。この単純な例の概念の可能な解釈として、直感的な記事ではなく、定理の詳細を説明します。
一般的な方向:分解理論
理論の際には、分解が便利と共通要素法です。この紙簡単に役割を最適化するために、機械学習に検討した後、深い学習最適化理論を打破する方法について説明します。
前記の最適化と一般化
教師付き学習目標は、基礎となる関数近似機能を識別するために、観察試料に基づいています。最初のステップは、所望の機能ファミリーは関数(例えば、ニューラルネットワーク)で表すことができる見つけることである。第二のステップは、特定の機能の喪失を最小限にするために、及び関数のパラメータを決定することである。第3のステップは見られていない第2のステップで見つかった機能を使用することです試験データ、試験誤差に予測誤差が得られる行います。テストはエラーに分解することができる3つの手順による誤差に対応し、エラー、およびエラーの最適化汎化誤差を表しています。
機械学習では、「指示」、「最適化」と「一般化」の研究は、多くの場合、分離されています。たとえば、とき研究は、機能の特定の家族の能力は、我々は通常、彼らは最適化問題を解決する方法も気にしないことを示しています。汎化誤差を研究では、我々は通常、グローバル最適なソリューションを見つけることを前提としています。同様に、特性を最適化するための研究では、我々は多くの場合、明示的に汎化誤差を考慮して(時には誤差がゼロで表すと仮定)はありません。
最適化問題の分解
綿密な研究の最適化問題は複雑で、さらに分解する必要があります。最適化プロセスは、3つのステップに分けることができる:最初のステップは、そのような停滞として合理的な解決策に収束するようにアルゴリズムの実行を開始することであり、第二のステップは、できるだけ早くとして収束を作ることである。第3のステップは、Aと低いターゲットへの収束を保証することです値(例えば、大域的最小値)の溶液。追加のステップは、優れた試験精度を得ることですが、これは、最適化の範囲を超えていますが、ここではより多くの議論があります。
収束、収束速度とグローバル品質:一言で言えば、この最適化問題は、3つの部分に分かれています。
記事の構造は、
第二章では、式の典型的なニューラルネットワークの最適化問題教師付き学習のパラダイムを紹介します。
第三章では、バックプロパゲーション、およびニューラルネットワーク勾配降下古典収束分析を分析することの難しさを説明しています。
第四章では、ニューラルネットワークのトリックの訓練だけでなく、根本的な理論のいくつかを説明します。これらの方法は、ニューラルネットワークに依存している、ブラックボックスのニューラルネットワークが開かれました。具体的には、このセクションでは、この主要な課題の勾配爆発/消失を説明し、ならびにより一般的なスペクトル制御(スペクトルを制御する)という問題がある。また、第4章では、そのような初期化および正規化方法として主ソリューションを検討します。
一般的な非凸最適化問題として扱わニューラルネットワーク:第五章では、一般的なアルゴリズムの設計について説明します。具体的には、このセクションのレビュー大規模分散トレーニング、二次最適化方法、ならびに既存の収束と反復複雑結果についてSGDの異なる学習レート、適応勾配法を用います。
第六章では、グローバルな流通モデルの接続を含むニューラルネットワーク研究のグローバル最適化、(例えば、神経接線核など)宝くじの仮定および無制限の幅の分析をまとめました。

公開された416元の記事 ウォンの賞賛672 ビュー136万+

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/104082775