強化学習は - はじめに - コードワールド

強化学習：

触発強化学習などの行動心理学の理論伴う規律確率論、統計、近似理論、凸解析、計算複雑性理論、オペレーションズ・リサーチと大学際的知識、しきい値の難しさを特に開発のゆっくりとしたペースにつながる、高いです。

一つの説明：

実際には、人間の生命はあなたの状態の実行中のアクション（行動）（状態を）持っているとき、あなたはフィードバック（報酬）を取得するには、さまざまなアクションにこれらの後にさまざまな状態で何度もしてみてください、強化学習に常にあります脳のドットマルコフモデル、あなたは何が最善かを知った後の行動。

別の説明：

学ぶための最も重要な概念を強化：エージェント、環境、報酬、方針、行動を。マルコフプロセス環境は、一般的に説明し、エージェントが行動を生成し、相互に作用し、環境が報酬を生成するために、特定の政策を取ります。報酬に基づいて、現在の政策を調整し、最適化するための薬剤の後。

差分強化学習と教師あり学習

、ラベルなしと強化学習をラベル付き学習サンプルを学習していない監督、それは報酬と罰を学習することにより、環境に行われますがあります。我々は、強化学習と教師あり学習を見つけて、最大の違いを学ぶ監視なしになると、それは、大量のデータを必要としないです「フィード」に、しかし試みるために、独自のノンストップを通じて、特定のスキルを習得します。
どのようなサンプルどのような学校、および強化に学習する教師あり学習、相互に作用するかどうかと環境：;学習プロセスの教師あり学習は静的であり、学習のプロセスを強化学習は動的であり、ここでと静的手段ダイナミック環境が相互に作用して、与えられた報酬と罰に基づいて対話することを学びます。
教師付き学習ソリューションは、このような学習の深さなどの問題をより意識しており、主な問題を解決するための強化学習は、意思決定であるため、このような顔の特徴として、学習指導、および強化学習は、より多くの脳のようなものです。栗の場合：虎の顔とき、唯一の教師付き学習は、あなたが強化学習を持っている場合、我々は逃げるか戦うかどうかを決定することができ、虎の単語が反映されます。

限り問題は意思決定とコントロールに含まれているとして、あなたは、強化学習を使用することができます！

主流の学習アルゴリズムを強化

無料学習モデル（モデルフリー）VSモデルが学ばなければならない（モデルベース）

主な違い：エージェントが完全かどうかを理解したり、どこ環境をモデル化するために学ぶことができます

学習のモデルがあります。先に意識の環境のための利点は、考慮し、事前に計画;欠点は、モデルと現実の世界が矛盾している場合、現実的なシナリオの下で非常に優れた性能を持っていないということです。
モデルフリー学習：学習モデルの欠点前者より少ない効率的なように、放棄されている;利点は、より簡単にこの方法で達成され、本当のシーンで良好な状態に調整することが容易です。

したがって、モデルフリーな学習より人気と、より広くサポートし、研究。

なぜ、強化学習が非常に遅くなりますか？

増分更新パラメータ：最初のアルゴリズムは、周囲の環境からの入力操作の間にAIは、出力するように、勾配降下マッピングすることによって達成されます。このプロセスでは、各増分は非常に小さくする必要があります、彼らが学んだ新たな情報をできるようにしていない、学んだ経験は（これは「壊滅的な干渉」と呼ばれている）の前にカバーしています。このように、学習プロセスは非常に遅くなります。

解决方法: 強化学習の深さのプロット（エピソードDRL）
弱い誘導バイアス：任意の学習プロセス、直面しなければならない「バイアス-分散トレードオフを。」いわゆるバイアスは、あなたが望むどのような種類を見つけるために内側から可能な結果の良いスタート限られた数、AIです。定義された狭い、AIは可能性のほんの数、より速く結果を考慮することができます。弱い誘導バイアスが、我々はそれが遅く学ぶために多くの可能性を検討する必要があります。

解决方法:まあ最初のすべてのAIを探求してみましょう、狭い範囲を定義します。あなたはどこに限定すべきか知っているかもしれませんか？答えは、過去の経験から学ぶされます。

注意：参照解答量子ビットにより詳細に説明

学習と学習の深さの組み合わせを強化（DRL、ディープ強化学習）

強化学習過程の以前の使用基本的なモデル選択アルゴリズム、トレーニングからのデータを破壊し、問題を解決するためにこの考え方をテストしますが、から政策、機能、モデルの視点の値は、問題を解決します。するために、汎用数式を実行できるようにするには決定問題の配列を決定することは典型的なマルコフ決定過程が広く使用されています。また、動的プログラミング、モンテカルロ、タイミング制御などの三つの方法マルコフシーケンスを探索するための最良の戦略は、広く重要な方法で使用され、制御の観点から、エージェントがどのように教えるために探求し、制限された状態で活用します。

上記に基づいて、ポリシー及びニューラルネットワークの勾配が広く近似処理及びポリシー値関数に適用されます。大規模なシーケンステーブルのストレージスペースを避けるために、ある程度のニューラルネットワークアプローチを使用して、批判を息苦しい遅いクエリは、強化学習の発展の新たな方向となっています。

一般的に、人間の学習は、実環境であるが、強化学習がまだ非常に複雑な、論理的な推論や評判分析段階に広がっていない、それはシミュレーション環境を持つ DRL差である、学ぶことを学ぶための重要な基盤を強化することです他の点でユニークなAIアルゴリズム。ゲームが複雑な論理的推論（ゴーLazi計算された確率）、および評判分析を必要とせず、唯一の政策決定を伴うため、強化学習の成功は、ゲームの分野での成功から来ていると言うことができます。

基礎の深さの研究を学ぶことは、次のとおりです。データ、アルゴリズムのモデルと計算。
強化学習の基本的な深さを学びます：シミュレーション環境、アルゴリズムのモデルとコンピューティングパワー

強化学習アルゴリズムの実際の深さに基づいて深学習アルゴリズムを強化するために学習やシミュレーション環境を強化するための原則と基礎を強化学習では何ですか？それはどのようにトレーニンググラウンドですか？モデルパラメータを決定する方法と続く一連の問題を超える調整する方法。DQN (Deep Q Network)DRLは、画期的なアルゴリズムです。

参考文献：

[1] 主流の学習アルゴリズムを強化

[2] 学習強化は何？-量子ビットの答えは-ほとんど知られています

[3] 学習強化は何？-チェン・威海の答え-ほとんど知っています

[4] （DRL）を強化学習の深さは、探検する- DRLearnerの記事を-知っているほとんど