導入と強化学習マルコフ決定過程

1.強化学習とは何ですか

  強化学習(強化学習、RL)近年では、多くの人が、その後、強化学習何と呼ばれている概念に言及しますか?

  強化学習は機械学習と教師あり学習、並んで教師なし学習側の枝です。

  参考文献[1]定義で与えられます。

強化学習は、数値報酬信号を最大化するように----アクションに状況をマップする方法----何をすべきかを学んでいます。

  その強化学習は、最大のリターンを得られるように、戦略の行動のための環境の状態を変換することにより学習されます。

  栗[2]の場合は、ゆるい鳥のゲームでは、我々は、ハイスコアを取得するための戦略を設計したいのですが、そうで彼の動力学モデルとを知りません。これは、強化学習を通して、私たちがすることができ、ポストを直撃してしまった場合はそのゲームのためのエージェント自身が、その後、負のリターンを与えること、それ以外の場合は0に戻りますです。(見返りにポストを直撃しないように、午前1時00分リターンを継続するためにポストを直撃することはできません)。継続的なフィードバックを通じ、我々は鳥の見事な飛行スキルを得ることができます。

  上記の例では、我々は、強化学習[3]のいくつかの特徴を見ることができます:

  1. ラベルなしていない、唯一の報酬(報酬)
  2. 報酬信号は、それがおそらく遅れている、必ずしもリアルタイムではありません。
  3. その後、受信した現在の動作データの影響
  4. 時間(シリーズ)が重要な要因であります

モデリング研究を強化2.

IMG

  脳の上に私たちのエージェント、適切な行動(アクション)を選択して、エージェントを表す\(A_tと\)私たちは環境を研究する必要がある、地球の代理を、それは自身の状態モデルを持っている、エージェントは適切な行動を選んだ\(A_tとを\) 環境の状態\(S_T \)に変更され、となる(\。S_ {T} + \)の1取得しながら、我々は行動を取る\(A_T \)遅延ボーナス\(R_T \)を次を選択し、適切な処置は、環境条件が変化し続ける......これは学習のアイデアを強化することです。

  強化学習のこの考え方では、次の要素を整理[4]:

  状態(1)環境\(S \)、\ (T \)状態時環境は\(S_T \)その環境状態の特定のセットの状態です。

  アクション(2)エージェント\(A \)、\ (T \)エージェントによって取られる動作時間\(A_Tは\)その操作特定のアクションの集合です。

  (3)ボーナス環境\(R&LT \)、\ (T \)状態の時間エージェント\(S_T \)アクションがとら(A_T \)\対応ボーナス\(R_ {T + 1} \) の意志\(T + 1 \)時間が得られます。

また、より複雑なモデル要素があります。

  戦略(4)エージェント\(\ PI \)スマートな戦略である経験に基づいて、行動を起こす物質の基礎を表し、\(\ PI \)アクションを選択します。最も一般的な戦略は、条件付き確率分布を表現する方法である| \(S)\ \ PI(A)の状態であり、\(S \)とき取るべきアクションを(\)\確率を。すなわち、\(\ PI(A | S)= P(A = A_T | S_T = S)\) 大きな可能性が高い選択すべき行動の確率。

  (5)政策のエージェント\(\ PI \)と状態\(S \) アクションを取った後値\(V_ \ PI(S)\) 値は、一般的に期待する機能です。このアクションは、報酬に対応する遅延されますが\(1 + R_ {T} \)が、この遅延を見ては表していない的に許容される賞、高いので現在の遅延の報酬ではない\(T + 1、T + 2、\ ドット\)フォローアップの時間は、チェスのように、また、高い報酬である、我々は特定のアクション可能で、お互いの車を食べることができ、この遅延報酬は高いですが、それを私たちの背後にあるスー・チー。この時点で、車は高アクション賞値を食べるが、値は高くありません。したがって、我々は、現在の遅延報酬と報酬のその後の遅延の値を考慮する必要があります。\(V_ \ PI(複数可) \) として一般に表される:
{T + 3} \ [V_ \ PI(S)= E(R_ {T + 1} + \ガンマR_ {T + 2} + \ガンマ^ 2R_ + \ DOTS | S_T = S)\]
  。(6)ここで、\(\ガンマ\)報酬減衰率として、\([0,1] \)の間に、それは貪欲法の、すなわち、唯一の値である0の場合現在の遅延賞決定。1であれば、同様に報酬やインセンティブの後続のすべての現在の状態。0と1の間の時間の大半は、選択した数

   状態(7)環境の変換モデルの状態は、確率モデルとして表現することができる状態マシンの確率として理解することができる、すなわち\(S \)アクションが下で撮影されている\(A \) 次の状態に行く(S \ ^ { '} \)のように表す、確率{} \(P_ SS {' )^ {} \}

  (8)$ \イプシロンの割合を探る\(主に私たちは通常、アクションの現在の反復の最大値を選択しているため、反復プロセスの訓練強化学習に使用するが、これはいくつかの良いにつながるが、我々は、他のアクションがありません持っていますミス。私たちはトレーニングで最高のアクションを選択するので、)\いくつかの可能性があるだろう \イプシロン$は、アクションの現在の繰り返しの最大値を選択し、他のアクションを選択しないでください。

3.マルコフ決定過程(マルコフ決定過程、MDP)

  環境変換モデルの状態、確率モデルとして表す(P_ {SS {「}} ^ {A} \の)\状態で、それは確率モデルとして表現することができる、すなわち\(S \)アクションが下で撮影されたA(\ \ )、次の状態に行く\(S ^ {「} \ ) 確率。実環境変換、次の状態への変換で\(S {「} \)状態の両方の確率と\(S \)だけでなく、以前の状態にあり、上部および関連状態に関する。このような変換モデルモデルに難しいような複雑な、私たちの環境は非常に、非常に複雑。

  したがって、我々は、簡素化の学習への環境変換モデルを強化する必要があります。簡略化されたアプローチは、状態変換と仮定することであるマルコフ:次の状態への変換\(S {「} \) 現在の状態の確率のみ\(S \)が、以前の状態ではない、式:
\ 【P_ {SS '} ^ {
} = E(S_ {T + 1} = S' | S_t = S、= A_tとA)\]   同時にポリシーの第四の要素のための(\ PI \)\、また、我々状態というマルコフ仮定\(S \)の下で行動を取るために\(\)とのみ現在の状態の確率\(S \)に関連して、他の要素とは独立して:
\ [\ PI(| S)= P(A_tと= | S_t =
S)\]   値関数\(V_ \パイ(S) \) マルコフの仮定:

\ [V_ \ PI(S)= E(G_T | S_t = S)= E_ \ PI(R_ {T + 1} + \ガンマR_ {T + 2} + \ガンマ^ 2R_ {T + 3} + \ドット| S_t = S)\]

\(G_T \)収穫(リターン)、一つの状態からMDP表す\(S_t \)の和のすべての状態賞減衰の終了までのサンプリングを開始します。

  :再帰関係は、次式を得ることが容易であり、関数の値を派生
E_の[V_ \ PI(S)\ = \ PI(1 + R_ {T} + \ガンマV_ \ PI S_ {T}の(+ 1)| = S_T。 S)\]
式一般に、その後の状態値により状態の状態値と減衰連合の一定の割合を表すベルマン方程式と呼ばれます。

4.行動価値関数とベルマン方程式

  マルコフ決定過程のために、私たちはその値関数ことがわかった\(V_ \パイ(S) \) アクションを考慮していないが、単に持って来るために今行動を取って検討し、戦略の現状と最終段階の値を示し、効果:
\ [Q_ \ PI {(S、A)} = E(G_T | S_T = S、A_T = A)= E_の\ PI(R_ {T + 1} + \ガンマR_ {T + 2} + \ガンマ^ 2R_ {T + 3} +
\ドット| S_t = S、A_tと= A)\]   演算値関数\(Q_ \ PI(S、 )\) ベルマン方程式:
\ [Q_ \ PI(S、A )= E_ \ PI(R_ {
T + 1} + \ガンマQ_ \ PI(S_ {T + 1}、A_ {T + 1})| S_t = S、A_tと= A)\]   定義することにより、得ることが容易です行動価値関数\(Q_ \ PI(S、 )\) と状態値関数\(V_ \ PI(S) \) の関係:
\ [V_ \ PI(S)= \ sum_ {で\} \パイ|(S)Q_ \パイ(S、)\]
他の言葉では、コスト関数の状態は、ポリシーに基づいて、すべてのアクションの値の関数である\(\ PI \)期待。

  一方、ベルマン方程式を用いて、我々は、状態値の関数を使用する(V_ \ PI(複数可)\ \) コスト関数の動作を表す\(Q_ \ PI(S、A)\) すなわち:
\ [Q_ \ PI(S、A )= E_ \ PI(R_ { T + 1} + \ガンマQ_ \ PI(S_ {T + 1}、A_ {T + 1})| S_t = S、= A_tとA)\]

\ [= E_ \ PI(R_ {T + 1} | S_t = S、A_tと= A)+ \ガンマE_ \ PI(Q_ \ PI(S_ {T + 1}、A_ {T + 1})| S_t = S、A_tと= A)\]

\ [= R_sの^ A + \ガンマ\ sum_ {S '} P_ {SS'} ^ {} \ sum_ { '} \ PI(' | S ')Q_ \ PI(S'、 ')\]

\ [= R_sの≦A + \ガンマ\ sum_ {S '} P_ {SS'} ^ av_ \ PI(S')\]

  式5および式12は、我々は次の2つの式を得ることができ、要約すると:
\ [V_ \ PI(S)= \ sum_ {AでA \} \ PI(A | S)(R_sの^ A + \ガンマ\ sum_ {S 'に} P_ {SS '} ^ av_ \ PI(S'))\]

\ [Q_ \ PI(S)= R_sの≦A + \ガンマ\ sum_ {S '} P_ {SS'} ^ av_ \ PI(S')\]

5.ベストバリュー機能

  強化は、私たちが使用できる最善の戦略、他の戦略は、常に環境との相互作用の過程でより多くの利益を作るために必要以上に得るために、個々に最適な戦略を見つける問題の手段を解決するための学習(^ * \ \パイ)\表します。見つけるために最適な戦略たら\(\ PI ^ * \) その後、我々はこの問題を強化学習を解決します。一般的に、より困難に最適な戦略を見つけることではなく、比較することにより、異なる多数の戦略のメリットを決定するためのより良い戦略であってもよく、それは局所最適ソリューションです。

  ポリシーのメリットを比較するには?一般に、対応するコスト関数を比較することによって行われる:
\ [V _ {*}(S)= \最大_ {\ PI} V _ {\ PI}(S)= \ MAX_ \ PI \ sum_a \ PI(A | S)Q_ { \ PI}(S)
= \最大_ {} qは_ {*}(S)\]   または操作コスト関数を最適化:
\ [Qを_ {*}(S、A)= \最大_ {\ PI} Q _ {\ PI} (S)\]

\ [^ A = R_sの+ \ガンマ\ MAX_ \パイV_ \ PI(S')\]

  状態値関数\(V \) この状態では考慮に発生する可能性があり、後続のすべての行動を取っていること、価値の長期的な最適化の状態を説明し、すべてのアクションの値の選択は、最適な状況下で、この状態を行いました。

  アクション値関数\(Q \)後の状態で説明し、最も貴重な長期もたらした特定のアクションを実行します。つまり、特定のアクションを実行するには、この状態では、次のアクションは常に値がもたらす長期的に実装するためにすべての状態で可能な限り最高の選択を検討してください。

  行動価値関数に基づいて最適な戦略のために我々は、のように定義することができる:
\ [\ PI _ {*}(A | S)は= \ \ {\左開始{アレイ} {LL} {1}と{\テキスト{IF} A = \のarg \最大_ {
Qで\} _ {*}(S)} \\ {0}&{\ {テキスト他}} \ {最後列} \右。\]   私たちが発見した場合は最大状態関数や行動価値関数の値は、対応する戦略\(\パイ^ * \)は、学習問題を強化するために私たちのソリューションです。

強化学習の6例

  非常に強い、特定の文献[4]、[5]の強化についての学習の例として、非常に良いです。

7.思考

  多くの人々の記事では、強化学習のトレーニングモデルは、「エージェント」と呼ばれ、なぜ?そのため私たち人間の学習と思考のそれは非常に似ています。

  サンプルの不在下でのモデルは、環境から、探索するためのイニシアチブをとる、その後、(遅延)のフィードバックを取得し、その後、最終的には強力なエージェントになることを学んで、フィードバック、最適化戦略/アクションに反映されています。

  もちろん、また、強化学習は、いくつかの欠点[6]があります。

  1. サンプルの利用は、多数のサンプルを訓練するための必要性が低いです。トレーニングと(遠い人間以下)時には非常に低速。

  2. 設計に困難な報酬関数。報酬関数のほとんどは、あまりにもまばらな、ゼロです。

  3. 局所最適に陥るために簡単。速度馬報酬関数で述べた例では、[6]は四隅転覆することができる「ラン」を

  4. 環境オーバーフィット。多くの場合、まさか複数の環境のためのモデル。

  5. 不安定不安定なモデルのために悲惨です。変更は、超パラメータモデルの崩壊につながる可能性があります。

  もちろん、私たちはそこに多くの困難がありますが、また啓発探索方向を有しているがあることを示しても、やみくもに確認もやみくもに否定し、AUTOMLにおける強化学習、集中的な研究のAlphaGO適用が成功することはできません。

[1] R.Suttonら。強化学習:導入、1998

[2] https://www.cnblogs.com/jinxulin/p/3511298.html

[3] https://zhuanlan.zhihu.com/p/28084904

[4] https://www.cnblogs.com/pinard/p/9385570.html

[5] https://www.cnblogs.com/pinard/p/9426283.html

[6] https://www.alexirpan.com/2018/02/14/rl-hard.html

オリジナルのフライング剣士からのこの記事、転載の場合は、してください接触民間の手紙の接触はほとんど知っている:@AndyChanCD

おすすめ

転載: www.cnblogs.com/moonwanderer/p/11845691.html