ディープ強化学習でアタリを再生する:DRLの最初のショットを発射

この記事ではDQN、DRLフィールドは非常に重要な記事が、また、デビッド・シルバー大きな神の作品です。記事自体は難しいことではありません。

記事はRLとDLの間に2つの違いを言った
- DL特に教師付き学習は強化だけスカラー報酬を学び、ラベル付き訓練データの多くを必要とし、報酬は騒々しい、スパース、DELAYED可能性がある
- DL通常データが独立しており、同一の分布と仮定しますしかし、前と相関度が高いの学習後のデータを強化するために、データの分布が変化します

DQNは実際にはQ学習ニューラルネットワークのバージョンであり、基本的な理論は同じである、ニューラルネットワークが直面するいくつかの問題を解決するために動いています

ベルマン最適方程式:\(Q _ *(S)= E_ {S '\ SIM \ varepsilon} [R + \ガンマ\ underset {'} {最大} Q(S' ')| sは、A] \ )

目的関数を最適化するために、GPIの値の繰り返しを使用することである:
\ [L_iを(\ theta_i)= E_ {S、A \ SIM \のRho(\ CDOT)} [(Y_I-Q(S、Aの; \ theta_ {I}))^ 2] \]
\(\のRho(S、A)\)行動分布であり、\(Y_I = E_ {Sの'\ SIM \ varepsilon} [R&LT + \ガンマ\ underset {A'} {マックス} Q(S '' ; \ theta_ {I-1})| S、A] \)

式誘導体を求めた後である:(半勾配)

\ [\ナブラ_ {\ theta_i} L_iを(\ theta_i)= E_ {S、A \ SIM \のRho(\ CDOT); S '\ SIM \ varepsilon} [R + \ガンマ\ underset {'} {最大} Q( S'、 '; \ theta_ {I-1}) - Q(S、; \ theta_i))\ナブラ_ {\ theta_i} Q(S、; \ theta_i)] \]

データ配信の問題を解決するために、経験のリプレイを使用

アルゴリズム:

アルゴリズムの
利点:1。経験のすべてのステップは、使用を繰り返すことができ、効率が改善されたデータ
2.ブレークにランダムなサンプルバッファーリプレイデータとの間のリンクを、ある程度、分散削減
3。オフポリシーより局所最適に陥ることは容易ではなく、滑らかさ

おすすめ

転載: www.cnblogs.com/Lzqayx/p/12122020.html