重点経験リプレイ:PER

ペーパーアドレス

PER

伝統的な強化を優先は基本的に同じスイープの内側学習とPERの基本的な考え方。サンプルは、優先度に応じて、TD-誤差を有する遷移の優先度が示される場合には、再生バッファからのサンプルです。TD-誤差の推移も大きく、より良い学習のための必要性。

しかし、サンプルの特定の詳細について説明します。まだのノートを取る必要があります。

  • 貪欲TD-エラーの優先順位付けは
    、明らかにTD-誤差の大きさに応じている総選挙に小さいです。TD-エラーが常に選挙、低いデータの利用効率よりも小さいの後ろに明らかにこれは、問題があります。そして、もう一つの欠点は、安定して十分ではありません。TD-誤差は非常にうるさいです。

  • 優先順位付け確率は
    、確率比例してTD-誤差に応じて選択します。\(\アルファ\)役割を果たしているどのくらいの最後に優先順位を調整します。
    \ [P(I)= \ FRAC {P_I ^ \アルファ} {\ sum_k p_k ^ {\アルファ}} \]

\(P_I \)であってもよい\(| \ delta_i | + \イプシロン\) 比例バリアント);または(\ \ FRAC 1 {{}ランク(\ delta_i)} \) ランクバリアント)

リプレイメモリでは、サンプルのランクバリアントに使用したい場合

サンプルへのリプレイメモリバリアントでは、比例を使用したい場合

和ツリーデータ構造を使用します

和ツリーはサンプルの重量で非常にエレガントな実装を提供し、リーフノードへのデータの全て、非リーフノードの重みの権利は、すべての子ノードの合計です。重み根重量はすべてのリーフノードであり、\(\ P_ {すべて}の)ように、\([0; P_ {すべて }] \) 和ツリーにランダムに選択された重みに対応するリーフノードで発見ランダムサンプリングのランダムな割合を完了することができるようになります。(対応する重みを探す()\ wは\リーフノードのルールのが左の子、右よりも重いです\(w_l \)左の子を行く、小型で、左側の子よりも大きい)= W-w_l \ wは(\、その後行きます右の子)

実際にサンプリング重みの優先度に応じて、元の分布データを破ります。修正の必要性をリサンプリング

\ [w_i =(\ FRAC {1} {N} \ CDOT \ FRAC {1} {P(I)})^ { - \ベータ} \]

対応する(E_ {} [X] = E_P [\ FRAC。1 {N} {} \ CDOT \ FRAC。1 {} {P(X)X}]のNORMは、\)\\(\ベータ\)を調整するために使用されます初期不安定性の補正の程度は、\(\ベータ\)より小さい、例えば1本の試料への最終アプローチ知っている\(P(I)= 1 \) 不可能)、\(w_i \)の必要性をこのサンプルの影響を低減するために、小さな\(N = W_i ^ \ベータ\) だから、\(\ベータ\)小規模および大規模な補正。実現(w_j = w_j / \ underset \ {I} {最大} w_i \) 正規化する。しかし、紙が、これは重み付けされていると言う。Aは少し混乱しますか?

紙擬似コード提供。

おすすめ

転載: www.cnblogs.com/Lzqayx/p/12127448.html