GAE&報酬シェーピング

1 | 褒賞。形作ります

あなたが対の一般的な意識を持っている場合は、ポテンシャルエネルギーが最適値関数の可能性に基づく推定値として定義され、収束値関数をスピードアップすることができます

 

2、GAE:一般利点見積もり

ターミナルの状態:状態を吸収

ガンマ] -JUST条件:認識されていなかっ

GAE(一般優位推定)

  1. GAEの役割

    • GAEは、一般化の優位性を推定意味、ので、彼はアドバンテージ機能のアドバンテージ機能を最適化するために使用されます。
    • GAEは、バイアスと分散の問題の有無を量るために使用されます。
      • 長期リターン各モーメント推定ポリシーに直接相互作用により、リターン[シグマT T ' = Tのガンマ] T ' - TをR&LTのT ' [シグマT ' = T T γはT ' - TをR&LTのT '  より大きいがあります分散、大きな分散。
      • 機能ベースの利点を推定した値を返すようにAC法は、それが小さく、分散、及びバイアス大きな問題を生じます。
  2. GAE導出

    満たすガンマ] ガンマ]ジャスト条件。(つづきます)

  3. GAEフォーム

    GAEは、値の複数の推定値の加重平均の形です。

迅速に逆演算、時刻t + 1から予測時間Tを使用して、すべての時間シーケンスの推定値を推定します。

 

おすすめ

転載: www.cnblogs.com/lin-kid/p/11199380.html