1 | 褒賞。形作ります
あなたが対の一般的な意識を持っている場合は、ポテンシャルエネルギーが最適値関数の可能性に基づく推定値として定義され、収束値関数をスピードアップすることができます
2、GAE:一般利点見積もり
ターミナルの状態:状態を吸収
ガンマ] -JUST条件:認識されていなかっ
GAE(一般優位推定)
-
GAEの役割
- GAEは、一般化の優位性を推定意味、ので、彼はアドバンテージ機能のアドバンテージ機能を最適化するために使用されます。
- GAEは、バイアスと分散の問題の有無を量るために使用されます。
- 長期リターン各モーメント推定ポリシーに直接相互作用により、リターン[シグマT T ' = Tのガンマ] T ' - TをR&LTのT ' [シグマT ' = T T γはT ' - TをR&LTのT ' より大きいがあります分散、大きな分散。
- 機能ベースの利点を推定した値を返すようにAC法は、それが小さく、分散、及びバイアス大きな問題を生じます。
-
GAE導出
満たすガンマ] ガンマ]ジャスト条件。(つづきます)
-
GAEフォーム
GAEは、値の複数の推定値の加重平均の形です。
迅速に逆演算、時刻t + 1から予測時間Tを使用して、すべての時間シーケンスの推定値を推定します。