前回の記事では、TD アルゴリズムが MC と Bootstrap を組み合わせたものであり、非常に優れた特性を備えていると説明しました。このセクションで紹介する適格性トレースの考え方は、複数の TD(n) によって計算された推定累積リターンを加重平均し、より良い累積リターン推定値を取得するというものです。
価値推定モデルのパラメータ更新式は次のように調整できます。
1. オフライン λ リターン
式からわかるように、各時間 t の値はエピソードの終了後に計算する必要があるため、MC アルゴリズムと同様に、モデルのパラメーターはエピソード中に更新されないため、このアルゴリズムはオフと呼ばれます。行 λ -return アルゴリズム。
式の観点から、λ リターン アルゴリズムは、値を調整することで到達する TD(1) ~ TD(n) の中間状態とみなすことができます。あの時、この時、TD(1)です。あの時、この時、それは MC アルゴリズムでした。
下の図は、オフライン λ リターン アルゴリズムと TD アルゴリズムの効果を比較したもので、特に値が高く、n が比較的小さい場合、λ リターン アルゴリズムの効果が優れていることがわかります。 TD アルゴリズム。
2. TD(λ)
オフライン λ リターンと比較して、TD(λ) には 3 つの主なアップグレードがあります。
-
TD(λ) はエピソード中に t ごとに更新できるため、モデルのトレーニングが高速化されます。
-
TD(λ) の計算は、エピソードの終了後に均一に計算されるのではなく、エピソード中の各時間 t で均等に分散されます。
-
TD(λ) は連続シナリオで使用でき、オフライン λ リターンの計算は最終状態である必要があり、それ以外の場合は計算できません。
TD(λ) は、各エピソードの開始時に適格性トレース ベクトルを初期化します。
価値推定モデルのパラメータ更新式は次のように調整できます。
この式から、TD(λ) が実際には勾配更新を追加する際の運動量であることが直感的にわかります。これは、運動量オプティマイザーの考え方と似ています。下の図は TD(λ) とオフライン λ リターン アルゴリズムを比較したもので、TD(λ) が大きい場合には TD(λ) の効果が劣り、小さい場合にはその効果が大きくなることがわかります。2は近いです。
3. オンライン λ リターン アルゴリズム
一部の連続シーン (最終状態がない) では、オフライン λ リターンを直接計算するのは困難です。切り捨てられた λ リターン メソッドは、固定ウィンドウ h によって切り捨てられます。このとき、更新するエピソードの終わり。
この考えに基づいて、オンライン λ リターン アルゴリズムは、エピソード中の時間 t の現在の状況に応じて、切り捨てられた λ リターンを通じてモデル パラメーターを更新できます。現在エピソードの時間 h であると仮定すると、この時点で次の更新プロセスが実行されます。
h 回のパラメータ更新は、エピソードの h 時点でのみ行われていることがわかります。オフライン法と比較して、Online λ-return アルゴリズムの計算量は指数関数的に向上しますが、下図の効果比較から、オンライン λ リターン アルゴリズム この方法はオフライン方法よりも優れています。
4. 真のオンライン TD(λ)