強化学習笔记(4)

サーザラムダ

ここでは、シングルステップの更新とラウンドアップデートの概念につながります。

シングルステップの更新は、各以前のアクションでのみ更新QおよびQ前のステップと次のQというメッセージに一つだけのステップを学ぶではなく、

試合は学習イニシアティブにだけではなく、前のステップに関連する情報の一定量を、更新されます。ラムダは、ステップ数を表すパラメータです。0デフォルトサーザを表し、

それは学習の唯一の最初のステップです。

ラムダ= 1は同じ重量のラウンドステップごとに更新されます

一般的に言えば、ラムダは0~1の数、前寄りの位置を学習する動作の学習後の異なる作用の影響、より遠い重量、(以前は)重みを移動であります低いです。

 

 

 

 

 

 実際の実装では、適格性トレースと呼ばれるモードを使用します。

これは、このようなプロセスです。

たびには達成するために、(縮小)対応する重みを大きくし、完了した各ステップは、すべての重みの全体e_tableが減衰されるテーブル(e_table)状態で、状態に行きサーザ・ラムダ結果。q_table更新は全体e_tableによって計算されます

おすすめ

転載: www.cnblogs.com/aitashi/p/12446568.html