サーザラムダ
ここでは、シングルステップの更新とラウンドアップデートの概念につながります。
シングルステップの更新は、各以前のアクションでのみ更新QおよびQ前のステップと次のQというメッセージに一つだけのステップを学ぶではなく、
試合は学習イニシアティブにだけではなく、前のステップに関連する情報の一定量を、更新されます。ラムダは、ステップ数を表すパラメータです。0デフォルトサーザを表し、
それは学習の唯一の最初のステップです。
ラムダ= 1は同じ重量のラウンドステップごとに更新されます
一般的に言えば、ラムダは0~1の数、前寄りの位置を学習する動作の学習後の異なる作用の影響、より遠い重量、(以前は)重みを移動であります低いです。
実際の実装では、適格性トレースと呼ばれるモードを使用します。
これは、このようなプロセスです。
たびには達成するために、(縮小)対応する重みを大きくし、完了した各ステップは、すべての重みの全体e_tableが減衰されるテーブル(e_table)状態で、状態に行きサーザ・ラムダ結果。q_table更新は全体e_tableによって計算されます