強化学習とモンテカルロ1 |アクションコレクションエピソード

状態、アクション、状態の終わりまでの報酬のシーケンスにエピソードという名前を付けます。エージェントのタスクは、累積された期待される報酬を最大化する戦略を見つけることです。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/weixin_43236007/article/details/114377789