On-Policy和Off-Policy

On-Policy:agent一边采集数据一边更新策略。

Off-Policy:在训练期间agent每次更新可以使用在环境的任意点上采集的数据。

通俗地说,On-Policy一个玩家一边看着屏幕玩游戏一边作反馈,而

Off-Policy是一个玩家在玩游戏,教练在看这个玩家在玩,教练会给他一些更好的反馈。

猜你喜欢

转载自www.cnblogs.com/phonard/p/12403552.html
今日推荐