On-Policy:agent一边采集数据一边更新策略。
Off-Policy:在训练期间agent每次更新可以使用在环境的任意点上采集的数据。
通俗地说,On-Policy一个玩家一边看着屏幕玩游戏一边作反馈,而
Off-Policy是一个玩家在玩游戏,教练在看这个玩家在玩,教练会给他一些更好的反馈。
On-Policy:agent一边采集数据一边更新策略。
Off-Policy:在训练期间agent每次更新可以使用在环境的任意点上采集的数据。
通俗地说,On-Policy一个玩家一边看着屏幕玩游戏一边作反馈,而
Off-Policy是一个玩家在玩游戏,教练在看这个玩家在玩,教练会给他一些更好的反馈。