【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

【深入浅出强化学习原理入门学习笔记】4.无模型的强化学习方法-蒙特卡罗算法

无模型

再解释一下什么是无模型?无模型就是状态转移函数,回报函数不知道的情况,不知道在 ( s , a ) 的情况下,状态怎么转移,回报函数也不知道, π ( s t + 1 | s t , a t ) 的转移概率未知。
基于模型的动态规划方法中是基于模型的,包括策略迭代法和值函数迭代法,可以统一到广义策略迭代法,即先进行策略评估(计算值函数),然后基于基函数做策略改善。

蒙特卡洛方法

状态值函数和状态-行为值函数的本质是期望,之前动态规划的方法可以通过模型计算期望,在无模型的情况下,可以通过经验平均来估计期望,可以采用蒙特卡罗的方法。基本的思路就是利用蒙特卡洛反复实验,得到实验数据,计算经验平均,在经验平均的基础上进行策略评估和改善。因为是经验平均估计,因此需要保证每个状态都能被访问到,在这里介绍探索性初始化方法:
1,所有状态初始化,值函数初始化
2,随机选择一个状态,以一个策略(行动策略)选择该状态下的一个行为,得到反馈序列,对在实验中出现的每一个状态-行为对以及附属的回报,以递增平均的方式,加和到对应的状态-行为值函数中。
3,以贪心策略进行策略评估和改善(目标策略)
4,重复2,3

注意递增平均的方式为: v k ( s ) = v k 1 ( s ) + 1 k ( G k ( s ) V k 1 )
如果行动策略和目标策略是相同的策略,称之为同策略;否则称之为异策略,异策略中的两个策略需要满足:行动策略包含或者覆盖目标策略。

重要性采样

因为数据是行动策略产生的,对目标策略进行评估(计算值函数)时需要重要性采样。

因为对于异步策略中两个策略的分布不一样(即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样),需要使用加权重要性采样来更新值函数。

加权重要性采样【待更】

参考书籍:

  1. 深入浅出强化学习原理入门

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/79470131
今日推荐