1、无模型方法简介
无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索
MDPs中未知P,R-无模型
交互是为了更加了解环境,了解状态
动态规划是已经知道模型,没有模型通过采样的方法,也就是样本备份
从经验中学习
和动态规划的区别:
无模型学习:
1、未知环境模型
2、需要与环境进行交互,有交互成本(时间、金钱)
3、样本备份
4、异步备份(更新状态值函数不需要等待更新其它状态值函数)
5、需要充分的探索(不进行充分探索,学不到最优策略)
6、两个策略(行为策略和目标策略)
动态规划:
1、已知环境模型
2、不需要直接交互,直接利用环境模型推导
3、全宽备份
4、同步和异步
5、无探索(只需要做演算就可以)
6、一个策略
2、在策略和离策略
行为策略是智能体与环境进行交互的策略,(用来产生样本)
目标策略是我们学习的策略,即Vpi 时的下标
在策略(on-policy)学习:
行为策略和目标策略是同一个策略,直接使用样本统计属性去估计总体,更简单且收敛性更好
数据利用性更差(只有智能体当前交互的样本能够被利用)
限定学习过程中的策略是随机性策略
离策略(off-policy)学习:
行为策略和目标策略不是同一个策略
一般行为策略选用随机性策略,目标策略选用确定性策略
需要结合重要性采样才能使用样本估计总体
方差更大,收敛性更差
数据利用性更好(可以使用其它智能体交互的样本,例如学围棋可以用棋谱样本用)
行为策略比目标策略更具备探索性,即,在每个状态下,目标策略的可行动作是行为策略可行动作的子集
重要性采样:
例子:
重要性采样公式:
离策略学习中的重要性采样:
3、蒙特卡洛方法(Monte Carlo,MC)
蒙特卡洛树,蒙特卡洛在树中采样一条轨迹
方差比较大,树中每一个节点有一定随机性,轨迹比较长,中间随机性较大,
做一次实验,可信性比较差
样本备份
动态规划方法:
考虑所有后继状态以及所做的动作
一步备份,只考虑一步情况,蒙特卡洛考虑到最终的状态
4、蒙特卡洛评价
蒙特卡洛不使用贝尔曼方程
在策略蒙特卡洛评价:
First-visit MC策略评价:
Every-visit MC策略评价:
对Q函数的MC方法:
离策略蒙特卡洛评价:
MC特点小结:
5、增量式蒙塔卡洛算法
为什么需要增量式蒙特卡洛?
增量式MC更新
平均值更新
常量步长:
特点:
6、蒙特卡洛优化
广义策略迭代:
MC中的广义策略迭代
问题一:使用哪个值函数?Q函数
问题二:是否可以贪婪策略提升?
MC虽然利用过去的经验数据,但是某些状态并未遍历到,遍历不够充分,置信度不够
-贪婪策略
策略提升
MC策略迭代:
增量式策略评价:
每条轨迹
7、蒙塔卡洛算法引申