重温强化学习之无模型学习方法:蒙特卡洛方法

1、无模型方法简介

无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索

MDPs中未知P,R-无模型

交互是为了更加了解环境,了解状态

动态规划是已经知道模型,没有模型通过采样的方法,也就是样本备份

从经验中学习

和动态规划的区别:

无模型学习:

     1、未知环境模型

      2、需要与环境进行交互,有交互成本(时间、金钱)

      3、样本备份

      4、异步备份(更新状态值函数不需要等待更新其它状态值函数)

      5、需要充分的探索(不进行充分探索,学不到最优策略)

      6、两个策略(行为策略和目标策略)

动态规划:

      1、已知环境模型

       2、不需要直接交互,直接利用环境模型推导

       3、全宽备份

       4、同步和异步

       5、无探索(只需要做演算就可以)

       6、一个策略

2、在策略和离策略

行为策略是智能体与环境进行交互的策略,(用来产生样本)

目标策略是我们学习的策略,即Vpi 时的下标

在策略(on-policy)学习:

       行为策略和目标策略是同一个策略,直接使用样本统计属性去估计总体,更简单且收敛性更好

       数据利用性更差(只有智能体当前交互的样本能够被利用)

       限定学习过程中的策略是随机性策略

离策略(off-policy)学习:

      行为策略和目标策略不是同一个策略  

      一般行为策略选用随机性策略,目标策略选用确定性策略

      需要结合重要性采样才能使用样本估计总体

      方差更大,收敛性更差

      数据利用性更好(可以使用其它智能体交互的样本,例如学围棋可以用棋谱样本用)

      行为策略比目标策略更具备探索性,即,在每个状态下,目标策略的可行动作是行为策略可行动作的子集

重要性采样:

    

例子:

     

重要性采样公式:

     

离策略学习中的重要性采样:

3、蒙特卡洛方法(Monte Carlo,MC)

蒙特卡洛树,蒙特卡洛在树中采样一条轨迹

方差比较大,树中每一个节点有一定随机性,轨迹比较长,中间随机性较大,

做一次实验,可信性比较差

样本备份

动态规划方法:

考虑所有后继状态以及所做的动作

一步备份,只考虑一步情况,蒙特卡洛考虑到最终的状态

4、蒙特卡洛评价

           

蒙特卡洛不使用贝尔曼方程

在策略蒙特卡洛评价:

      First-visit MC策略评价:

           

                  

           

        Every-visit MC策略评价:

           

                   

            

对Q函数的MC方法:

        

                    

       

离策略蒙特卡洛评价:

        

MC特点小结:

        

5、增量式蒙塔卡洛算法

为什么需要增量式蒙特卡洛?

增量式MC更新

                         

平均值更新

常量步长:

                        

特点:                         

                          

6、蒙特卡洛优化

广义策略迭代:

                                       

                                               

                                               

MC中的广义策略迭代

                                     

问题一:使用哪个值函数?Q函数

                                   

问题二:是否可以贪婪策略提升?

       MC虽然利用过去的经验数据,但是某些状态并未遍历到,遍历不够充分,置信度不够

-贪婪策略

              

                             

              

策略提升

               

            

MC策略迭代:

                                        

                                           

增量式策略评价:

                                    

每条轨迹

                                       

                                

7、蒙塔卡洛算法引申

                                

                                   

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/84929050
今日推荐