(一)无模型的强化学习方法解决哪类问题
模型状态转化概率矩阵P始终是未知
(二)无模型强化学习方法简述
无模型的强化学习
一、蒙特卡洛
1、特点
蒙特卡罗法根据若干完整的状态序列(episode)来估计状态的真实价值。所谓的经历完整,就是这个序列必须是达到终点的。
2、流程
1、初始化所有
2、随机选择状态策略、按策略生成实验
3、回报取均值
4、策略改进
3、蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。
二、时间差分
蒙特卡洛做试验加动态规划用后继状态值函数估计当前状态值函数。
包括同策略的Sarsa和Q-learning(DQN改进Qlearning)
基于值函数的强化学习方法:状态空间到动作空间的映射,通过迭代逼近值函数(并采用贪婪策略)。
基于策略搜索的强化学习方法:迭代策略的参数,使累计汇报的期望最大
时序差分和蒙特卡罗法比它更加灵活,学习能力更强,因此是目前主流的强化学习求解问题的方法,现在绝大部分强化学习乃至深度强化学习的求解都是以时序差分的思想为基础的。
三、值函数逼近
1、增量式学习算法
随机梯度下降法
2、批学习算法
四、策略搜索
五、其他
强化学习分类
参考传送门:https://blog.csdn.net/fendouaini/article/details/100149701 深度强化学习(DRL)专栏(一)
强化学习方法对比:
参考传送门:https://blog.csdn.net/qq_39388410/article/details/88795124