版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kiss_xiaojie/article/details/84985672
增强学习(RL)一些入门资料
- 概述
- 综述★
MDP
- 基本概念
- 解决方法分类
model-free
&model-based
model-based
--> 先学习 环境 ,再具体使用规划来得到最优策略。- 有点类似于 生成模型 & 判别模型
off-plicy
&on-plicy
- [TOTAL] :: 更新价值所使用的方法是沿着既定的策略(on-policy)抑或是新策略(off-policy)
off-plicy
--> 我们可以利用一个策略(行为策略)来保持探索性,提供多样化的数据,而不断的优化另一个策略(目标策略)。on-plicy
--> 在既定的策略下学习更优策略
- 具体解决方法
- 动态规划
DP
--> (model-based
)- 策略迭代 --> (策略估计,策略改进)
- 值迭代
- 蒙特卡洛(
MC
) - 时间差分(
Temporal-Difference Learning
)Temporal-Difference
★★Q-learning
--> (model-free
off-plicy
)Sarsa
--> (on-plicy
) ??
- 动态规划
POMDP
- ???