增强学习(RL)一些入门资料

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kiss_xiaojie/article/details/84985672

增强学习(RL)一些入门资料

  1. 概述
  2. MDP
    1. 基本概念
    2. 解决方法分类
      • model-free & model-based
      • off-plicy & on-plicy
        • [TOTAL] :: 更新价值所使用的方法是沿着既定的策略(on-policy)抑或是新策略(off-policy)
        • off-plicy --> 我们可以利用一个策略(行为策略)来保持探索性,提供多样化的数据,而不断的优化另一个策略(目标策略)。
        • on-plicy --> 在既定的策略下学习更优策略
    3. 具体解决方法
      • 动态规划
        • DP --> (model-based)
        • 策略迭代 --> (策略估计,策略改进)
        • 值迭代
      • 蒙特卡洛MC
      • 时间差分Temporal-Difference Learning
  3. POMDP
    • ???

猜你喜欢

转载自blog.csdn.net/kiss_xiaojie/article/details/84985672