强化学习笔记(一)

强化学习算法分类

根据行为选择依据进行分类

  • 通过价值选行为:
    • Q Learning
    • Sarsa
    • Deep Q Network
  • 直接选行为:
    • Policy Gradients
  • 想象环境并从中学习:
    • Model based RL

根据理解环境与否进行分类

  • 不理解环境(Model-Free RL):
    • Q Learning
    • Sarsa
    • Policy Gradients
  • 理解环境(Model-Based RL):
    • Q Learning
    • Sarsa
    • Policy Gradients
  1. 不理解环境(Model-Free RL): 根据真实环境反馈进行学习
  2. 理解环境(Model-Based RL): 根据模拟环境反馈进行学习, 并将策略运用至真实环境

根据学习基于方式进行分类

  • 基于概率(Policy-Based RL):
    • Policy Gradients
  • 基于价值(Value-Based RL):
    • Q Learning
    • Sarsa
  1. 基于概率(Policy-Based RL): 各种行为都有可能被选择, 概率不同, 可以对连续分布的行为进行选择
  2. 基于价值(Value-Based RL): 选择价值最高的价值, 无法对连续分布的行为进行选择
  3. 结合概率和价值的算法: Actor-Critic

根据更新方式进行分类

  • 回合更新(Monte-Carlo Update):
    • 基础版 Policy Gradients
    • Monte-Carlo Learning
  • 单步更新(Temporal-Difference Update):
    • Q Learning
    • Sarsa
    • 升级版 Policy Gradients
  1. 回合更新(Monte-Carlo Update): 从游戏开始到结束更新
  2. 单步更新(Temporal-Difference Update): 游戏开始后每一步可以选择更新

根据是否亲自操作进行分类

  • 在线学习(On-Policy):
    • Sarsa
    • Saras(λ)
  • 离线学习(Off-Policy):
    • Q Learning
    • Deep Q Network
  1. 在线学习(On-Policy): 模型根据亲自操作进行学习
  2. 离线学习(Off-Policy): 模型可以根据观察已有的操作过程进行学习

猜你喜欢

转载自blog.csdn.net/weixin_40042498/article/details/113862957