【深度强化学习】知识汇总(持续更新)

1 基于值函数的方法

动态规划是 model-based 方法,MC 和 TD 都是 model-free 方法。

Dynamic Programming  (动态规划)

Temporal-Difference Learning  (时序差分学习)

Monte-Carlo Reinforcement Learning  (蒙特卡洛方法)

sarsa

q-learning


2 基于策略梯度的方法

又称 直接策略搜索方法

TRPO

Proximal Policy Optimization Algorithms  (PPO)

おすすめ

転載: blog.csdn.net/weixin_41960890/article/details/120710967