【强化学习】小知识点汇总

1 On-policy and Off-policy

国内翻译成 同轨策略离轨策略

  • On-policy:The agent learned and the agent interacting with the environment is the same.
  • Off-policy:The agent learned and the agent interacting with the environment is the different.

2 On-line and Off-line

国内翻译成 在线学习离线学习。其主要区别在于 infinite stream databatched data 学习场景的不同

  • On-line:在任务进行中更新参数,进行完一个episode后就已经更新过多次参数了。
  • Off-line:在任务结束后统一更新参数,每一个episode后更新一次。

3 Importance Samling

国内翻译成 重要度采样:给定来自其他分布的样本的条件下,估计某种分布的期望值,常用在 Off-policy 中。

 可以使用重要度采样可以将 On-plicy 转到 Off-policy。


4 PPO and TRPO

  • PPO:Proximal Policy Optimization
  • TRPO:Trust Region Policy Optimization

TRPO 是 PPO 的前身,两者都使用了  KL(\theta ,\theta' )  约束保证两个分布不要差异太大。不同之处在于 PPO 将 KL 引入到目标函数,而 TRPO 将 KL 视为单独的约束。性能上 PPO 与 TRPO 相近,但 PPO 的优势在于易于实现


5 Actor-only、Critic-only 和 Actor-critic

  1. actor-only

    actor-only 算法将 policy 参数化,可以在算法过程中直接优化,因此其优点在于可以生成一系列连续的 action。优化方法通常为 policy gradient 方法,该方法的缺点为在估计梯度的时候将会产生较大的方差,导致学习速度较慢。

  2. critic-only

    critic-only 算法使用 temporal difference learning(TD learning) 算法,对期望回报(expected return)的估计具有较小的方差。通常使用贪心算法(greedy)或者 ε-贪心算法(ε-greedy)。通过 greedy 算法搜索最优 action 的计算量非常大,尤其是 action 是连续的情况下。因此,critic-only 算法将连续动作空间离散化,将对动作空间的优化转化为枚举问题。但这么做削弱了使用连续动作的能力,削弱了找到真正最优动作的能力。

  3. actor-critic 

    actor-critic 算法将 actor-only 和 critic-only 两者结合,具有两者的优点:低方差 + 连续 action。critic 对当前的 state 以及 action 的表现进行估计,得到 value function,用来给 actor 更新梯度。低方差的代价是在学习开始时,由于 critic 的估计不够准确而使算法具有较大偏差。policy-gradient 占了该算法的绝大部分,其中可以分为两种 standard gradient 以及 natural gradient,另一部分为更新 actor。


Guess you like

Origin blog.csdn.net/weixin_41960890/article/details/120638622