1 On-policy and Off-policy
国内翻译成 同轨策略 和 离轨策略。
- On-policy:The agent learned and the agent interacting with the environment is the same.
- Off-policy:The agent learned and the agent interacting with the environment is the different.
2 On-line and Off-line
国内翻译成 在线学习 和 离线学习。其主要区别在于 infinite stream data 和 batched data 学习场景的不同
- On-line:在任务进行中更新参数,进行完一个episode后就已经更新过多次参数了。
- Off-line:在任务结束后统一更新参数,每一个episode后更新一次。
3 Importance Samling
国内翻译成 重要度采样:给定来自其他分布的样本的条件下,估计某种分布的期望值,常用在 Off-policy 中。
可以使用重要度采样可以将 On-plicy 转到 Off-policy。
4 PPO and TRPO
- PPO:Proximal Policy Optimization
- TRPO:Trust Region Policy Optimization
TRPO 是 PPO 的前身,两者都使用了 约束保证两个分布不要差异太大。不同之处在于 PPO 将 KL 引入到目标函数,而 TRPO 将 KL 视为单独的约束。性能上 PPO 与 TRPO 相近,但 PPO 的优势在于易于实现。
5 Actor-only、Critic-only 和 Actor-critic
-
actor-only
actor-only 算法将 policy 参数化,可以在算法过程中直接优化,因此其优点在于可以生成一系列连续的 action。优化方法通常为 policy gradient 方法,该方法的缺点为在估计梯度的时候将会产生较大的方差,导致学习速度较慢。
-
critic-only
critic-only 算法使用 temporal difference learning(TD learning) 算法,对期望回报(expected return)的估计具有较小的方差。通常使用贪心算法(greedy)或者 ε-贪心算法(ε-greedy)。通过 greedy 算法搜索最优 action 的计算量非常大,尤其是 action 是连续的情况下。因此,critic-only 算法将连续动作空间离散化,将对动作空间的优化转化为枚举问题。但这么做削弱了使用连续动作的能力,削弱了找到真正最优动作的能力。
-
actor-critic
actor-critic 算法将 actor-only 和 critic-only 两者结合,具有两者的优点:低方差 + 连续 action。critic 对当前的 state 以及 action 的表现进行估计,得到 value function,用来给 actor 更新梯度。低方差的代价是在学习开始时,由于 critic 的估计不够准确而使算法具有较大偏差。policy-gradient 占了该算法的绝大部分,其中可以分为两种 standard gradient 以及 natural gradient,另一部分为更新 actor。