1 前言
感谢李宏毅教授的讲解!
2 采样sample()——探索行动的策略
sample()函数在训练过程中对应着“样本增广”的作用;
3 Sarsa和Q-Learning——最初的强化学习算法
3.1 基于Q-Learning的强化学习——使用Q表进行动作选择
其实Q-Learning的思想很简单,就跟把大象放进冰箱是差不多的,
基本的步骤是:
- 观察环境,得到observation;
- 根据obs查询Q表格,选择Q值最大的action;
- 执行该动作。
3.2 Sarsa和Q-Learning的预期目标
其实这两种算法的目标不同,导致了结果不同:
Sarsa:使得sample()行为的reward的平均水平达到最大;
Q-Learning:使得maxQ()行为的reward的达到最大;
3 DQN——用神经网络取代Q表格
3.1 为什么要用神经网络取代Q表呢?
如果动作状态的空间是连续的,则使用Q表可能无法对这种空间进行表述,(连续状态的可能取值是无限多的),
于是我们将“状态-Q值”看作是一种映射,也就是说:使用函数映射的思想来描述“状态-Q值”的映射关系;
既然是函数映射,于是我们的DNN就闪亮登场了~
4 Actor-Critic算法
在我看来Actor和Critic有着这样的特点:
Actor——本能者
Critic——经验者
具体的形式就是Q Function;
量化Q的方法我们采用TD,(这也是李教授讲授的方法),
我感觉Critic有着将reward规则进行可导化的作用;
感性认识:表达了模型对规则的理解,(同时将reward函数进行可导化);