《Reinforcement Learning》读书笔记 3：有限马尔科夫决策过程（Finite MDP）

Agent-Environment Interface

agent的目标是最大化 $E(\sum f(R_t))$
reward hypothesis:

That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

episode
- episodic task
  - 有终止的或者说一段一段的
- continuing task
  - 无限的或者不确定能否结束的（？）
discounted return
- $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \\ = \sum_{k=t+1}^{T} \gamma^{k−t−1} R_k$
- 迭代式： $G_t = R_{t+1} + \gamma G_{t+1}$

policy
- 在状态下，执行各策略的概率
  - 当是确定型策略时，其中有唯一 $a$ ，值为1
- $\pi(a|s) = P(A_t=a|S_t=s)$
如何评价一个策略的好坏
- state-value function
  $v_\pi(s) = E_\pi(G_t | S_t = s) = E_\pi( \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t =s)$
- action-value function
  $q_\pi(s, a) = E_\pi(G_t | S_t = s, A_t = a) = E_\pi( \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t =s, A_t = a)$
Bellman 方程
- $v_{π} (s) = \sum_{a} π (a | s) \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ v_{π} (s^{'})) = \sum_{a} π (a | s) q_{π} (s, a)$ $v_\pi(s) = \sum_a \pi(a|s) \sum_{s',r} p(s', r | s, a) (r + \gamma v_\pi(s')) \\ = \sum_a \pi(a|s) q_\pi(s,a)$
- $q_{π} (s, a) = \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ \sum_{a^{'}} π (a^{'} | s^{'}) q_{π} (s^{'}, a^{'})) = \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ v_{π} (s^{'}))$ $q_\pi(s,a) = \sum_{s',r} p(s', r | s, a) (r + \gamma \sum_{a'} \pi(a'|s') q_\pi(s',a')) \\ = \sum_{s',r} p(s', r | s, a) (r + \gamma v_\pi(s'))$
- 出发的边不同，求全概率时用的累加顺序也有所不同：一个 $\pi(a|s)$ ，一个 $p(s', r | s, a)$
- 已知参数（ $p(s', r | s, a) , \pi$ 等），则为线性方程组，对于小规模的状态集，可以直接求解
backup diagrams
例子
- Gridworld

optimal policy
- $v_{\pi_*}(s) \ge v_{\pi'}(s) \text{ for all } s \in \mathcal S$
- 当已知最优策略时，可以直接采用greedy action
  - 因为其定义中的value function已经考虑了长期的reward
  - markov性质
optimal value function
- optimal state-value function
  $v_*(s) = \max_{\pi} v_\pi(s)$
- optimal action-value function
  $q_\pi(s, a) = \max_{\pi} q_\pi(s, a)$
- search（已知当前，求最优）
  - 用 $v(s)$ 需要one-step ahead search，就是要知道所有可行的action及其能达到的state
  - 用 $q(s, a)$ 的话就省掉了这一步，相当于cache了
Bellman optimality equation
- $v_{*} (s) = max_{a \in A (s)} \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ v_{*} (s)) = max_{a} q_{π_{*}} (s, a)$ $v_∗(s) = \max_{a \in A(s)} \sum_{s',r} p(s', r | s, a) (r + \gamma v_∗(s)) \\ = \max_a q_{\pi_∗}(s, a)$
- $q_{*} (s, a) = \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ max_{a} q_{*} (s, a)) = \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ v_{*} (s))$ $q_∗(s, a) = \sum_{s',r} p(s', r | s, a) (r + \gamma \max_ a q_∗(s, a)) \\ = \sum_{s',r} p(s', r | s, a) (r + \gamma v_∗(s))$
- 非线性方程组，有唯一解
backup diagrams
例子
- recycling robot
- Gridworld

Exercise 3.14/3.15: 所有reward都加一个常数c，对value function/optimal policy有影响吗？
- continuing：相当于加了一个无穷等比数列，和为常数，不影响policy
- episodic：因为等比数列的长度不确定，所以不同长度的episode的return增加的也不一样，e.g 加一个接近非常大的正数，会倾向于”拖延”（有些任务timestep越少越好）