《Reinforcement Learning》 读书笔记 3:有限马尔科夫决策过程(Finite MDP)

版权声明:本文为博主原创文章,欢迎交流分享,未经博主允许不得转载。 https://blog.csdn.net/qjf42/article/details/79657139
《Reinforcement Learning: An Introduction》 读书笔记 - 目录

Agent-Environment Interface

  • agent
    • learner and decision maker
  • environment
    • 与agent交互,包括所有agent之外的东西
  • environment’s state
    • S t S
  • action
    • A t A ( s )
  • reward
    • R t R R

MDP

MDP

几个要素

  • state, action, reward集合 S , A , R
    • Finite MDP中,这几个集合都是有限集
  • p ( s , r | s , a ) = P ( S t = s , R t = r | S t 1 = s , A t 1 = a )
    • Markov性质,简化问题
      • 只考虑最近的一次action
      • S t 1 中其实仍然可以包含 S t 2 及以前的信息
    • 在此基础上,还可以得到几个相关的,如:
      • 状态转移概率 p ( s | s , a )
      • 期望收益 r ( s , a ) , r ( s , a , s )
  • 例子
    • recycling robot
      recycling robot

目标

  • agent的目标是最大化 E ( f ( R t ) )
  • reward hypothesis:
    That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

一些概念

  • episode
    • episodic task
      • 有终止的 或者说 一段一段的
    • continuing task
      • 无限的 或者 不确定能否结束的(?)
  • discounted return
    • G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + = k = 0 γ k R t + k + 1 = k = t + 1 T γ k t 1 R k
    • 迭代式: G t = R t + 1 + γ G t + 1

Policies & Value Functions

  • policy
    • 在状态 s 下,执行各策略 a 的概率
      • 当是确定型策略时,其中有唯一 a ,值为1
    • π ( a | s ) = P ( A t = a | S t = s )
  • 如何评价一个策略的好坏
    • state-value function
      v π ( s ) = E π ( G t | S t = s ) = E π ( k = 0 γ k R t + k + 1 | S t = s )
    • action-value function
      q π ( s , a ) = E π ( G t | S t = s , A t = a ) = E π ( k = 0 γ k R t + k + 1 | S t = s , A t = a )
  • Bellman 方程
    • v π ( s ) = a π ( a | s ) s , r p ( s , r | s , a ) ( r + γ v π ( s ) ) = a π ( a | s ) q π ( s , a )
    • q π ( s , a ) = s , r p ( s , r | s , a ) ( r + γ a π ( a | s ) q π ( s , a ) ) = s , r p ( s , r | s , a ) ( r + γ v π ( s ) )
    • 出发的边不同,求全概率时用的累加顺序也有所不同:一个 π ( a | s ) ,一个 p ( s , r | s , a )
    • 已知参数( p ( s , r | s , a ) , π 等),则为线性方程组,对于小规模的状态集,可以直接求解
  • backup diagrams
    backup_vbackup q
  • 例子
    • Gridworld
      gridworld

最优Policies & 最优Value Functions

  • optimal policy π
    • v π ( s ) v π ( s )  for all  s S
    • 当已知最优策略时,可以直接采用greedy action
      • 因为其定义中的value function已经考虑了长期的reward
      • markov性质
  • optimal value function
    • optimal state-value function
      v ( s ) = max π v π ( s )
    • optimal action-value function
      q π ( s , a ) = max π q π ( s , a )
    • search(已知当前 s ,求最优 a
      • v ( s ) 需要one-step ahead search,就是要知道所有可行的action及其能达到的state
      • q ( s , a ) 的话就省掉了这一步,相当于cache了
  • Bellman optimality equation
    • v ( s ) = max a A ( s ) s , r p ( s , r | s , a ) ( r + γ v ( s ) ) = max a q π ( s , a )
    • q ( s , a ) = s , r p ( s , r | s , a ) ( r + γ max a q ( s , a ) ) = s , r p ( s , r | s , a ) ( r + γ v ( s ) )
    • 非线性方程组,有唯一解
  • backup diagrams
    backup
  • 例子
    • recycling robot
      recycle_bot_2
    • Gridworld
      gridword_2

其它

  • Exercise 3.14/3.15: 所有reward都加一个常数c,对value function/optimal policy有影响吗?
    • continuing:相当于加了一个无穷等比数列,和为常数,不影响policy
    • episodic:因为等比数列的长度不确定,所以不同长度的episode的return增加的也不一样,e.g 加一个接近非常大的正数,会倾向于”拖延”(有些任务timestep越少越好)

猜你喜欢

转载自blog.csdn.net/qjf42/article/details/79657139