强化学习(Reinforcement Learning)笔记(收藏)

强化学习

马尔可夫决策过程(Markov Decision Processes,MDPs)

MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。

其可以简单表示为:  

基本概念

  1.  : 有限状态 state 集合,s 表示某个特定状态
  2.  : 有限动作 action 集合,a 表示某个特定动作
  3. Transition Model  : Transition Model, 根据当前状态 s 和动作 a 预测下一个状态 s’,这里的   表示从 s 采取行动 a 转移到 s’ 的概率
  4. Reward  :表示 agent 采取某个动作后的即时奖励,它还有 R(s, a, s’), R(s) 等表现形式,采用不同的形式,其意义略有不同
  5. Policy  : 根据当前 state 来产生 action,可表现为   或  ,后者表示某种状态下执行某个动作的概率

回报(Return):

  与 折扣率(discount) : U 代表执行一组 action 后所有状态累计的 reward 之和,但由于直接的 reward 相加在无限时间序列中会导致无偏向,而且会产生状态的无限循环。因此在这个 Utility 函数里引入   折扣率这一概念,令往后的状态所反馈回来的 reward 乘上这个 discount 系数,这样意味着当下的 reward 比未来反馈的 reward 更重要,这也比较符合直觉。定义

 

猜你喜欢

转载自blog.csdn.net/adminkeys/article/details/108849104