强化学习(一) - 基础认知

强化学习 - 基础认知

强化学习是想让一个智能体(agent)在不同的环境状态(state)下,学会选择那个使得奖赏(reward)最大的动作(action)。

Agent在 t 时刻,通过观测环境得到自己所在的 状态(state),接下来agent根据 策略(policy) 进行决策后,做出一个 动作(action)。这个action就会使得agent在 环境(environment) 中转移到一个新的状态,并且在转移时获得一个 即时奖励(reward) 值,这样agent又可以在新state中重新选择动作。
这样就可以累积很多reward值 R 0 , R 1 , . . . , R t , . . . , R T R 0 , R 1 , . . . , R t , . . . , R T R 0 , R 1 , . . . , R t , . . . , R T (R0,R1,...,Rt,...,RT)(R0,R1,...,Rt,...,RT) (R_0,R_1,...,R_t,...,R_T) R累积起来最大。即是奖励最大化。


environment model

如果我们知道环境的一切,我们就说这个环境是已知的,即model based。也就是说,在这种情况下,agent知道选择一个动作后,它的状态转移概率是怎样的,获得奖赏是怎样的。这些都知道的话,我们就可以使用 动态规划的方法(DP) 来解决问题。

但是在现实生活中,我们是很难知道状态之间的转移概率。这种情况称为model free。所以我们无法直接使用 动态规划 的方法来解决这种问题。


exploration and exploitation(探索与利用)

上面讲了,在强化学习中,我们的目标就是为了累积奖赏最大化。那么在每次选择动作时,agent会选择在过去经历中它认为奖赏最大的动作去执行。
但是有一个问题是,虽然有些动作一开始的奖赏很小。但是也许在这个动作的后面会有奖赏很大的时候呢?如果agent只是选取当前它认为奖赏最大的动作,那么它有可能陷入了局部最优。 所以,agent需要去探索。探索那些奖赏比较小的动作,也许它后面的奖赏会很大。

当然,探索也不能一直去探索,因为可能你只有有限的时间,不能把时间一直放在探索上面。所以看起来这是一对矛盾体。如何平衡它们是一个很重要的事情。


参考:
强化学习简介
周志华《Machine Learning》学习笔记(17)–强化学习



        </div>

猜你喜欢

转载自blog.csdn.net/wei2white/article/details/83745556
今日推荐