深入理解强化学习——马尔可夫决策过程:策略

分类目录:《深入理解强化学习》总目录


智能体的策略(Policy)通常用字母 π \pi π表示。策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s)=P(A_t=a|S_t=s) π(as)=P(At=aSt=s)是一个函数,表示在输入状态 s s s情况下采取动作 s s s的概率。当一个策略是确定性策略(Deterministic Policy)时,它在每个状态时只输出一个确定性的动作,即只有该动作的概率为1,其他动作的概率为0;当一个策略是随机性策略(Stochastic Policy)时,它在每个状态时输出的是关于动作的概率分布,然后根据该分布进行采样就可以得到一个动作。在马尔可夫决策过程中,由于马尔可夫性质的存在,策略只需要与当前状态有关,不需要考虑历史状态。回顾一下在马尔可夫奖励过程中的价值函数,在 MDP 中也同样可以定义类似的价值函数。但此时的价值函数与策略有关,这意为着对于两个不同的策略来说,它们在同一个状态下的价值也很可能是不同的。这很好理解,因为不同的策略会采取不同的动作,从而之后会遇到不同的状态,以及获得不同的奖励,所以它们的累积奖励的期望也就不同,即状态价值不同。

概率代表在所有可能的动作里面怎样采取行动,比如可能有0.7的概率往左走,有0.3的概率往右走,这是一个概率的表示。另外策略也可能是确定的,它有可能直接输出一个值,或者直接告诉我们当前应该采取什么样的动作,而不是一个动作的概率。假设概率函数是平稳的(Stationary),不同时间点,我们采取的动作其实都是在对策略函数进行采样。

已知马尔可夫决策过程和策略 π \pi π,我们可以把马尔可夫决策过程转换成马尔可夫奖励过程。在马尔可夫决策过程里面,状态转移函数 P ( s ′ ∣ s , a ) P(s'|s, a) P(ss,a)基于它当前的状态以及它当前的动作。因为我们现在已知策略函数,也就是已知在每一个状态下,可能采取的动作的概率,所以我们就可以直接把动作进行加和,去掉 a a a,这样我们就可以得到对于马尔可夫奖励过程的转移,这里就没有动作,即:
P π ( s ′ ∣ s ) = ∑ a ∈ A π ( a ∣ s ) p ( s ′ ∣ s , a ) P_\pi(s'|s)=\sum_{a\in A}\pi(a|s)p(s'|s, a) Pπ(ss)=aAπ(as)p(ss,a)

对于奖励函数,我们也可以把动作去掉,这样就会得到类似于马尔可夫奖励过程的奖励函数,即:
r π ( s ) = ∑ a ∈ A π ( a ∣ s ) R ( s , a ) r_\pi(s)=\sum_{a\in A}\pi(a|s)R(s, a) rπ(s)=aAπ(as)R(s,a)

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/134517455
今日推荐