强化学习基础阐述(一)

像西瓜书中说的一样,强化学习任务通常用马尔可夫决策过程(MDP)来描述:假设机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述,然后机器能采取的动作构成了动作空间A。若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态。在转移到另一个状态时,环境会根据潜在的“奖赏”reward函数R反馈给机器一个奖赏。
综合起来,强化学习任务对应了四元组E=<X,A,P,R>,其中P:X×A×X->R指定了状态转移概率, R:X×A×X->R指定了奖赏。
需要注意的是,在环境中状态的转移,奖赏的返回是不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。
机器要做的就是在环境中不断地尝试而学得一个“策略”Π,根据这个策略在状态x下就能得知要执行的动作a=Π(x)。策略有两种表示方法,一种是确定性策略的函数表示,另一种是随机性策略的概率表示,Π(x,a)是状态x下选择a的概率。其中必须满足 Σ a Π ( x , a ) = 1 Σ_aΠ(x,a)=1

在强化学习中,有两个基本概念:探索和利用

探索:获知每个动作带来的奖赏
利用:执行奖赏最大的动作
以K-摇臂赌博机为例:
探索可以利用仅探索法:将所以尝试机会平均分配给每个摇臂,最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。
利用可以利用仅利用法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂,如有多个摇臂最优,则从中随机选取一个。
很明显,两者是矛盾的,因为尝试次数是有限的。
有几个方法来进行折中
一. ε-贪心法
ε-贪心法以一个概率来对探索和利用进行折中:每次尝试以ε的概率探索,即以均匀概率随机选取一个摇臂,以1-ε的概率进行利用,即选择当前平均奖赏最高的摇臂。
平均奖赏的更新以增量式计算 Q n ( k ) = 1 n ( ( n 1 ) × Q n 1 ( k ) + v n ) = Q n 1 ( k ) + 1 n ( v n Q n 1 ( k ) ) Q_{n}(k)=\frac{1}{n}((n-1)\times{Q_{n-1}(k)+v_n})=Q_{n-1}(k)+\frac{1}{n}(v_n-Q_{n-1}(k)) 表示的是经过第n次尝试获得奖赏vn后的平均奖赏.
若奖赏的不确定性较大,则需要较大的ε值,反之则小。若尝试次数非常大,可以使ε随着尝试次数增加而减小。
二. Softmax
softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中,若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当,若某些摇臂的平均奖赏明显高于其他摇臂,则他们被选取的概率也明显更高。
P ( k ) = e Q ( k ) τ i = 1 K e Q ( i ) τ P(k)=\frac{e^{\frac{Q(k)}{\tau}}}{\sum_{i=1}^Ke^{\frac{Q(i)}{\tau}}} τ大于0,τ越小则平均奖赏高的摇臂被选取的概率越高。τ趋于0则softmax趋于“仅利用”,反之趋于仅探索“。

有模型学习在下节描述。”

猜你喜欢

转载自blog.csdn.net/m0_37615398/article/details/84983000
今日推荐