强化学习基础阐述（一）

像西瓜书中说的一样，强化学习任务通常用马尔可夫决策过程（MDP）来描述：假设机器处于环境E中，状态空间为X，其中每个状态x∈X是机器感知到的环境的描述，然后机器能采取的动作构成了动作空间A。若某个动作a∈A作用在当前状态x上，则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态。在转移到另一个状态时，环境会根据潜在的“奖赏”reward函数R反馈给机器一个奖赏。
综合起来，强化学习任务对应了四元组E=<X,A,P,R>，其中P:X×A×X->R指定了状态转移概率, R:X×A×X->R指定了奖赏。
需要注意的是，在环境中状态的转移，奖赏的返回是不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。
机器要做的就是在环境中不断地尝试而学得一个“策略”Π，根据这个策略在状态x下就能得知要执行的动作a=Π(x)。策略有两种表示方法，一种是确定性策略的函数表示，另一种是随机性策略的概率表示，Π(x,a)是状态x下选择a的概率。其中必须满足 $Σ_aΠ(x,a)=1$

在强化学习中，有两个基本概念：探索和利用

探索：获知每个动作带来的奖赏
利用：执行奖赏最大的动作
以K-摇臂赌博机为例：
探索可以利用仅探索法：将所以尝试机会平均分配给每个摇臂，最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。
利用可以利用仅利用法：按下目前最优的（即到目前为止平均奖赏最大的）摇臂，如有多个摇臂最优，则从中随机选取一个。
很明显，两者是矛盾的，因为尝试次数是有限的。
有几个方法来进行折中
一. ε-贪心法
ε-贪心法以一个概率来对探索和利用进行折中：每次尝试以ε的概率探索，即以均匀概率随机选取一个摇臂，以1-ε的概率进行利用，即选择当前平均奖赏最高的摇臂。
平均奖赏的更新以增量式计算 $Q_{n}(k)=\frac{1}{n}((n-1)\times{Q_{n-1}(k)+v_n})=Q_{n-1}(k)+\frac{1}{n}(v_n-Q_{n-1}(k))$ 表示的是经过第n次尝试获得奖赏vn后的平均奖赏.
若奖赏的不确定性较大，则需要较大的ε值，反之则小。若尝试次数非常大，可以使ε随着尝试次数增加而减小。
二. Softmax
softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中，若各摇臂的平均奖赏相当，则选取各摇臂的概率也相当，若某些摇臂的平均奖赏明显高于其他摇臂，则他们被选取的概率也明显更高。
$P(k)=\frac{e^{\frac{Q(k)}{\tau}}}{\sum_{i=1}^Ke^{\frac{Q(i)}{\tau}}}$ τ大于0，τ越小则平均奖赏高的摇臂被选取的概率越高。τ趋于0则softmax趋于“仅利用”，反之趋于仅探索“。

有模型学习在下节描述。”

强化学习基础阐述（一）

猜你喜欢