策略梯度—强化算法

构建一个神经网络,输入为观测量,输出为选取每一行为的概率:

  1. 首先,让神经网络策略多次参与游戏,然后在每个步骤中计算出使选择的行为更有可能发生的梯度,但暂时不要应用这些梯度。
  2. 连续进行几次游戏后,计算每一个行为的优势 V k ( a ) = ∑ n = k N R n γ n − k V_k(a)=\sum\limits_{n=k}^N{R_n\gamma^{n-k}} Vk(a)=n=kNRnγnk,即采取了行为a后,获得的奖励和之后获得的奖励的加权和,权值为等比数列,比值 γ \gamma γ称为折价系数,最后对所有行为的优势采取Z-Score标准化。
  3. 如果某一行为的优势是正的,则意味着该行为可能是好的,我们就可以应用先前计算的梯度,以使将来更有可能选择该行为。 但是,如果该行为的优势为负,则意味着该操作可能很糟糕,则需要应用相反的梯度,以使该行为在将来的可能性较小。 解决方案只是将每个梯度向量乘以相应行为的优势。
  4. 最后,计算所有所得梯度向量的平均值,并使用其执行“梯度下降”步骤。

おすすめ

転載: blog.csdn.net/qq_39573785/article/details/104006353