李弘毅的强化学习

1\policy Gradient(Review)

  三个组件:Actor\Enviroment\Reward

  Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.

2\Policy of Actor

  policy:π,是带有参数的network

  input:机器可以理解的数据,矢量或者矩阵

  output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.

  流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward

猜你喜欢

转载自www.cnblogs.com/smartmsl/p/10992342.html
今日推荐