<强化学习>开门帖

今天是2020年2月7日,开始二刷david silver ulc课程.

david silver课件汇总:(共10节课)

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

一些小总结:

1.强化学习不同于其他机器学习算法,它们的基础理论可以说正交.其他的机器学习算法大多在贝叶斯理论的基础上发展而来.而强化学习是以马尔可夫决策过程MDP<S,A,R,seta,P>为基础而来.它依靠反馈有一定延时的Reward激励信号而学习.

2.马尔可夫性: 未来stage只受当前stage影响,而与过去stage无关.

猜你喜欢

转载自www.cnblogs.com/dynmi/p/12275062.html