2019年1月1日22:47:14
开一篇文章,记录下之前入门的学习路径。
2019年1月3日16:47:55
我是按照下面4个步骤入门的:
1,西瓜书第16章 ->
2,sutton那本书的中文翻译
https://github.com/rl-cn/rl-cn/releases
https://blog.csdn.net/yuanyinshen/article/details/81904842?utm_source=blogxgwz0 ->
3,UCL David Silver 的第一个lecture ->
4,博客 https://www.cnblogs.com/pinard/category/1254674.html
强化学习的几个要素我是老早就知道的。
1,西瓜书
周志华西瓜书第16章是强化学习的介绍,一上来就一堆公式,看不进去。
一本书,一上来就一堆抽象的公式以及推导,也缺乏例子,不讲明读这本书之前要预备哪些知识,这种书写的就不是给初学者看的。
学东西,应该要有一个简单明了的问题,以及一个浅显的容易理解的概念的引入,还要有一个就在初学者嘴边、能够一口吃进去、吃透的例子。
且这个例子足够简单,又能够抓住问题以及概念的重点。这样的书才是适合初学者的好书。西瓜书内容其实很不错,只是不太适合初学者。
这一章我只学进去了 exploration 探索 和 exploitation 利用 这两个概念。
exploitation 利用:短视的榨干当前的最优选择直到游戏结束
exploration 探索:探索其他的选择是不是比当前的选择更优
2,中文翻译
虽然只翻译了前面几章,但是看完后理解了 value function 值函数 是什么意思。
之前不太理解为什么一个 state 有 value 这种衡量指标来衡量这个state的好坏。
一个直观的例子:
人的一生所处的状态state在不断的变化,一个学生考上 清华北大后的状态的 value 就比他考上专科的状态的 value 高。
考上清华北大,以后飞黄腾达的几率就高,考上专科,那可能以后就只能做奋斗逼了。
value function 就是用来衡量每个state的value值。
某个state的value就是这个state之后所有可能的reward求和。
我们希望我们的policy能够使得我们的state越来越好。
policy指导action,action促使agent从当前的state转移到下一时刻的state。
寻找最优的policy变成了寻找最优的value function,而value function可以量化。这就给了问题解决的希望。
人生就是一场game,从一个 state 转换到另一个 state。
3,David Silver 的第一个lecture
b站上有相应的视频,看完第一个lecture后记了一下相关的公式。
4,然后就是上面的博客系列了。讲的更加透彻,言简意赅。
无痛苦入门!