强化学习 入门学习笔记

2019年1月1日22:47:14

开一篇文章,记录下之前入门的学习路径。

2019年1月3日16:47:55

我是按照下面4个步骤入门的:

1,西瓜书第16章 ->

2,sutton那本书的中文翻译 

https://github.com/rl-cn/rl-cn/releases   

https://blog.csdn.net/yuanyinshen/article/details/81904842?utm_source=blogxgwz0  ->

3,UCL  David Silver 的第一个lecture ->

4,博客 https://www.cnblogs.com/pinard/category/1254674.html

强化学习的几个要素我是老早就知道的。

1,西瓜书

周志华西瓜书第16章是强化学习的介绍,一上来就一堆公式,看不进去。

一本书,一上来就一堆抽象的公式以及推导,也缺乏例子,不讲明读这本书之前要预备哪些知识,这种书写的就不是给初学者看的。

学东西,应该要有一个简单明了的问题,以及一个浅显的容易理解的概念的引入,还要有一个就在初学者嘴边、能够一口吃进去、吃透的例子。

且这个例子足够简单,又能够抓住问题以及概念的重点。这样的书才是适合初学者的好书。西瓜书内容其实很不错,只是不太适合初学者。

这一章我只学进去了 exploration 探索  和 exploitation 利用  这两个概念。

exploitation 利用:短视的榨干当前的最优选择直到游戏结束

exploration 探索:探索其他的选择是不是比当前的选择更优

2,中文翻译

虽然只翻译了前面几章,但是看完后理解了 value function 值函数 是什么意思。

之前不太理解为什么一个 state 有 value 这种衡量指标来衡量这个state的好坏。

一个直观的例子:

人的一生所处的状态state在不断的变化,一个学生考上 清华北大后的状态的 value 就比他考上专科的状态的 value 高。

考上清华北大,以后飞黄腾达的几率就高,考上专科,那可能以后就只能做奋斗逼了。

value function 就是用来衡量每个state的value值。

某个state的value就是这个state之后所有可能的reward求和。

我们希望我们的policy能够使得我们的state越来越好。

policy指导action,action促使agent从当前的state转移到下一时刻的state。

寻找最优的policy变成了寻找最优的value function,而value function可以量化。这就给了问题解决的希望。

人生就是一场game,从一个 state 转换到另一个 state。

3,David Silver 的第一个lecture

b站上有相应的视频,看完第一个lecture后记了一下相关的公式。

4,然后就是上面的博客系列了。讲的更加透彻,言简意赅。

无痛苦入门!

猜你喜欢

转载自www.cnblogs.com/shepherd2015/p/10206457.html