强化学习入门学习笔记

2019年1月1日22:47:14

开一篇文章，记录下之前入门的学习路径。

2019年1月3日16:47:55

我是按照下面4个步骤入门的：

1，西瓜书第16章 ->

2，sutton那本书的中文翻译

https://github.com/rl-cn/rl-cn/releases

3，UCL David Silver 的第一个lecture ->

4，博客 https://www.cnblogs.com/pinard/category/1254674.html

强化学习的几个要素我是老早就知道的。

1，西瓜书

周志华西瓜书第16章是强化学习的介绍，一上来就一堆公式，看不进去。

一本书，一上来就一堆抽象的公式以及推导，也缺乏例子，不讲明读这本书之前要预备哪些知识，这种书写的就不是给初学者看的。

学东西，应该要有一个简单明了的问题，以及一个浅显的容易理解的概念的引入，还要有一个就在初学者嘴边、能够一口吃进去、吃透的例子。

且这个例子足够简单，又能够抓住问题以及概念的重点。这样的书才是适合初学者的好书。西瓜书内容其实很不错，只是不太适合初学者。

这一章我只学进去了 exploration 探索 和 exploitation 利用 这两个概念。

exploitation 利用：短视的榨干当前的最优选择直到游戏结束

exploration 探索：探索其他的选择是不是比当前的选择更优

2，中文翻译

虽然只翻译了前面几章，但是看完后理解了 value function 值函数 是什么意思。

之前不太理解为什么一个 state 有 value 这种衡量指标来衡量这个state的好坏。

一个直观的例子：

人的一生所处的状态state在不断的变化，一个学生考上清华北大后的状态的 value 就比他考上专科的状态的 value 高。

考上清华北大，以后飞黄腾达的几率就高，考上专科，那可能以后就只能做奋斗逼了。

value function 就是用来衡量每个state的value值。

某个state的value就是这个state之后所有可能的reward求和。

我们希望我们的policy能够使得我们的state越来越好。

policy指导action，action促使agent从当前的state转移到下一时刻的state。

寻找最优的policy变成了寻找最优的value function，而value function可以量化。这就给了问题解决的希望。

人生就是一场game，从一个 state 转换到另一个 state。

3，David Silver 的第一个lecture

b站上有相应的视频，看完第一个lecture后记了一下相关的公式。

4，然后就是上面的博客系列了。讲的更加透彻，言简意赅。

无痛苦入门！

强化学习 入门学习笔记