百度飞桨世界冠军带你从零实践强化学习第三天（课程白话）

冠军带你从零实践强化学习第三天（课程白话）

神经网络方法求解

RL->Deep RL 数量逐渐增加到不可数
值函数的近似
神经网络
Q-learning
使用神经网络拟合Q表格
监督式学习
DQN
DQN两大创新点
DQN算法使用流程

作业问题

环境的选择
代码书写
参数修改

大家好你们的三岁又回来啦，今天已经是第3天的课程啦，先说声抱歉，没有时间看直播，只能够通过录播去自己解读，如果有不足的地方请多多指教！白话三岁今天叒开始啦！

神经网络方法求解

RL->Deep RL 数量逐渐增加到不可数

当转态可数的时候，所有的状态都可以用Q表格装下然后进行处理。但是状态太多了，无法完全记录怎么办呢？？？

ps：国际象棋 10⁴⁷种状态，围棋 10¹⁷⁰，宇宙原子数量近10⁸⁰，某个区间的角度转态正无穷。

值函数的近似

针对以上实际生活中无法可数的状态就得使用传说中的值函数

用带参数的Q函数来代表Q函数，可以采用多项式函数，神经网络等进行表达。
优点：
①仅需存储有限的参数
②状态泛化，相似的状态可以输出一样。（自动去泛化一些相似的特征，输出相同的值）

神经网络

神经网络：相当于一个巨大的黑盒子，里面是我们大量的算法和函数，通过一系列的结果可以获得想要的结果和值。
在这里插入图片描述

Q-learning

通过环境去查找Q表格获取一个R值进行输出，然后通过输出修改Q表格，同时进行探索不断完善Q表格。使得Q表格更加完善。

使用神经网络拟合Q表格

把原来的Q表格使用前面的神经网络进行替代，直接提取输入的环境特征，来得到结果。
在这里插入图片描述

监督式学习

在预设时除了输入一个环境（要预测的值）还要输入一个预计结果，促使机器学习的结果无限接近我们的预期值。机器学习的值和我们给的预期的均方差就是Loss，把Loss算尽就可以对网络自动更新和优化。

DQN

与监督式学习类似输入的每一个值s1得到一个相对应的Q值（这里的q对应的是向量），在这里需要让Q值逼近我们的目标值，同样用两个值的均方差Loss来给优化函数从而更新网络参数
在这里插入图片描述

DQN两大创新点

一、经验回放
* 1.序列决策的样本关联
* 2.样本利用率低
二、固定Q目标
* 1.算法非平稳性

一：经验回放的优势
在这里插入图片描述
在探索和决策中添加了一个缓冲区用来存储探索数据，同时提高决策的关联性，促进更好的决策。

例示：
在这里插入图片描述

二：算法更新不平稳
在监督式学习中目标值是稳定的，预测值只要不断的靠近真实值y即可
但是在DQN中Q的目标值是，这个值是不断变化的，是有波动的可变值。

固定Q目标就是在一段时间内把Q固定，也就是单位时间内Q值是不动的，单位时间后再进行更新，这样子可以促进稳定。
在这里插入图片描述

DQN算法使用流程

在这里插入图片描述

理论部分就到这里啦，后面的是函数的和核心算法的解读，这里就不说啦。

作业问题

这次的作业问题还是有的，就三岁在群里面看到的一些数据来说无非是环境的选择，然后就是调试以及代码的书写

环境的选择

此处单纯的提及ai studio 的notebook平台
小编亲自尝试建议使用CPU版本（普通版）（原因是示例里面也是普通版跑的，而且转化高阶需要修改某些参数，三岁找不到）

代码书写

一句话
看范例！！！
看范例！！！
看范例！！！

参数修改

可以修改大家的学习率和学习的阶段（次数）
建议学习率为0.003和0.005
次数建议2000+
具体的还得自己多尝试

今天三岁就到这里啦，其他问题可以留言或者私聊小编，感谢大家的支持，希望点赞关注留言收藏们没事，谢谢大家