百度飞桨世界冠军带你从零实践强化学习第三天(课程白话)


大家好你们的三岁又回来啦,今天已经是第3天的课程啦,先说声抱歉,没有时间看直播,只能够通过录播去自己解读,如果有不足的地方请多多指教!白话三岁今天叒开始啦!

神经网络方法求解

RL->Deep RL 数量逐渐增加到不可数

当转态可数的时候,所有的状态都可以用Q表格装下然后进行处理。但是状态太多了,无法完全记录怎么办呢???

ps:国际象棋 1047种状态,围棋 10170,宇宙原子数量近1080,某个区间的角度转态正无穷。

值函数的近似

针对以上实际生活中无法可数的状态就得使用传说中的值函数

用带参数的Q函数来代表Q函数,可以采用多项式函数,神经网络等进行表达。
优点:
①仅需存储有限的参数
②状态泛化,相似的状态可以输出一样。(自动去泛化一些相似的特征,输出相同的值)

神经网络

神经网络:相当于一个巨大的黑盒子,里面是我们大量的算法和函数,通过一系列的结果可以获得想要的结果和值。
在这里插入图片描述
在这里插入图片描述

Q-learning

通过环境去查找Q表格获取一个R值进行输出,然后通过输出修改Q表格,同时进行探索不断完善Q表格。使得Q表格更加完善。

使用神经网络拟合Q表格

把原来的Q表格使用前面的神经网络进行替代,直接提取输入的环境特征,来得到结果。
在这里插入图片描述

监督式学习

在预设时除了输入一个环境(要预测的值)还要输入一个预计结果,促使机器学习的结果无限接近我们的预期值。机器学习的值和我们给的预期的均方差就是Loss,把Loss算尽就可以对网络自动更新和优化。

DQN

与监督式学习类似输入的每一个值s1得到一个相对应的Q值(这里的q对应的是向量),在这里需要让Q值逼近我们的目标值,同样用两个值的均方差Loss来给优化函数从而更新网络参数
在这里插入图片描述

DQN两大创新点

一、 经验回放
* 1.序列决策的样本关联
* 2.样本利用率低
二、 固定Q目标
* 1.算法非平稳性

一:经验回放的优势
在这里插入图片描述
在探索和决策中添加了一个缓冲区用来存储探索数据,同时提高决策的关联性,促进更好的决策。

例示:
在这里插入图片描述

二:算法更新不平稳
在监督式学习中目标值是稳定的,预测值只要不断的靠近真实值y即可
但是在DQN中Q的目标值是,这个值是不断变化的,是有波动的可变值。

固定Q目标就是在一段时间内把Q固定,也就是单位时间内Q值是不动的,单位时间后再进行更新,这样子可以促进稳定。
在这里插入图片描述

DQN算法使用流程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

理论部分就到这里啦,后面的是函数的和核心算法的解读,这里就不说啦。

作业问题

这次的作业问题还是有的,就三岁在群里面看到的一些数据来说无非是环境的选择,然后就是调试以及代码的书写

环境的选择

此处单纯的提及ai studio 的notebook平台
小编亲自尝试建议使用CPU版本(普通版)(原因是示例里面也是普通版跑的,而且转化高阶需要修改某些参数,三岁找不到)

代码书写

一句话
看范例!!!
看范例!!!
看范例!!!

参数修改

可以修改大家的学习率和学习的阶段(次数)
建议学习率为0.003和0.005
次数建议2000+
具体的还得自己多尝试

今天三岁就到这里啦,其他问题可以留言或者私聊小编,感谢大家的支持,希望点赞关注留言收藏们没事,谢谢大家

猜你喜欢

转载自blog.csdn.net/weixin_45623093/article/details/106848965