Lecture 4：Value Function Approximation - 代码天地

Lecture 4：Value Function Approximation

其他 2020-04-19 08:47:08 阅读次数: 0

Lecture 4：Value Function Approximation

问题引出
价值函数近似

函数估计的模型
线性模型
优化
动作价值函数
收敛问题

死亡三角
收敛性问题
更新方法

DNQ

回忆线性
非线性

优点
缺点

DNQ

具体工作
问题
方法
1、经验回放
2、fixed targets
对比
代码
总结

改进

1、改进
2、博客！！！
3、homwork

问题引出

为什么要价值函数近似？
现实生活或者更大的游戏中，状态可能非常多，如何在这种情况下运用之前的知识是一个挑战。
之前的方法都可以存放在表格或者向量中，但是当状态多的时候无法保存。
因此避免用table去表征，有效的解决方法是用带参数的函数近似的办法去估计。

价值函数近似

在这里插入图片描述
这样的优点可以泛化到没有观察到的状态，更新参数可以用MC，TD的方法近似估计。
近似的类别有如下三种方式：

函数估计的模型

可以有多种，比如
线性模型（线性叠加模型）；
神经网络；
决策树；
k近邻。

前两种可微分，因此可以很好的去优化参数

复习梯度下降：
在这里插入图片描述
价值函数的估计也是用这种方式优化

有一个Oracle以后，通过梯度下降来优化价值函数
在这里插入图片描述
问题是怎么描述不同状态，一种方法是向量，特征（位置，速度，加速度等）。

线性模型

首先选取线性模型来拟合价值函数
在这里插入图片描述线性函数的时候会得到接近全局最小点的值。

一种特殊的特征的定义，类似独热编码的形式。这种情况下估计的就是Wk
在这里插入图片描述
在没有Oracle的情况下怎么优化拟合函数？

优化

在model-free的方法中，我们采用MC或者TD的方法估计价值函数。
所以在这里我们可以采用Target代替Oracle
在这里插入图片描述 MC和价值估计的结合时：
G时无偏的，但是有noisy，在MC中获取很多S，G的组合，然后用监督的方法更新

TD和价值估计结合时：
有偏差，因为target包含了正在优化的参数，但是也是可用，因此也可以用类似的方法
在这里插入图片描述 semi-gradient，同时可以近似收敛到全局最优。

将价值近似用到策略控制中
在这里插入图片描述

动作价值函数

在这里插入图片描述定义对应状态和动作的特征向量，w更新公式见前面。
sarsa算法：
小例子

在这个游戏中，状态为划分为小格子的空间的坐标。

收敛问题

TD中有两个近似的过程，因此优化过程不稳定。同时离线由于目标策略和行为策略一部值，也会造成不稳定。

死亡三角

强化学习中的死亡三角：
1、函数估计中的近似，引入误差；
2、采取自举的方法，引入噪声
3、离线策略引入

收敛性问题

小规模 mc,Q,sarsa，可用table表示，都可以找到最优解；
如果是近似的，线性来说MC，Sarsa，可以找到最优，Q近似最优
非线性都不能保证

更新方法

整体更新优化
数据库D中有s,v,上千对。
在这里插入图片描述
也可以从D中随机采样（小批量）得到

DNQ

回忆线性

线性的时候利用函数x(s)可以提取特征，然后利用线性叠加的方式进行近似。
在这里插入图片描述
利用target代替真值。
线性拟合的时候只有定义好特征后才能work，同时这种设定很困难。

非线性

优点

而非线性模型可以把特征提取和价值函数学习结合起来（在一步中完成），比如神经网络（多层）。
优化参数的时候用chain rule（链式法则）
卷积神经网络在图像处理中广为流传，有卷积和非线性的操作（正好符合要求）。
因此可以结合深度学习和强化学习。

缺点

神经网络拟合函数（价值函数，策略函数，环境）常用SGD等，效率问题需要考虑，因为参数很多，同时死亡三角问题需要考虑，比如收敛问题，以及是不是最优解。

DNQ

DQN
在这里插入图片描述
因为是神经网络，因此是局部解。
然后用target代替

具体工作

神经网络拟合Q函数，输入用游戏界面，连续4帧，输出18个操作，两层卷积网络+一层全连接。

问题

需要克服的问题：
样本的相关度，因为在像素级别，时序之间相关性非常高；
target不稳定

方法

克服的方法：

经验回放
fixed Q targets

1、经验回放

replay memory D
simple的格式：
在这里插入图片描述
训练的过程中，一个网络一直玩游戏，同时在训练的时候通过采样

2、fixed targets

因为target在更新的时候也是待优化的。
产生target的网络固定weight或者与训练的网络存在时间差，不同的权重。
w- 与w更新存在时间差，w-更新慢
在这里插入图片描述

对比

在这里插入图片描述

代码

在这里插入图片描述

总结

在这里插入图片描述

改进

1、改进

在这里插入图片描述

2、博客！！！

DNQ的改进集合
在这里插入图片描述

3、homwork

在这里插入图片描述

野生蘑菇菌

发布了52 篇原创文章 · 获赞 8 · 访问量 3046

私信关注

猜你喜欢

转载自blog.csdn.net/def_init_myself/article/details/105539691

Lecture 4：Value Function Approximation

[Reinforcement Learning] Value Function Approximation

State Function Approximation: Linear Function

Issues in Using Function Approximation for Reinforcement Learning笔记

Policy Gradient Methods for Reinforcement Learning with Function Approximation

深度强化学习cs294 Lecture7: Value Function Methods

Lecture 4

Fast implementation/approximation of pow() function in C/C++

【ML paper】Greedy function approximation - A gradient boosting machine

文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

策略梯度方法 Policy Gradient Methods for Reinforcement Learning with Function Approximation Policy Gradient Methods for Reinforcement Learning with Function Approximation

2018 10-708 (CMU) Probabilistic Graphical Models {Lecture 15} [Mean field Approximation]

lyaponuv function —— Model thinking lecture note (6)

RL-赵-(八)-Value-Based03：Q-learning Function Approximation【目标：计算出最优“值函数”参数，通过该“值函数”计算出的Action Value最优】

RL-赵-(八)-Value-Based01：Value Function Approximation【值函数近似：用函数取代表格来拟合v、q】【函数可用于处理连续v/q空间，存储空间小泛化能力强】

RL-赵-(八)-Value-Based02：Sarsa Function Approximation【与基于表格的区别：不是用于计算q，而是用于更新“值函数”的参数，使得通过参数计算出的q值最优】

Lecture 4——Quiz

Lecture 4 - Classification

浅谈强化学习中的函数估计问题 - Function Approximation in RL

【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1

Lecture 4- excercises in the tutorials

Model thinking lecture note (4)

Lecture 4: Backpropagation and computation graphs

对 GAN 的 value function 的理解

value is not a function，replace的错误

Paper：《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源

Reinforcement Learning强化学习系列之五：值近似方法Value Approximation

cs231n-lecture4

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)