深入浅出强化学习（3） - 代码天地

深入浅出强化学习（3）

其他 2019-04-18 00:18:35 阅读次数: 0

在这里插入图片描述
策略搜索：
之前降到的其他方法都是通过最优值函数从而得到最优策略。利用这种方法得到的策略往往是状态空间向有限集动作空间的映射。（每个状态都有一个值函数，执行策略到下一个状态的值函数最大，直接argmax_a(值函数)）

策略搜索是将策略进行参数化即 $\pi_{\theta}\left(s\right)$ ，利用线性或非线性（如神经网络）对策略进行表示，寻找最优的参数 $\theta$ 使得强化学习的目标：累积回报的期望 $E\left[\sum_{t=0}^H{R\left(s_t\right)|\pi_{\theta}}\right]$ 最大。

在值函数的方法中，我们迭代计算的是值函数，然后根据值函数对策略进行改进；而在策略搜索方法中，我们直接对策略进行迭代计算，也就是迭代更新参数值，直到累积回报的期望最大，此时的参数所对应的策略为最优策略。

比较：
优点：
适用动作空间很大或者动作为连续集
对策略 $\pi$ 进行参数化表示。
直接策略搜索方法经常采用的随机策略，能够学习随机策略。可以将探索直接集成到策略之中。
缺点：
策略搜索的方法容易收敛到局部最小值。
评估单个策略时并不充分，方差较大。
分类：

在这里插入图片描述 策略表示：
随机策略可以写为确定性策略加随机部分，即：
$\pi_{\theta}=\mu_{\theta}+\varepsilon$ 是一个高斯策略。
确定性部分常见的表示为：

线性策略： $\mu\left(s\right)=\phi\left(s\right)^T\theta$

径向基策略： $\mu_{\theta}\left(s\right)=\omega^T\phi\left(s\right),$
策略梯度：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/yagreenhand/article/details/88601288

深入浅出强化学习（3）

深入浅出的强化学习笔记(一)——概述

深入浅出强化学习（4）-IRL

深入浅出强化学习（2）

深入浅出强化学习笔记（1）

公开课报名 | 深入浅出理解A3C强化学习

今晚直播 | 深入浅出理解A3C强化学习

直播 | 深入浅出理解 A3C 强化学习

【强化学习】深入浅出强化学习--机器人找金币

深入浅出的强化学习笔记(二)——使用OpenAI Gym实现游戏AI

分享《深入浅出强化学习：原理入门》高清PDF+源代码

《深入浅出强化学习原理入门》笔记

深入浅出强化学习实战指南：从基础概念到代码实现

《强化学习原理及其应用》PDF+《深入浅出强化学习原理入门》PDF及源代码

《深入浅出强化学习：原理入门_郭宪方勇纯》高清PDF+源代码

分享《深入浅出强化学习：原理入门》高清PDF+源代码免费下载

分享《深入浅出强化学习原理入门》PDF+源代码+作者: 郭宪 / 方勇纯

深入浅出 JVM GC（3）

产品经理深入浅出(3)

《深入浅出mysql》学习笔记

深入浅出python学习

深入浅出深度学习Pytroch

深度学习深入浅出

机器学习深入浅出

《深入浅出WPF》学习笔记

深入浅出，学习 JPA

深入浅出SOA 深入浅出SOA

深入浅出parallelStream

深入浅出Mybatis

深入浅出JMS

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)