《强化学习》模型无关方法

其他 2018-06-22 05:15:55 阅读次数: 3

模型无关学习

这里写图片描述

Monte-Carlo & Temporal Difference; Q-learning

这里写图片描述

探索与利用

这里写图片描述

这里写图片描述

on-policy 和 off-policy

SARSA

这里写图片描述

Expected value SARSA

这里写图片描述

SARSA和Q-Learning对比

这里写图片描述

on-policy和off-policy对比

on-policy	off-policy
Agent 可以选择动作	Agent 不能选择动作
Most obvious setup	Learning with exploration,playing without exploration
Agent always follows his own policy	Learning from expert(expert is imperfect)
	Learning from sessions(recorded data)
can’t learn from off-policy	can learn from on-policy
SARSA	Q-learning
more…	Expected Value SARSA

经验回放

略

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80569105

《强化学习》模型无关方法

强化学习模型

《强化学习》探索方法

【学习】深度强化学习、模型压缩

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

强化学习（一）模型基础

基于世界模型的深度强化学习

强化学习的N臂匪徒模型

强化学习一：模型基础

强化学习：基于模型的动态规划

强化学习中的无模型控制

强化学习中的无模型预测

强化学习模型研讨班

MBRL基于模型的强化学习

模型训练基础：什么是强化学习？

大模型强化学习：RLHF、PPO

《强化学习》基于策略的方法

强化学习方法分类

【深度强化学习】交叉熵方法

强化学习的基本迭代方法

深度强化学习调参方法

强化学习策略梯度方法笔记

强化学习价值函数方法笔记

【强化学习笔记】3.1 基于模型的动态规划方法

重温强化学习之基于模型方法：动态规划

强化学习系列5：有模型的策略迭代方法

强化学习系列6：有模型的价值迭代方法

有模型强化学习和免模型强化学习有什么区别？

强化学习学习[1]——基于蒙特卡罗的强化学习方法

强化学习之五：基于模型的强化学习（Model-based RL）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)