强化学习的学习笔记

其他 2020-09-14 16:11:04 阅读次数: 0

1 前言

感谢李宏毅教授的讲解！

2 采样sample()——探索行动的策略

sample()函数在训练过程中对应着“样本增广”的作用；

3 Sarsa和Q-Learning——最初的强化学习算法

3.1 基于Q-Learning的强化学习——使用Q表进行动作选择

其实Q-Learning的思想很简单，就跟把大象放进冰箱是差不多的，

基本的步骤是：

观察环境，得到observation；
根据obs查询Q表格，选择Q值最大的action；
执行该动作。

3.2 Sarsa和Q-Learning的预期目标

其实这两种算法的目标不同，导致了结果不同：

Sarsa：使得sample()行为的reward的平均水平达到最大；

Q-Learning：使得maxQ()行为的reward的达到最大；

3 DQN——用神经网络取代Q表格

3.1 为什么要用神经网络取代Q表呢？

如果动作状态的空间是连续的，则使用Q表可能无法对这种空间进行表述，（连续状态的可能取值是无限多的），

于是我们将“状态-Q值”看作是一种映射，也就是说：使用函数映射的思想来描述“状态-Q值”的映射关系；

既然是函数映射，于是我们的DNN就闪亮登场了～

4 Actor-Critic算法

在我看来Actor和Critic有着这样的特点：

Actor——本能者

Critic——经验者

具体的形式就是Q Function；

量化Q的方法我们采用TD，（这也是李教授讲授的方法），

我感觉Critic有着将reward规则进行可导化的作用；

感性认识：表达了模型对规则的理解，（同时将reward函数进行可导化）；

猜你喜欢

转载自blog.csdn.net/songyuc/article/details/106827069

强化学习笔记

强化学习学习笔记

强化学习的学习笔记

强化学习复习笔记

强化学习入门笔记

深度强化学习笔记

强化学习笔记整理

RLChina强化学习笔记

强化学习笔记（二）

强化学习笔记（一）

强化学习笔记（五）

强化学习笔记（四）

强化学习笔记（三）

强化学习笔记：DDPG

强化学习笔记（六）

强化学习入门学习笔记

机器学习笔记（八）：强化学习

深度学习-强化学习概述笔记

强化学习的学习～

强化学习学习

【强化学习】强化学习分类

【强化学习】强化学习介绍

[强化学习]强化学习基础

强化学习之决策论——笔记

【强化学习笔记】1.绪论

强化学习基础概念笔记

强化学习笔记1 （20181027）

强化学习笔记二 MDP & DP

强化学习笔记2—环境搭建

强化学习笔记3—DP

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)