强化学习（Reinforcement Learning）笔记（收藏）

企业开发 2020-10-15 12:40:22 阅读次数: 0

强化学习

马尔可夫决策过程（Markov Decision Processes,MDPs）

MDPs 简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。

MDP 的策略完全取决于当前状态（Only present matters），这也是它马尔可夫性质的体现。

其可以简单表示为：

基本概念

: 有限状态 state 集合，s 表示某个特定状态
: 有限动作 action 集合，a 表示某个特定动作
Transition Model : Transition Model, 根据当前状态 s 和动作 a 预测下一个状态 s’，这里的表示从 s 采取行动 a 转移到 s’ 的概率
Reward :表示 agent 采取某个动作后的即时奖励，它还有 R(s, a, s’), R(s) 等表现形式，采用不同的形式，其意义略有不同
Policy : 根据当前 state 来产生 action，可表现为或，后者表示某种状态下执行某个动作的概率

回报（Return）：

与折扣率（discount） : U 代表执行一组 action 后所有状态累计的 reward 之和，但由于直接的 reward 相加在无限时间序列中会导致无偏向，而且会产生状态的无限循环。因此在这个 Utility 函数里引入折扣率这一概念，令往后的状态所反馈回来的 reward 乘上这个 discount 系数，这样意味着当下的 reward 比未来反馈的 reward 更重要，这也比较符合直觉。定义

猜你喜欢

转载自blog.csdn.net/adminkeys/article/details/108849104

强化学习（Reinforcement Learning）笔记（收藏）

强化学习（Reinforcement Learning）

强化学习(Reinforcement Learning)

Reinforcement Learning 强化学习

Reinforcement Learning 强化学习/增强学习

Reinforcement Learning强化学习源码资源

强化学习概述（An Overview of Reinforcement Learning）

强化学习(reinforcement learning)原理

强化学习 Reinforcement Learning 资料

[Reinforcement Learning] 强化学习介绍

强化学习（Reinforcement Learning）知识整理

强化学习（Reinforcement Learning）背景介绍

Tensorflow 强化学习（Reinforcement learning）

对RL（reinforcement learning）--强化学习的认识

强化学习（Reinforcement learning）综述

强化学习概述（Reinforcement Learning）

Reinforcement learning-强化学习基础

强化学习导论（Reinforcement Learning：An Introduction）学习笔记（二）

强化学习导论（Reinforcement Learning：An Introduction）学习笔记（五）

QUANT[20]强化学习(Reinforcement Learning)学习笔记8

强化学习（Reinforcement Learning, RL）初步介绍强化学习（Reinforcement Learning, RL）初步介绍

Reinforcement Learning(强化学习)Sarsa/Q_learning

深度强化学习 Deep Reinforcement Learning 学习整理

深度学习3. 强化学习-Reinforcement learning | RL

漫谈逆向强化学习 - A Brief Review to Inverse Reinforcement Learning

深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)

Reinforcement Learning强化学习系列之三：MC Control

Reinforcement Learning强化学习系列之二：MC prediction

1 强化学习（Reinforcement Learning, RL）初步介绍

【资料总结】| Deep Reinforcement Learning 深度强化学习

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)