强化学习基础与马尔科夫决策 - 代码天地

强化学习基础与马尔科夫决策

其他 2019-07-05 10:01:23 阅读次数: 0

强化学习：

智能体（agent）

状态（state）

行为（action）

奖励（reward）

策略（policy）

每一个动作（action）都能影响代理将来的状态（state），通过一个标量的奖励（reward）信号来衡量成功。

目标：选择一系列行为来最大化未来的奖励

马尔科夫决策过程

马尔科夫决策要求：

1、目标能够被检测到。例如：AlphaGo下围棋，知道什么是赢，赢了有一个奖励，最终能够检测到一个理想状态。

2、可以多次尝试。为了达到目标，最开始并不确定下一步应该怎么去进行，在不知道的情况下，要可以进行多次尝试。每次尝试得到一个结果。

3、系统的下一个状态只与当前状态信息有关，而与更早之前的状态无关，在决策过程中还和当前采取的动作有关。

马尔科夫决策过程由5个元素构成：

S：表示状态集（states）

A：表示一组动作（actions）

P：表示状态转移概率 $P_{sa}$ 表示在当前 $s$ ∈S状态下，经过 $a\inA$ $\in A$ 作用后，会转移到的其它状态的概率分布情况，在状态 $s$ 下执行动作 $a\inA$ ，转移到 $s^{'}$ 的概率可以表示为 $P\left ( s^{'}|s,a \right )$

R：奖励函数（reward function）表示agent采取某个动作后的及时奖励

$\gamma$ ：折扣系数，意味着当下的reward比未来反馈的reward更重要，当前的reward不打折，未来反馈的打折，取值范围： $\left ( 0< \gamma \leqslant 1 \right )$

马尔科夫决策模型：

1、智能体初始状态为 $s_{0}$

2、选择一个动作 $a_{0}$

3、按概率转移矩阵 $P_{sa}$ 转移到下一个状态 $s_{1}$

然后循环。

$s_{0}$ $\overset{a_{0}}{\rightarrow}$ $s_{1}$ $\overset{a_{1}}{\rightarrow}$ $s_{2}$ $\overset{a_{2}}{\rightarrow}$ $s_{3}$ $\overset{a_{3}}{\rightarrow}$ ……

状态价值函数：

状态价值函数： $v\left ( s \right )=E\left [ U_{t}|S_{t}=s \right ]$

t 时刻的状态s 能获得的未来回报的期望

价值函数用来衡量某一状态或状态—动作对的优劣价，累计奖励的期望

最优价值函数：所有策略下的最优累计奖励期望 $v_{*}\left ( s \right )=\underset{\pi }{max}v_{\pi }\left ( s \right )$ ，评价什么样的动作操作对，才能使累计奖励最大。

策略：已知状态下可能产生动作的概率分布

猜你喜欢

转载自blog.csdn.net/JimmyGoong/article/details/88791434

强化学习基础与马尔科夫决策

强化学习：马尔科夫决策过程（MDP）

强化学习(尔) - 马尔科夫决策过程

强化学习----马尔科夫决策

强化学习简介及马尔科夫决策过程

PyTorch强化学习——马尔科夫决策过程

增强学习（强化学习）基础之马尔科夫决策过程

第一篇强化学习基础（上）——马尔科夫决策过程

强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

【转载】强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

强化学习系列（2）：马尔科夫决策过程到强化学习历程

人工智障学习笔记——强化学习(1)马尔科夫决策过程

强化学习导论笔记：马尔科夫决策过程

强化学习(二)：马尔科夫决策过程(Markov decision process)

Udacity强化学习系列（二）—— 马尔科夫决策过程（Markov Decision Processes）

David Silver深度强化学习第2课 - 马尔科夫决策过程

深度强化学习2——马尔科夫决策过程（MDP）

强化学习系列（三）：马尔科夫决策过程

强化学习系列1：马尔科夫决策过程

从马尔科夫决策过程到强化学习（From Markov Decision Process to Reinforcement Learning）

《强化学习》第二讲马尔科夫决策过程

David Silver强化学习公开课（二）：马尔科夫决策过程

强化学习笔记—马尔科夫决策过程(MDP)

强化学习（二）——MDP：马尔科夫决策过程

【强化学习】马尔科夫决策过程之Bellman Equation（贝尔曼方程）

强化学习笔记（2）—— 马尔科夫决策过程 MDP

【深度强化学习】2. 马尔科夫决策过程

揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

强化学习与马尔科夫的关系

强化学习中马尔科夫问题的引入

今日推荐

周排行

Grayscale的报告显示，机构投资者接受比特币

任意角度的场景文本检测论文简单总结

努力学习的意义

蒟蒻 Wendigo 表情包

Ubuntu 14.04 Install Sublime Text 3

守卫

python3中request.urlopen()和requests.get()方法的区别

花点时间顺顺Git（下）

docker安装ngnix进行挂载

spring boot 2 统一异常处理

每日归档

更多

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)