Lecture 2:Markov Decision Processes - 代码天地

Lecture 2:Markov Decision Processes

其他 2020-04-07 22:02:32 阅读次数: 0

Lecture 2:Markov Decision Processes

Part 1

一、马尔可夫链
二、马尔可夫奖励过程
三、马尔可夫决策过程

Part 2

一、动态规划求解

1、策略迭代：

（1）、策略评估
（2）、策略提升

2、值迭代
3、两者对比
4、总结

Part 1

一、马尔可夫链

满足马尔可夫特征，未来的转移与过去是独立的，只取决于现在。
状态转移矩阵
在这里插入图片描述
给定了马尔可夫链以后，可以对其进行采样，得到一条轨迹。

二、马尔可夫奖励过程

马尔可夫链+奖励函数
奖励函数是一个期望
类比一个没有动力的纸船，随波逐流到一定位置后得到相应奖励。
在这里插入图片描述
值函数，是未来奖励的期望

引入gamma的原因
避免陷入环；同时可以尽快获得相应奖励，而不是在后面才获得奖励。

可以设置0：只关心当前奖励
可以设为1：更关心未来奖励

计算一个状态的价值，可以通过取很多轨迹，然后取状态的平均（蒙特卡罗）
或者，通过贝尔曼方程：
在这里插入图片描述
贝尔曼方程是当前状态和未来状态迭代的关系：

这里的R是到达现在位置s所得到的奖励，与下一时刻无关。

将贝尔曼方程写成矩阵的形式：
在这里插入图片描述
通过矩阵求逆，把价值求出来。当状态上万的时候求逆是很复杂的。

简单的方法是通过迭代的方法：

动态规划
蒙特卡洛
TDlearning

（1）、蒙特卡洛
从某一状态开始，得到很多轨迹，得到很多G，取平均，就可以得到价值。
（2）、动态规划
利用贝尔曼方程进行迭代值函数，直到收敛。

三、马尔可夫决策过程

相对马尔可夫奖励过程多了一个action。
转移概率和价值函数都多了一个A

有了动作，因此就有策略。策略有两种表示形式：概率形式，即每个动作有多大概率被选择，这里假设概率是静态的；或者是确定性的行为。

马尔可夫决策过程和马尔可夫奖励过程的转换：
已知马尔可夫决策过程和某一策略，通过对每个动作求和，就可以直接得到马尔可夫奖励过程的转移概率；同时对于奖励函数也可以以同样的方式把a去掉。
在这里插入图片描述

这里对马尔可夫决策过程的值函数重新进行定义，这里的期望是基于策略pi的（因为G是基于pi的）。
定义q函数，也是基于策略pi的。
两者之间关系是，对所有动作的q函数进行加和。
在这里插入图片描述

在策略pi下的贝尔曼方程称为贝尔曼期望方程，指的是把所有可能的行为都求和掉。
在这里插入图片描述
注意这里的At+1也是一种概率的形式（也是一种期望，求和后得到的是值函数）。

两者互相转化后得到：
在这里插入图片描述

两层的回溯图
在这里插入图片描述

Part 2

马尔可夫决策过程的预测（价值函数）和控制（寻找最佳策略，最佳值函数）

一、动态规划求解

把一个问题分解为一些子结构，如果子结构都能解决的话，原来问题就能解决。马尔可夫结构是满足动态规划结构的。因为可以分解成一系列递归的结构。

1、策略迭代：

（1）、策略评估

将贝尔曼方程反复用当前策略迭代，直到收敛：
在这里插入图片描述
得到上衣时刻值函数，可以当前时刻的值。

将a求和消去以后，就可以的到马尔可夫奖励过程，通过迭代这样更简化的价值函数，可以得到每个状态的价值：
在这里插入图片描述

（2）、策略提升

一个MDP被解，指的是得到一个最优值函数，可能多个最优策略。
在这里插入图片描述

如何寻找？
在v函数收敛后，对每个状态求得q函数的最大化的a，就是最优的策略。
在这里插入图片描述
证明过程见《强化学习导论》

当改进停止的时候，就得到了贝尔曼最优方程：
在这里插入图片描述

同时会得到q函数以及v函数之间的转移方程，其中v函数之间的转换方程是值迭代的基础，q函数之间的转换方程是Q-Learning的基础：
在这里插入图片描述

2、值迭代

通过不断迭代最优值函数，最后就可以得到最优（厉害）…
在这里插入图片描述
找最优策列的时候，可以重构q，然后找argmax，每经过一轮就找一次策略。

3、两者对比

在这里插入图片描述

4、总结

在这里插入图片描述

野生蘑菇菌

发布了32 篇原创文章 · 获赞 7 · 访问量 2166

私信关注

猜你喜欢

转载自blog.csdn.net/def_init_myself/article/details/105298200

Lecture 2:Markov Decision Processes

Finite Markov Decision Processes

Markov Decision Processes

Lecture 2：Markov Decision Process -By David Silver

Lecture2:Markov Decision Process

David Silver RL课程第2课（Markov decision processes)

Chapter3 Markov Decision Processes(MDP)

有限马尔可夫决策过程（Finite Markov Decision Processes（3）

Udacity强化学习系列（二）—— 马尔科夫决策过程（Markov Decision Processes）

3 有限马尔可夫决策过程（Finite Markov Decision Processes）

对马尔科夫决策过程MDP（Markov Decision Processes）的一点理解

强化学习中的有限马尔可夫决策过程 Finite Markov Decision Processes in RL

强化学习-2：Markov decision process(MDP)

Lecture 2

马尔可夫决策过程 Markov decision process, CMDP

Lecture2

Lecture2 - PLA

【18.065】Lecture2

【转】There are processes named 'apache2' running

2-How nginx processes a request

Operating Systems2-Processes and Threads

Model thinking lecture note (2)

Lecture note 2: TensorFlow Ops

react-native lecture 2

ML in Action Note - Day 2 - Decision Tree

【Course】Machine learning：Week 1-Lecture1&Lecture2

强化学习：Markov Decision Process (基于南大俞扬博士演讲的修改和补充）

强化学习(二)：马尔科夫决策过程(Markov decision process)

从马尔科夫决策过程到强化学习（From Markov Decision Process to Reinforcement Learning）

在MDP（Markov decision process）环境中使用强化学习方法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)