基础阶段(二)——马尔科夫决策过程(MDP)

提示:转载请注明出处,若本文无意侵犯到您的合法权益,请及时与作者联系


前言

提示:一个现实问题只有用数学语言描述后,建立了合适的数学模型,才能从工程上找到严谨的解决之道。强化学习也不例外,本文介绍强化学习问题的基本数学模型——MDP


提示:以下是本篇文章正文内容,下面案例可供参考

一、马尔可夫模型

经典的机器学习算法背后依靠的大都是一些经典的概率论数学模型。
强化学习算法也不例外。强化学习的学习几乎都要从马尔可夫的随机过程讲起。
(马尔可夫是一名俄国数学家,其对概率论中的随机过程做出卓越贡献)

1.1 马尔科夫过程与马尔科夫性质

在一个随时间变化的系统中,系统的所有可能状态构成一个状态空间(状态集合),系统从一个状态到另一个状态的转换是一个随机过程,当这个随机过程中的每个状态的转移只依赖于之前的n个状态,这个随机过程就被描述为一个n阶的马尔科夫过程(其中n是影响当前状态转移的之前状态的数目)。

一般我们关注多的都是一阶马尔可夫过程,即当前状态的转移只依赖于其之前的一个状态,这种性质就是马尔可夫性。

1.2 马尔科夫模型

马尔可夫模型的子模型大多具有马尔可夫性,即系统的下个状态只与当前状态信息有关,但是存在一些特列,例如MDP考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。

各个子模型之间的区别如下:
在这里插入图片描述

1.2.1 马尔可夫链(Markov Chain)

给定一个随时间输出的状态序列{s1,s2,···,st},其从st转移到st+1的概率:
P(st+1|s1,s2,···,st)=P(st+1|st)
即某一时刻的状态由上一个时刻的状态决定。
当我们确定系统中任意两个状态的转移概率和该系统在t时刻所处的状态,那么我们就可以确定其在t+1时刻处于某种状态的概率。
系统中任意两个状态之间的转移概率可以通过统计得到,从而求出一个状态转移的概率矩阵。

1.2.2 隐马尔可夫模型(Hidden Markov Model,HMM)

一个机器学习的基本概率模型,也具有马尔可夫性,也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。
该模型一般出现在自然语言处理领域进行语义标记等,强化学习模型则使用马尔可夫决策过程。

二、马尔可夫决策过程(MDP)

1.基本概念

在这里插入图片描述

2.数学表示

在这里插入图片描述
在这里插入图片描述

总结

以上就是今天要讲的内容,本文简单介绍了强化学习的基本概率模型MDP,大部门强化学习任务几乎都要使用MDP数学概念的建模,MDP中4个最关键的概念:S、A、P、R。

猜你喜欢

转载自blog.csdn.net/qq_41959920/article/details/108860873