强化学习基础之概念介绍

什么是强化学习

广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。强化学习用智能体(agent)这个概念来表示做决策的机器。
类似于人的成长过程,我们每次做决定,都会得到社会给我们的反馈让我们尝到甜头或者吃尽苦头,下一次遇到这种情况,我们就会选择更好的动作来得到更好的奖励了。

强化学习要素

强化学习智能体三要素:
1.当前状态St:如机器人所处的地点、运动速度等状态属性。
2. 奖励:环境根据St和智能体采取的At,产生一个标量信号作为奖励Rt
3. 策略:是智能体的核心,能够通过某种算法决定在状态St下,采用哪种动作At能更好地达到目标(这里的目标是最大化奖励)
需要注意的是,在采取动作At后,环境会被改变,反馈给智能体一个奖励,此时智能体的策略会被更新,并且智能体的状态St也会改变为St+1,因此在强化学习的训练过程中,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
示意图如下所示:
在这里插入图片描述
一般的有监督学习任务,我们的目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数,其数学定义式可如下图表示:
在这里插入图片描述

相比之下,强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。策略的价值可以等价转换成奖励函数在策略的占用度量上的期望,其数学定义式可如下图表示:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45416439/article/details/127752810
今日推荐