强化学习的另一种策略（一）

强化学习在人工智能技术中虽然不是十分的突出，但是强化学习也是一个十分重要的技术，是一个不容忽视的内容。大家是否知道，其实，强化学习还存在着另外一种策略，那就是反向强化学习，在这篇文章中我们就简单给大家介绍一下这种反向强化学习的内容。

首先我们给大家介绍一下反向强化学习基础，反向强化学习也称为模仿学习或学徒学习。在强化学习中，我们的基本思路是通过agent与环境的交互，根据环境对于agent在某一状态下所采取动作的回报，对agent的策略进行更新，从而获得最大化的长期期望收益。也就是说，强化学习通常是在回报已知的情况下求出值函数和策略。但是大家有没有考虑过这么一种情况，那就是如果回报我们无法获得呢？反向强化学习使用了逆向思维，我们不通过回报求策略，而是反过来，根据策略求回报。这听起来感觉是无法实现的，其实并不是这样的，我们想通过交互获得回报，就是为了求解更好的策略，现在有了策略，我们为什么还要去求回报呢？因为很多时候，我们拥有的不是最优的策略，而是基于这些策略的一些样本。

那么怎么了解这些内容呢？比如我们打王者荣耀，对某个英雄的装备购买以及操作不是十分的清楚，我们怎么办？除了联系，我们可以去看大神们的操作视频直播，通过观察他们在不同情况下的不同出装策略以及操作，来不断提高我们的技术。实际上，我们在实际情况下也是这么做的：在家不断学习高手的操作方式以及出装顺序，并铭记于心，然后游戏中一试身手。实际上，这就是一个从反向强化学习到强化学习的过程。首先通过最优策略的交互样本学习到回报函数，即不同的情境下的不同的出装方式，能够获得的回报是怎样的。接下来就可以通过得到回报函数进行尝试，使用强化学习的方法得到最终的策略。

在这篇文章中我们简单给大家介绍了反向强化学习的基础知识以及对反向强化学习的相关理解，通过这些内容我们不难发现，强化学习中的反向强化学习知识是一个十分实用的知识，能够解决更多人工智能中存在的问题。我们在下一篇文章中继续为大家介绍这方面的知识。

强化学习的另一种策略（一）

猜你喜欢