强化学习的另一种策略(二)

版权声明:系CDA数据分析师原创作品,转载需授权 https://blog.csdn.net/yoggieCDA/article/details/87805443


我们在上一篇文章中简单给大家介绍了反向强化学习的相关概念以及如何理解反向强化学习的知识。通过这些,相信大家对于反向强化学习已经有了一个深刻的理解,我们将在这篇文章中继续为大家介绍反向强化学习的内容,希望这篇文章能够帮助大家更好地理解反向强化学习。

反向强化学习的一般思路是什么呢?其实思路很简单,总共有四点,第一点就是随机生成一个策略作为agent的初始策略。第二点就是通过比较高手的交互样本和自身的交互样本,学习得到回报函数。第三点就是利用回报函数进行强化学习,提升自己的策略水平第四点就是如果自身的策略所能得到的奖励和高手的策略差不多,就可以停止学习,否则返回第二步继续学习。

说到反向强化学习,就不得不提一下GAIL,GAIL的基本思路就是结合了GAN的思想,在GAN中,我们有发生器和甄别器。其最初主要应用于图像生成,因此我们以图像生成这一应用来介绍下它的主要流程:在图像生成中,发生器要用来学习真实图像分布从而让自身生成的图像更加真实,以骗过甄别器。甄别器则需要对接收的图片进行真假判别。在整个过程中,发生器努力地让生成的图像更加真实,而甄别器则努力地去识别出图像的真假,发生器生成的图像接近于真实图像分布,而甄别器识别不出真假图像,对于给定图像的预测为真的概率基本接近 0.5。

对甄别器来说,可以转化成一个简单的二分类问题,即将当前的状态和动作作为输入,得到这个动作是最优动作的概率。如果这个状态-动作对来自高手的交互样本,那么甄别器希望得到的概率越接近于1越好,而如果这个状态-动作对来自发生器的交互样本,那么甄别器希望得到的概率越接近于0越好。对发生器来说,我们希望自己的策略越接近于高手的策略,那么就可以使用甄别器输出的概率作为奖励,来更新自身的策略,如果甄别器给出的概率越高,说明我们在这一状态下采取的动作是一个较优的动作,我们就提高该动作出现的概率。

在这篇文章中我们简单为大家介绍了反向强化学习的相关知识,通过这些内容我们不难发现反向强化学习是强化学习的另一种策略,同样也是一个十分重要的内容。希望在机器学习路上进发的朋友,能够学有所成,学成归来,收获好的人生!

猜你喜欢

转载自blog.csdn.net/yoggieCDA/article/details/87805443