深度强化学习的基本概念及基本算法

作者:禅与计算机程序设计艺术

1.简介

2019年下半年到今年上半年,深度学习火热,人工智能在此领域也取得了非常大的成果,包括图像、语言、语音识别等多种应用领域的突破性进展。随着对深度学习算法的研究,强化学习也成为一个热门研究方向,尤其是在智能体(Agent)控制领域。近几年来,人工智能领域最前沿的研究论文不断涌现,深度强化学习正是一个新的研究方向。
深度强化学习是深度学习和强化学习相结合的方法,能够训练出更强壮的智能体,在复杂的环境中进行有效地决策。它可以直接从高维数据中学习到策略并解决复杂任务。因此,深度强化学习具有很强的实用价值。
本文将通过“关键词:深度强化学习,强化学习,机器学习,AI,RL,算法”来为读者介绍深度强化学习的基本概念及基本算法。

2.基本概念术语说明

2.1 强化学习

强化学习是指机器或智能体通过学习与环境的互动,使自身行为获得奖励并最大化长期的回报。在强化学习系统中,智能体接收来自环境的状态信息,根据当前状态选择动作,然后执行该动作,在完成一定的任务之后,智能体会收到奖赏,同时也会给予其他的状态转移导致的奖励。基于这一原理,智能体能够学会如何在长时间内选取合适的动作,使得最后的奖励最大化。本文采用增强学习框架中的马尔可夫决策过程模型进行描述。

2.1.1 马尔可夫决策过程MDP

MDP(Markov Decision Process),即马尔可夫决策过程,是指一个马尔可夫随机场上的动态系统,由一组状态S和一组行为空间A,动作空间S*A组成。每个状态s∈S对应

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132158300
今日推荐