强化学习概述

强化学习的发展和概述

  1. 强化学习的来源于心理学的动物试错学习(做的好得到正向的反馈)和最优化控制的优化理论
  2. 1989年Q learning模型被提出,2013年Deep Q Network(DQN),2015年,强化学习进入大众视野
  3. 解决的问题:使用强化学习实现控制功能,控制智能体来进行实战,玩棋牌类游戏等,使用强化学习优化物流运输,自动驾驶

强化学习的基本概念

  1. 强化学习的核心思想,智能体(AI)将通过与环境交互并接收奖励作为执行动作的反馈来从环境中学习
  2. 策略:智能的核心,决定智能体做的决定是什么,代表着智能体干什么,强化学习就是让智能体对于环境的策略越来越好,强化学习是一种学习如何从状态映射到行为,以使得获得的累积奖励最大的学习机制,AI没有直觉

强化学习的构成要素:

  1. 一般包括:智能体(Agent),环境(Environmen),状态(Status),行为(Action),奖励(Reward即时奖励),策略(Policy),价值(Value)以及模型(Model,与环境是相对应的,状态之间是怎么改变是由模型来决定的,模型是类似于世界的固有规律,描述世界的变化规律)

  2. 强化学习的目标就是为了得到一个好的学习策略,策略让智能体做出下一步的动作,基于价值函数得到最优策略或者直接学习得到最优的策略是常见的两个思路,王者AI的策略是通过直接学习来得到策略

  3. 智能体交互的所有内容都称为环境。环境是外部世界,它包括智能体之外的一切。环境可以分为以下的几类

    • 确定环境和随机环境
    • 离散环境和连续环境
    • 完全可观测环境与部分可观测环境
    • 多智能体和多智能体环境

强化学习如何工作

  1. 状态,动作,奖励和下一个整体的循环:智能体通过策略产生动作去改变环境,环境产生相应的奖励和状态给智能体,智能体再通过状态和奖励来改变自己的策略,如何再进行下一步的动作,进行循环。强化学习的目标是获得一个好的策略。通过一圈又一圈的循环,根据环境给我的反馈来改变我的策略。
  2. 马尔可夫性:指系统的下一个状态仅和当前状态有关,和之前状态无关
  3. 马尔可夫决策过程:具有马尔可夫性的决策过程

强化学习的特点:

  1. 试错学习:通过试错的方式去总结出每一步的最佳决策
  2. 延迟反馈:强化学习的训练过程中,训练对象的”试错“行为获得环境的反馈,有可能需要等到整个训练结束了才能得到一个反馈
  3. 具有时间序列性,训练过程随时间变化,并且状态和反馈也在随时间变化
  4. 当前的行为影响到后续持续接收到的数据

强化学习与其它机器学习的区别:

强化学习在训练过程中不存在一个普适的标签(监督学习),智能体智能从自身的经验中去学习;无监督学习是从无标签的数据集中发现隐藏的结构,但是强化学习的目标是最大化奖励而非寻找隐藏的数据集

强化学习的分类

  1. 依据估值方法分类

    • 基于值函数:输入是状态,输出是值函数的大小,然后根据值函数最大对应的动作为下一个动作
    • 基于策略的方法
    • 行为者-评论家方法
  1. 依据是否建立模型发呢类

  2. 依据更新方式分类

    • 回合更新:对局完一局才更新
    • 单步更新:每走一步就行更新
  3. 依据在线和离线学习方式

猜你喜欢

转载自blog.csdn.net/weixin_68798281/article/details/131974237
今日推荐