强化学习--概念之

agent(代理,智能体)

  增强学习要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人,在工厂中学习最优操作工序以及学习棋类对弈等。当agent在其环境中做出每个动作时,施教者会提供奖励或惩罚信息,以表示结果状态的正确与否。例如,在训练agent进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候为零回报。agent的任务就是从这个非直接的,有延迟的回报中学习,以便后续的动作产生最大的累积效应。

  视频游戏和机器人是机器学习得到应用的一个巨大领域。一般来说我们有一个Agent(游戏角色或机器人),它必须根据环境(视频游戏中的虚拟环境或者对于机器人来说的真实环境)来行动。
  机器学习可以使这个Agent执行任务,比如移动到某个环境中而同时避开障碍或者敌人。在这些情形下一个最受欢迎的机器学习技术是强化学习,Agent通过学习环境的强化系数(如果Agent碰到了障碍物强化系数则为负,如果达到目标则为正)来执行任务。

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/83650668