强化学习快速入门

一.概述

　　强化学习【Reinforcement Learning，RL，增强学习】这一名词来源于行为心理学，表示生物为了趋利避害而更频繁实施对自己有利的策略。强化包括正强化【positive reinforcement】和负强化【negative reinforcement】，其中正强化使得生物趋向于获得更多利益，负强化使得生物趋向于避免损害。人工智能【Artificial Intelligence，AI】领域中有许多类似的趋利避害的问题。例如，著名的围棋AI程序AlphaGo可以根据不同的围棋局势下不同的棋。如果它下的好，就会赢；下的不好，就会输。它根据下棋的经验不断改进自己的棋艺，这就和行为心理学中的情况如出一辙。所以，人工智能借用行为心理学的这一概念，把与环境交互中趋利避害的学习过程称为强化学习。

二.强化学习及其关键元素

　　1.在人工智能领域中，强化学习是一类特定的机器学习问题。在一个强化学习系统中，决策者可以观察环境，并根据观察做出行动。在行动之后，能够获得奖励。强化学习通过与环境的交互来学习如何最大化奖励。

　　2.强化学习的最大特点是在学习过程中没有正确答案，而是通过奖励信号来学习。

　　3.一个强化学习系统中有两个关键元素：奖励和策略。

　　　　》奖励【reward】：奖励是强化学习系统的学习目标。学习者在行动后会接收到环境发来的奖励，而强化学习的目标是最大化在长时间里的总奖励值。

　　　　》策略【policy】：决策者会根据不同的观测决定采用不同的动作，这种从观测到动作的关系称为策略。强化学习的学习对象就是策略。强化学习通过改进策略以期最大化总奖励。策略可以是确定性的，也可以是不确定性的。

　　4.强化学习与监督学习的区别

　　　　》对于监督学习，学习者知道每个动作的正确答案是什么，可以通过逐步对比来学习；对于强化学习，学习者不知道每个动作的正确答案，只能通过奖励信号来学习。强化学习要最大化一段时间内的奖励，需要关注更长远的性能。与此同时，监督学习希望能将学习的结果运用到未知的数据，要求结果可推广、可泛化；强化学习的结果却是可以用在训练的环境中。所以，监督学习一般运用于判断、预测等任务，如判断图片的内容、预测股票价格等；而强化学习不使用于这样的任务。

　　5.强化学习与非监督学习的区别

　　　　》非监督学习旨在发现数据之间隐含的结构，而强化学习有着明确的数值目标，即奖励。它们的研究目的不同。所以，非监督学习一般用于聚类等任务，而强化学习不适用于这样的任务。

三.强化学习的应用

　　1.电动游戏

　　　　》电动游戏主要指玩家需要根据屏幕画面的内容进行操作的游戏，包括主机游戏吃豆人、PC游戏星际争霸、手机游戏刺激战场等。很多游戏需要得到尽可能高的分，或者要在多方对抗中获得胜利。同时，对于这些游戏，很难获得在每一步应该如何操作的标准答案。从这个角度来看，这些游戏的游戏AI需要使用强化学习。

　　2.棋盘游戏

　　　　》围棋、黑白翻转棋、五子棋等。通过强化学习可以实现各种棋盘运动的AI。棋盘AI有着明确的目标--提高胜率，但是每一步往往没有绝对正确的答案。著名的有AlphaGo、AlphaZero等

　　3.自动驾驶

强化学习快速入门

猜你喜欢