机器学习——强化学习理论知识

分类、回归

聚类、降维

机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。

策略的优劣取决于长期执行这一策略后得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。长期累积奖赏有多种计算方式，常用的有“T步累积奖赏”和“γ折扣累积奖赏”。

状态值函数：

状态-动作值函数：

K-摇臂赌博机有K个摇臂，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道.赌徒的目标是通过一定的策略最大化自己的奖赏，即获得最多的硬币。

两种方法都难以使最终的累积奖赏最大化，即：探索-利用窘境

解决探索-利用窘境

贪心法基于一个概率来对探索和利用进行折中：每次尝试时，以ε的概率进行探索，即以均匀概率随机选取一个摇臂；以1-ε的概率进行利用，即选择当前平均奖赏最高的摇臂(若有多个，则随机选取一个)。

通常令ε取一个较小的常数,如0.1或0.01。然而，若尝试次数非常大，那么在一段时间后，摇臂的奖赏都能很好地近似出来，不再需要探索，这种情形下可让ε随着尝试次数的增加而逐渐减小。

马尔可夫决策过程（MDP）：

马尔可夫性：当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，就满足了马尔科夫性。严格来说，就是某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。