新词汇：元学习/增强学习

/1强化学习/增强学习 Reinforcement Learning

参考 cs231n 14节课深度增强学习

强化学习是一种无监督学习，即输入数据x没有label，需要找出隐藏的数据结构。Markov Decision Process(MDP，马尔可夫决策过程)是强化学习的数学表示，满足Markov 性，即当前状态完全刻画世界状态。

马尔可夫决策步骤：

1* t=0，初始状态s0从p(s0)初始状态分布中采样。

2* 整个过程从t=0开始迭代，直至结束：环境赋予代理一个状态st，代理采取一个行动at到环境，环境再回馈给代理一个奖励rt及下一个状态st+1。

马尔可夫决策过程用集合（S,A,R,P,r）表示，S为可能的状态的集合，A为可能的行动的集合，R为奖励的分布函数（给定s和a，从状态到奖励的函数映射），p为下一状态的转移概率分布，r为折扣因子，即奖励的分配权重。

要找到最优决策使得奖励最大，这里定义了两个概念：有值函数和Q值函数。要有最优的Q值函数，则要满足Bellman方程，通过Bellman等式迭代更新，强化Bellman等式，使得改进对最优的Q值的近似。但是迭代更新时，状态很随机，我们可以用神经网络逼近一个复杂的函数形式，求得状态和行动。这里给了两种方法：Q-Learing（定义loss和梯度更新，找到满足Bellman方程的Q函数）、策略梯度。

/2元学习 Meta Learning/Learning to learn

理论研究趋势：人工智能 --> 机器学习 --> 深度学习 --> 深度强化学习 --> 深度元学习。机器学习解决了复杂一点的分类问题，深度学习解决了一对一映射的问题。Deep Learning + Reinforcement Learning = Deep Reinforcement Learning。有了深度增强学习，序列决策（sequential decision making）初步取得成效。但是深度增强学习太依赖于巨量的训练，并且需要精确的奖励。人类之所以能够快速学习的关键是人类具备学会学习的能力，能够充分的利用以往的知识经验来指导新任务的学习。在有限的动作空间内，深度增强学习算法有一定的作用。但当动作空间过于复杂时，如何使人工智能能够学会思考，构造战术非常关键。这个问题甚至比快速学习还要困难，但是元学习因为具备学会学习Learning to learn的能力，或许也可以学会思考，所以元学习是实现通用人工智能的关键。

相关论文：《Learning to Learn: Meta-Critic Networks for Sample Efficient Learning》

让AI在学习各种任务后形成一个核心的价值网络，从而面对新的任务时，可以利用已有的核心价值网络来加速AI的学习速度。Meta-Critic Network的基本示意图如上。我们以CartPole这个让杆保持平衡的任务来做分析。在我们这里，杆的长度是任意的，我们希望AI在学习了各种长度的杆的任务后，面对一个新的长度的杆，能够快速学习，掌握让杆保持平衡的诀窍。

每一个训练任务我们都构造一个行动网络（Actor Network），但是我们只有一个核心指导网络（Meta-Critic Network），这个网络包含两部分：一个是核心价值网络（Meta Value Network），另一个则是任务行为编码器（Task-Actor Encoder）。我们用多个任务同时训练这个Meta Critic Network。训练方式可以是常见的Actor-Critic。训练时最关键的就是Task-Actor Encoder，我们输入任务的历史经验（包括状态state，动作action，和回馈reward），然后得到一个任务的表示信息z，将z和一般价值网络的输入（状态state和动作action）连接起来，输入到Meta Value Network中。

通过这种方式，我们可以训练出一个Meta Critic Network。面对新的任务（也就是杆的长度变化了），我们新建一个行动网络Actor Network，但是却保持Meta Critic Network不变，然后同样使用Actor-Critic方法（cs231n 14讲解）进行训练。其实z的分布和CartPole杆的长度是直接相关的，这意味着任务行为编码器确实可以利用以往的经验来理解一个任务的配置信息。Meta-Critic Network作为一种全新的Meta Learning方法，通过训练出一个核心指导网络（也就是核心价值观），从而能够指导新任务的快速学习。

竹篓有个天

发布了40 篇原创文章 · 获赞 3 · 访问量 7571

私信关注

新词汇：元学习/增强学习

猜你喜欢