强化学习参考博客【总结】

强化学习参考博客【总结】
https://blog.csdn.net/coffee_cream/article/details/57085729
RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。
RL最重要的3个特定在于：
（1）基本是以一种闭环的形式；（2）不会直接指示选择哪种行动（actions）；（3）一系列的actions和奖励信号（reward signals）都会影响之后较长的时间。
RL与有监督学习、无监督学习的比较：
有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent只能从自己的经历（experience）中进行学习，而experience中采取的行为并一定是最优的。
无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化reward signal。
RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个reward信号；反馈是延迟的，不是立即生成的；时间在RL中具有重要的意义；agent的行为会影响之后一系列的data。
“exploration”与“exploitation”在RL中同样重要，如何在“exploration”与“exploitation”之间权衡是RL中的一个重要的问题和挑战。
在RL问题中，有四个非常重要的概念：
　　（1）规则（policy）
　　Policy定义了agents在特定的时间特定的环境下的行为方式，可以视为是从环境状态到行为的映射，常用 ππ来表示。policy可以分为两类：
　　确定性的policy（Deterministic policy）: a=π(s)a=π(s)
　　随机性的policy（Stochastic policy）: π(a|s)=P[At=a|St=t]π(a|s)=P[At=a|St=t]
　　（2）奖励信号（a reward signal）
　　Reward就是一个标量值，是每个time step中环境根据agent的行为返回给agent的信号，reward定义了在该情景下执行该行为的好坏，agent可以根据reward来调整自己的policy。常用RR来表示。
　　（3）值函数（value function）
　　Reward定义的是立即的收益，而value function定义的是长期的收益，它可以看作是累计的reward，常用vv来表示。
　　（4）环境模型（a model of the environment）

https://www.zhihu.com/question/41775291
强化学习（RL）的基本组件：
环境（标准的为静态stationary，对应的non-stationary）
agent（与环境交互的对象）
动作（action space，环境下可行的动作集合，离散or连续）
反馈（回报，reward，正是有了反馈，RL才能迭代，才会学习到策略链）
RL更像控制系统家族里的。是的，RL里流着控制的血液，披着机器学习的外衣，这是因为它需要data，需要training以此来支持决策。RL可以decision-making，不同于决策树之类的决策（称为预测比较好），是控制角度的决策，意味着就有失误，伴随着收益与惩罚（股票，博弈，游戏得分等等）。
细一点来说，RL与SL的区别有：
（1）喂数据的方式不同：强化学习（RL）的数据是序列的、交互的、并且还是有反馈的（Reward）-【MDP]。这就导致了与监督学习（SL）在优化目标的表现形式的根本差异：RL是一个决策模型，SL更偏向模式挖掘，低阶的函数逼近与泛化。RL是agent自己去学习，SL是跟着programmer的idea在收敛。
（2）RL的target是估计得来的，符合bellman等式，SL的target是fixed label；RL可以融合SL来训练，RL还可以自己博弈来生成样本。[交互特性，也可以放到第一点中]
（3）RL可以进行lifelong形式的学习。RL有“生命”的【你可能也不知道你训练出来的模型到底能干什么】，SL没有。

强化学习参考博客【总结】

猜你喜欢