一句话交待强化学习在做什么

正文前的两个问题: 

一、强化学习与监督非监督学习的区别:

1、从策略更新依据的角度说(标签还是奖励):

监督学习,人知道什么是对的,并标签数据。 非监督学习,人知道什么是对的,没有完全标签数据。

强化学习,人不知道什么是对的,不知道要怎样做,但可以评价智能体与环境交互的好不好,设置奖励。

2、状态空间到策略空间的难度(神经网络的作用):

深度学习用大量的卷积神经网络处理理解feature map,建立基于特征理解的映射。

强化学习使用神经网络一般是做数据降维用的,使用的比较简单,对特征不敏感。

二、神经网络既可以做特征图理解,又可以做数据降维,本质是多项式回归?

1、回归分析用数学表达式来描述变量间的相关关系,通常是学习预测数据模型的第一个算法。

  (相关区别于变量间确定性的函数关系。感性认识是曲线拟合点集。)

2、线性回归:拟合直线,Y=a+b\cdot X+e,截距斜率误差项。

     逻辑回归:因变量二元(真/假)。

     多项式回归:自变量指数大于1。

     多元回归:自变量数量大于等于2。

参考博文:https://blog.csdn.net/a52654/article/details/80841801  神经网络本质是多项式回归

3、神经网络的优势:

1.神经网络属于自适应能力很强的方法;

2.对于任意给定的函数,神经网络都能够无限逼近,这是因为在分类的整个过程中,神经网络通过调整权值不断地明确分类所依据的精确关系;

3.神经网络属于非线性模型,这使得它能够灵活地模拟现实世界中的数据之间的复杂关系。

一、Q-learning 

伪代码:

                                              

图片参考:https://blog.csdn.net/yangshaokangrushi/article/details/79774031

运行步骤:

随机Q表

    初始化状态

        根据ε-贪婪策略和Q表选择行为、行动获得奖励、更新Q表(老估计Q+系数*差距)、更新状态、循环。

参考链接:https://www.jianshu.com/p/44ce8a55d820 

特点:

1、复杂问题Q表庞大

2、off-policy,选动作时(决策、生成样本)用ε-贪婪策略,更新Q表时(计算下一状态预期收益)用贪婪策略(max估计)

二、DQN 

运行步骤:

随机神经网络

    初始化状态

        根据贪婪策略和神经网络计算估计Q值选择行为、行动到达新位置获得奖励、更新神经网络(老神经网络系数+系数*差        距)、状态加一、循环。

特点:

1、使用状态和动作作为神经网络的输入、估计动作的Q值

2、

三、Sarsa

伪代码:

                                          

运行步骤:

随机Q表

    初始化状态、根据贪婪策略和Q表选择行为

        行动获得奖励、根据贪婪策略和Q表选择下一步行为,更新Q表(老估计Q+系数*差距)、更新状态动作、循环。

特点:

1、on-policy,选动作时用ε-贪婪策略,更新Q表时(用当前策略估计下一步收益)用ε-贪婪策略

发布了31 篇原创文章 · 获赞 2 · 访问量 709

猜你喜欢

转载自blog.csdn.net/qq446293528/article/details/102937452