【ZJU-Machine Learning】强化学习

企业开发 2023-09-15 18:22:43 阅读次数: 0

强化学习与监督学习的区别：

（1）训练数据中没有标签，只有奖励函数（Reward Function）。
（2）训练数据不是现成给定，而是由行为（Action）获得。
（3）现在的行为（Action）不仅影响后续训练数据的获得，也影响奖励函数（Reward Function）的取值。
（4）训练的目的是构建一个“状态->行为”的函数，其中状态（State）描述了目前内部和外部的环境，在此情况下，要使一个智能体（Agent）在某个特定的状态下，通过这个函数，决定此时应该采取的行为。希望采取这些行为后，最终获得最大的奖励函数值。

而监督学习是通过训练得到一个从数据到标签的映射。

一些定义

在这里插入图片描述

一些假设

在这里插入图片描述

Markov decision Process (MDP)

在这里插入图片描述

待优化目标函数

增强学习中的待优化目标函数是累积奖励，即一段时间内的奖励函数加权平均值：
在这里插入图片描述
在这里，GAMMA是一个衰减项。

Q-Learning

增强学习中已经知道的的函数是：
在这里插入图片描述
需要学习的函数是：

根据一个决策机制（Policy），我们可以获得一条路径：
在这里插入图片描述
定义1：估值函数（Value Function）是衡量某个状态最终能获得多少累积奖励的函数:

定义2：Q函数是衡量某个状态下采取某个行为后，最终能获得多少累积奖励的函数：

Q与V的关系：

递归：根据s产生a有个概率，根据s,a产生s’还有个概率，双层概率求和，然后，就建立了s的估值函数和s’估值函数的关系
在这里插入图片描述
求最佳策略的迭代算法：

这一算法的劣势：

对于状态数和行为数很多时，这种做法不现实。

例如：对一个ATARI游戏，状态数是相邻几帧所有像素的取值组合，这是一个天文数字！
ACTION数量从6到20不等

Q-learning的优化——Deep Q-Network (DQN)

定义
在这里插入图片描述
则有 Bellman Equation:

实例

打飞机的Atari游戏的DQN设置
在这里插入图片描述
一个更难的Atari游戏的DQN设置：

DQN算法流程

在这里插入图片描述
Q-learning的劣势：

（1）在一些应用中，状态数或行为数很多时，会使Q函数非常复杂，难以收敛。例如图像方面的应用，状态数是(像素值取值范围数)^(像素个数)。这样的方法，对图像和任务没有理解，单纯通过大数据来获得收敛。

（2）很多程序，如下棋程序等，REWARD是最后获得（输或赢），不需要对每一个中间步骤都计算REWARD.

Policy gradient

在这里插入图片描述

Actor-Critic算法：

总结

（1）目前强化学习的发展状况：在一些特定的任务上达到人的水平或胜过人，但在一些相对复杂的任务上，例如自动驾驶等，和人存在差距。

（2）和真人的差距，可能不完全归咎于算法，传感器、机械的物理限制等，也是决定性因素。

（3）机器和人的另一差距是：人有一些基本的概念，依据这些概念，人能只需要很少的训练就能学会很多，但机器只有通过大规模数据，才能学会。

（4）但是，机器速度快，机器永不疲倦，只要有源源不断的数据，在特定的任务上，机器做得比人好，是可以期待的。

猜你喜欢

转载自blog.csdn.net/qq_45654306/article/details/113448807

【ZJU-Machine Learning】强化学习

【ZJU-Machine Learning】SVM的应用

【ZJU-Machine Learning】优化理论

【ZJU-Machine Learning】AlphaGo介绍

【ZJU-Machine Learning】后向传播算法

【ZJU-Machine Learning】简单语音识别

【ZJU-Machine Learning】机器学习的相关概念

【ZJU-Machine Learning】多层神经网络

【ZJU-Machine Learning】支持向量机——非线性模型

【ZJU-Machine Learning】支持向量机——线性模型

【ZJU-Machine Learning】没有免费午餐定理

【ZJU-Machine Learning】特征选择和提取

【ZJU-Machine Learning】使用AdaBoost进行目标检测

【ZJU-Machine Learning】卷积神经网络-AlexNet

【ZJU-Machine Learning】卷积神经网络-LeNet

【ZJU-Machine Learning】自编码器

【ZJU-Machine Learning】概率分类法

【ZJU-Machine Learning】神经元的数学模型和感知器算法

【ZJU-Machine Learning】特征提取——主成分分析PCA

【ZJU-Machine Learning】特征选择——自适应提升算法Adaboost

【ZJU-Machine Learning】卷积神经网络-最近流行的网络结构

【ZJU-Machine Learning】人工神经网络的参数设置

【ZJU-Machine Learning】使用RCNN和FCN进行目标检测

周志华《Machine Learning》强化学习

周志华《Machine Learning》学习笔记（17）--强化学习

机器学习之强化学习概览（Machine Learning for Humans: Reinforcement Learning）

【Machine Learning 系列】一文带你详解什么是强化学习(Reinforcement Learning)

CS229 Machine Learning学习笔记:Note 12(强化学习与自适应控制)

从零开始-Machine Learning学习笔记(32)-强化学习

机器学习（MACHINE LEARNING）【周志华版-”西瓜书“-笔记】 DAY16-强化学习

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)