强化学习基础之概念介绍

企业开发 2023-04-08 15:12:27 阅读次数: 0

什么是强化学习

广泛地讲，强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指，机器在环境的一个状态下做一个动作决策，把这个动作作用到环境当中，这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。强化学习用智能体（agent）这个概念来表示做决策的机器。
类似于人的成长过程，我们每次做决定，都会得到社会给我们的反馈让我们尝到甜头或者吃尽苦头，下一次遇到这种情况，我们就会选择更好的动作来得到更好的奖励了。

强化学习要素

强化学习智能体三要素：
1.当前状态St：如机器人所处的地点、运动速度等状态属性。
2. 奖励：环境根据St和智能体采取的At，产生一个标量信号作为奖励Rt
3. 策略：是智能体的核心，能够通过某种算法决定在状态St下，采用哪种动作At能更好地达到目标（这里的目标是最大化奖励）
需要注意的是，在采取动作At后，环境会被改变，反馈给智能体一个奖励，此时智能体的策略会被更新，并且智能体的状态St也会改变为St+1，因此在强化学习的训练过程中，智能体看到的数据分布是随着智能体的学习而不断发生改变的。
示意图如下所示：
在这里插入图片描述
一般的有监督学习任务，我们的目标是找到一个最优的模型函数，使其在训练数据集上最小化一个给定的损失函数，其数学定义式可如下图表示：

相比之下，强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。策略的价值可以等价转换成奖励函数在策略的占用度量上的期望，其数学定义式可如下图表示：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45416439/article/details/127752810

强化学习基础之概念介绍

强化学习--基础概念

强化学习入门（一）强化学习的基础概念及Gym库，Parl库介绍

【深度强化学习】基本介绍与基础概念

强化学习--概念之

漫谈深度强化学习之基础概念

强化学习基础概念笔记

强化学习概念

强化学习之DQN论文介绍

【强化学习】强化学习介绍

强化学习介绍

[强化学习]强化学习基础

强化学习基础

强化学习基础：基本概念和动态规划

（1）深度强化学习基础【基本概念】

【入门介绍】机器学习之强化学习算法

强化学习简单介绍

【深度强化学习】强化学习的基本概念

增强学习（强化学习）基础之策略梯度

增强学习（强化学习）基础之TD差分法

强化学习基础（二）

强化学习的基础总结

深度强化学习之DQN算法基础篇。

强化学习之MDP

强化学习之Sarsa

强化学习之DQN

强化学习之PPO

强化学习之SAC

强化学习之TRPO

强化学习之DDQN

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)