强化学习概述 - 代码天地

强化学习概述

编程语言 2023-08-06 13:25:51 阅读次数: 0

强化学习的发展和概述

强化学习的来源于心理学的动物试错学习（做的好得到正向的反馈）和最优化控制的优化理论
1989年Q learning模型被提出，2013年Deep Q Network(DQN),2015年，强化学习进入大众视野
解决的问题：使用强化学习实现控制功能，控制智能体来进行实战，玩棋牌类游戏等，使用强化学习优化物流运输，自动驾驶

强化学习的基本概念

强化学习的核心思想，智能体（AI）将通过与环境交互并接收奖励作为执行动作的反馈来从环境中学习
策略：智能的核心，决定智能体做的决定是什么，代表着智能体干什么，强化学习就是让智能体对于环境的策略越来越好，强化学习是一种学习如何从状态映射到行为，以使得获得的累积奖励最大的学习机制，AI没有直觉

强化学习的构成要素：

一般包括：智能体（Agent），环境（Environmen），状态（Status）,行为（Action），奖励（Reward即时奖励），策略（Policy）,价值（Value）以及模型（Model，与环境是相对应的，状态之间是怎么改变是由模型来决定的，模型是类似于世界的固有规律，描述世界的变化规律）
强化学习的目标就是为了得到一个好的学习策略，策略让智能体做出下一步的动作，基于价值函数得到最优策略或者直接学习得到最优的策略是常见的两个思路，王者AI的策略是通过直接学习来得到策略
智能体交互的所有内容都称为环境。环境是外部世界，它包括智能体之外的一切。环境可以分为以下的几类
- 确定环境和随机环境
- 离散环境和连续环境
- 完全可观测环境与部分可观测环境
- 多智能体和多智能体环境

强化学习如何工作

状态，动作，奖励和下一个整体的循环：智能体通过策略产生动作去改变环境，环境产生相应的奖励和状态给智能体，智能体再通过状态和奖励来改变自己的策略，如何再进行下一步的动作，进行循环。强化学习的目标是获得一个好的策略。通过一圈又一圈的循环，根据环境给我的反馈来改变我的策略。
马尔可夫性：指系统的下一个状态仅和当前状态有关，和之前状态无关
马尔可夫决策过程：具有马尔可夫性的决策过程

强化学习的特点：

试错学习：通过试错的方式去总结出每一步的最佳决策
延迟反馈：强化学习的训练过程中，训练对象的”试错“行为获得环境的反馈，有可能需要等到整个训练结束了才能得到一个反馈
具有时间序列性，训练过程随时间变化，并且状态和反馈也在随时间变化
当前的行为影响到后续持续接收到的数据

强化学习与其它机器学习的区别：

强化学习在训练过程中不存在一个普适的标签（监督学习），智能体智能从自身的经验中去学习；无监督学习是从无标签的数据集中发现隐藏的结构，但是强化学习的目标是最大化奖励而非寻找隐藏的数据集

强化学习的分类

依据估值方法分类
- 基于值函数：输入是状态，输出是值函数的大小，然后根据值函数最大对应的动作为下一个动作
- 基于策略的方法
- 行为者-评论家方法

依据是否建立模型发呢类
依据更新方式分类
- 回合更新：对局完一局才更新
- 单步更新：每走一步就行更新
依据在线和离线学习方式

猜你喜欢

转载自blog.csdn.net/weixin_68798281/article/details/131974237

强化学习概述

深度强化学习概述

强化学习（一）：概述

深度强化学习系列（一）：强化学习概述

【强化学习】强化学习概述（整理）

深度学习-强化学习概述笔记

强化学习概述（An Overview of Reinforcement Learning）

强化学习极简概述

强化学习概述--甄景贤

强化学习概述（Reinforcement Learning）

深度强化学习技术概述

深入浅出的强化学习笔记(一)——概述

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

强化学习的学习～

强化学习学习

《强化学习与最优控制》学习笔记（三）：强化学习中值空间近似和策略空间近似概述

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(1): 强化学习概述

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习的资料

强化学习笔记

强化学习总结

强化学习基础

强化学习-入门

强化学习（二）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)