强化学习的两大基本问题 - 代码天地

强化学习的两大基本问题

其他 2021-03-23 07:32:44 阅读次数: 0

困扰我一段时间的强化学习中的预测和评估的概念，在这里先明确一下

预测

预测 = 策略评估 = 求解给定状态的价值函数

即给定强化学习的6个要素：状态集S, 动作集A, 模型状态转化概率矩阵P, 即时奖励R，衰减因子γ, 给定策略π，求解该策略的状态价值函数v(π)

控制

控制 = 先评估，再调整我们的动作策略

也就是求解最优的价值函数和策略。给定强化学习的5个要素：状态集S, 动作集A, 模型状态转化概率矩阵P, 即时奖励R，衰减因子γ, 求解最优的状态价值函数v∗和最优策略π∗　

猜你喜欢

转载自blog.csdn.net/weixin_43450646/article/details/107271068

强化学习的两大基本问题

从认知学到进化论，详述强化学习两大最新突破

【深度强化学习】强化学习的基本概念

强化学习相关问题

强化学习（问题集）

前沿强化学习问题

数据处理的两个基本问题---汇编学习笔记

大模型强化学习：RLHF、PPO

两大架构（学习笔记）

认知 | 学习编程的两大误区

强化学习（RL）基本概念

强化学习基本知识

强化学习（基本概念）

强化学习-01-基本介绍

强化学习基本概念

（一）强化学习基本概念

强化学习的基本迭代方法

强化学习：基本概念

mysql基本问题

Java 基本问题

ml基本问题

面试的基本问题

8 数据处理的两个基本问题

聚类的基本问题及两个常用算法

数据处理的两个基本问题

2022年强化学习求解调度问题文章大汇总

机器学习的基本分类和基本问题

强化学习——格子游戏问题

java数据的两大基本类型

Udacity强化学习系列（一）——什么是强化学习，强化学习用来解决什么问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)